1
2
Nghiên cứu xây dựng khung cho hệ thống BI: Hướng này tập trung vào việc đề MỞ ĐẦU xuất các khung kiến trúc, quy trình phát triển và quy trình tổng hợp để triển khai hệ
thống BI trong các CSGD ĐH. Điều quan trọng là xây dựng hệ thống BI phù hợp với 1. Lý do chọn đề tài a. Bối cảnh chung bối cảnh và mục tiêu chiến lược cụ thể của từng CSGD ĐH, đồng thời lựa chọn và tích Môi trường kinh doanh hiện nay đầy biến động và cạnh tranh gay gắt, khiến việc hợp các công cụ phù hợp để đo lường hiệu quả đạt được. Việc xây dựng hệ thống BI ra quyết định của nhà quản lý trở nên khó khăn hơn. Hệ thống Trí tuệ Doanh nghiệp không chỉ đơn thuần là một vấn đề kỹ thuật mà còn phải đáp ứng các tiêu chuẩn kiểm (BI) giúp nhà quản lý có cái nhìn toàn diện, đưa ra quyết định chính xác và cải thiện định và chiến lược quản lý. hiệu suất hoạt động của tổ chức (Apraxine & Stylianou, 2017). Hệ thống BI hỗ trợ Nghiên cứu triển khai hệ thống BI thực tế: Hướng này nghiên cứu việc thử kiểm soát và giám sát các hoạt động nghiệp vụ, đồng thời dự báo xu hướng thị trường. nghiệm và triển khai thực tế các hệ thống BI tại các CSGD ĐH, trong đó mỗi hệ thống Trong giáo dục đại học, BI giúp theo dõi kết quả học tập, tối ưu hóa chương trình học BI sẽ có những sự điều chỉnh và khác biệt nhất định tùy vào yêu cầu và môi trường của và hỗ trợ tuyển sinh, qua đó cá nhân hóa trải nghiệm học tập và nâng cao chất lượng từng cơ sở giáo dục. Các công cụ BI linh hoạt được tích hợp từ các phần mềm mã giáo dục (Baepler & Murdoch, 2010; Falakmasir & cộng sự, 2010). BI còn giúp so nguồn mở và công cụ thương mại như SAS ETL, IBM DataStage, Power BI, Tableau, sánh chất lượng giáo dục giữa các đơn vị và tổ chức, từ đó xây dựng chiến lược và và nhiều công cụ khác hỗ trợ xử lý dữ liệu từ các hệ thống quản lý đào tạo và sinh viên. nâng cao chất lượng đào tạo (Nidhishree & Badar, 2019). Các CSGD ĐH áp dụng BI chủ yếu để giải quyết các vấn đề liên quan đến học tập, b. Bối cảnh thực tiễn của các cơ sở giáo dục đại học Việt Nam tuyển sinh, cố vấn học tập và vấn đề duy trì sinh viên tốt nghiệp đúng hạn. Các CSGD ĐH tại Việt Nam đang đối mặt với môi trường cạnh tranh khốc liệt Ứng dụng BI trong các CSGD ĐH giúp nâng cao hiệu quả công tác quản lý và trong bối cảnh tự chủ giáo dục đại học, với yêu cầu nâng cao chất lượng đào tạo, thu ra quyết định, giúp các cơ sở giáo dục khai thác tốt hơn nguồn tài nguyên dữ liệu của hút sinh viên và duy trì uy tín. Từ năm 2015, Việt Nam đã thực hiện tự chủ giáo dục mình. Các trường đại học trên thế giới như Purdue University và University of Texas đại học, song song với việc các CSGD ĐH phải đối mặt với các thách thức về ngân đã phát triển các công cụ BI để công khai dữ liệu tuyển sinh, giáo dục, tài chính và sách và tuyển sinh. Việc gia tăng tỷ lệ sinh viên tốt nghiệp không có việc làm đúng nghiên cứu, hỗ trợ hoạt động quản lý và ra quyết định của các bên liên quan. ngành nghề cũng tạo áp lực lớn lên các CSGD ĐH. d. Khoảng trống và định hướng nghiên cứu Trong bối cảnh này, việc áp dụng công nghệ thông tin và các hệ thống thông tin Trong bối cảnh tự chủ giáo dục đại học, việc ứng dụng hệ thống BI tại các CSGD thông minh như hệ thống BI là cần thiết để nâng cao năng lực quản trị, cải thiện chất ĐH là rất cần thiết để giúp các nhà quản lý có cái nhìn tổng hợp về hiệu suất, đồng thời lượng đào tạo, hỗ trợ quá trình kiểm định chất lượng và giúp các CSGD ĐH bắt kịp xu hiểu rõ nhu cầu người học và cá nhân hoá dịch vụ giáo dục. hướng chuyển đổi số trong giáo dục đại học. Hệ thống BI giúp các CSGD ĐH phân Như đã đề cập, trên thế giới, có nhiều nghiên cứu và hoạt động ứng dụng hệ tích dữ liệu, đưa ra quyết định chính xác và nâng cao hiệu quả công tác quản trị, từ đó thống BI cho các CSGD ĐH. Tuy nhiên, phần lớn trong số đó chỉ tập trung vào các đáp ứng các yêu cầu về chất lượng đào tạo và uy tín trong nước và quốc tế. quốc gia có nền tảng công nghệ hiện đại và quản trị đại học tiên tiến. Bên cạnh đó, c. Tình hình nghiên cứu, ứng dụng trong hầu hết các trường hợp ứng dụng, một số công cụ chuyên biệt hoặc chương trình Nghiên cứu về hệ thống BI trong các CSGD ĐH đã cho thấy tính quan trọng và tuỳ chỉnh được sử dụng để thực hiện quy trình ETL, một số công cụ BI được sử dụng hữu ích của công cụ này trong việc hỗ trợ ra quyết định và quản lý các hoạt động học để xây dựng báo cáo tiêu chuẩn, bảng thông tin tổng hợp và các truy vấn đặc biệt. Hạn thuật, tuyển sinh và các chiến lược giáo dục. Các nghiên cứu về BI trong CSGD ĐH chế dễ nhận thấy khi ứng dụng là việc sử dụng các công cụ BI thương mại vốn dành có thể chia thành hai hướng chính: cho doanh nghiệp gây tốn kém về chi phí, phức tạp về vận hành. Bên cạnh đó, việc tự
3
4
tạo lập báo cáo khá tốn thời gian và đòi hỏi phải có kiến thức sâu về chuyên môn và
dựa trên dữ liệu người học tại cơ sở giáo dục đại học Việt Nam" cho luận án tiến sĩ
công nghệ. Ngoài ra, sự xung đột từ các nguồn dữ liệu khác biệt và sự tập trung quá của mình với mục tiêu bổ sung kiến thức mới về lý thuyết và thực tiễn phát triển, ứng
mức gây tắc nghẽn trong các hệ thống cũng là yếu tố hết sức quan trọng cần lưu ý. dụng hệ thống BI hỗ trợ dự báo tại CSGD ĐH Việt Nam, góp phần nâng cao chất lượng
Trong tương lai ngoài sự xuất hiện của dữ liệu phi cấu trúc (dữ liệu từ các hệ thống giáo dục và quản lý tại các CSGD ĐH, phù hợp với định hướng phát triển của Đảng và
cảm ứng phân tán, quẹt thẻ ) đặt ra yêu cầu về tích hợp, xử lý, và khai thác thì Trí tuệ Nhà nước, với xu hướng công nghiệp hoá, hiện đại hoá đất nước.
2. Mục tiêu nghiên cứu nhân tạo (AI - Artificial Intelligence) cũng sẽ có xu hướng được sự dụng phổ biến để
Mục tiêu tổng quát: Nghiên cứu đề xuất mô hình Hệ thống trí tuệ doanh nghiệp cải thiện sự hiểu biết và hoạt động ra quyết định quản lý.
Đối với các quốc gia đang phát triển, nơi mà các CSGD ĐH đa phần có quy mô với tính năng dự báo (viết tắt "hệ thống BI dự báo") dựa trên dữ liệu người học tại
nhỏ và vừa, có mong muốn hoặc định hướng chiến lược phát triển bền vững nhưng cơ CSGD ĐH Việt Nam để cung cấp các báo cáo quản trị đa dạng từ dữ liệu tích hợp về
sở hạ tầng CNTT chưa đồng bộ, việc nghiên cứu và ứng dụng hệ thống BI vẫn còn người học đồng thời đưa ra nhận định về xu hướng phát triển của người học trong
hiếm gặp. Tại Việt Nam, hiện tại còn thiếu nghiên cứu đầy đủ về mô hình hệ thống BI tương lai gần, hỗ trợ cho nhà quản lý trong các quyết định liên quan tới đào tạo và
phù hợp cho các CSGD ĐH cùng chung bối cảnh chuyển đổi tự chủ đại học và có các tuyển sinh, cá nhân hóa dịch vụ cho người học. Để đạt được mục tiêu tổng quát, các
đặc điểm chung về tổ chức, quản lý và công nghệ. Các thách thức đối với CSGD ĐH mục tiêu cụ thể được đề ra như sau:
Mục tiêu cụ thể: Việt Nam bao gồm mức độ chuyển đổi số thấp, dữ liệu cho báo cáo quản trị chưa được
khai thác hiệu quả, cùng các yêu cầu về tối ưu chi phí hoạt động. Đối với việc khai thác Thứ nhất: Nghiên cứu đề xuất được mô hình hệ thống BI dự báo dựa trên dữ liệu
dữ liệu người học, ở mức độ mô tả, thiếu bảng thông tin tổng hợp cung cấp chỉ số cho người học dành cho CSGD ĐH Việt Nam đảm bảo thu thập, trích xuất, tải, trực quan
quá trình học tập tại các trình độ và chuyên ngành cụ thể, các chỉ số thành công cho hoá, khai phá trên lượng dữ liệu người học từ nhiều nguồn, đáp ứng yêu cầu tăng
các khoá học, các chỉ số rút bớt từ các khoá học v.v. Ở mức độ dự báo, thiếu tầm nhìn trưởng, phân tán dữ liệu của CSGD ĐH.
rõ ràng về trình độ của người học để lập kế hoạch học tập dựa trên trình độ, không có Thứ hai: Nghiên cứu đề xuất phương pháp (quy trình, kỹ thuật, nội dung) dự báo
đủ kiến thức về sự thành công hay thất bại của người học khi đăng ký bất kỳ khoá học dựa trên dữ liệu người học của hệ thống, hỗ trợ cho các nhà quản lý trong việc ra quyết
định, nâng cao hiệu suất, chất lượng của dịch vụ đào tạo. nào hay thiếu hiểu biết về trình độ của một người học trong một khoá học để điều chỉnh
phương pháp giảng dạy của giảng viên, tạo sự phân bổ người học trong một lớp học Thứ ba: Thử nghiệm tại một CSGD ĐH tại Việt Nam. Kết quả thử nghiệm nhằm
một cách tối ưu để tạo ra các lớp học đồng nhất, hay tăng cường sự hỗ trợ từ đội ngũ làm rõ hơn các điều kiện, yêu cầu, cách thức trong triển khai hệ thống trên thực tế.
Thứ 4: Đưa ra các khuyến nghị để có thể ứng dụng mô hình hệ thống BI dự báo cố vấn học tập v.v. Bên cạnh đó, các nghiên cứu độc lập về khai phá dữ liệu của người
học để dự báo rất phát triển, đã sử dụng nhiều phương pháp công cụ chuyên biệt, đòi dựa trên dữ liệu người học vào thực tiễn của các CSGD ĐH Việt Nam.
3. Câu hỏi nghiên cứu hỏi thao tác xử lý khá phức tạp, nhưng lại chưa có bằng chứng khoa học nào cho thấy
những nghiên cứu này tiếp cận từ góc độ hệ thống thông tin, xem xét mô đun dự báo Luận án hướng đến mục tiêu nghiên cứu xây dựng mô hình hệ thống BI với tính
dựa trên dữ liệu người học như một phân hệ của hệ thống để đề xuất giải pháp triển
khai cũng như đánh giá hiệu quả. năng dự báo dựa trên dữ liệu người học, thông qua việc trả lời các câu hỏi nghiên cứu sau: - Câu hỏi 1: Những yếu tố nào cần được xem xét khi đề xuất một mô hình hệ thống
BI dự báo dựa trên dữ liệu người học cho CSGD ĐH Việt Nam? Trên cơ sở những phân tích về bối cảnh chung, bối cảnh thực tiễn của giáo dục
đại học Việt Nam và tình hình nghiên cứu ứng dụng hệ thống, NCS lựa chọn đề tài - Câu hỏi 2: Những kỹ thuật và nội dung nào là cần thiết, cách thức nào là phù
hợp trong hệ thống để dự báo dựa trên dữ liệu người học? "Nghiên cứu đề xuất mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự báo
5
6
- Câu hỏi 3: Các điều kiện, yêu cầu và cách thức triển khai mô hình hệ thống BI dự báo dựa trên dữ liệu người học trong thực tế tại một CSGD ĐH ở Việt Nam
là gì, và kết quả thử nghiệm sẽ làm sáng tỏ những yếu tố nào?
- Câu hỏi 4: Những khuyến nghị nào là cần thiết để ứng dụng hiệu quả mô hình hệ thống BI dự báo dựa trên dữ liệu người học vào thực tiễn tại các CSGD ĐH
Việt Nam?
4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Mô hình hệ thống BI với tính năng dự báo dựa trên dữ liệu
người học tại CSGD ĐH Việt Nam. Đối tượng nghiên cứu bao gồm (i) khái niệm, kiến
trúc, khía cạnh hệ thống BI, mục tiêu và khung của hệ thống BI trong tổ chức giáo dục đại
học (ii) nội dung dự báo dựa trên dữ liệu người học, phương pháp thu thập và xử lý dữ
liệu người học, đặc biệt phân tích thống kê và học máy (iii) nhu cầu thông tin và ràng buộc
hệ thống trong CSGD ĐH giáo dục đại học ở Việt Nam (iv) việc triển khai mô hình hệ
thống BI, xây dựng mô hình dự báo trong môi trường giáo dục đại học Việt Nam.
Phạm vi nghiên cứu: Giới hạn cho các CSGD ĐH Việt Nam và tập trung vào
vấn đề tích hợp dữ liệu người học, xây dựng báo cáo trên dữ liệu người học, dự báo
trên dữ liệu học tập phục vụ cho đào tạo và tuyển sinh, công tác sinh viên. Các dữ liệu
cụ thể đã được thu thập và sử dụng. Dữ liệu thứ cấp gồm báo cáo kết quả kiểm định
CSGD ĐH thu thập từ 2018-2023. Dữ liệu sơ cấp về người học của một Trường Đại học liên kết quốc tế từ đây sẽ gọi là trường G1 được thu thập từ 2015-2021 thông qua
các hoạt động quản lý đào tạo, tuyển sinh, công tác sinh viên tại Trường.
5. Phương pháp nghiên cứu
Nghiên cứu kết hợp ba phương pháp: (1) Phân tích và tổng hợp lý thuyết để xây
dựng cơ sở lý luận; (2) Nghiên cứu định tính dựa trên dữ liệu thứ cấp để hiểu thực trạng
và nhu cầu hệ thống BI dự báo tại các CSGD ĐH Việt Nam; (3) Nghiên cứu khoa học
thiết kế (DSR) nhằm tạo ra các tạo tác sáng tạo giải quyết vấn đề và cải thiện môi
trường nghiên cứu, đồng thời mở rộng tri thức của nhà nghiên cứu.
1 Vì lý do đảm bảo bảo mật dữ liệu của Trường thực nghiệm, các bộ dữ liệu và thông tin của Trường được mã hóa trong luận án.
Hình 1: Khung nghiên cứu
7
8
6. Những đóng góp của luận án
Thứ nhất: Luận án góp phần luận giải về sự cần thiết của hệ thống BI dự báo dựa trên dữ liệu người học tại CSGD ĐH Việt Nam.
1.1.1 Nghiên cứu ngoài nước 1.1.2 Nghiên cứu trong nước 1.1.3 Vấn đề và khoảng trống trong nghiên cứu, ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học
Thứ hai: Luận án đóng góp vào khung lý thuyết của hệ thống BI đó là cách tiếp cận hệ thống tập trung vào khả năng dự báo dựa trên dữ liệu người học.
Thứ ba: Luận án đề xuất mô hình hệ thống BI hỗ trợ tính năng dự báo dựa trên dữ liệu người học cho các CSGD ĐH Việt Nam được cấu trúc để tích hợp với các hệ thống dữ liệu hiện có, đảm bảo tính linh hoạt và mở rộng trong tương lai, áp dụng các công nghệ hiện đại cho phép tạo ra một hệ thống BI tự phục vụ hoàn chỉnh, xử lý linh hoạt và tăng mức độ thông minh trong khai thác dữ liệu của hệ thống.
Nhận định thứ nhất: Nghiên cứu lý thuyết đã đề xuất các khung cho việc xây dựng và phát triển hệ thống BI cho CSGD ĐH, nhưng hiếm nghiên cứu về mô hình phù hợp cho các CSGD ĐH trong bối cảnh chuyển đổi tự chủ đại học như tại Việt Nam. Nhận định thứ hai: Nghiên cứu thử nghiệm thường chỉ được thực hiện trong môi trường của một CSGD ĐH, tập trung vào khai thác dữ liệu học thuật, không phải toàn bộ dữ liệu tổ chức. Điều này phản ánh độ khó và phức tạp trong phát triển hệ thống, phải thích ứng với hạ tầng công nghệ, dữ liệu và mục tiêu thông tin đầu ra của từng CSGD ĐH.
Nhận định thứ ba: Các hệ thống BI thử nghiệm chủ yếu tập trung vào khám phá dữ liệu và sinh báo cáo. Mô hình dự báo ít phổ biến, và khi sử dụng giải pháp có sẵn, CSGD ĐH phải đối mặt với chi phí cao, khả năng tích hợp hạn chế và sự khó khăn trong việc khai thác tối đa giải pháp.
Thứ tư: Luận án tiến hành thử nghiệm hệ thống tại một CSGD ĐH, qua đó đánh giá trực tiếp tính khả thi và hiệu quả của mô hình trong thực tế, đồng thời đề xuất các khuyến nghị để triển khai mô hình hệ thống BI vào thực tiễn tại các CSGD ĐH ở Việt Nam. Hệ thống thử nghiệm áp dụng phương pháp dự báo động - linh hoạt lựa chọn thuật toán phân loại, lựa chọn môn học - để dự báo sớm kết quả học tập giúp thích nghi với những thay đổi trong cấu trúc chương trình đào tạo, đồng thời áp dụng mạng nơron học sâu dự báo hỗ trợ lựa chọn chuyên ngành từ cả dữ liệu học thuật và dữ liệu phi học thuật. Thứ năm: Đưa ra các khuyến nghị để có thể triển khai mô hình hệ thống BI dự báo dựa trên dữ liệu người học vào thực tiễn của các CSGD ĐH ở Việt Nam.
7. Kết cấu của luận án Ngoài các phần như Giới thiệu, Mục lục, Danh mục bảng biểu, Danh mục hình vẽ, Danh mục từ viết tắt, Phần mở đầu, Kết luận, nội dung chính của luận án này được tổ chức trong 4 chương.
TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU Nhận định thứ 4: Mặc dù nhiều nghiên cứu đã phát triển lý thuyết và thực hành hệ thống BI, rất ít nghiên cứu xây dựng lộ trình triển khai hệ thống BI cho các CSGD ĐH, đặc biệt ở các cơ sở có quy mô nhỏ và vừa. Các CSGD ĐH ở các quốc gia đang phát triển như Việt Nam đối mặt với nhiều thách thức trong nghiên cứu, ứng dụng và triển khai hệ thống, bao gồm sự phù hợp giữa mục tiêu hệ thống và chiến lược tổ chức, mức độ sẵn sàng và chất lượng dữ liệu. 1.2 Tổng quan về nghiên cứu dự báo dựa trên dữ liệu người học 1.2.1 Nghiên cứu ngoài nước 1.2.2 Nghiên cứu trong nước 1.2.3 Nhận định về nghiên cứu dự báo dựa trên dữ liệu người học
Nhận định thứ nhất: Dự báo kết quả học tập dựa trên dữ liệu người học có thể phân loại theo nhiều tiêu chí, nhưng yếu tố cốt lõi luôn là kết quả học tập. Kết quả học tập, như điểm đánh giá, số khóa học hoàn thành, và điểm số đạt được, có thể vừa là yếu tố dự báo, vừa là yếu tố được dự báo, tùy vào mục tiêu cụ thể. Các biến mô tả kết quả học tập trước đây giúp dự báo khả năng thành công trong các nhiệm vụ học tập tương lai.
Nhận định thứ hai: Bài toán dự báo dựa trên dữ liệu người học có thể sử dụng nhiều kỹ thuật khác nhau, từ thuật toán học máy truyền thống đến các phương pháp
1.1 Tổng quan về nghiên cứu và ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học CSGD ĐH đang áp dụng các hệ thống như EMIS, SIS, LMS, cổng thông tin điện tử, và ERP để nâng cao quản lý, nhưng các hệ thống này thiếu khả năng phân tích sâu và dự báo. BI khắc phục hạn chế này, cung cấp công cụ phân tích mạnh mẽ và hỗ trợ dự báo, giúp CSGD ĐH đưa ra quyết định chính xác và nâng cao chất lượng giáo dục.
9
10
tiên tiến. Độ chính xác của các thuật toán phụ thuộc vào cách thức xử lý và loại dữ liệu được khai thác. Một số nghiên cứu đạt độ chính xác chấp nhận được dù chỉ sử dụng ít dữ liệu hoặc dữ liệu khảo sát. Tuy nhiên, do sự khác biệt về dữ liệu và đặc trưng, các mô hình dự báo giữa các nghiên cứu không thể so sánh trực tiếp. Việc chọn thuật toán phù hợp với bộ dữ liệu là chìa khóa để xây dựng mô hình dự báo hiệu quả.
dữ liệu (Data Warehouse), kho dữ liệu cục bộ (Data Mart), kho dữ liệu hoạt động (ODS), và hồ dữ liệu (Data Lake). Công cụ BI hỗ trợ phân tích, trực quan hóa, và ra quyết định dựa trên dữ liệu. BI tự phục vụ và BI thời gian thực (RTBI) ngày càng phổ biến, nhưng RTBI đòi hỏi hệ thống phức tạp và có thể rủi ro nếu dữ liệu chưa được xác thực. Xu hướng phát triển BI tập trung vào đám mây, học máy và AI, giúp việc phân tích và sử dụng dữ liệu dễ dàng và hiệu quả hơn. 2.1.1.3 Yếu tố ảnh hưởng tới hình thái hệ thống
Nhận định thứ ba: Các nghiên cứu về phát triển mô hình dự báo thường sử dụng dữ liệu từ các nguồn xác định hoặc giả định không có rào cản trong việc thu thập, như khảo sát thủ công hoặc dữ liệu hành vi sinh viên từ hệ thống học trực tuyến. Tuy nhiên, việc thu thập dữ liệu hành vi gặp vấn đề về đạo đức và quyền riêng tư. Khoảng 2/3 mô hình dự báo hiệu quả sử dụng dữ liệu nhân khẩu học hoặc dữ liệu tĩnh, mặc dù loại dữ liệu này có hạn chế, nhất là nguy cơ duy trì định kiến. Khi xây dựng mô hình dự báo cho hệ thống BI, cần cân nhắc các kết quả và ràng buộc liên quan.
CƠ SỞ LÝ THUYẾT
2.1 Hệ thống trí tuệ doanh nghiệp 2.1.1 Hệ thống trí tuệ doanh nghiệp trong môi trường doanh nghiệp 2.1.1.1 Khái niệm
Theo Laudon & Laudon (2004), hệ thống thông tin doanh nghiệp nên được tiếp cận qua ba khía cạnh: công nghệ, tổ chức và quản lý. Vì vậy, việc thiết kế hệ thống không chỉ tập trung vào công nghệ mà còn phải xem xét các yếu tố phi công nghệ có thể ảnh hưởng đến hệ thống. Bentley (2017) nêu rõ các yếu tố ngoài công nghệ ảnh hưởng trực tiếp tới hệ thống gồm: bối cảnh tổ chức, hệ thống thông tin chức năng, khám phá quy trình nghiệp vụ, khung đánh giá hiệu suất kinh doanh, và trí tuệ tổ chức. 2.1.2 Hệ thống trí tuệ doanh nghiệp trong môi trường giáo dục 2.1.2.1 Hệ thống trí tuệ doanh nghiệp và mục tiêu đảm bảo chất lượng giáo dục đại học Hệ thống BI trong các cơ sở giáo dục đại học (CSGD ĐH) hỗ trợ hiệu quả việc quản lý nguồn lực, tối ưu hóa chiến lược tuyển sinh, và cải thiện chất lượng giảng dạy thông qua phân tích dữ liệu, từ đó nâng cao khả năng cạnh tranh và đáp ứng nhu cầu của các bên liên quan (Apraxine & Stylianou, 2017; Ranjan & Malik, 2007). Ngoài ra, hệ thống này cũng giúp các CSGD ĐH phát triển các chương trình học bổ sung, cá nhân hóa dịch vụ cho người học và hỗ trợ các quyết định chiến lược dựa trên dữ liệu (Jayakody & Perera, 2016; Falakmasir & cộng sự, 2010).
"Business Intelligence" hay BI có thể được định nghĩa là một tập hợp các mô hình toán học và phương pháp phân tích khai thác dữ liệu có sẵn để tạo ra thông tin và kiến thức hữu ích cho các quá trình ra quyết định phức tạp (Vercellis, 2011)."Trí tuệ doanh nghiệp" (BI) được Việt hóa từ "Business Intelligence" và có thể dịch là "Thông minh kinh doanh" hoặc "Phân tích kinh doanh". Mỗi cách dịch có ý nghĩa khác nhau. Cách dịch "Trí tuệ doanh nghiệp" vừa dễ hiểu, vừa phản ánh đúng bản chất của BI. Hệ thống BI là một hệ thống phân tích dữ liệu toàn diện, tích hợp từ nhiều nguồn như CRM, ERP và các hệ thống khác hỗ trợ phân tích dữ liệu và trực quan hóa thông tin qua các công cụ truy vấn, bảng tin, khai phá và dự báo. 2.1.1.2 Kiến trúc hệ thống
Dữ liệu người học là trung tâm trong các quy trình lõi của CSGD ĐH, bao gồm tuyển sinh, học tập, giảng dạy, phát triển chương trình và quản lý chất lượng. Hệ thống BI dựa trên dữ liệu người học giúp tối ưu hóa việc quản lý quy trình học tập, giảng dạy, phát triển chương trình và quản lý chất lượng trong các CSGD ĐH. Việc khai thác dữ liệu người học không chỉ cung cấp thông tin chi tiết về hiệu quả đào tạo mà còn hỗ trợ nâng cao chất lượng giáo dục, đáp ứng mục tiêu chiến lược của các cơ sở giáo dục, đồng thời giúp hạn chế phạm vi nghiên cứu và triển khai hệ thống một cách hiệu quả. 2.1.2.2 Khung hệ thống BI trong cơ sở giáo dục đại học
Khung kiến trúc BI trong CSGD ĐH thường được tổ chức theo cấu trúc phân tầng với các khối chính gồm ETL, kho dữ liệu và phân tích dữ liệu, mặc dù các thành phần này có thể thay đổi tùy vào từng nghiên cứu và mục tiêu triển khai (Niño & cộng sự, 2020; Sorour & cộng sự, 2020). Khung quy trình và khung quản trị đóng vai trò Theo Vercellis (2011), kiến trúc hệ thống BI là một kim tự tháp phân tầng, với các quản trị viên cơ sở dữ liệu ở cấp thấp nhất, nhà phân tích và chuyên gia ở giữa, và nhà quản lý ra quyết định ở đỉnh. Kiến trúc này hỗ trợ ra quyết định ở các cấp độ khác nhau. Bessa & cộng sự (2016) mô tả hệ thống BI gồm bốn phần chính: thu thập dữ liệu, quản lý dữ liệu, phân tích dữ liệu và giao diện người dùng. Hệ thống BI tích hợp với các hệ thống quản lý như HRM, CRM, ERP và có thể lấy dữ liệu từ nguồn bên ngoài. Dữ liệu được xử lý qua ETL để đảm bảo tính chính xác. Kho lưu trữ dữ liệu gồm: kho
11
12
tập của người học và (4) CSPA để dự báo kết quả học tập và khả năng duy trì của người học dựa trên dữ liệu tham gia và thành tích học tập. 2.2.3 Dự báo dựa trên dữ liệu người học 2.2.3.1 Nội dung dự báo
quan trọng trong việc triển khai và đảm bảo sự thành công của hệ thống BI (Niño & cộng sự, 2020; Muntean & cộng sự, 2011; Zulkefli & cộng sự, 2015). Các nghiên cứu cũng nhấn mạnh sự liên kết chặt chẽ giữa hệ thống BI và tiêu chuẩn đảm bảo chất lượng của các CSGD ĐH (Sorour & cộng sự, 2020). 2.2 Phân tích dữ liệu người học và dự báo dựa trên dữ liệu người học 2.2.1 Dữ liệu người học
Các dự báo dựa trên dữ liệu người học có thể được phân loại theo nhiều cách, bao gồm mục tiêu ứng dụng (Aldowah & cộng sự, 2019), phân tầng theo thời gian (Alwarthan & cộng sự, 2022), hoặc theo nguồn và tính chất tĩnh, động của dữ liệu. Nghiên cứu này phân loại các dự báo dựa trên mục tiêu bài toán dự báo để làm rõ ý nghĩa trong hoạt động dự báo chia thành ba nội dung chính: (1) dự báo tăng tỉ lệ giữ chân, giảm tỉ lệ bỏ học, (2) dự báo giám sát quá trình học tập để hỗ trợ kịp thời cho người học, và (3) dự báo hỗ trợ tuyển sinh thông qua việc lựa chọn ngành học và chương trình học phù hợp cho sinh viên. Trong đó, dự báo bỏ học luôn là một bài toán phức tạp, với các mô hình dự báo bị tác động bởi nhiều yếu tố ngoài kết quả học tập. Dự báo kết quả học tập phụ thuộc chủ yếu vào các đặc trưng của chính người học. Dữ báo hỗ trợ tuyển sinh dựa trên dữ liệu người học hỗ trợ thí sinh lựa chọn chuyên ngành phù hợp. 2.2.3.2 Kỹ thuật dự báo
Theo Điều 8 Thông tư 42/2021/TT-BGDĐT, dữ liệu người học trong CSGD ĐH bao gồm thông tin hồ sơ, tuyển sinh, quá trình học tập, kết quả học tập, rèn luyện, văn bằng và các thông tin khác (Thông tư 42/2021/TT-BGDĐT). Dữ liệu người học có thể được mô tả theo nhiều khía cạnh: (1) thông tin học thuật theo dõi tiến độ học tập và thành tích, (2) kết quả kiểm tra phản ánh khả năng học tập tại các thời điểm, (3) dữ liệu nhân khẩu học như giới tính, tuổi, tình trạng kinh tế, (4) dữ liệu về hoạt động của người học trong môi trường học đường như điểm danh, hành vi trong lớp và hoạt động ngoại khóa (DQC, 2023). Dữ liệu này có thể được thu thập từ các hệ thống tuyển sinh, LMS, SIS, nền tảng học trực tuyến, và các công cụ ghi nhận hành vi (Arizmendi & cộng sự, 2023). Ứng dụng phân tích dữ liệu người học hỗ trợ nhà quản lý trong việc đưa ra quyết định dựa trên dữ liệu, giúp xác định những học viên có nguy cơ và tối ưu hóa quá trình học tập, giảng dạy (Arizmendi & cộng sự, 2023). 2.2.2 Phân tích dữ liệu người học
Để khai thác dữ liệu người học, các nhà nghiên cứu lý thuyết, nghiên cứu thử nghiệm đã sử dụng các kỹ thuật trong Phân tích dữ liệu học tập (Learning Analytics - LA) và Khai phá dữ liệu giáo dục (Educational Data Mining - EDM). 2.2.2.1 Phân tích dữ liệu học tập
Phân tích dữ liệu học tập (LA) được định nghĩa là việc thu thập, đo lường, phân tích và báo cáo dữ liệu về người học và môi trường học tập của họ nhằm hiểu rõ và tối ưu hóa quá trình cũng như môi trường học tập (Lang & cộng sự, 2017). 2.2.2.2 Khai phá dữ liệu giáo dục
Các kỹ thuật dự báo đa dạng được nhóm lại thành 10 nhóm chính (Aldowah & cộng sự, 2019), tương ứng với các nhóm kỹ thuật sẽ có có các kỹ thuật cụ thể mang đặc trưng của nhóm(Xiao & cộng sự, 2022).Đối với dự báo kết quả học tập, nghiên cứu Alwarthan & cộng sự (2022) cho thấy hầu hết các mô hình sử dụng nhóm kỹ thuật phân loại (87%). Một số ít nghiên cứu sử dụng nhóm kỹ thuật hồi quy (9%) và phân cụm (4%). Phân loại và hồi quy được coi là phổ biến nhất trong các nghiên cứu liên quan đến dự báo kết quả học tập của người học (Khan & Ghosh, 2021). Mỗi kỹ thuật có ưu điểm và nhược điểm riêng. Điều quan trọng là phải xem xét cẩn thận các kỹ thuật và đảm bảo rằng chúng phù hợp với bối cảnh và mục tiêu cụ thể của phân tích (Guzmán-Valenzuela & cộng sự, 2021). Các mô hình dự báo được thiết lập trong các nghiên cứu cụ thể phụ thuộc rất nhiều vào bộ dữ liệu được thu thập và rất khó sử dụng mô hình dự báo này trong các môi trường hoặc hệ thống khác (Xiao & cộng sự, 2022). Do vậy mặc dù lựa chọn kỹ kỹ thuật là chìa khóa để phát triển mô hình dự báo hiệu quả nhưng bài toán này có thể linh hoạt về phương án do những hạn chế về tính sẵn có của dữ liệu đào tạo (Kew & Tasir, 2022). Khai phá dữ liệu giáo dục (EDM) sử dụng các kỹ thuật khai phá dữ liệu để phân tích dữ liệu giáo dục nhằm trả lời các câu hỏi quan trọng (Romero & Ventura, 2013). Các kỹ thuật LA và EDM theo (Aldowah & cộng sự, 2019) gồm: (1) CSLA giúp theo dõi hành vi học tập qua tương tác trong môi trường LMS và hỗ trợ can thiệp; (2) CSBA nhằm phát hiện các mô hình hành vi học tập và dự báo kết quả học tập trong các khóa học trực tuyến; (3) CSVA trực quan hóa hành vi học tập giúp biểu diễn quá trình học
13
14
3.1.2 Đánh giá các yếu tố ảnh hưởng
2.2.3.3 Quy trình xây dựng mô hình dự báo
Thứ nhất: Giáo dục đại học Việt Nam cần áp dụng công nghệ quản trị và phát
triển hệ thống thông tin để nâng cao chất lượng đào tạo, đáp ứng nhu cầu thị trường
lao động trong bối cảnh đổi mới và toàn cầu hóa.
Thứ hai: Việc triển khai hệ thống BI gặp khó khăn do các hệ thống chức năng
chưa được triển khai đầy đủ và đồng bộ, cùng với dữ liệu phân tán, làm khó khăn trong
việc tạo báo cáo tổng hợp giữa các đơn vị chức năng.
Thứ ba: Quy trình nghiệp vụ cho thấy có sự liên kết dữ liệu giữa các khối công
việc và các đơn vị, từ khoa đến trường. Từ đó yêu cầu hệ thống BI khi tạo ra báo cáo
cần có giao diện thân thiện, dễ sử dụng cho nhiều đối tượng từ quản lý cấp cao, cấp
khoa, phòng ban tới giảng viên thậm chí cả chuyên viên các phòng ban.
Thứ tư: CSGD ĐH cần sử dụng bảng thông tin tổng hợp để quản lý hiệu suất
dựa trên dữ liệu người học và các tiêu chuẩn đánh giá chất lượng.
Thứ năm: CSGD ĐH chủ yếu sử dụng dữ liệu cấu trúc từ các hệ thống giao dịch,
trong khi dữ liệu phi cấu trúc chưa được khai thác rộng rãi, gây hạn chế cho việc ra
quyết định của lãnh đạo. Tuy nhiên, các CSGD ĐH đã dần nhận thức tầm quan trọng
của việc phân tích dữ liệu để chuyển hóa thông tin thành tri thức hữu ích, hỗ trợ đạt Từ các nghiên cứu của Aldowah & cộng sự (2019), Jankatun và cộng sự (2022), Xiao và cộng sự (2022), quy trình xây dựng mô hình dự báo có thể tổng hợp trong các bước cơ bản: (1) Thu thập dữ liệu; (2) Chuẩn bị dữ liệu/ tiền xử lý dữ liệu: (3) Xây dựng/huấn luyện mô hình; (4) Đánh giá mô hình. Tùy thuộc vào kỹ thuật dự báo sử dụng có thể sử dụng các phương pháp đánh giá khác nhau. Ma trận nhầm lẫn thường được sử dụng để đánh giá mô hình phân loại (Xiao & cộng sự, 2022) với bốn giá trị trong ma trận nhầm lẫn: (1)Dương tính thực (True Positive -TP); (2) Âm tính thực (True Negative -TN; (3) Dương tính giả (False Positive - FP; (4) Âm tính giả (False Negative - FN). Từ các chỉ số này có thể tính toán các chỉ số hiệu suất của mô hình dùng để đánh giá mô hình như: Độ chính xác tổng thể (Accuracy), Độ nhạy (Sensitivity/Recall), Tỉ lệ dương giả (False Positive Rate - FPR), Độ đặc hiệu (Specificity), Độ chính xác (Precision), Điểm F (F1- score). Các chỉ số này bổ sung lẫn nhau để đánh giá chính xác. Để đánh giá khả năng phân biệt giữa các lớp trong mô hình phân loại nhị phân, diện tích dưới đường cong ROC (AUC) là một chỉ số quan trọng, với giá trị AUC càng gần 1, mô hình càng hiệu quả trong việc phân loại các lớp. Khi dự báo giá trị liên tục, sai số bình phương trung bình (Mean Squared Error - MSE) là thước đo phổ biến để đánh giá hiệu suất của mô hình. MSE là giá trị trung bình của các bình phương sai số, tức là sự chênh lệch giữa giá trị ước lượng và giá trị thực tế. MSE càng thấp, mô hình dự đoán càng chính xác. được các mục tiêu chiến lược.
3.2 Nhu cầu của phân tích và dự báo dựa trên dữ liệu người học tại cơ sở giáo dục ĐỀ XUẤT MÔ HÌNH HỆ THỐNG TRÍ TUỆ đại học Việt Nam DOANH NGHIỆP HỖ TRỢ DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC CHO CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM 3.2.1 Nhu cầu liên quan tới tuyển sinh
3.2.2 Nhu cầu liên quan tới theo dõi giám sát hỗ trợ người học
3.1 Phân tích, đánh giá các yếu tố ảnh hưởng tới hệ thống
3.2.3 Nhu cầu liên quan tới tăng tỉ lệ tốt nghiệp 3.1.1 Phân tích các yếu tố ảnh hưởng 3.3 Mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự báo dựa trên dữ liệu 3.1.1.1 Bối cảnh cơ sở giáo dục đại học Việt Nam người học cho cơ sở giáo dục đại học Việt Nam 3.1.1.2 Thực trạng hạ tầng công nghệ thông tin và các hệ thống chức năng liên quan 3.3.1 Mô hình kiến trúc hệ thống tới dữ liệu người học trong cơ sở giáo dục đại học Bám dựa trên các yêu cầu chức năng và phi chức năng đã nghiên cứu, mô hình 3.1.1.3 Quy trình nghiệp vụ liên quan tới dữ liệu người học kiến trúc của hệ thống BI dự báo dựa trên dữ liệu người học tại CSGD ĐH Việt Nam 3.1.1.4 Khung quản lý hiệu suất NCS đề xuất được thể hiện trong Hình 3.4. 3.1.1.5 Hệ thống thông tin quản trị và cơ sở dữ liệu tích hợp
15
16
3.3.1.4 Tầng nghiệp vụ
Dịch vụ ứng dụng là khối dịch vụ lõi cung cấp các chức năng như báo cáo, dự
báo, truy vấn theo ngữ cảnh, giúp người dùng khai thác dữ liệu một cách hiệu quả: (1)
Dịch vụ báo cáo sử dụng API của các công cụ BI, nội dung báo cáo tham chiêu trên
tiêu chuẩn (5, 8, 11) kiểm định đầu ra của chương trình đào tạo (TT 04/2016/TT-
BGDĐT) cho từng chuyên ngành đào tạo, và tiêu chuẩn (13, 15, 17, 22) kiểm định đầu
ra cơ sở đào tạo (TT 12/2017/TT-BGDĐT); (2) Dịch vụ dự báo với ưu tiên dự báo kết
quả học tập phục vụ giám sát người học và hỗ trợ tuyển sinh bằng thuật toán học máy
(3) Dịch vụ truy vấn theo ngữ cảnh tích hợp API AI tự động phân tích và biểu diễn
dữ liệu khi lãnh đạo đưa ra yêu cầu dưới dạng văn bản, ngôn ngữ tự nhiên.
3.3.1.5 Tầng hiển thị
Ứng dụng hệ thống có thể được truy cập thông qua giao diện web, di động, máy
tính để bàn.
3.3.1.6 Mô hình xử lý dữ liệu dựa trên dữ liệu người học
Dữ liệu được luân chuyển giữa các tầng của hệ thống, thể hiện trong mô hình
quy trình xử lý dữ liệu, như được minh họa trong Hình 3.5.
Hình 3.1: Mô hình kiến trúc hệ thống được đề xuất 3.3.1.1 Nguồn dữ liệu Dữ liệu thu thập từ các nguồn cần thỏa mãn điều kiện: (1) có sẵn và ưu tiên có
thể thu thập tự động; (2) được cập nhật trên đa số (bản ghi) sinh viên; (3) dữ liệu có ý
nghĩa trong phân tích và dự báo.
3.3.1.2 Tầng ETL
Khi hút dữ liệu từ CSDL của các hệ thống quản lý và đưa vào mô đun ETL, hệ
thống sử dụng các kết nối tới CSDL hoặc sử dụng API để truy cập vào CSDL của các
hệ thống quản lý thông qua giải pháp tự phát triển mô đun ET hoặc tích hợp công cụ
mã nguồn mở/ thương mại
3.3.1.3 Tầng lưu trữ dữ liệu
Hệ thống dữ liệu nên tích hợp công nghệ đám mây để mở rộng khi dữ liệu tăng. Hình 3.2: Mô hình xử lý dữ liệu dựa trên dữ liệu người học BigQuery của Google là giải pháp nổi bật nhờ khả năng mở rộng, triển khai đơn giản,
hỗ trợ tốt, và chi phí hợp lý, thích hợp cho CSGD ĐH với nhu cầu xử lý dữ liệu lớn,
theo thời gian thực và tích hợp đa nền tảng.
18
17
3.3.1.7 Đánh giá về việc đáp ứng các yêu cầu của mô hình kiến trúc đề xuất
Mô hình kiến trúc được đề xuất có thể nói đã đáp ứng được các yêu cầu chức năng cũng như yêu cầu phi chức năng của hệ thống.
3.3.2 Mô hình quy trình xây dựng và phát triển hệ thống
Quy trình phát triển và triển khai hệ thống BI kế thừa các lộ trình phát triển và quy trình triển khai từ các nghiên cứu (Moss & Atre, 2003), (Morais & Lopes, 2019), (Caraiani & Dumitrana, 2005) được điều chỉnh để phù hợp với đặc thù của hệ thống BI dự báo dựa trên dữ liệu người học thể hiện qua hình 3.8, với vai trò của các đơn vị, cá nhân trong quy trình được giải thích qua Hình 3.7.
Hình 3.3: Mô hình quy trình phát triển hệ thống được đề xuất
Hình 3.4: Quy trình xây dựng, phát triển hệ thống được đề xuất
19
20
THỬ NGHIỆM CHỨC NĂNG CHÍNH CỦA HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP VỚI TÍNH NĂNG DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC TẠI CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM VÀ MỘT SỐ KHUYẾN NGHỊ
4.1 Thiết kế thử nghiệm 4.1.1 Mục tiêu và phạm vi thử nghiệm
Hoạt động thử nghiệm hệ thống nhằm đánh giá tính khả thi của mô hình kiến trúc, quy trình, và hiệu quả tổng thể. Quá trình này kiểm tra khả năng CSGD ĐH linh hoạt chọn công nghệ, tích hợp dữ liệu, truy vấn, báo cáo, và dự báo hiệu quả. Thử nghiệm cũng giúp xác định và đánh giá độ chính xác của mô hình dự báo trên dữ liệu thực tế, đảm bảo hệ thống hỗ trợ tốt cho quản lý các cấp. 4.1.2 Đơn vị thử nghiệm
NCS đề xuất thử nghiệm xây dựng các chức năng chính của hệ thống BI dự báo
dựa trên dữ liệu người học tại Trường Đại học G, cơ sở Hà Nội. Hệ thống này được đặt tên là BIG, viết tắt của Business Intelligence for G. 4.1.3 Quy trình phát triển hệ thống thử nghiệm Hình 4.1: Kiến trúc BIG NCS đã tuân thủ quy trình phát triển hệ thống BI dự báo như đề xuất tại Mục 3.3.2 Chương 3. 4.2 Kết quả thử nghiệm 4.2.1 Cài đặt ETL và Kho dữ liệu 4.1.4 Công cụ, công nghệ, môi trường phát triển hệ thống thử nghiệm 4.1.4.1 Công cụ và công nghệ
Hệ thống thử nghiệm được phát triển với bốn tầng chính: mô đun ETL, dữ liệu, nghiệp vụ, và trình bày, dựa trên mô hình kiến trúc đã đề xuất. Tầng trình bày sử dụng
HTML/CSS và ReactJS để thiết kế giao diện web động. Tầng nghiệp vụ dùng Flask quản lý back-end, tích hợp Tableau API làm báo cáo, Open AI truy vấn tự phục vụ và các thư viện như scikit-learn, TensorFlow, NumPy để dự báo. Tầng dữ liệu sử dụng MySQL quản trị dữ liệu, có thể mở rộng sang Google BigQuery. Mô đun ETL xây Dữ liệu lưu trữ tại kho dữ liệu sẽ được quy tập từ nhiều nguồn: (1) Dữ liệu từ bộ phận đào tạo trích xuất từ trang AP (Academic Portal); (2) Dữ liệu từ bộ phận tuyển sinh; (3) Dữ liệu từ bộ phận công tác sinh viên. Dữ liệu nguồn với định dạng đa dạng bao gồm dữ liệu từ phần mềm, nhập tay và bảng tính. 4.2.2 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu đánh giá kết quả và dữ liệu hành vi của người học Bài toán 1: Dự báo việc trượt hay đỗ của người học tại một lần học của một môn học. 4.2.2.1 Thử nghiệm xây dựng mô hình 4.2.2.2 Kết luận từ thử nghiệm mô hình dựng bằng Python giúp trích xuất, chuyển đổi, tải và làm sạch dữ liệu hiệu quả, tránh phụ thuộc vào công cụ trả phí, phù hợp với nhu cầu tổ chức. 4.1.4.2 Môi trường phát triển 4.1.5 Thiết kế kiến trúc hệ thống thử nghiệm
Kiến trúc hệ thống BIG thử nghiệm với công nghệ và công cụ được lựa chọn được thể hiện trong Hình 4.1: Gồm: (1) Có một số môn học trước có tác động có tính thống kê tới việc đỗ/ trượt một môn học sau; (2) Với dữ liệu hiện tại, điểm đánh giá giáo viên (GPA giáo viên) trong vòng 2 tuần đầu, đối với mỗi môn học không có ý nghĩa dự báo đối với việc sinh viên trượt/ đỗ môn học đó; (3) Trong từng lần học cụ thể, mức độ chuyên cần sẽ ảnh hưởng tới khả năng trượt/ đỗ của người học trong môn học đó; (4) Mô hình LR mặc dù cho độ chính xác dự báo >70% (ở mức chấp nhận được), nhưng không quá cao
21
22
việc dự báo dựa trên điểm các môn thực hành. Dự báo cho kết quả độ chính xác tổng thể tốt nhất khi kết hợp cả điểm môn lý thuyết và điểm môn thực hành, tuy nhiên điều này cũng phải đánh đổi bằng việc khối lượng dữ liệu được xử lý sẽ lớn hơn.
như kỳ vọng. Tuy nhiên, sử dụng LR cũng như hồi quy nói chung, cho phép giải thích về tác động của các biến/đặc trưng trong mô hình dự báo; (5) Mặc dù, trong quá trình xây dựng mô hình dự báo, dữ liệu về thái độ và hành vi của người học trong quá trình học một môn học có thể được sử dụng trong mô hình và có thể kiểm chứng được mức độ ảnh hưởng trong mô hình. Tuy nhiên, khi đưa vào hệ thống BI với đặc điểm dữ liệu thường được cập nhật định kỳ (vào cuối mỗi kỳ, cuối mỗi năm), dữ liệu này thường không có sẵn hoặc đã mất hiệu lực tại thời điểm cập nhật. 4.2.3 Kết quả xây dựng mô hình dự báo động dựa trên dữ liệu đánh giá kết quả của người học
Khi triển khai việc dự báo với các đặc trưng đầu vào (các điểm trung bình) thay đổi, hệ thống sẽ áp dụng quy trình dự báo như sau: (1) Người dùng lựa chọn đặc trưng hay lựa chọn các môn có điểm trung bình được đưa vào mô hình dự báo, và môn là mục tiêu dự báo đỗ/ trượt. Khuyến cáo chọn nhiều môn; (2) Hệ thống huấn luyện tự động các mô hình trên cùng một bộ dữ liệu; (3) Hệ thống lựa chọn mô hình tốt nhất theo tiêu chí (độ đặc hiệu lớn nhất); (4) Hệ thống thực hiện dự báo từ dữ liệu đầu vào dựa trên mô hình vừa được lựa chọn. 4.2.4 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu tuyển sinh và dữ liệu đánh giá kết quả của người học Bài toán 3: Dự báo sự phù hợp của người học khi chọn chuyên ngành học
4.2.4.1 Thử nghiệm xây dựng mô hình Bước 1: Lựa chọn đặc trưng
Bài toán 2: Dự báo việc trượt hay đỗ của một người học đối với một môn học. Từ các kết luận của mô hình thử nghiệm trong 4.3.1, NCS dự kiến xây dựng mô hình dự báo đối với việc trượt/ đỗ của người học đối với một môn học thỏa mãn tiêu chí: (1) dựa trên dữ liệu có sẵn và có hiệu lực của hệ thống BI; (2) có thể lựa chọn đặc trưng/biến đầu vào linh hoạt trong quá trình dự báo - gọi tắt là mô hình dự báo động; (3) thuật toán được lựa chọn phù hợp và mang lại kết quả tốt cho dự báo; và (4) có thể dự báo trước khi sinh viên bắt đầu học phần. Dự báo sớm trước khi học là một bài toán ít được nghiên cứu trong dự báo kết quả học tập của người học(Hashim & cộng sự, 2020). 4.2.3.1 Thử nghiệm xây dựng mô hình dự báo động NCS đã kết hợp dữ liệu từ nhiều nguồn (tuyển sinh và đào tạo) để xây dựng mô hình dự báo, sử dụng các đặc trưng phản ánh năng lực của thí sinh từ cả hai khía cạnh: học thuật (điểm Toán, Văn, Ngoại ngữ) và phi học thuật (tỉnh, giới tính). Cách tiếp cận này mang lại một cái nhìn toàn diện về năng lực của thí sinh.
Bước 2: Lựa chọn thuật toán Do các đặc trưng đầu vào đa dạng và có thể có mối quan hệ phi tuyến phức tạp giữa các đặc trưng nên NCS quyết định dùng mô hình mạng nơ-ron học sâu, ANN đa lớp hay DNN để dự báo. Phương pháp sử dụng mạng ANN đa lớp cũng được chứng minh là hiệu quả trong nhiều nghiên cứu khác (Abosamra & Faloudah, 2019; Alam & cộng sự, 2021; Hussain & cộng sự, 2018; Latifah & cộng sự, 2019; Mengash, 2020; Xiao & Yi, 2021). Bước 1: Lựa chọn đặc trưng dùng trong dự báo. Bước 2: Sử dụng LR để kiểm tra các đặc trưng/ biến đầu vào được đưa vào mô hình cho nhận thấy: (1) Mỗi môn học có một ảnh hưởng riêng biệt và độc lập đối với kết quả đỗ/trượt của môn học cụ thể; (2) Mức độ ảnh hưởng sẽ khác nhau và việc thêm vào hoặc loại bỏ điểm trung bình một số môn học có thể ảnh hưởng tới độ chính xác của mô hình; (3) Dự báo việc đỗ/ trượt một môn học từ điểm trung bình của các môn học khác cho độ chính xác tổng thể cao > 80%.
Bước 3: Huấn luyện mô hình, lựa chọn thuật toán dự báo phù hợp từ 5 thuật toán phân loại phổ biến LR, GNB, KNN, SVR, RF. Khi các đặc trưng dùng để dự báo tương tự nhau, đều là giá trị định lượng, các thuật toán này có độ chính xác tương đối cao và cho tốc độ xây dựng mô hình nhanh chóng. 5 thuật toán được thử nghiệm trên cùng một bộ dữ liệu. Lựa chọn mô hình dựa trên so sánh các tham số trong ma trận nhầm lẫn và chỉ số hiệu suất. 4.2.3.2 Kết luận từ thử nghiệm xây dựng mô hình dự báo động Bước 3: Xây dựng mô hình và huấn luyện mô hình DNN dự báo học tập được thiết kế với lớp đầu vào gồm 6 nút, mỗi nút tương ứng với một thông tin tuyển sinh, sử dụng hàm kích hoạt tuyến tính và hàm khởi tạo uniform. Lớp ẩn của mô hình bao gồm 3 tầng, mỗi tầng có 25 nút, sử dụng hàm kích hoạt Relu và khởi tạo uniform. Lớp đầu ra gồm 1 nút, đại diện cho điểm trung bình (GPA), sử dụng hàm kích hoạt sigmoid và khởi tạo uniform. Hệ số học được đặt ở mức 0.005, đảm bảo mức độ cập nhật trọng số hợp lý trong quá trình tối ưu hóa. Hàm tối ưu adamax giúp điều chỉnh và tối ưu trọng số của mô hình dựa trên dữ liệu Bước 4: Đánh giá kết quả thử nghiệm mô hình qua độ chính xác tổng thể và hàm MSE Các chỉ số hiệu suất của mô hình phụ thuộc vào việc lựa chọn các đặc trưng là điểm trung bình các môn học trước đó. Việc dự báo kết quả học của một môn thực hành dựa trên điểm số của các môn lý thuyết cho độ chính xác tổng thể thấp hơn là
23
24
4.2.5 Kết quả phát triển hệ thống
KẾT LUẬN
1. Tổng kết quá trình nghiên cứu
Hệ thống BIG là một giải pháp tổng thể gồm mô-đun trích xuất và tổng hợp dữ liệu từ đào tạo, tuyển sinh, và công tác sinh viên vào kho dữ liệu. Hệ thống cung cấp giao diện web thân thiện cho lãnh đạo và quản lý, cho phép theo dõi báo cáo và bảng tin tổng quan, chi tiết về các bộ phận. Với 24 dạng báo cáo, cùng với khả năng truy vấn và sinh báo cáo theo ngữ cảnh tự nhiên hệ thống thay đổi góc nhìn quản lý qua phân tích dữ liệu trực quan. Hệ thống hỗ trợ dự báo thông qua học máy và xác suất thống kê, giúp dự đoán kết quả học tập và hỗ trợ chọn ngành học cho sinh viên.
Từ quá trình phát triển hệ thống, NCS rút ra điều kiện, yêu cầu đối với hệ thống, phương pháp thực hiện khi phát triển hệ thống. Điều kiện cần thiết gồm dữ liệu chất lượng cao, hạ tầng CNTT ổn định và cam kết từ lãnh đạo. Yêu cầu đáp ứng bao gồm khả năng mở rộng, tính dễ sử dụng, bảo mật và quyền riêng tư. Phương pháp thực hiện gồm phát triển lặp đi lặp lại, tích hợp công cụ phù hợp và kiểm tra, đánh giá liên tục. 4.3 Các khuyến nghị triển khai 4.3.1 Về mặt tổ chức
Hệ thống cần được triển khai phù hợp với tầm nhìn và mục tiêu tổng thể của tổ chức, có sự cam kết từ ban lãnh đạo, có sự chuẩn bị về kỹ năng của nhân viên về phân tích dữ liệu và sử dụng BI. Quy trình đào tạo, quản lý được cần tự động hóa, đảm bảo tiêu chuẩn kiểm định. 4.3.2 Về mặt quản lý
Luận án nghiên cứu đề xuất mô hình hệ thống BI dự báo dựa trên dữ liệu người học cho các CSGD ĐH Việt Nam. Trên cơ sở phân tích bối cảnh chung, bối cảnh của giáo dục và tình hình nghiên cứu, ứng dụng trong và ngoài nước, luận án đã xác định nhu cầu cấp thiết của việc xây dựng hệ thống BI dự báo dựa trên dữ liệu người học nhằm kiểm soát và giám sát hiệu suất của CSGD ĐH, cung cấp thông tin hỗ trợ cho các nhà quản lý đại học trong việc ra quyết định và quản trị đại học, cũng như thông tin trong việc điều chỉnh cách thức dạy và học hướng tới người học, cá nhân hóa đối với người học nhằm nâng cao chất lượng đào tạo và khả năng cạnh tranh của CSGD ĐH. Luận án sử dụng phương pháp nghiên cứu chủ đạo là phương pháp Khoa học thiết kế DSR cùng các phương pháp bổ trợ là phương pháp phân tích và tổng hợp tài liệu, phương pháp khảo sát và xử lý dữ liệu định tính. Luận án đã xác định khoảng trống nghiên cứu từ nghiên cứu tổng quan trong và ngoài nước. Luận án sử dụng (1) các lý thuyết nền tảng về hệ thống trí tuệ doanh nghiệp, hệ thống trí tuệ doanh nghiệp trong giáo dục và lý thuyết về phân tích dự báo dựa trên dữ liệu học thuật, (2) các yếu tố đặc trưng của CSGD ĐH Việt Nam ảnh hưởng tới hệ thống, (3) nhu cầu về dự báo dựa trên dữ liệu người học thực tế để từ đó đề xuất mô hình hệ thống BI với tính năng dự báo dựa trên dữ liệu người học. Mô hình bao gồm 3 khía cạnh là mô hình kiến trúc, mô hình quy trình triển khai và mô hình xử lý dữ liệu phân tích dự báo. Môi trường triển khai thử nghiệm hệ thống là trường đại học G với dữ liệu người học được thu thập trong vòng 5 năm. Từ kết quả thử nghiệm, luận án cũng đưa ra các khuyến nghị để có thể triển khai mô hình tại các CSGD ĐH Việt Nam. Các khuyến nghị nhóm theo 3 khía cạnh quan trọng tác động tới hệ thống là tổ chức, quản lý và công nghệ. Đồng thời, luận án cũng đề xuất khuyến nghị liên quan tới việc đánh giá hiệu quả của hệ thống.
Thành lập một hội đồng năng lực BI có sự tham gia của các chuyên gia nghiệp vụ, phân tích dữ liệu, và quản lý dữ liệu để định hướng triển khai và giám sát tiến trình phát triển hệ thống. Đào tạo và phát triển đội ngũ nhân sự chuyên môn cho phép vận hành và duy trì hệ thống. Xây dựng các chính sách quản trị rõ ràng cho BI, dữ liệu và cơ sở hạ tầng, góp phần tạo nền tảng minh bạch và bền vững. 4.3.3 Về mặt công nghệ
Đánh giá hiện trạng công nghệ thông tin và xây dựng lộ trình cải tiến hạ tầng CNTT để đảm bảo đồng bộ hóa. Ứng dụng các công nghệ tiên tiến như điện toán đám mây và khai thác dữ liệu hiện đại để tăng cường năng lực lưu trữ và phân tích. Bảo mật dữ liệu cần được chú trọng với các biện pháp như mã hóa, quản lý truy cập, và giám sát liên tục. 4.4 Khuyến nghị về đánh giá hệ thống
Đánh giá hiệu quả của hệ thống BI qua khả năng hiển thị, tính linh hoạt, hiệu quả vận hành, và độ chính xác dự báo. Định kỳ rà soát và cập nhật hệ thống sẽ giúp phát hiện các cơ hội cải tiến và đảm bảo rằng BI luôn đáp ứng được nhu cầu thực tiễn của CSGD ĐH. Kết quả nghiên cứu của luận án về cơ bản đã trả lời được các câu hỏi nghiên cứu và bổ sung tri thức vào các khoảng trống nghiên cứu, đặt nền tảng cho việc nghiên cứu, triển khai và ứng dụng hệ thống BI nói chung và hệ thống BI dự báo dụa trên dữ liệu người học nói riêng tại CSGD ĐH Việt Nam. Tuy nhiên kết quả nghiên cứu còn nhiều hạn chế về dữ liệu, thử nghiệm, và đánh giá hệ thống. Về dữ liệu, chưa tập trung khai thác các dạng dữ liệu động và hành vi người học từ hệ thống trực tuyến, do mức độ phổ biến của các hệ thống quản lý học tập (LMS) và thách thức trong xử lý dữ liệu lớn, động. Về thử nghiệm, hệ thống BI đã thử nghiệm các chức năng lõi như tạo báo cáo và dự báo kết quả học tập, truy vấn sinh báo cáo theo ngữ cảnh, nhưng vẫn cần hoàn thiện thêm do giới hạn tài chính và thời gian. Về đánh giá, việc đánh giá hệ thống cần được thực hiện liên tục để tối ưu hóa vận hành, đảm bảo an ninh và nâng cao trải nghiệm người dùng, nhưng cần thêm thời gian để có đánh giá toàn diện và đưa ra các cải tiến cần thiết. Đây cũng là hướng phát triển tiếp theo của luận án.