BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ QUỐC DÂN ––––––––––––––––––
HÀN MINH PHƯƠNG
NGHIÊN CỨU ĐỀ XUẤT MÔ HÌNH HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP VỚI TÍNH NĂNG DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC TẠI CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM
LUẬN ÁN TIẾN SĨ NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ
HÀ NỘI – 2025
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ QUỐC DÂN ––––––––––––––––––
HÀN MINH PHƯƠNG
NGHIÊN CỨU ĐỀ XUẤT MÔ HÌNH HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP VỚI TÍNH NĂNG DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC TẠI CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM
LUẬN ÁN TIẾN SĨ
Chuyên ngành: Hệ thống thông tin quản lý
Mã số: 9340405
Người hướng dẫn khoa học:
1. TS. Phạm Minh Hoàn
2. TS. Nguyễn Trung Tuấn
HÀ NỘI – 2025
i
LỜI CAM KẾT
Tôi đã đọc và hiểu về các hành vi vi phạm sự trung thực trong học thuật. Tôi cam kết bằng danh dự cá nhân rằng luận án tiến sĩ này do tôi tự thực hiện và không vi phạm yêu cầu về sự trung thực trong học thuật.
Hà Nội, ngày tháng năm 2024
Nghiên cứu sinh (ký và ghi rõ họ tên)
Hàn Minh Phương
ii
LỜI CẢM ƠN
Để hoàn thành luận án này, nghiên cứu sinh xin được gửi lời cảm ơn chân thành đến TS. Phạm Minh Hoàn và TS. Nguyễn Trung Tuấn đã hỗ trợ, hướng dẫn và đồng hành trong suốt quá trình thực hiện nghiên cứu.
Xin cảm ơn Ban giám hiệu, Viện Đào tạo Sau đại học – Đại học Kinh tế Quốc Dân đã hết sức tạo điều kiện để chương trình đào tạo tiến sĩ ngành Hệ thống thông tin quản lý được diễn ra thuận lợi.
Xin cảm ơn quý Thầy Cô Trường Công nghệ – Đại học Kinh tế Quốc dân đã trang bị cho nghiên cứu sinh những kiến thức chuyên ngành nâng cao và khả năng nghiên cứu chuyên sâu trong chuyên ngành Hệ thống thông tin quản lý.
Xin cảm ơn lãnh đạo Trường Đại học Thương Mại các đồng nghiệp trong Khoa Hệ thống thông tin Kinh tế và Thương mại điện tử – Trường Đại học Thương Mại đã tạo điều kiện và gánh vác một phần công việc giúp nghiên cứu sinh có thể tập trung thực hiện việc nghiên cứu.
Cuối cùng, nghiên cứu sinh muốn dành lời cảm ơn đặc biệt tới gia đình, bạn bè thân thiết đã luôn ở bên cạnh quan tâm, hỗ trợ, động viên nghiên cứu sinh trong những thời điểm khó khăn nhất của quá trình nghiên cứu.
Xin trân trọng cảm ơn!
Hà Nội, ngày tháng năm 2024
Nghiên cứu sinh
iii
MỤC LỤC
LỜI CAM KẾT .............................................................................................................. i LỜI CẢM ƠN ............................................................................................................... ii MỤC LỤC .................................................................................................................... iii DANH MỤC TỪ VIẾT TẮT ...................................................................................... vi DANH MỤC HÌNH ..................................................................................................... ix MỞ ĐẦU .........................................................................................................................1 1. Lý do chọn đề tài ..................................................................................................1 2. Mục tiêu nghiên cứu .............................................................................................7 3. Câu hỏi nghiên cứu ...............................................................................................8 4. Đối tượng và phạm vi nghiên cứu ........................................................................8 5. Phương pháp nghiên cứu ......................................................................................9 6. Những đóng góp của luận án ..............................................................................14 7. Kết cấu của luận án .............................................................................................15 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU .....................................17 1.1 Tổng quan về nghiên cứu và ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học ..............................................................................................17 1.1.1 Nghiên cứu ngoài nước .................................................................................17 1.1.2 Nghiên cứu trong nước ..................................................................................31 1.1.3 Vấn đề và khoảng trống trong nghiên cứu, ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học .......................................................................33 1.2 Tổng quan về nghiên cứu dự báo dựa trên dữ liệu người học .......................34 1.2.1 Nghiên cứu ngoài nước .................................................................................34 1.2.2 Nghiên cứu trong nước ..................................................................................44 1.2.3 Nhận định về nghiên cứu dự báo dựa trên dữ liệu người học .......................45 1.3 Tổng kết Chương 1 ............................................................................................47 CƠ SỞ LÝ THUYẾT ...........................................................................48 2.1 Hệ thống trí tuệ doanh nghiệp ..........................................................................48 2.1.1 Hệ thống trí tuệ doanh nghiệp trong môi trường doanh nghiệp ....................48 2.1.2 Hệ thống trí tuệ doanh nghiệp trong môi trường giáo dục ............................54 2.2 Phân tích dữ liệu người học và dự báo dựa trên dữ liệu người học ..............61 2.2.1 Dữ liệu người học ..........................................................................................61 2.2.2 Phân tích dữ liệu người học ...........................................................................62 2.2.3 Dự báo dựa trên dữ liệu người học ................................................................64 2.3 Tổng kết Chương 2 ............................................................................................74
iv
ĐỀ XUẤT MÔ HÌNH HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP HỖ TRỢ DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC CHO CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM ................................................................................................76 3.1 Phân tích, đánh giá các yếu tố ảnh hưởng tới hệ thống .................................76 3.1.1 Phân tích các yếu tố ảnh hưởng .....................................................................76 3.1.2 Đánh giá các yếu tố ảnh hưởng .....................................................................82 3.2 Nhu cầu của phân tích và dự báo dựa trên dữ liệu người học tại cơ sở giáo dục đại học Việt Nam ...............................................................................................84 3.2.1 Nhu cầu liên quan tới tuyển sinh ...................................................................84 3.2.2 Nhu cầu liên quan tới theo dõi giám sát hỗ trợ người học ............................85 3.2.3 Nhu cầu liên quan tới tăng tỷ lệ tốt nghiệp ...................................................86 3.3 Mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự báo dựa trên dữ liệu người học cho cơ sở giáo dục đại học Việt Nam ....................................................87 3.3.1 Mô hình kiến trúc hệ thống ...........................................................................87 3.3.2 Mô hình quy trình xây dựng và phát triển hệ thống ................................... 103 3.4 Tổng kết Chương 3 ......................................................................................... 108 THỬ NGHIỆM CHỨC NĂNG CHÍNH CỦA HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP VỚI TÍNH NĂNG DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC TẠI CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM VÀ MỘT SỐ KHUYẾN NGHỊ .......................................................................................................................... 109 4.1 Thiết kế thử nghiệm ........................................................................................ 109 4.1.1 Mục tiêu và phạm vi thử nghiệm ................................................................ 109 4.1.2 Đơn vị thử nghiệm ...................................................................................... 109 4.1.3 Quy trình phát triển hệ thống thử nghiệm .................................................. 110 4.1.4 Công cụ, công nghệ, môi trường phát triển hệ thống thử nghiệm .............. 112 4.1.5 Thiết kế kiến trúc hệ thống thử nghiệm ...................................................... 114 4.2 Kết quả thử nghiệm ........................................................................................ 117 4.2.1 Cài đặt ETL và Kho dữ liệu ....................................................................... 117 4.2.2 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu đánh giá kết quả và dữ liệu hành vi của người học .......................................................................................... 120 4.2.3 Kết quả xây dựng mô hình dự báo động dựa trên dữ liệu đánh giá kết quả của người học ............................................................................................................. 126 4.2.4 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu tuyển sinh và dữ liệu đánh giá kết quả của người học .................................................................................... 139 4.2.5 Kết quả phát triển hệ thống ........................................................................ 147 4.3 Phân tích đánh giá các kết quả thử nghiệm ................................................. 152
v
4.4 Các khuyến nghị triển khai ............................................................................ 154 4.4.1 Về mặt tổ chức ............................................................................................ 155 4.4.2 Về mặt quản lý ............................................................................................ 157 4.4.3 Về mặt công nghệ ....................................................................................... 160 4.5 Khuyến nghị về đánh giá hệ thống ................................................................ 161 4.6 Tổng kết Chương 4 ......................................................................................... 162 KẾT LUẬN ............................................................................................................... 164 1. Tổng kết quá trình nghiên cứu ........................................................................ 164 2. Những đóng góp mới của luận án .................................................................... 164 3. Hạn chế và hướng phát triển ........................................................................... 166 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ....................... 167 TÀI LIỆU THAM KHẢO ........................................................................................ 168 PHỤ LỤC .................................................................................................................. 183 Phụ lục 1 ................................................................................................................. 183 Phụ lục 2 ................................................................................................................. 188 Phụ lục 3 ................................................................................................................. 191 Phụ lục 4 ................................................................................................................. 194 Phụ lục 5 ................................................................................................................. 198 Phụ lục 6 ................................................................................................................. 201 Phụ lục 7 ................................................................................................................. 202
vi
DANH MỤC TỪ VIẾT TẮT
Từ viêt tắt Nghĩa tiếng Anh
Nghĩa tiếng Việt
Artificial Intelligence
Trí tuệ nhân tạo
AI
Application Programming Interface
Giao diện lập trình ứng dụng
API
Business Analytics
Phân tích kinh doanh
BA
Business Intelligence
Trí tuệ doanh nghiệp
BI
BIDM
Business Intelligence Design Model
Mô hình thiết kế hệ thống trí tuệ doanh nghiệp
Business Process Discovery
Khám phá quy trình kinh doanh
BPD
Business Performance Management
Quản lý hiệu suất kinh doanh
BPM
Bayesian profile regression
Hồi quy hồ sơ Bayes
BPR
Balanced Scorecard
Thẻ điểm cân bằng
BSC
CART
Classification And Regression Tree
Cây phân loại và hồi quy
Chief Executive Officer
Giám đốc điều hành
CEO
Chief Financial Officer
Giám đốc tài chính
CFO
Điểm trung bình tích lũy
CGPA
Cumulative Grade Point Average
Công nghệ thông tin
CNTT
Chief Operation Officer
Giám đốc vận hành
COO
Customer Relationship Management
Quản trị quan hệ khách hàng
CRM
Phân tích hành vi được hỗ trợ bởi máy tính
CSBA
Computer–supported behavioral analytics
CSGD ĐH
Cơ sở giáo dục đại học
Computer–supported learning analytics
Phân tích học tập được hỗ trợ bởi máy tính
CSLA
Computer–supported predictive analytics
Phân tích dự báo được hỗ trợ bởi máy tính
CSPA
Computer–supported visualization analytics Phân tích trực quan được hỗ trợ bởi máy tính
CSVA
Databasse Managemetn Systems
Hệ quản trị cơ sở dữ liệu
DBMS
Deep Neural Networks
Mạng nơ-ron sâu
DNN
Design Science Research
Phương pháp nghiên cứu khoa học
DSR
Decision Tree
Cây quyết định
DT
Educational Data Minning
Khai phá dữ liệu giáo dục
EDM
Enterprise Resource Planning
Hoạch định nguồn lực doanh nghiệp
ERP
Extract, Transform and Load
Trích xuất, chuyển đổi và tải dữ liệu
ETL
Economic Value–Add
Giá trị gia tăng kinh tế
EVA
Functional Area Information Systems
Các hệ thống thông tin chức năng
FAIS
General Achievement Test
GAT
Kiểm tra kiến thức phổ thông trước tốt nghiệp cấp 3
Gaussian Naive Bayes
Phiên bản Gaussian của Naive Bayes
GNB
Grade Point Average
Điểm trung bình
GPA
Human Resource
Hệ thống quản lý nguồn nhân lực
HR
vii
Từ viêt tắt Nghĩa tiếng Anh
Nghĩa tiếng Việt
IoT
Internet of things
Vạn vật kết nối
KNN
K–nearest neighbors
K láng giếng gần nhất
KPI
Key Performance Indicator
Chỉ số hiệu suất chính
LA
Learing Analytics
Phân tích dữ liệu học tập
LMS
Learning Management System
Hệ thống quản lý học tập
LR
(Binary) Logistic Regression
Hồi quy nhị phân logistic
LSTM
Long Short–Term Memory
Bộ nhớ ngắn–dài hạn
ML
Machine Learning
Học máy
MLP
Multilayer Perceptron
Mạng nơ-ron đa lớp
MQL
Marketing Qualified Leads
Tỷ lệ khách hàng tiềm năng được tiếp thị
NB
Naïve Bayes
OBIEE
Oracle Business Intelligence Enterprise Edition Phiên bản trí tuệ doanh nghiệp của Oracle
ODS
Operational Data Store
Kho dữ liệu hoạt động
OI
Organizational Intelligence
Trí tuệ tổ chức
OKR
Objectives and Key Results
Kết quả then chốt
OLAP
Online Analytical Processing
Xử lý phân tích trực tuyến
PMS
Planing Management System
Hệ thống quản lý kế hoạch
RBM
Restricted Boltzmann Machine
Kỹ thuật máy Boltzmann bị hạn chế
RF
Random Forest
Rừng ngẫu nhiên
RTBI
Real Time Business Intelligence
Hệ thống trí tuệ kinh doanh thời gian thực
Aptitude
Test/Scholastic
SAT
Đánh giá năng lực xét tuyển đại học (Mỹ)
Scholastic Assessment Test
SIS
Student Information System
Hệ thống quản lý thông tin người học
SMO
Sequential Minimal Optimisation
Tối ưu hóa cực tiểu tuần tự
Sequential Minimal Optimization
for
SMOreg
Tối ưu hóa tuần tự tối thiểu trong hồi quy
Regression
SPSS
Statistical Package for the Social Sciences
Phần mềm thống kê cho các ngành khoa học và xã hội
SQL
Structured Query Language
Ngôn ngữ truy vấn cấu trúc
SVM
Support vector machines
Máy véc–tơ hỗ trợ
SVR
Support Vector Regression
Hồi quy véc–tơ hỗ trợ
TOC
Theory of Constraint
Lý thuyết ràng buộc
TQM
Total Quality Management
Quản lý toàn diện
xGBoost
Extreme Gradient Boosting
Tăng cường Gradient cực đại
viii
DANH MỤC BẢNG Bảng 1.1: Nghiên cứu về khung hệ thống BI cho cơ sở giáo dục đại học ....................21 Bảng 3.1: So sánh giải pháp kho dữ liệu thương mại và mã nguồn mở ........................92 Bảng 3.2: Một số nội dung báo cáo được đề xuất .........................................................95 Bảng 3.3: Nội dung dự báo dựa trên dữ liệu học cho CSGD ĐH Việt Nam ................97 Bảng 3.4: Đánh giá về đáp ứng các yêu cầu phi chức năng của mô hình đề xuất ..... 101 Bảng 4.1: Ví dụ một số câu hỏi cần giải quyết của các bộ phận ................................ 111 Bảng 4.2: Tổng hợp kết quả hai lần chạy xây dựng mô hình dự báo đỗ/ trượt trong lần học môn 1651 ............................................................................................ 123 Bảng 4.3: Tổng hợp kết quả ba lần chạy kiểm tra đặc trưng đầu vào ........................ 127 Bảng 4.4: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của môn thực hành và lý thuyết ............................................... 135 Bảng 4.5: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của 3 môn thực hành ................................................................ 136 Bảng 4.6: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của 3 môn lý thuyết ................................................................. 137 Bảng 4.7: Kết quả chạy thử nghiệm mô hình dự báo tuyển sinh ............................... 145 Bảng 4.8: Báo cáo đầu ra của hệ thống ...................................................................... 151
ix
DANH MỤC HÌNH
Hình 1.1: Khung nghiên cứu .........................................................................................13
Hình 2.1: Các thành phần chính của hệ thống Trí tuệ doanh nghiệp ............................50
Hình 2.2: Khung hệ thống Trí tuệ doanh nghiệp ...........................................................59
Hình 3.1: Tỉ trọng các mức đạt tiêu chuẩn kiểm định 11 của các CSGD ĐH...............78
Hình 3.2: Quy trình nghiệp vụ liên quan tới dữ liệu người học ...................................80
Hình 3.3: Dữ liệu tuyển sinh tổng hợp từ trang của Bộ Giáo dục và Đào tạo ..............85
Hình 3.4: Mô hình kiến trúc hệ thống được đề xuất .....................................................89
Hình 3.5: Mô hình xử lý dữ liệu dựa trên dữ liệu người học ..................................... 101
Hình 3.6: Quy trình xây dựng mô hình dự báo được đề xuất ..................................... 105
Hình 3.7: Mô hình quy trình xây dựng, phát triển hệ thống được đề xuất ................. 106
Hình 3.8: Quy trình xây dựng, phát triển hệ thống được đề xuất ............................... 107
Hình 4.1: Kiến trúc BIG ............................................................................................. 114
Hình 4.2: Trình tự xử lý yêu cầu báo cáo ................................................................... 115
Hình 4.3: Trình tự xử lý yêu cầu dự báo động ........................................................... 115
Hình 4.4: Trình tự xử lý yêu cầu dự báo dựa trên mô hình đã huấn luyện ................ 116
Hình 4.5: Trình tự xử lý yêu cầu truy vấn sử dụng ngôn ngữ tự nhiên ...................... 116
Hình 4.6: Các ca sử dụng của người dùng hệ thống ................................................... 117
Hình 4.7: Nội dung một tập tin dữ liệu nguồn từ bộ phận Công tác sinh viên .......... 118
Hình 4.8: Mô-đun trích xuất và làm sạch dữ liệu ....................................................... 118
Hình 4.9: Bảng dữ liệu được trích xuất từ cơ sở dữ liệu của trang AP ...................... 119
Hình 4.10: Trích xuất, chuyển đổi và tải dữ liệu ........................................................ 120
Hình 4.11: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là các kết quả của các môn thực hành và các kết quả của các môn lý thuyết. ............................................................................................................. 136
Hình 4.12: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là kết quả của 3 môn thực hành ............................................. 137
x
Hình 4.13: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là kết quả của 3 môn lý thuyết ............................................... 138
Hình 4.14: Mô hình mạng học sâu ............................................................................. 144
Hình 4.15: Kết quả làm tròn của đầu ra dự báo so với kết quả thực tế trên tập huấn luyện (trái) và tập kiểm tra (phải) ......................................................................................... 146
Hình 4.16: Giá trị hàm mất mát theo các chu kỳ ........................................................ 146
Hình 4.17: Quy trình tóm lược tạo mô hình dự báo ................................................... 147
Hình 4.18: Giao diện hệ thống BIG............................................................................ 148
Hình 4.19: Báo cáo kết quả các hoạt động ngoại khoá của sinh viên ....................... 148
Hình 4.20: Báo cáo tỷ lệ qua môn .............................................................................. 148
Hình 4.21: So sánh GPA Toán, Văn, Ngoại ngữ của các sinh viên nhập học theo chuyên ngành .......................................................................................................................... 148
Hình 4.22: Giao diện dự báo lựa chọn ngành dựa trên dữ liệu tuyển sinh ................. 149
Hình 4.23: Giao diện dự báo kết quả người học ......................................................... 149
Hình 4.24: Giao diện truy vấn sử dụng ngôn ngữ tự nhiên ........................................ 150
Hình 4.25: Giao diện truy vấn tạo báo cáo theo tình huống ....................................... 150
Hình 4.26: Giao diện truy vấn tạo báo cáo về bỏ học ................................................ 151
1
MỞ ĐẦU
1. Lý do chọn đề tài
a. Bối cảnh chung
Môi trường kinh doanh hiện nay đang biến đổi không ngừng và sự cạnh tranh khốc liệt khiến cho hoạt động của các tổ chức, doanh nghiệp ngày càng trở nên phức tạp. Việc ra quyết định của tổ chức vốn đã rất khó khăn thì nay càng trở nên thách thức hơn bao giờ hết. Để có thể đưa ra những quyết định chính xác trong các hoạt động lên kế hoạch, tổ chức, kiểm soát, giám sát và lãnh đạo, các nhà quản lý cần có cái nhìn toàn diện và hiểu biết sâu về hoạt động của tổ chức. Ra quyết định chính xác giúp tổ chức không chỉ tồn tại mà còn đạt được các mục tiêu chiến lược của mình.
Hệ thống Trí tuệ Doanh nghiệp (Business Intelligence Systems – BI systems), gọi tắt là hệ thống BI, là một hệ thống thông tin cho phép phân tích và trực quan hóa dữ liệu được trích xuất từ nhiều nguồn khác nhau. Hệ thống này hỗ trợ nhà quản lý, lãnh đạo hiểu sâu hơn về các vấn đề phức tạp, xác định xu hướng nổi bật trong và ngoài tổ chức. Từ đó, có thể đưa ra các quyết định đúng đắn, cải thiện hiệu suất hoạt động và xây dựng mối quan hệ bền chặt với khách hàng (Apraxine & Stylianou, 2017).
Tổ chức thông minh trong thế kỷ 21 sử dụng hệ thống BI để tăng khả năng nhạy bén, đáp ứng nhu cầu của một thị trường thay đổi nhanh chóng và khắt khe. Hệ thống tập trung vào việc kiểm soát hiệu lực và hiệu quả của các hoạt động nghiệp vụ, đồng thời đánh giá sự tương thích giữa các chỉ số hiệu suất với mục tiêu của tổ chức. Thông qua việc tích hợp dữ liệu lịch sử (có thể cả dữ liệu thời gian thực), hệ thống BI giúp tổ chức nắm bắt thông tin kịp thời, xác định các vấn đề phát sinh và theo dõi tác động của những thay đổi lên tổ chức. Các công nghệ như kho dữ liệu, phần mềm tích hợp và dịch vụ web đóng vai trò quan trọng trong việc hiện thực hóa các mục tiêu này.
Ngoài ra, hệ thống BI còn giúp tổ chức nhận diện và theo dõi các xu hướng cũng như biến động của thị trường. Thông qua phân tích dữ liệu, các mẫu hình, xu hướng và mối quan hệ tiềm ẩn có thể được khám phá, từ đó hỗ trợ tổ chức trong việc dự báo, hình thành tri thức mới và định hướng chiến lược phát triển dài hạn một cách bền vững.
Trong lĩnh vực giáo dục đại học, hệ thống BI đóng vai trò quan trọng trong nhiều khía cạnh. BI là công cụ hữu hiệu trong việc theo dõi và phân tích hành vi học tập trực tuyến của sinh viên, từ đó giúp các nhà quản lý phát hiện sớm sinh viên có nguy cơ thất bại và đưa ra can thiệp kịp thời (Falakmasir & cộng sự, 2010). Đồng thời, BI giúp nhận biết điểm mạnh, điểm yếu của từng sinh viên để cung cấp hỗ trợ cá nhân hóa, dạy kèm
2
phù hợp (Al Farsi & Saini, 2015; Piedade & Santos, 2010). Thông qua phân tích dữ liệu chi tiết về sở thích và kết quả học tập, các CSGD ĐH có thể điều chỉnh chương trình học, tăng cường sự hài lòng và tỷ lệ duy trì. Hệ thống giúp CSGD ĐH đánh giá và phát triển chương trình học một cách chính xác, nhận biết nhu cầu và xu hướng học tập để điều chỉnh hoặc giới thiệu các chương trình mới (Baepler & Murdoch, 2010). Ngoài ra, BI là một công cụ mạnh mẽ trong lĩnh vực tuyển sinh và tiếp thị, giúp các nhà quản lý hiểu rõ về các chỉ số quan trọng như số lượng thí sinh, chi phí và hiệu quả của các chiến dịch tuyển sinh (Apraxine & Stylianou, 2017). Sử dụng thông tin nhân khẩu học từ BI trong chiến lược tiếp thị giúp CSGD ĐH nhắm mục tiêu thị trường một cách thông minh, mở rộng đối tượng và tối ưu hóa chiến dịch quảng bá (Falakmasir & cộng sự, 2010). Bên cạnh đó, BI cung cấp công cụ để so sánh chất lượng giáo dục giữa các đơn vị trong cùng một tổ chức và giữa các tổ chức khác nhau, giúp các nhà quản lý giáo dục thiết lập chính sách và mục tiêu chiến lược nhằm nâng cao chất lượng đào tạo, đáp ứng nhu cầu của thị trường và xã hội (Nidhishree & Badar, 2019). Tóm lại, BI đã hỗ trợ tích cực cho CSGD ĐH trong việc theo dõi kết quả học tập, cá nhân hóa và nâng cao trải nghiệm học tập, tối ưu hóa chương trình học, hỗ trợ tuyển sinh và so sánh chất lượng giáo dục giữa các CSGD ĐH.
b. Bối cảnh thực tiễn của các cơ sở giáo dục đại học Việt Nam
Các CSGD ĐH Việt Nam là một bộ phận quan trọng trong hệ thống giáo dục quốc dân, giữ vai trò đào tạo các trình độ của giáo dục đại học, thực hiện các hoạt động nghiên cứu khoa học, chuyển giao công nghệ và phục vụ cộng đồng. Các CSGD ĐH cung cấp dịch vụ đặc biệt là đào tạo người học chất lượng cao, phù hợp với yêu cầu thị trường.
Từ năm 2015, với việc triển khai Nghị quyết 77/NQ–CP của Chính phủ và sau đó được luật hóa thông qua Luật sửa đổi, bổ sung một số điều của Luật Giáo dục đại học (Luật số 34) cùng Nghị định 99/2019/NĐ–CP, Việt Nam đã chính thức thực hiện chủ trương tự chủ đại học. Đây là xu thế phù hợp với mô hình quản trị đại học hiện đại trên thế giới, tạo cơ hội để các CSGD ĐH đầu tư vào điều kiện bảo đảm và nâng cao chất lượng đào tạo, cạnh tranh trong tuyển sinh, thu hút sinh viên giỏi, hướng tới thực chất và phát triển bền vững. Tuy nhiên, quá trình này cũng đi kèm với nhiều thách thức, không chỉ đối với các trường công lập mà cả các trường đại học ngoài công lập.
Với cơ chế tự chủ, nhiều CSGD ĐH ngày càng vận hành như một loại hình doanh nghiệp đặc thù – phải chủ động về tài chính, tự chịu trách nhiệm về hiệu quả hoạt động và đối mặt với áp lực cạnh tranh gay gắt trong tuyển sinh và đào tạo. Tính tới năm 2022, trong số 232 CSGD ĐH, đã có 141 đơn vị đáp ứng các điều kiện để thực hiện tự chủ
3
theo quy định tại khoản 2 Điều 32 của Luật Giáo dục đại học1. Cũng theo báo cáo của Bộ Giáo dục và Đào tạo, giai đoạn 2014–2020, số lượng CSGD ĐH tăng khoảng 10%. Việc mở rộng quy mô đào tạo đại học đã làm gia tăng cạnh tranh tuyển sinh giữa các CSGD ĐH. Nguồn tuyển sinh bị chia nhỏ, khiến nhiều CSGD ĐH, đặc biệt là các trường nhỏ, địa phương, gặp khó khăn trong việc tuyển đủ chỉ tiêu. Sự phân hóa giữa các nhóm trường ngày càng rõ nét khi các trường danh tiếng thu hút sinh viên giỏi, trong khi các trường yếu hơn gặp khó khăn trong việc duy trì hoạt động ổn định.
Bên cạnh áp lực cạnh tranh tuyển sinh, tự chủ tài chính cũng đặt ra thách thức lớn đối với các trường công lập khi nguồn ngân sách nhà nước ngày càng bị cắt giảm. Nguồn kinh phí từ ngân sách nhà nước thu hẹp, buộc người học phải gánh phần lớn chi phí học tập. Hệ quả là, việc học đại học không chỉ là sự tiếp nối con đường học vấn mà còn trở thành một quyết định mang tính đầu tư dài hạn của cá nhân, với kỳ vọng có được việc làm ổn định và thu nhập tốt. Tuy nhiên, thực trạng những năm gần đây cho thấy tại nhiều CSGD ĐH, một bộ phận không nhỏ sinh viên tốt nghiệp không có việc làm, hoặc làm trái ngành nghề được đào tạo. Tình trạng này làm giảm niềm tin của người học, khiến họ có xu hướng định hướng sang các chương trình đào tạo ngắn hạn, chi phí thấp hơn nhưng có tính thực tiễn cao và cơ hội việc làm rõ ràng hơn.
Trong bối cảnh đó, các CSGD ĐH phải đối mặt với áp lực kép: vừa phải đảm bảo chất lượng đầu ra, vừa phải duy trì và gia tăng quy mô tuyển sinh để đảm bảo nguồn thu và sự tồn tại lâu dài. Điều này đặt ra yêu cầu cấp thiết về đổi mới quản trị đại học, nâng cao chất lượng đào tạo và tạo dựng danh tiếng trong môi trường cạnh tranh khốc liệt. Các CSGD ĐH không chỉ cần cải thiện hiệu quả giảng dạy và nghiên cứu mà còn phải chứng minh được chất lượng đó một cách minh bạch và có hệ thống. Trách nhiệm giải trình vì thế đóng vai trò then chốt, giúp tạo niềm tin và nâng cao vị thế của các CSGD ĐH trong môi trường giáo dục. Việc giám sát, đánh giá và khẳng định chất lượng trở thành một xu hướng tất yếu trong bối cảnh tự chủ và được triển khai thông qua hoạt động kiểm định. Kiểm định chất lượng không chỉ nhằm công nhận ở cấp quốc gia mà còn hướng tới sự thừa nhận quốc tế, giúp các CSGD ĐH khẳng định uy tín và khả năng đáp ứng kỳ vọng của các bên liên quan.
1 Báo cáo tại Hội nghị Tự chủ Đại học năm 2022
Để đáp ứng bối cảnh thực tiễn của CSGD ĐH Việt Nam, các CSGD ĐH cần triển khai đồng bộ nhiều giải pháp đổi mới. Một trong những hướng đi quan trọng là đẩy mạnh ứng dụng công nghệ thông tin (CNTT), đặc biệt là các hệ thống thông minh như BI, giúp nâng cao hiệu quả trong công tác quản trị, nâng cao năng lực cán bộ quản lý. Đồng thời, xây dựng mối quan hệ chặt chẽ với người học, hỗ trợ hoạt động kiểm định, giúp các CSGD
4
ĐH thích ứng với quá trình chuyển đổi số đang diễn ra mạnh mẽ trong giáo dục đại học hiện nay2.
c. Tình hình nghiên cứu, ứng dụng
Hệ thống BI đã được quan tâm nghiên cứu bởi các nhà khoa học thuộc các tổ chức giáo dục đại học và viện nghiên cứu trên thế giới. Các nghiên cứu, ứng dụng cho thấy tính hữu dụng và mức độ quan trọng của các công cụ BI, của hệ thống BI trong CSGD ĐH. Các CSGD ĐH với lợi thế sở hữu nguồn tài nguyên dữ liệu lớn, tăng trưởng liên tục theo thời gian và đặc thù là cung cấp dịch vụ trực tiếp cho người học, cần nhận thức được nhu cầu hiểu biết về dữ liệu là quan trọng và thiết yếu cho tương lai (Apraxine & Stylianou, 2017).
Về nghiên cứu, các nghiên cứu về hệ thống BI trong CSGD ĐH có thể chia làm hai hướng chính bao gồm nghiên cứu về khung (thuật ngữ tiếng Anh tương ứng là framework) cho hệ thống BI và nghiên cứu triển khai thử nghiệm thực tế hệ thống BI tại CSGD ĐH.
2 Quyết định 131/QĐ–TTg ngày 25/01/2022 về Phê duyệt Đề án Tăng cường ứng dụng CNTT và chuyển đổi số trong GDĐT
Về hướng thứ nhất, các nghiên cứu đề xuất các khung gồm: khung kiến trúc mô tả các tầng, các thành phần công nghệ; khung quy trình phát triển hệ thống; khung chung tổng hợp gồm các thành phần công nghệ và phi công nghệ (như tầm nhìn, sứ mệnh, chiến lược, chỉ số hoạt động, quy trình, quy trình kinh doanh lõi, con người, v.v.) liên quan tới hoạch định và quản trị hệ thống. Các nghiên cứu về khung cho thấy việc xây dựng hệ thống BI trong các CSGD ĐH không chỉ đơn thuần là áp dụng các giải pháp kỹ thuật, kế thừa từ mô hình kho dữ liệu, mà còn đòi hỏi một cách tiếp cận theo ngữ cảnh, nhằm đảm bảo hệ thống có thể hỗ trợ hiệu quả cho việc thực hiện các mục tiêu chiến lược cụ thể của nhà trường. Do đó, quá trình xây dựng cần tập trung vào việc xác định rõ bối cảnh song song với việc lựa chọn hoặc xây dựng các công cụ tích hợp, công cụ khai thác dữ liệu phù hợp để đưa ra được các chỉ số đo lường việc hoàn thành mục tiêu đã đặt ra. Trong quá trình nghiên cứu, NCS phát hiện thấy có nhiều nghiên cứu sử dụng tiêu chuẩn kiểm định làm căn cứ cho các chỉ số đo lường ở đầu ra của hệ thống BI của CSGD ĐH. Đây cũng là xu hướng phù hợp khi kiểm định giáo dục đại học được sử dụng để đo lường chất lượng đạt chuẩn quốc gia và quốc tế của một CSGD ĐH.
5
Về hướng thứ hai, các nghiên cứu xây dựng thử nghiệm hệ thống tại từng CSGD ĐH. Mỗi một hệ thống BI được thử nghiệm trên thực tế sẽ có đặc điểm riêng khác biệt, bởi không có hai CSGD ĐH nào vận hành theo cùng một cách thức. Các hệ thống BI tùy chỉnh linh hoạt việc sử dụng, tích hợp các công cụ mã nguồn mở và các công cụ thương mại thích hợp bao gồm: (1) Công cụ trích xuất, chuyển đối và tải dữ liệu như SAS ETL, IBM DataStage, Talend Open Studio (TOS), Pentaho Data Integration,
Clover ETL (CloverDX), SQL (SQL Server Integration Services – SSIS) v.v.; (2) Công cụ lưu trữ, quản lý dữ liệu như mySQL, Oracle, SQL Server, v.v.; (3) Công cụ hỗ trợ người dùng tương tác với dữ liệu như IBM Cognos, OBIEE, Power BI, SpagoBI, Tableau, Pentaho, Qliksense, Jaspersoft, Jedox v.v.
Hệ thống sử dụng các công nghệ có thể khác nhau tùy theo môi trường triển khai
và tùy thuộc vào bộ phận thụ hưởng, các ứng dụng của BI cũng khác nhau. Thông thường
dữ liệu chủ yếu được trích xuất từ các nguồn như hệ thống quản lý đào tạo hoặc hệ thống
quản lý sinh viên (Student Information System – SIS), quản lý học tập trực tuyến
(Learning Management System – LMS), dữ liệu thậm chí có thể được thu thập từ mạng
lưới vạn vật kết nối (Internet of things – IoT) như hệ thống giám sát thẻ của sinh viên
trong khuôn viên CSGD ĐH. Các đơn vị chủ yếu sử dụng BI trong CSGD ĐH là tuyển
sinh, đào tạo, truyền thông và quản lý để xử lý các vấn đề về học tập, cố vấn học tập.
Hệ thống tập trung giải quyết bài toán về sự biến động số lượng người học và tỷ lệ tốt
nghiệp đúng hạn – những áp lực chính đối với mỗi CSGD ĐH.
Về ứng dụng, hệ thống BI trong CSGD ĐH được áp dụng chậm hơn so với các
ngành công nghiệp khác do yêu cầu cần đầu tư công nghệ và khả năng chuyên môn hóa
cao. Tuy nhiên, hiện nay các GSGD ĐH đã có nhiều tiến bộ trong việc sử dụng BI. Một
số CSGD ĐH trên thế giới đã áp dụng không chỉ công cụ chuyên biệt cho trích xuất
chuyển đổi và tải dữ liệu (Extract, Transform and Load – ETL) mà cả các công cụ BI
doanh nghiệp. Ví dụ như Purdue University và University of Texas tại Hợp chủng quốc
Hoa Kỳ đã phát triển các bảng điều khiển trực quan và cổng thông tin như Data Digest và
Spotlight Data, cung cấp báo cáo chi tiết, công khai về tuyển sinh, giáo dục, tài chính và
nghiên cứu, hỗ trợ hoạt động quản lý và ra quyết định của các bên liên quan. Ở mức quốc gia các cổng thông tin như US News3 và Niche4 là hai nền tảng phổ biến, giúp tổng hợp
3 https://www.usnews.com 4 https://www.niche.com
dữ liệu, so sánh và đánh giá về hơn 4000 CSGD ĐH tại Hoa Kỳ.
6
d. Khoảng trống và định hướng nghiên cứu
Như đã đề cập, trên thế giới, có nhiều nghiên cứu và hoạt động ứng dụng hệ thống
BI cho các CSGD ĐH. Tuy nhiên, phần lớn trong số đó chỉ tập trung vào các quốc gia
có nền tảng công nghệ hiện đại và quản trị đại học tiên tiến. Bên cạnh đó, trong hầu hết
các trường hợp ứng dụng, một số công cụ chuyên biệt hoặc chương trình tuỳ chỉnh được
sử dụng để thực hiện quy trình ETL, một số công cụ BI chuyên dụng đã được triển khai
để xây dựng các báo cáo tiêu chuẩn, bảng thông tin tổng hợp và các truy vấn đặc biệt.
Hạn chế dễ nhận thấy khi ứng dụng là việc sử dụng các công cụ BI thương mại vốn dành
cho doanh nghiệp gây tốn kém về chi phí, phức tạp về vận hành. Bên cạnh đó, việc tự
tạo lập báo cáo tốn nhiều thời gian, công sức và đòi hỏi phải có kiến thức sâu về chuyên
môn và công nghệ. Sự xung đột từ các nguồn dữ liệu khác biệt và sự tập trung quá mức
gây tắc nghẽn trong hệ thống cũng là yếu tố hết sức quan trọng cần lưu ý. Trong tương
lai, ngoài sự xuất hiện của dữ liệu phi cấu trúc (dữ liệu từ các hệ thống cảm ứng phân
tán, quẹt thẻ ) đặt ra yêu cầu về tích hợp, xử lý và khai thác, thì Trí tuệ nhân tạo (AI –
Artificial Intelligence) cũng sẽ là xu hướng được sử dụng phổ biến để cải thiện sự hiểu
biết và hỗ trợ hoạt động ra quyết định quản lý.
Đối với các quốc gia đang phát triển, nơi mà các CSGD ĐH đa phần có quy mô
nhỏ và vừa, có mong muốn hoặc định hướng chiến lược phát triển bền vững nhưng cơ
sở hạ tầng CNTT chưa đồng bộ, việc nghiên cứu và ứng dụng hệ thống BI vẫn còn hiếm
gặp. Tại Việt Nam, trong bối cảnh tự chủ giáo dục đại học, việc ứng dụng hệ thống BI
tại các CSGD ĐH là rất cần thiết để giúp các nhà quản lý có cái nhìn tổng hợp về hiệu
suất, đồng thời hiểu rõ nhu cầu người học và cá nhân hoá dịch vụ giáo dục. Tuy nhiên,
hiện tại còn thiếu nghiên cứu đầy đủ về mô hình hệ thống BI phù hợp cho các CSGD
ĐH cùng chung bối cảnh và có các đặc điểm chung về tổ chức, quản lý và công nghệ.
Các thách thức đối với CSGD ĐH Việt Nam bao gồm mức độ chuyển đổi số thấp, dữ
liệu cho báo cáo quản trị chưa được khai thác hiệu quả, cùng các yêu cầu về tối ưu chi
phí hoạt động. Đối với việc khai thác dữ liệu người học, ở mức độ mô tả, thiếu bảng
thông tin tổng hợp cung cấp chỉ số cho quá trình học tập tại các trình độ và chuyên ngành
cụ thể, các chỉ số thành công cho các khóa học, các chỉ số rút khỏi khóa học v.v. Ở mức
độ dự báo, thiếu tầm nhìn rõ ràng về trình độ của người học để lập kế hoạch học tập dựa
trên trình độ, không có đủ kiến thức về sự thành công hay thất bại của người học khi
7
đăng ký bất kỳ khoá, chương trình học nào hay thiếu hiểu biết về trình độ của một người
học để điều chỉnh phương pháp giảng dạy của giảng viên, tạo sự phân bổ người học
trong một lớp học một cách tối ưu để tạo ra các lớp học đồng nhất, tăng cường sự hỗ trợ
từ đội ngũ cố vấn học tập v.v. Bên cạnh đó, các nghiên cứu độc lập về khai phá dữ liệu
của người học để dự báo rất phát triển, đã sử dụng nhiều phương pháp công cụ chuyên
biệt, đòi hỏi thao tác xử lý khá phức tạp, nhưng lại chưa có bằng chứng khoa học nào
cho thấy những nghiên cứu này tiếp cận từ góc độ hệ thống thông tin, xem xét mô đun
dự báo dựa trên dữ liệu người học như một phân hệ của hệ thống để đề xuất giải pháp
triển khai cũng như đánh giá hiệu quả.
Trên cơ sở những phân tích về bối cảnh chung, bối cảnh thực tiễn của giáo dục
đại học Việt Nam và tình hình nghiên cứu, ứng dụng hệ thống, NCS lựa chọn đề tài
"Nghiên cứu đề xuất mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự báo
dựa trên dữ liệu người học tại cơ sở giáo dục đại học Việt Nam" cho luận án tiến sĩ
của mình với mục tiêu bổ sung kiến thức mới về lý thuyết và thực tiễn phát triển, ứng
dụng hệ thống BI hỗ trợ dự báo tại CSGD ĐH Việt Nam, góp phần nâng cao chất lượng
đào tạo và quản lý tại các CSGD ĐH, phù hợp với định hướng phát triển của Đảng và
Nhà nước, với xu hướng công nghiệp hoá, hiện đại hoá đất nước.
2. Mục tiêu nghiên cứu
Mục tiêu tổng quát: Nghiên cứu đề xuất mô hình Hệ thống trí tuệ doanh nghiệp
với tính năng dự báo (viết tắt 'hệ thống BI dự báo') dựa trên dữ liệu người học tại CSGD
ĐH Việt Nam nhằm cung cấp các báo cáo quản trị đa dạng từ dữ liệu tích hợp về người
học, đồng thời đưa ra nhận định về xu hướng phát triển của người học trong tương lai
gần, hỗ trợ cho nhà quản lý trong các quyết định liên quan tới đào tạo và tuyển sinh, cá
nhân hóa dịch vụ cho người học. Để đạt được mục tiêu tổng quát, các mục tiêu cụ thể
được đề ra như sau:
Mục tiêu cụ thể:
Thứ nhất: nghiên cứu đề xuất mô hình hệ thống BI dự báo dựa trên dữ liệu người
học dành cho CSGD ĐH Việt Nam, đảm bảo thu thập, trích xuất, tải, trực quan hóa, khai
phá trên lượng dữ liệu người học từ nhiều nguồn, đáp ứng yêu cầu tăng trưởng, phân tán
dữ liệu của CSGD ĐH.
Thứ hai: nghiên cứu đề xuất phương pháp (quy trình, kỹ thuật, nội dung) dự báo
dựa trên dữ liệu người học của hệ thống, hỗ trợ các nhà quản lý trong việc ra quyết định,
nâng cao hiệu suất, chất lượng của dịch vụ đào tạo.
8
Thứ ba: thử nghiệm tại một CSGD ĐH tại Việt Nam. Kết quả thử nghiệm nhằm
làm rõ hơn các điều kiện, yêu cầu, cách thức triển khai hệ thống trong thực tiễn.
Thứ tư: đưa ra các khuyến nghị để có thể ứng dụng mô hình hệ thống BI dự báo
dựa trên dữ liệu người học vào thực tiễn của các CSGD ĐH Việt Nam.
3. Câu hỏi nghiên cứu
Luận án hướng đến mục tiêu nghiên cứu xây dựng mô hình hệ thống BI tích hợp
tính năng dự báo dựa trên dữ liệu người học, thông qua việc trả lời các câu hỏi nghiên cứu
sau:
- Câu hỏi 1: Những yếu tố nào cần được xem xét khi đề xuất một mô hình hệ thống
BI dự báo dựa trên dữ liệu người học cho CSGD ĐH Việt Nam?
- Câu hỏi 2: Những kỹ thuật và nội dung nào cần thiết, cách thức nào phù hợp
trong hệ thống để dự báo dựa trên dữ liệu người học?
- Câu hỏi 3: Các điều kiện, yêu cầu và cách thức triển khai mô hình hệ thống BI dự báo dựa trên dữ liệu người học trong thực tế tại một CSGD ĐH ở Việt Nam là gì?
- Câu hỏi 4: Những khuyến nghị nào là cần thiết để ứng dụng hiệu quả mô hình hệ thống BI dự báo dựa trên dữ liệu người học vào thực tiễn tại các CSGD ĐH Việt Nam?
4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Mô hình hệ thống BI với tính năng dự báo dựa trên dữ liệu
người học tại CSGD ĐH Việt Nam. Đối tượng nghiên cứu bao gồm: (i) khái niệm, kiến
trúc, khía cạnh hệ thống BI, mục tiêu và khung của hệ thống BI trong tổ chức giáo dục đại
học; (ii) nội dung dự báo dựa trên dữ liệu người học, phương pháp thu thập và xử lý dữ liệu
người học, đặc biệt là các phương pháp phân tích thống kê và học máy; (iii) nhu cầu thông
tin và ràng buộc hệ thống trong CSGD ĐH ở Việt Nam; (iv) việc triển khai mô hình hệ
thống BI, xây dựng mô hình dự báo trong môi trường giáo dục đại học Việt Nam.
Phạm vi nghiên cứu: Giới hạn cho các CSGD ĐH Việt Nam, tập trung vào vấn
đề tích hợp dữ liệu người học, xây dựng báo cáo trên dữ liệu người học, dự báo trên dữ
liệu học tập phục vụ cho đào tạo, tuyển sinh và công tác sinh viên.
Các dữ liệu cụ thể đã được thu thập và sử dụng:
- Dữ liệu thứ cấp gồm báo cáo kết quả kiểm định CSGD ĐH thu thập từ 2018–
2023.
9
- Dữ liệu sơ cấp về người học của một Trường Đại học liên kết quốc tế (sau đây gọi là Trường G)5 được thu thập từ 2015–2021 thông qua các hoạt động quản lý
đào tạo, tuyển sinh, công tác sinh viên tại Trường.
5. Phương pháp nghiên cứu
Nghiên cứu sử dụng kết hợp các phương pháp gồm: (1) Phương pháp phân tích
và tổng hợp lý thuyết nhằm xây dựng cơ sở lý luận, tri thức về vấn đề nghiên cứu; (2)
Phương pháp nghiên cứu định tính dựa trên dữ liệu thứ cấp nhằm hiểu rõ hơn về thực
trạng và nhu cầu của hệ thống BI dự báo tại các CSGD ĐH Việt Nam; (3) Phương pháp
nghiên cứu khoa học thiết kế (Design Science Research Methodology – DSR) được
dùng phổ biến trong nghiên cứu hệ thống thông tin nhằm tạo ra các tạo tác (artifact) có
tính sáng tạo để giải quyết các vấn đề và cải thiện môi trường khởi tạo vấn đề, đồng thời
nâng cao hiểu biết, mở rộng tri thức của nhà nghiên cứu (Peffers & cộng sự, 2007).
a. Phương pháp phân tích và tổng hợp lý thuyết
Phương pháp phân tích và tổng hợp lý thuyết nhằm nghiên cứu các lý thuyết liên
quan tới đối tượng nghiên cứu, tiếp cận đối tượng nghiên cứu theo từng thành phần,
từng khía cạnh để hiểu về đối tượng một cách toàn diện, đồng thời phát hiện những
trường phái, xu hướng nghiên cứu của từng nhà nghiên cứu. NCS sử dụng phương pháp
này để tìm kiếm, liên kết, sắp xếp hệ thống hóa gần 200 tài liệu từ các nguồn của nhà
xuất bản uy tín Springer, IEEE, v.v. nhằm tổng hợp một cách đầy đủ khoa học, xây dựng
tổng quan nghiên cứu và hệ thống lý thuyết liên quan tới nghiên cứu.
b. Phương pháp nghiên cứu định tính
Phương pháp nghiên cứu định tính khảo sát dữ liệu thứ cấp gồm báo cáo kết quả
kiểm định CSGD ĐH của 36 trường do một tổ chức kiểm định chất lượng của Việt Nam
thực hiện, nhằm làm rõ hơn về thực trạng của CSGD ĐH Việt Nam và nhu cầu của
CSGD ĐH đối với hệ thống và đối với việc phân tích dự báo dựa trên dữ liệu người học.
Trong nghiên cứu định tính, có hai loại dữ liệu chính gồm dữ liệu sơ cấp và dữ
liệu thứ cấp. Dữ liệu sơ cấp là dữ liệu được thu thập trực tiếp như phỏng vấn chuyên
5 Vì lý do đảm bảo bảo mật dữ liệu của Trường thực nghiệm, các bộ dữ liệu và thông tin của Trường được mã hóa trong luận án.
gia, lấy ý kiến của các bên trong các nhóm thảo luận tập trung v.v. Dữ liệu thứ cấp là
10
dữ liệu được thu thập từ các tài liệu đã có sẵn như báo cáo, nghiên cứu, v.v. Trong
nghiên cứu này, NCS sử dụng dữ liệu khảo sát là các ý kiến đã được ghi nhận trong
các văn bản khuyến nghị cho CSGD ĐH. Thực chất, đây là ý kiến của hội đồng chuyên
gia kiểm định và là dữ liệu thứ cấp đủ uy tín, khách quan đảm bảo phục vụ cho việc
tổng hợp thông tin cần thiết. Các trường trong nhóm khảo sát đại diện đầy đủ cho các
nhóm trường như công lập, tư thục, tự chủ, không tự chủ, trường trọng điểm, trường
địa phương, trường chuyên ngành. Do đó, những nhận định được tổng hợp từ dữ liệu
này là phù hợp và đảm bảo tính toàn diện, tin cậy. Các bước thu thập và xử lý dữ liệu
như sau:
Bước 1: Xác định các nguồn dữ liệu thứ cấp. Nguồn dữ liệu được lấy từ các
trang: (1) Trang web chính thức của tổ chức kiểm định chất lượng giáo dục đại học Việt
Nam được cấp phép, chứa các Nghị quyết của Hội đồng Kiểm định chất lượng giáo dục
về việc thẩm định chất lượng giáo dục đối với từng CSGD ĐH được kiểm định. Trong
đó, phụ lục II trình bày ý kiến đánh giá của các chuyên gia về kết quả đánh giá chất
lượng giáo dục CSGD ĐH trong mỗi giai đoạn (chu kỳ 5 năm) và kiến nghị của chuyên
gia đối với CSGD ĐH về kế hoạch cải tiến chất lượng giáo dục theo các nhóm giải pháp;
(2) Thư viện Pháp Luật Việt Nam chứa thông tư của Bộ GDĐT về Quy định về cơ sở
dữ liệu giáo dục và đào tạo, Quy định về kiểm định chất lượng CSGD ĐH và Quy định
về tiêu chuẩn đánh giá chất lượng chương trình đào tạo các trình độ của giáo dục đại
học.
Bước 2: Tiến hành thu thập dữ liệu từ các loại nguồn xác định. Cho tới thời điểm
2023 có 13 tổ chức, trung tâm kiểm định chất lượng giáo dục trong nước và quốc tế
được công nhận tại Việt Nam. Trong đó, có tổng cộng 7 trung tâm kiểm định chất lượng
giáo dục trong nước, bao gồm: 2 trung tâm kiểm định tư thục được thành lập vào năm
2021, 1 trung tâm thuộc Hiệp hội các trường đại học, cao đẳng Việt Nam và 4 trung tâm
khác thuộc Đại học Quốc gia Hà Nội, Đại học Quốc gia TP.HCM, Đại học Đà Nẵng và Trường đại học Vinh6.
Mặc dù, nhiều CSGD ĐH cũng đã tiếp cận và thực hiện đánh giá chất lượng theo
các bộ tiêu chuẩn của một số tổ chức nước ngoài. Tuy nhiên để đảm bảo tính đồng bộ,
6 Website công khai thông tin về bảo đảm và kiểm định chất lượng giáo dục https://kdcldh.moet.gov.vn/kqkiemdinhcsgd.
luận án thực hiện thu thập thông tin gắn với CSGD ĐH đã đạt tiêu chuẩn chất lượng
11
giáo dục được quy định tại Thông tư 12/2017/TT–BGDĐT của Bộ Giáo dục và Đào tạo
và lựa chọn dữ liệu từ một trong số bảy tổ chức kiểm định trong nước uy tín nhất. Trung
tâm kiểm định thuộc Đại học Quốc gia Hà Nội được lựa chọn là nơi có số lượng các
CSGD ĐH đã được cấp phép cao – 86 lượt chứng nhận trong giai đoạn từ 2016–2023.
Bước 3: Dựa trên các đề xuất trong Nghị quyết, tiến hành phân tích và tổng hợp
thông tin nhằm làm rõ thực tiễn các yếu tố tác động đến hệ thống, đồng thời hiểu rõ hơn
về nhu cầu của các CSGD ĐH đối với hệ thống BI cũng như khả năng và nhu cầu khai
thác dữ liệu người học phục vụ hoạt động dự báo. Trong chu kỳ kiểm định 5 năm (2019–
2023), NCS đã tổng hợp nghị quyết dành cho 36 CSGD ĐH, tất cả đều đáp ứng các tiêu
chuẩn cơ bản với điểm số kiểm định trên 3. Danh sách chi tiết các CSGD ĐH được khảo
sát được trình bày tại Phụ lục 8.
Bước 4: Trình bày kết quả một cách logic về thực trạng và nhu cầu đối với hệ
thống BI cùng khả năng dự báo trên dữ liệu người học tại các CSGD ĐH Việt Nam.
c. Phương pháp nghiên cứu khoa học thiết kế
NCS sử dụng phương pháp DSR để tạo ra các tạo tác nhằm trả lời câu hỏi nghiên
cứu. DSR là phương pháp giải quyết vấn đề, tập trung vào việc phát triển các tạo tác
(artifact) sáng tạo để giải quyết vấn đề và cải thiện bối cảnh ứng dụng. Kết quả của DSR
bao gồm các tạo tác và tri thức thiết kế.
Tạo tác có thể là cấu trúc, mô hình, hoặc phương pháp; tri thức thiết kế bao gồm
cách xây dựng và tổ chức hệ thống, mô hình hóa quy trình, điều chỉnh hệ thống thông
tin theo chiến lược tổ chức, phân tích dữ liệu để ra quyết định và ứng dụng CNTT trong
thực hành bền vững.Trong quá trình sử dụng lý thuyết thiết kế để tạo ra các tạo tác, nhà
nghiên cứu sẽ được bổ sung hiểu biết không chỉ về lý thuyết, mà qua đó hiểu được lý do
tại sao các tạo tác lại nâng cao hoặc phá vỡ bối cảnh ứng dụng liên quan.
Mô hình DSR trong nghiên cứu của Vom Brocke & cộng sự (2020) được thực
hiện theo sáu bước gồm: (1) Xác định vấn đề và động lực; (2) Xác định mục tiêu cho
giải pháp; (3) Thiết kế và phát triển; (4) Thử nghiệm; (5) Đánh giá; (6) Công bố kết quả
(Vom Brocke & cộng sự, 2020). Trong mô hình sáu bước này sau khi các tạo tác được
tạo ra sẽ được sử dụng trong môi trường thử nghiệm, mô phỏng, các nghiên cứu điển
hình hoặc các hoạt động thích hợp khác. Đánh giá đo lường mức độ hỗ trợ của tạo tác
đối với giải pháp của vấn đề sẽ là hoạt động so sánh mục tiêu của một giải pháp với kết
quả quan sát thực tế từ việc sử dụng tạo tác trong ngữ cảnh cụ thể.
12
d. Khung nghiên cứu tổng quát
Tham khảo khung nghiên cứu của phương pháp nghiên cứu DSR được đề xuất
bởi Vom Brocke, J.& cộng sự (2020), NCS đã đề xuất khung nghiên cứu cho đề tài gồm
các thành phần như trình bày trong Hình 1.
Giải thích khung nghiên cứu: Ngữ cảnh xác định không gian vấn đề, phạm vi
nghiên cứu. Ngữ cảnh gồm tổ chức, quy trình quản lý và các công nghệ sẵn có hoặc
có xu hướng xuất hiện trong tương lai. Như vậy mục tiêu, nhiệm vụ, vấn đề và cơ hội
xuất phát từ nhu cầu của các bên liên quan, được xác định và đánh giá trong bối cảnh
chiến lược tổ chức, bị tác động bởi cấu trúc, văn hoá cũng như quy trình kinh doanh
hiện tại của tổ chức, được định vị so với hạ tầng công nghệ hiện tại, các ứng dụng,
kiến trúc truyền thông và khả năng phát triển. Tất cả các yếu tố kể trên xác định được
vấn đề nghiên cứu, lên khung các hoạt động nghiên cứu để giải quyết các nhu cầu thực
tế và đảm bảo tính phù hợp của nghiên cứu.
Cơ sở tri thức cung cấp hiểu biết về lý thuyết, phương pháp luận để thực hiện
nghiên cứu. Các nghiên cứu cơ bản trước đó sẽ xây dựng các lý thuyết nền, các khung
(framework), các công cụ, mô hình, phương pháp được sử dụng trong nghiên cứu, đặc
biệt là Giai đoạn thiết kế. Phương pháp luận cũng cung cấp các hướng dẫn được sử dụng
trong giai đoạn đánh giá.
Như vậy, ứng với mô hình DSR, ngữ cảnh và cơ sở tri thức là căn cứ thực hiện
bước 1 "Xác định động lực và vấn đề nghiên cứu". Xác định mục tiêu xây dựng hệ
thống và phân tích dự báo trên dữ liệu người học chính là "Xác định mục tiêu cho
giải pháp" ở bước 2. Quá trình "Phát triển" nhằm thực hiện bước 3 sẽ tạo ra một
mô hình hệ thống BI và giải pháp dự báo dựa trên dữ liệu người học. Thử nghiệm tại
một CSGD đào tạo sẽ hỗ trợ cho bước 4 "Thử nghiệm". Trong giai đoạn thử nghiệm
cũng thực hiện đồng thời việc "Đánh giá" ở bước 5 với mục tiêu lựa chọn mô hình
và trực quan hóa kết quả. Kết quả của nghiên cứu sẽ được công bố trong các tạp chí,
diễn đàn khoa học uy tín trong nước và quốc tế để thực hiện bước "Công bố" hay
bước 6.
13
Hình 1.1: Khung nghiên cứu
Nguồn: tác giả xây dựng
14
6. Những đóng góp của luận án
Những đóng góp mới về mặt học thuật, lý luận
Thứ nhất: Luận án sử dụng phương pháp tiếp cận mới thông qua việc xây dựng
khung lý thuyết đa ngành. Khung này liên kết hệ thống các tầng lý thuyết về Hệ thống
trí tuệ doanh nghiệp (Business Intelligence – BI), Phân tích học tập, Học máy và Dự báo
nhằm làm rõ vai trò, cấu trúc và nguyên lý vận hành của hệ thống BI trong giáo dục có
tích hợp chức năng dự báo và dựa trên dữ liệu người học.
Thứ hai: Luận án đã mở rộng cơ sở lý thuyết về hệ thống BI trong giáo dục thông
qua việc đề xuất một mô hình hệ thống tập trung vào hai năng lực cốt lõi còn thiếu vắng
trong các nghiên cứu trước: (i) khả năng dự báo dựa trên dữ liệu người học và (ii) khả
năng tự phục vụ thông minh dựa trên ứng dụng trí tuệ nhân tạo (AI). Mô hình được cụ
thể hóa trên ba khía cạnh: (1) Kiến trúc hệ thống được kế thừa và điều chỉnh từ các
nghiên cứu của Kimball, van Dyk (2008), Muntean và cộng sự (2010), Scholtz và cộng
sự (2018); (2) Quy trình phát triển hệ thống vận dụng có chọn lọc mô hình của Moss và
Atre (2003); (3) Logic phân tích và dự báo được tổ chức theo cấu trúc SIPOC từ nghiên
cứu của Villegas–Ch và cộng sự (2020). Mô hình được điều chỉnh để phù hợp với điều
kiện hạ tầng dữ liệu, năng lực công nghệ và yêu cầu triển khai thực tiễn tại các cơ sở
giáo dục đại học (CSGD ĐH) Việt Nam, bảo đảm tính khả thi, linh hoạt, khả năng mở
rộng và năng lực phân tích thông minh.
Thứ ba: Luận án đề xuất một phương pháp dự báo động cho phép lựa chọn linh
hoạt thuật toán phân loại và dữ liệu môn học đầu vào trong quá trình dự báo sớm kết
quả học tập. Tính linh hoạt này giúp hệ thống thích ứng với những thay đổi thường
xuyên trong chương trình đào tạo đại học. Đồng thời, luận án xây dựng mô hình mạng
nơ-ron học sâu nhằm hỗ trợ dự báo lựa chọn chuyên ngành, kết hợp dữ liệu học thuật
và phi học thuật từ quy trình đào tạo và đặc điểm tuyển sinh tại Việt Nam. Mặc dù mới
thử nghiệm tại một đơn vị, kết quả bước đầu cho thấy mô hình có tiềm năng ứng dụng
rộng rãi trong các CSGD ĐH khác trên toàn quốc.
Thứ tư: Luận án sử dụng phương pháp nghiên cứu hỗn hợp, kết hợp ba phương
pháp: (1) tổng hợp lý thuyết, (2) nghiên cứu định tính để phân tích bối cảnh thực tiễn và
(3) Design Science Research trong thiết kế mô hình và phát triển hệ thống. Nghiên cứu
dựa trên hai nguồn dữ liệu chính: 36 báo cáo kiểm định chất lượng giáo dục đại học
(2018–2023) và dữ liệu người học từ một trường đại học (2015–2021). Các nguồn dữ
15
liệu này đóng vai trò then chốt, làm cơ sở cho quá trình thiết kế, triển khai và cung cấp
bằng chứng thực nghiệm, đánh giá tính hiệu quả của mô hình dự báo được đề xuất trong
luận án.
Những phát hiện, đề xuất mới rút ra được từ kết quả nghiên cứu, khảo sát của
luận án
Luận án đã đề xuất mô hình hệ thống BI tích hợp tính năng dự báo phù hợp cho
các CSGD ĐH Việt Nam. Mô hình có khả năng tích hợp với hệ thống dữ liệu hiện có,
vận hành linh hoạt nhờ công nghệ hiện đại. Điểm nổi bật là việc thử nghiệm thành công
mô hình hệ thống có tính năng dự báo động và sử dụng mạng nơ-ron học sâu để hỗ trợ
sinh viên lựa chọn chuyên ngành dựa trên cả dữ liệu học thuật và phi học thuật.
Các CSGD ĐH nên triển khai hệ thống BI dự báo để hỗ trợ quản trị, cảnh báo
sớm rủi ro học tập và cá nhân hóa tư vấn học tập. Nhà quản lý cần ưu tiên đầu tư hạ tầng
dữ liệu và đào tạo nhân lực phân tích dữ liệu phù hợp với bối cảnh tự chủ và chuyển đổi
số. Nghiên cứu của luận án cũng mở ra hướng nghiên cứu mới về ứng dụng AI trong
giáo dục đại học Việt Nam.
7. Kết cấu của luận án
Ngoài các phần như Giới thiệu, Mục lục, Danh mục bảng biểu, Danh mục hình
vẽ, Danh mục từ viết tắt, Phần mở đầu, Kết luận, nội dung chính của luận án này được
tổ chức trong 4 chương, cụ thể gồm:
Chương 1: Tổng quan tình hình nghiên cứu
Chương 1 của luận án đã trình bày tổng quan các nghiên cứu liên quan đến hệ
thống BI trong giáo dục đại học và dự báo dựa trên dữ liệu người học, tập trung vào các
nghiên cứu trong khoảng thời gian 5 năm từ năm 2023 trở về trước. Dựa trên phân tích
tổng quan, NCS đã đưa ra những nhận định quan trọng và xác định các khoảng trống
nghiên cứu, từ đó xây dựng cơ sở và xác định hướng nghiên cứu của luận án.
Chương 2: Cơ sở lý thuyết
Nội dung chương trình bày cơ sở lý thuyết của hệ thống BI và lý thuyết về phân
tích và dự báo dữ liệu người học. Vai trò của hệ thống BI dựa trên dữ liệu người học
được làm rõ để luận giải trên cơ sở khoa học và thực tiễn về sự cần thiết của hệ thống
BI dựa trên dữ liệu người học cho CSGD ĐH nói chung và CSGD ĐH Việt Nam nói
riêng. Các yếu tố cấu thành và tác động tới hình thái hệ thống được làm rõ để hiểu được
16
cách thức tổ chức và hoạch định hệ thống. Khung hệ thống trong CSGD ĐH được tổng
hợp để làm cơ sở cho đề xuất mô hình hệ thống. Nội dung dự báo, kỹ thuật, quy trình
xây dựng mô hình dự báo được tìm hiểu để làm cơ sở đề xuất cách thức tích hợp tính
năng dự báo vào hệ thống. Tóm lại, cơ sở lý thuyết được trình bày trong Chương 2 giúp
NCS làm rõ dần câu hỏi nghiên cứu số 1 và câu hỏi nghiên cứu số 2 và là nền tảng lý
thuyết để NCS đề xuất mô hình hệ thống BI dự báo dựa trên CSGD ĐH tại Việt Nam.
Chương 3: Đề xuất mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự
báo dựa trên dữ liệu người học cho cơ sở giáo dục đại học Việt Nam
Nội dung chương gồm phân tích các yếu tố ảnh hưởng tới hình thái hệ thống và
nhu cầu phân tích dự báo đối với hệ thống, xuất phát từ các khuyến nghị cho các CSGD
ĐH Việt Nam (36 CSGD ĐH mẫu). Từ đó đề xuất mô hình chung cho hệ thống BI dự
báo dựa trên dữ liệu người học cho CSGD ĐH Việt Nam. Đề xuất mô hình bao gồm:
(1) mô hình kiến trúc hệ thống; (2) mô hình xử lý dữ liệu của hệ; (3) mô hình quy
trình xây dựng, phát triển hệ thống. Qua nội dung của Chương 2 và Chương 3, NCS
đã trả lời trọn vẹn câu hỏi nghiên cứu 1 và câu hỏi nghiên cứu 2 của luận án.
Chương 4: Thử nghiệm chức năng chính của hệ thống trí tuệ doanh nghiệp
với tính năng dự báo dựa trên dữ liệu người học tại cơ sở giáo dục đại học Việt
Nam và một số khuyến nghị
Nội dung Chương 4 trình bày về thử nghiệm xây dựng, phát triển hệ thống với
các chức năng lõi dựa trên mô hình đã đề xuất và các khuyến nghị triển khai hệ thống
tại CSGD ĐH Việt Nam, cùng với phương pháp đánh giá hiệu quả hệ thống sau khi triển
khai.
Việc thử nghiệm tại một CSGD ĐH giúp làm rõ sự phù hợp và tính khả thi của
đề xuất mô hình hệ thống ở Chương 3, đồng thời bổ sung các tri thức thực hành về phát
triển hệ thống BI với tính năng dự báo dựa trên dữ liệu người học, làm rõ điều kiện, yêu
cầu, cách thức trong triển khai hệ thống trên thực tế.
Kết quả thử nghiệm là một hệ thống có khả năng tích hợp dữ liệu từ nhiều nguồn,
có các chức năng tạo các báo cáo trực quan và bảng tin tổng hợp, chức năng truy vấn
linh hoạt bằng ngôn ngữ tự nhiên và truy vấn dựa trên tình huống, chức năng dự báo để
hỗ trợ cho nhà quản lý trong quá trình ra quyết định. Các mô hình dự báo được xây dựng
trong hai mảng gồm dự báo kết quả người học và dự báo hỗ trợ tuyển sinh.
17
TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.1 Tổng quan về nghiên cứu và ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học
Hiện nay, các CSGD ĐH đang ngày càng chú trọng vào việc tối ưu hóa hoạt động và nâng cao chất lượng quản lý thông qua việc áp dụng các hệ thống quản lý thông tin. Đơn cử như Hệ thống quản lý thông tin giáo dục (Education Management Information System – EMIS), SIS, LMS, Cổng thông tin điện tử và Hệ thống hoạch định nguồn lực doanh nghiệp (Enterprise Resource Planning – ERP). Mỗi hệ thống này đều có những ưu điểm nổi bật trong việc hỗ trợ quản lý hay tích hợp dữ liệu. Tuy nhiên, các hệ thống này vẫn còn những hạn chế nhất định về khả năng phân tích sâu và dự báo. Hệ thống SIS hoặc EMIS chủ yếu tập trung vào việc thu thập và quản lý dữ liệu. Trong khi đó, ERP có thế mạnh về tích hợp dữ liệu và lập báo cáo tài chính. LMS có thể theo dõi dữ liệu học tập nhưng không đủ khả năng để phân tích xu hướng học và hiệu quả giảng dạy một cách toàn diện. Tương tự, các cổng thông tin điện tử, dù tích hợp thông tin từ nhiều nguồn, cũng thiếu khả năng phân tích và dự báo. Đây chính là lý do giải thích cho việc lựa chọn hệ thống BI là thực sự cần thiết. Hệ thống BI với tính năng dự báo vừa kế thừa ưu điểm, vừa khắc phục những hạn chế của các hệ thống hiện tại nhờ cung cấp các công cụ phân tích dữ liệu mạnh mẽ. Với khả năng tích hợp dữ liệu từ nhiều nguồn, khai phá dữ liệu lịch sử, BI trở thành một công cụ đắc lực trong việc kiểm soát hiệu quả hoạt động của các CSGD ĐH, giúp CSGD ĐH đưa ra các quyết định chiến lược một cách chính xác, kịp thời.
1.1.1 Nghiên cứu ngoài nước
7 tạm dịch từ thuật ngữ "framework"
Trong giáo dục đại học, nghiên cứu về BI đã trải qua nhiều giai đoạn. Giai đoạn đầu bao gồm các nghiên cứu tập trung vào việc xây dựng kho lưu trữ dữ liệu, nơi dữ liệu được thu thập và hợp nhất từ nhiều nguồn, để hỗ trợ cho việc ra quyết định và đánh giá hiệu quả giảng dạy. Tiếp đến là các nghiên cứu về khung hệ thống7 nhằm hỗ trợ, hướng dẫn cho việc phát triển và ứng dụng BI. Những nghiên cứu hiện tại tập trung nhiều hơn vào việc tích hợp các công cụ BI tiên tiến, trí tuệ nhân tạo (Artificial Intelligence –AI) và học máy để nâng cao khả năng phân tích và dự báo. Có thể thấy, mỗi giai đoạn không chỉ phản ánh sự phát triển của hoạt động nghiên cứu, sự tiến bộ trong công nghệ, mà còn thể hiện sự thích ứng và đổi mới của các CSGD ĐH trong việc áp dụng công nghệ BI (van Dyk, 2008).
18
1.1.1.1 Nghiên cứu về khung hệ thống
Nghiên cứu khung hệ thống là một trong những hướng nghiên cứu quan trọng đặt nền móng cho việc phát triển và ứng dụng hệ thống. Trong những nghiên cứu đầu tiên, ý tưởng về khung kiến trúc BI được đề xuất dựa trên khung về kho dữ liệu của Kimball, giúp trích xuất, chuyển đổi và tải dữ liệu từ nhiều nguồn vào hệ thống lưu trữ dữ liệu, bao gồm các kho lưu trữ cục bộ (datamarts), hỗ trợ việc ra quyết định và đánh giá hiệu quả giảng dạy từ dữ liệu hệ thống LMS (van Dyk, 2008). Bên cạnh đó, các khái niệm như "Phân tích học thuật", "Khai phá dữ liệu trong giáo dục đại học" và "kiểm toán hệ thống quản lý khóa học" được kết nối lại và hình thành ý tưởng ban đầu về phân tích, khai phá dữ liệu của hệ thống BI (Baepler & Murdoch, 2010). Dựa trên những ý niệm ban đầu này, các nghiên cứu về sau từng bước đề xuất, hoàn thiện các khung đáp ứng cho việc triển khai, ứng dụng hệ thống BI trong CSGD ĐH. Cụ thể:
Nghiên cứu về "Nhu cầu cấp thiết về kho dữ liệu đối với một tổ chức giáo dục và những thách thức" đã đề xuất một loạt các bước để phát triển và xây dựng hệ thống kho dữ liệu được tùy chỉnh đặc biệt cho các CSGD ĐH. Nghiên cứu nhấn mạnh tầm quan trọng của việc xây dựng kho dữ liệu nhằm hỗ trợ quản lý cấp cao, cung cấp các góc nhìn đa chiều về dữ liệu lịch sử, giúp CSGD ĐH ra quyết định và quản lý hiệu quả (Shaweta, 2014).
Nghiên cứu về "Hệ thống BI hỗ trợ chiến lược của trường đại học" đã trình bày khung tổng hợp hệ thống BI dựa trên mô hình trưởng thành BI của Gartner để phát triển một giải pháp phù hợp cho các CSGD ĐH. Bên cạnh đó, nghiên cứu cũng trình bày giải pháp BI để đánh giá một nền tảng học trực tuyến dựa trên Moodle. Khung tổng hợp bao gồm các yếu tố như: (1) Tầm nhìn tổ chức; (2) Chiến lược mục tiêu; (3) Quy trình kinh doanh cần thiết để đạt chiến lược; (4) Quy trình khai thác dữ liệu và chỉ số hiệu suất chính (Key Performance Indicator – KPI); (5) Con người; (6) Công nghệ BI; (7) Hạ tầng công nghệ thông tin. Nghiên cứu cũng nhấn mạnh nhu cầu cần thiết của ứng dụng BI trong việc đo lường, giám sát và quản lý hiệu suất của CSGD ĐH một cách hiệu quả (Muntean & cộng sự, 2011).
Kế thừa khung được đề xuất ở trên, kết hợp với nghiên cứu về BI trong CSGD ĐH, nhóm tác giả Đại học Teknologi Malaysia đã thảo luận và đưa ra dẫn hướng chung để hỗ trợ cho các CSGD ĐH trong việc triển khai khung BI tổng hợp này. Trong nghiên cứu này, nhóm tác giả nhấn mạnh vào việc phân tích chuỗi giá trị khi thiết kế triển khai hệ thống để xác định các hoạt động mà từ đó CSGD ĐH có thể tạo ra giá trị vượt trội và lợi thế cạnh tranh, tối ưu hóa và cải thiện các hoạt động nhằm nâng cao hiệu quả, giảm chi phí và cung cấp giá trị tốt hơn cho khách hàng (Zulkefli & cộng sự, 2015).
19
Nghiên cứu về "Khung BI để quản lý thông tin bền vững tại CSGD ĐH" đề xuất khung kiến trúc gồm 8 thành phần: (1) Nguồn dữ liệu; (2) Trích xuất, chuyển đổi và tải dữ liệu; (3) Lưu dữ liệu; (4) Báo cáo; (5) Phân tích; (6) Giám sát; (7) Trình bày; (8) Người dùng và sáu bước phát triển bảng thông tin tổng hợp. Khung được đề xuất để hỗ trợ ra quyết định và đáp ứng yêu cầu báo cáo bền vững của CSGD ĐH Nam Phi. Các báo cáo bền vững sẽ cung cấp cho đối tượng quan tâm về các chỉ số đo lường cho các tiêu chuẩn bền vững của Tổ chức sáng kiến báo cáo toàn cầu (Global Reporting Initiative – GRI), ISO 14000, ba yếu tố mấu chốt (the Triple Bottom Line – TBL) và hệ thống theo dõi, đánh giá và xếp hạng bền vững (Sustainability Tracking, Assessment and Rating System STARS – STARS). Các CSGD ĐH áp dụng và đạt được các tiêu chuẩn này sẽ thể hiện cam kết của họ đối với sự phát triển bền vững và cung cấp một môi trường học tập lành mạnh, an toàn và khuyến khích sự sáng tạo cũng như ý thức về môi trường cho người học và cộng đồng. Đây là một khung kiến trúc mang tính tổng hợp, thỏa mãn tiêu chuẩn đầu ra cụ thể, có công cụ BI cung cấp bảng thông tin tổng hợp về hiệu suất, giúp người dùng tóm tắt nhiều khía cạnh bền vững và giám sát các chỉ số KPI (Scholtz & cộng sự, 2018).
Cũng là một cách tiếp cận, ở phạm vi nhỏ hơn, nhưng vẫn bắt nguồn từ khái niệm "BI ứng dụng cho CSGD ĐH", khái niệm về Trí tuệ giáo dục (Educational Intelligence – EI) đã được đề xuất đi cùng với các nghiên cứu về khung EI. Khung EI thỏa mãn ba tính năng chính: (1) Kho dữ liệu thiết kế cho CSGD ĐH; (2) Công cụ phân tích trực tuyến (Online Analytical Processing – OLAP) và báo cáo dữ liệu giáo dục cùng khả năng thực hiện nhiều quy trình phân tích mô tả và dự đoán; (3) Giao diện người dùng thân thiện (Chen, 2012). Khung kiến trúc EI gồm hai phần: (1) Tầng truy cập dữ liệu (Educational Data Warehouse – EDW); và (2) Tầng BI trình bày (Educational Business Intelligence – EduBI), có khả năng tích hợp công cụ mã nguồn mở và thương mại. Hệ thống EI về cơ bản tập trung vào việc ứng dụng các phương pháp để khai phá kiểu dữ liệu phức tạp từ môi trường giáo dục (Educational Data Mining – EDM), giúp hiểu và cải thiện việc học và môi trường giáo dục (Aziz & cộng sự, 2014).
Trong những nghiên cứu gần nhất về khung BI, các tác giả đã chú trọng nhiều hơn tới việc kết hợp kỹ thuật khai phá dữ liệu học thuật trong khung kiến trúc của hệ thống. Ví dụ, nghiên cứu "Hạ tầng lai kết hợp kiến trúc doanh nghiệp, BI và phân tích dữ liệu để quản lý tri thức trong giáo dục" đã đề xuất cơ sở hạ tầng hệ thống dựa trên sự tích hợp của hai kho dữ liệu là kho dữ liệu giáo dục (Educational Data Warehouse –
20
EDW) và kho lưu trữ doanh nghiệp (Enterprise Architecture – EA). Bằng cách sử dụng BI, phân tích dữ liệu và khai phá dữ liệu giáo dục, các thử nghiệm khác nhau có thể được thực hiện để cải thiện các chỉ số học tập (Moscoso–Zea & cộng sự, 2019). Tương tự, đối với nghiên cứu về khung quy trình ba chặng để phát triển hệ thống BI dựa trên kỹ thuật phân tích học tập (Learning Analytics – LA) với kết quả dự báo thành công của người học trong môi trường học trực tuyến (Valdiviezo–Díaz & cộng sự, 2015) và khung quy trình cho thiết kế hệ thống BI để phân tích dữ liệu học thuật nhằm khám phá nguyên nhân ảnh hưởng tới kết quả học tập của người học với một môn học cụ thể thông qua môi trường học tập trực tuyến (Villegas–Ch & cộng sự, 2018), hoặc khám phá nguyên nhân dẫn tới tình trạng bỏ học của người học (Villegas–Ch & cộng sự, 2020).
Ở phạm vi quốc gia, nghiên cứu của Khatibi & cộng sự (2020) đề xuất mô hình BI để hỗ trợ việc giám sát các chỉ số giáo dục đại học và cho phép dự báo các xu hướng trong tương lai thông qua việc tích hợp các nguồn dữ liệu bên trong và bên ngoài không đồng nhất. Nghiên cứu về các chỉ số giáo dục đại học của Iran được thực hiện với kỹ thuật dự báo dựa trên dữ liệu chuỗi thời gian cung cấp một cái nhìn tổng hợp về hệ thống giáo dục đại học, so sánh và dự báo về trình độ giáo dục đại học của Iran với các nước Trung Đông khác. Mô hình đề xuất trong nghiên cứu là một đặc tả chi tiết cho khung kiến trúc nhiều tầng bao gồm nguồn dữ liệu, ánh xạ dữ liệu, kho dữ liệu, theo dõi và dự báo và bảng thông tin tổng hợp (Khatibi & cộng sự, 2020).
Bên cạnh các nghiên cứu về khung tổng hợp, khung kiến trúc, khung quy trình, nghiên cứu tại Đại học de la Costa đã xác định một khung quản trị bao gồm nguyên tắc chỉ đạo, chiến lược, chính sách, quy trình, cơ quan ra quyết định và vai trò đối với hệ thống. Mục tiêu là triển khai các biện pháp kiểm soát hiệu quả, đảm bảo thành công của các dự án BI phù hợp với mục tiêu phát triển của CSGD ĐH. Mặc dù nghiên cứu đưa ra một mô hình áp dụng cho đại học de la Costa nhưng có thể nhân rộng và áp dụng cho các CSGD ĐH khác (Niño & cộng sự, 2020).
Tương tự, nghiên cứu ứng dụng lý thuyết ràng buộc (Theory of Constraint – TOC) trong phát triển hệ thống đã đưa ra năm bước tập trung để xác định các nút thắt cổ chai giúp sự phát triển của BI trở nên hoàn thiện hơn và khắc phục được các hạn chế đang tồn tại của CSGD ĐH (Kumaran & cộng sự, 2015).
21
Bảng 1.1: Nghiên cứu về khung hệ thống BI cho cơ sở giáo dục đại học
Tác giả Mô tả về khung trong nghiên cứu Đầu ra của hệ thống
(Liyang & cộng sự, 2011)
Khung khái niệm gồm 5 tầng: Cơ sở hạ tầng, dịch vụ dữ liệu, dịch vụ kinh doanh, dịch vụ giao diện người dùng, dịch vụ hoạt động.
(Muntean & cộng sự, 2011)
Đánh giá một nền tảng học tập trực tuyến và phân tích dữ liệu ở quy mô của toàn trường đại học.
Khung tổng hợp dựa trên mô hình trưởng thành BI của Gartner, bao gồm 7 yếu tố: (1) tầm nhìn tổ chức, (2) chiến lược mục tiêu, (3) quy trình kinh doanh cần thiết để đạt chiến lược, (4) quy trình khai thác dữ liệu và chỉ số KPI, (5) con người, (6) công nghệ BI, (7) hạ tầng công nghệ thông tin.
(Chen, 2012)
Khung hệ thống trí tuệ giáo dục (EI) thỏa mãn ba tính năng chính: kho dữ liệu thiết kế cho CSGD ĐH; công cụ OLAP báo cáo dữ liệu giáo dục, khả năng thực hiện nhiều quy trình phân tích mô tả và dự đoán; giao diện người dùng thân thiện.
(Muriithi & Kotzé, 2013) Khung quy trình ba bước gồm: phân tích tình huống, đánh giá tính phù hợp và thực hiện cho triển khai BI như một dịch vụ
(Aziz & cộng sự, 2014)
Khung kiến trúc hỗ trợ cho khái niệm hệ thống trí tuệ giáo dục EI gồm phần backend (EDW) và front end (EduBI) tích hợp công cụ mã nguồn mở và thương mại.
Khung quy trình 3 chặng để phát triển BI dựa trên kỹ thuật phân tích học tập (LA) Dự báo thành công của việc học trực tuyến. (Valdiviezo– Díaz & cộng sự, 2015)
Khung kiến trúc BI giám sát hoạt động của người học theo nhu cầu kiểm định. (Anardani & cộng sự, 2019) Báo cáo phục vụ tiêu chuẩn kiểm định BAN– PT
Chỉ số hiệu suất chính.
(Kumaran & cộng sự, 2015) Áp dụng lý thuyết ràng buộc xác định ràng buộc và nút thắt cổ chai cho một khung BI.
22
Tác giả Mô tả về khung trong nghiên cứu Đầu ra của hệ thống
(Zulkefli & cộng sự, 2015)
Khung BI gồm 8 thành phần. Tầm nhìn sứ mệnh; chiến lược; chỉ số hoạt động chính; quy trình kinh doanh cốt lõi; con người; các quy trình; công nghệ BI và cơ sở hạ tầng thông tin.
(Scholtz & cộng sự, 2018)
Khung BI cho quản lý thông tin bền vững gồm 8 thành phần (nguồn, ETL, lưu dữ liệu, báo cáo, phân tích, giám sát, trình bày, người dùng) và 6 bước phát triển bảng thông tin tổng hợp Các chỉ số khuyến nghị bởi STARS và GRI liên quan tới hoạt động, lập kế hoạch và quản trị, hợp tác, đào tạo
(Moscoso–Zea & cộng sự, 2019) Khung cơ sở hạ tầng tích hợp cho BI phân tích (BI&A) và quản lý tri thức dựa trên kho dữ liệu giáo dục (EDW) và kho lưu trữ kiến trúc doanh nghiệp (EA) Hiển thị và phân tích các thành phần như con người, quy trình và công nghệ.
Báo cáo và thông tin dự báo Khung quy trình cho thiết kế hệ thống BI để phân tích dữ liệu học thuật. (Villegas–Ch & cộng sự, 2020)
(Trisnawarman & Imam, 2020) Khung BI được đề xuất bao gồm năm phần, đó là nguồn dữ liệu, thu thập, lưu trữ, phân tích và báo cáo.
(Arteaga & cộng sự, 2020) Khung cho thiết kế dữ liệu số liệu thống kê về dữ liệu lịch sử của học sinh và giáo viên trong các giai đoạn học tập Báo cáo dữ liệu học sinh và giáo viên trong các giai đoạn học tập
(Niño & cộng sự, 2020) Khung quản trị cho việc xây dựng hệ thống BI thành công
Nguồn: Tác giả tổng hợp
Tóm lại, trong nghiên cứu về khung hệ thống nhằm phát triển và ứng dụng hệ thống BI tại các CSGD ĐH, các nghiên cứu đã tiếp cận theo nhiều hướng khác nhau như khung tổng hợp, khung kiến trúc, khung quy trình và khung quản trị. Khung tổng hợp mô tả các thành phần công nghệ và phi công nghệ (con người, quy trình, chính sách v.v.) cùng cách thức chúng tương tác để hỗ trợ mục tiêu của CSGD ĐH một cách toàn diện và bền vững. Khung kiến trúc cung cấp giải pháp tích hợp công nghệ, trong khi khung quy trình hướng dẫn các bước triển khai hệ thống cụ thể. Khung quản trị đảm bảo việc quản lý hiệu quả quá trình phát triển và vận hành hệ thống. Việc lựa chọn khung
23
dẫn hướng cần dựa trên mục tiêu và nhu cầu cụ thể của từng CSGD ĐH. Trong luận án này, mô hình hệ thống BI dự báo sẽ dựa trên các tiếp cận khung đã phân tích, nhằm mô tả các khía cạnh chính và xác định cách thức hoạt động của các thành phần hệ thống, đảm bảo phù hợp với bối cảnh và mục tiêu của một hệ thống BI dự báo sử dụng dữ liệu người học tại CSGD ĐH Việt Nam.
1.1.1.2 Nghiên cứu thử nghiệm
Bên cạnh nghiên cứu về khung, các nghiên cứu thử nghiệm cũng áp dụng nhiều
công cụ, kỹ thuật, công nghệ đa dạng để triển khai hệ thống trong CSGD ĐH.
Trong nghiên cứu về "Kiến tạo BI từ các hệ thống quản lý khóa học", ngoài việc đề xuất mô hình kiến trúc chung của hệ thống BI, tác giả đã thử nghiệm thiết kế và tạo kho lưu trữ dữ liệu, trích xuất dữ liệu từ hệ thống quản lý thông tin sinh viên (Student Information Systems – SIS) và hệ thống quản lý nội dung (Content Management System– CMS) của CSGD ĐH. Dữ liệu lưu trữ trên MS Access. Kết hợp dữ liệu khảo sát sử dụng chỉ số Felder – một công cụ đo lường phong cách học tập theo 4 chiều và sử dụng công cụ BI là MATLAB 7.0 và MS Excel, nghiên cứu đã phát hiện mối tương quan có ý nghĩa giữa kết quả học tập và phong cách học tập của sinh viên (Van Dyk & Conradie, 2007).
Nghiên cứu về "BI trong học trực tuyến" đã tìm hiểu việc sử dụng các công cụ OLAP và BI trong môi trường học tập điện tử. Nghiên cứu đã đề xuất thiết kế kho dữ liệu với dữ liệu được xử lý qua quá trình ETL. Dữ liệu được lấy từ hệ thống đào tạo trực tuyến Moodle. Các công cụ BI được sử dụng để phân tích sự tương tác của người học với môi trường học tập điện tử (Falakmasir & cộng sự, 2010).
Nghiên cứu về "Ứng dụng BI khai thác nguồn dữ liệu đào tạo đại học tại Thái Lan" đã sử dụng công cụ tích hợp dữ liệu BI của Microsoft SQL Server 2005 để xây dựng hệ thống hỗ trợ ra quyết định cho Văn phòng ủy ban giáo dục đại học (Office of the Higher Education Commission – OHEC) và phát triển một bộ ứng dụng web nhằm tạo báo cáo hỗ trợ ra quyết định cho Bộ giáo dục Thái Lan tận dụng dữ liệu từ cơ sở dữ liệu chứa dữ liệu của 1,75 triệu sinh viên đã được thu thập từ năm 2005. Dữ liệu mặc dù được tích lũy từ lâu nhưng không được sử dụng rộng rãi do thiếu các công cụ phát triển báo cáo quản trị điều hành. Nghiên cứu minh họa cho việc ứng dụng công nghệ có sẵn phát triển công cụ báo cáo quản lý, từ đó tạo ra những thông tin hữu ích cho việc phân bổ ngân sách và quản lý nguồn lực giữa các CSGD ĐH của Thái Lan (Kleesuwan & cộng sự, 2010).
24
Tương tự, trong nghiên cứu về "Thiết kế, phân tích kho dữ liệu và BI trong lĩnh vực giáo dục", xuất phát từ thực tế là chi phí xây dựng kho dữ liệu thường rất tốn kém đối với bất kỳ CSGD ĐH nào, nghiên cứu đã cung cấp một lựa chọn để xây dựng kho dữ liệu bằng cách sử dụng các công cụ nguồn mở như ngôn ngữ truy vấn SQL và công cụ Business Objects (Manjunath & cộng sự, 2011).
Để giải quyết hai vấn đề: (i) quản lý và lọc dữ liệu học thuật có tính động và phức tạp và (ii) chi phí cao trong việc triển khai các công cụ cần thiết, nghiên cứu về "Khung kiến trúc kho dữ liệu giáo dục sử dụng công nghệ BI" đã đề xuất một kiến trúc gồm hai tầng: tầng truy cập dữ liệu (Educational Data Warehouse – EDW) và tầng trình diễn BI (Educational Business Intelligence – EduBI). Khung kiến trúc này tích hợp cả công cụ mã nguồn mở và thương mại nhằm tối ưu chi phí phát triển hệ thống. Trong đó, TOS (Talend Open Studio) – một giải pháp nguồn mở cho ETL – được sử dụng để trích xuất và ánh xạ dữ liệu học thuật từ hệ quản trị cơ sở dữ liệu MySQL sang EDW sử dụng Oracle. IBM Cognos đảm nhiệm việc trích xuất dữ liệu, phân tích và tạo ra các báo cáo cần thiết. Cuối cùng, máy chủ web Apache được cấu hình để quản lý, vận hành các ứng dụng Cognos và hiển thị trực quan các báo cáo này (Aziz & cộng sự, 2014).
Đối mặt với những thách thức quản lý khi tương tác với lượng dữ liệu từ nhiều nguồn khác nhau nhưng báo cáo không hiệu quả, mất nhiều thời gian và tốn nhiều chi phí, nghiên cứu "Mô hình thiết kế trí tuệ doanh nghiệp cho trường đại học" đã đề xuất mô hình thiết kế BI (BI Design Model – BIDM) nhằm giúp các CSGD ĐH có thể sử dụng hệ thống BI tạo ra các báo cáo đạt được độ chính xác, độ tin cậy và hiệu quả. BIDM lấy dữ liệu từ kho dữ liệu được quản trị bởi Oracle 11g. Việc tương tác của người dùng có thể được thực hiện thông qua các công cụ trực quan BI như OBIEE (Oracle Business Intelligence Enterprise Edition). Bảng tin tổng hợp cung cấp các báo cáo với cái nhìn sâu sắc, phản ánh kết quả hoạt động của CSGD ĐH (Al Farsi & Saini, 2015).
Đối với các nguồn dữ liệu phân tán và phi cấu trúc, nghiên cứu về "Kiến trúc nền tảng dữ liệu lớn cho khai phá và phân tích thông minh trong khuôn viên trường đại học" đã đề xuất và ứng dụng các công cụ và công nghệ để xây dựng kiến trúc nền tảng dữ liệu lớn. Trong đó, nghiên cứu đặc biệt nhấn mạnh việc sử dụng cụm Hadoop để lưu trữ và xử lý dữ liệu. Hệ thống sử dụng công cụ BI tích hợp và tổng hợp dữ liệu vào các mô hình đa chiều cho việc báo cáo và trực quan hóa. Các công nghệ như hệ thống tập tin phân tán được khai thác để lưu trữ dữ liệu (Hadoop Distributed File System – HDFS), cơ sở dữ liệu NoSQL, HBase, Hive và Flume cũng được nhắc đến cho việc lưu trữ, xử lý và nhập dữ liệu (Zhang, 2016).
25
Các kỹ thuật phân tích học tập LA và khai phá dữ liệu giáo dục EDM đã được áp dụng trong phân tích dữ liệu dạy kèm trực tuyến trong một nghiên cứu điển hình tại Universidad Técnica Particular de Loja, Ecuador. Nghiên cứu cho phép xác định một mô hình dạy kèm trực tuyến thích ứng với từng hồ sơ sinh viên và dự báo khả năng thành công của một khóa học dạy kèm trực tuyến đối với từng sinh viên. Dữ liệu này được tiền xử lý bằng các kỹ thuật ETL để xây dựng mô hình đa chiều. Các yếu tố chính được thu thập và phân tích bằng OLAP. Công cụ R được sử dụng trong xây dựng mô hình khai phá dữ liệu (Valdiviezo–Díaz & cộng sự, 2015).
Nghiên cứu tại Đại học Moratuwa áp dụng công nghệ BI để phân tích dữ liệu qua truy vấn đa chiều, nhằm hỗ trợ người học có khả năng hạn chế. Công cụ BI được sử dụng vẽ đồ thị để đánh giá năng lực học viên chương trình Thạc sĩ Quản lý Kinh doanh học qua Moodle. Dữ liệu dạng XML từ nhật ký Moodle được trích xuất và dịch vụ SQL Server Integration Services (SSIS) được sử dụng để cải thiện quá trình ETL. Power BI, công nghệ BI chính, phân tích dữ liệu và tạo biểu đồ, qua đó cải thiện khả năng tiếp cận và hiểu dữ liệu, từ đó nâng cao kết quả học tập cho sinh viên (Jayakody & Perera, 2016).
Các dự án được trình bày trong luận văn nghiên cứu "Ứng dụng BI trong giáo dục đại học" tại Đại học Western Oregon, Hoa Kỳ đã sử dụng giải pháp IBM Cognos để cải thiện quản lý dữ liệu và quy trình báo cáo. Các dự án này nhấn mạnh việc cải thiện tỷ lệ giữ chân sinh viên và giảm chi phí thông qua phân tích dữ liệu, đồng thời khám phá khả năng xây dựng các báo cáo hữu ích hỗ trợ ra quyết định và cải thiện hoạt động kinh doanh trong các CSGD ĐH. IBM Cognos BI là một bộ công cụ tích hợp trên nền tảng web, hỗ trợ các tổ chức trong việc báo cáo, phân tích, đánh giá và theo dõi các sự kiện và chỉ số, giúp hiểu rõ hơn về dữ liệu tổ chức để đưa ra các quyết định kinh doanh hiệu quả (Javier, 2017).
Một nghiên cứu khác tại đại học tư thục Arab International University, thuộc Cộng hòa Ả Rập Syria đã áp dụng các kỹ thuật khai phá dữ liệu dựa trên học máy có giám sát, là Máy véc tơ hỗ trợ (Support Vector Machine – SVM) của Oracle Data Miner để dự báo điểm trung bình tích luỹ hàng năm (GGPA) dựa trên các thông tin về điểm trung bình (GPA) học kỳ, số tín chỉ đăng ký và số tín chỉ đã hoàn thành và chuyên ngành mà sinh viên đang theo học. Công cụ OBIEE được sử dụng trong xây dựng các thành phần của hệ thống như kho dữ liệu và bảng tin tổng hợp đi kèm (Hamed & cộng sự, 2017).
Nghiên cứu tại Đại học Taibah, Ả Rập Saudi, đã sử dụng các kỹ thuật phân tích dữ liệu của SQL Server để phát triển hệ thống BI. Hệ thống này tích hợp dịch vụ SSIS (SQL Server Integration Services) để trích xuất, chuyển đổi và tải dữ liệu, sử dụng SSAS
26
(SQL Server Analysis Services) để phân tích dữ liệu và SSRS (SQL Server Reporting Services) để trực quan hóa thông tin thông qua báo cáo. Mục tiêu của hệ thống là phân tích các hành vi lặp lại của sinh viên, chẳng hạn như việc trượt các khóa học hoặc chậm trễ trong kế hoạch học tập, đồng thời xác định các chỉ số hỗ trợ lựa chọn khóa học nhằm cải thiện kết quả học tập. Các báo cáo được tạo ra bao gồm phân tích số lượng sinh viên theo khoa, GPA theo đặc điểm nhân khẩu học và các chỉ số khác nhằm hỗ trợ ra quyết định (Boulila & cộng sự, 2023).
Nghiên cứu tại đại học Ecuador đề xuất việc tích hợp các dịch vụ của SQL Server và thuật toán phân cụm của Microsoft vào khai thác dữ liệu giáo dục. Phương pháp sử dụng Microsoft SQL bao gồm việc thiết lập kho dữ liệu, áp dụng SSIS cho ETL và sử dụng thuật toán phân cụm Microsoft Cluster Algorithm để phân loại dữ liệu. Mục tiêu là khai thác dữ liệu giáo dục, cung cấp hiểu biết sâu sắc để hỗ trợ ra quyết định (Villegas– Ch & cộng sự, 2018).
Thử nghiệm trên dữ liệu của 133 sinh viên khóa học lập trình Web, nghiên cứu điển hình tại Đại học Minho đã dựa trên các kỹ thuật BI để thống kê trên dữ liệu, đưa ra dự báo về khả năng duy trì khóa học và thành công của sinh viên. Công nghệ web thông minh (Web Intelligence – WI) sử dụng các công cụ dựa trên web và kỹ thuật BI, để phân tích dữ liệu như: công cụ mã nguồn mở OpenMIND giúp chuyển đổi dữ liệu, từ các nguồn khác nhau trên web; công cụ WebMIND thực thi quy trình tương tự các công cụ ETL để tìm kiếm dữ liệu trên web; nền tảng Verint WI để khai phá mối quan hệ của dữ liệu từ các nguồn như blog, trang web, trang tin tức v.v. (Maia & cộng sự, 2018).
Ngoài cách kết hợp các công cụ hoặc các gói dịch vụ để xây dựng hệ thống, các CSGD ĐH cũng sử dụng các nền tảng kỹ thuật có khả năng tuỳ chỉnh như Pentaho để khai thác tài nguyên hệ thống như trong nghiên cứu tại Federal Fluminense Institute của M. de Sá Mussa và cộng sự. Nghiên cứu trình bày việc ứng dụng phần mềm Pentaho xây dựng mô hình đa chiều và tích hợp dữ liệu giáo dục vào kho dữ liệu để cải thiện quyết định và quản lý. Pentaho được cấu hình để hiển thị dữ liệu nhiều chiều, cung cấp thông tin hữu dụng, cụ thể và chính xác cho các nhà quản lý của CSGD ĐH (de Sá Mussa & cộng sự, 2018).
Nghiên cứu của Agustiono (2019) khám phá khả năng phát triển và triển khai hệ thống BI học thuật (Academic BI – ABI) trong một trường đại học có quy mô nhỏ đến trung bình ở Indonesia, tập trung vào việc xác định nhu cầu và cách phát triển hệ thống BI học thuật với hạn chế về ngân sách, cơ sở hạ tầng CNTT và chuyên môn. Nghiên cứu đưa ra quy trình phát triển chi tiết, từ xác định yêu cầu đến thiết kế, xây dựng và thử
27
nghiệm một nguyên mẫu hệ thống ABI bằng việc sử dụng phần mềm mã nguồn mở Pentaho (Agustiono, 2019).
Nghiên cứu của Hariguna và cộng sự (2019) đã triển khai hệ thống BI dựa trên Khung YII (YII Framework) thông qua việc tích hợp các tính năng trực quan hóa dữ liệu từ hệ thống đánh giá điểm danh. Nghiên cứu trình bày cách sử dụng biểu đồ trong YII Framework để trực quan hóa dữ liệu điểm danh của sinh viên, qua đó cho phép giảng viên và cán bộ quản lý dễ dàng truy cập, theo dõi và đánh giá mức độ tham gia học tập của sinh viên một cách trực quan và hiệu quả hơn (Hariguna & cộng sự, 2019).
Theo nghiên cứu tổng quan của Santi & Putra (2018) hệ thống BI dành cho tương lai cần có các kỹ thuật như kỹ thuật mô hình hoá hệ thống khả thi (Viable System Model– VSM) giúp CSGD ĐH có khả năng thích ứng và tự điều chỉnh trong môi trường thay đổi, đảm bảo sự tồn tại và phát triển bền vững, kỹ thuật khai phá dữ liệu, kỹ thuật phân tích học tập, phân tích hành vi và công nghệ điện toán đám mây (Santi & Putra, 2018).
Bảng 1.2: Nghiên cứu thử nghiệm hệ thống BI tại CSGD ĐH
Tác giả Công cụ, công nghệ Ứng dụng
MS Access, MATLAB 7.0 (Van Dyk & Conradie, 2007 Kho dữ liệu lưu trữ dữ liệu trích xuất từ CMS, SIS, dữ liệu khảo sát
Công cụ BI mã nguồn mở Kho dữ liệu lưu trữ dữ liệu trích xuất từ CMS (Moodle) (Falakmasir & cộng sự, 2010)
(Kleesuwan & cộng sự, 2010) Công cụ Tích hợp Dữ liệu BI của Microsoft® SQL Server™ 2005 Báo cáo cho hệ thống hỗ trợ ra quyết định
Business Objects, truy vấn SQL Kho dữ liệu, công cụ BI (Manjunath & cộng sự, 2011)
Khung kiến trúc hệ thống BI phân tích dữ liệu học thuật. (Aziz & cộng sự, 2014) TOS (Talend Open Studio), Oracle DBMS. IBM cognos. Máy chủ web Apache.
(Al Farsi & Oracle 11g, OBIEE Mô hình BIDM (khung kiến trúc) Saini, 2015)
(Zhang, 2016)
Hadoop Distributed File System (HDFS), cơ sở dữ liệu NoSQL Hbase, Hive và Flume
Nền tảng lưu trữ và xử lý dữ liệu phân tán, lưu trữ dữ liệu thẻ quẹt của sinh viên trong phạm vi khuôn viên trường, hệ thống BI ứng dụng
28
Tác giả Công cụ, công nghệ Ứng dụng
R
(Valdiviezo– Díaz & cộng sự, 2015)
Power BI, SQL Server Integration
Services (SSIS), SQL Server (Jayakody & Analysis Services (SSAS). Perera, 2016) Hệ thống BI để phân tích và nhận biết hành vi của sinh viên Moodle Log, DOM và JDOM
trong Java
(Javier, 2017) IBM Cognos
Hệ thống BI cải thiện tỷ lệ giữ chân sinh viên và giảm chi phí thông qua phân tích dữ liệu
(Hamed & cộng sự, 2017) Oracle, Oracle Data Miner (SVM), OBIEE
Hệ thống thông minh, cải thiện chất lượng giáo dục và hỗ trợ việc ra quyết định dựa trên dữ liệu
Pentaho, OLAP Server, Weka (de Sá Mussa & cộng sự, 2018) Hệ thống này giúp quản lý và phân tích dữ liệu học thuật
(Boulila & cộng sự, 2018)
SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS)
Hệ thống đưa các báo cáo về người học hỗ trợ xác định các chỉ số để lựa chọn khóa học với mục đích nâng cao kết quả học tập cuối cùng của người học.
Microsoft SQL, SQL Server (SSIS), Integration Services (Villegas–Ch & cộng sự, 2018) Microsoft Cluster Algorithm
OpenMIND, WebMIND (Maia & cộng sự, 2018) Hệ thống web intelligence trong giáo dục để cải thiện việc học và giảng dạy
(Agustiono, Pentaho Hệ thống BI học thuật 2019)
YII Framework (Hariguna & cộng sự, 2019) Hệ thống BI đánh giá điểm danh
29
Nguồn: Tác giả tổng hợp
Tóm lại, trong các nghiên cứu thử nghiệm liên quan tới hệ thống BI trong CSGD ĐH, kỹ thuật, công nghệ và công cụ ETL đóng vai trò quan trọng trong việc tiền xử lý và khai thác dữ liệu, trong khi các công cụ BI chuyên dụng như R, SSAS, SSRS và OBIEE tăng cường chất lượng phân tích dữ liệu. Một khía cạnh nổi bật khác là việc trực quan hóa dữ liệu, giúp biểu diễn và đánh giá dữ liệu dễ dàng hơn. Truy vấn phức tạp, phân tích ngẫu nhiên, tối ưu hóa, xử lý ngôn ngữ tự nhiên, thống kê và dự báo ngày càng trở nên quan trọng để đưa ra quyết định dựa trên bằng chứng và dựa trên dữ liệu tốt đáng tin cậy. Sự kết hợp giữa kỹ thuật phân tích học tập LA và khai phá dữ liệu giáo dục EDM giúp dự báo kết quả học tập của sinh viên một cách chính xác và cá nhân hóa quá trình giảng dạy trực tuyến. Công nghệ WI và nền tảng tùy chỉnh như Pentaho cũng trở nên phổ biến, cho phép tuỳ chỉnh và tối ưu hóa quá trình BI. Nhìn về tương lai, việc kết hợp mô hình hệ thống khả thi, phân tích hành vi và điện toán đám mây sẽ định hình xu hướng kỹ thuật chính cho các hệ thống BI tại CSGD ĐH.
1.1.1.3 Ứng dụng
Mặc dù kết quả từ các nghiên cứu đều cho thấy hệ thống BI nhận được đánh giá tích cực về mức độ phù hợp và khả năng hỗ trợ giải quyết vấn đề về quản lý, khai thác thông tin cho các CSGD ĐH (Apraxine & Stylianou, 2017), mức độ ứng dụng hệ thống trong thực tiễn chưa cao. Các kỹ thuật khai phá dữ liệu chưa thực sự phổ biến để khai thác được hết tiềm năng dữ liệu của CSGD ĐH. Việc ứng dụng hệ thống trong các CSGD ĐH nói riêng và trong lĩnh vực giáo dục nói chung triển khai chậm hơn so với các ngành công nghiệp khác, do yêu cầu cao về đầu tư công nghệ và mức độ chuyên môn hóa.
Tại Thổ Nhĩ Kỳ, mức độ ứng dụng hệ thống BI trong các CSGD ĐH là không đồng nhất. Dựa trên các cuộc phỏng vấn bán cấu trúc tại 12 trường đại học ở Thổ Nhĩ Kỳ, kết quả nghiên cứu cho thấy các CSGD ĐH sử dụng hệ thống để quản lý các quy trình và các hệ thống này thường được tích hợp một phần hoặc toàn bộ. Phần lớn các trường công sử dụng phần mềm được phát triển nội bộ, trong khi các trường tư sử dụng phần mềm thương mại là chủ yếu. Các báo cáo thống kê được tạo trên các mô-đun báo cáo của hệ thống. Trong đó, phân tích mô tả chủ yếu được áp dụng trong các báo cáo tĩnh, phục vụ cho các chức năng học thuật, quản trị và điều hành. Các chức năng phân tích suy diễn hoặc dự báo là hiếm gặp. Điều này đặt các trường đại học ở Thổ Nhĩ Kỳ vào mức độ "suy giảm khả năng phân tích" (analytically impaired) theo mô hình trưởng
30
thành phân tích – Analytics Maturity Model8 của Davenport và Harris. Như vậy có thể hiểu là các CSGD ĐH đã có một số nỗ lực trong việc phân tích dữ liệu nhưng chưa có được một cái nhìn toàn diện đối với dữ liệu trên toàn bộ các chức năng học thuật, quản trị và điều hành (Ülker & Coşkun, 2021).
như Niche (Niche.com) thông tuyến trực tin
8 Analytics Maturity Model được giới thiệu bởi Thomas H. Davenport và Jeanne G. Harris trong sách "Competing on Analytics: The New Science of Winning" (2007) và sau đó được tinh chỉnh thêm cùng Bob Morison trong
"Analytics at Work: Smarter Decisions, Better Results" (2010) với khung DELTA, là một công cụ đánh giá mức
độ mà một tổ chức sử dụng dữ liệu và phân tích để đưa ra quyết định và đạt được lợi thế cạnh tranh.
Tại Hoa Kỳ, một số đại học đã phát triển bảng điều khiển trực quan có thể truy cập công khai như Purdue University (https://www.purdue.edu/datadigest/) với cổng thông tin Data Digest, cung cấp thông tin tương tác và trực quan về các mục dữ liệu khác nhau. Cổng thông tin này cho phép người dùng xem và lọc để khám phá chi tiết về các dữ liệu liên quan tới tuyển sinh: đơn đăng ký, chấp nhận và trúng tuyển; hồ sơ cho sinh viên mới nhập học; tỷ lệ duy trì và tốt nghiệp; số lượng bằng cấp và thời gian cấp bằng; tỷ lệ sinh viên/giảng viên; giảng viên/nhân viên; duy trì và luân chuyển giảng viên; học phí và lệ phí; ngân sách; tài trợ và giải thưởng chương trình nghiên cứu; dữ liệu sau đại học; và so sánh học phí giữa 10 trường có học phí cao nhất. Đại học Texas cơ sở Austin (University of Texas at Austin – https://reports.utexas.edu/spotlight–data) xây dựng bảng thông tin tổng hợp đưa ra thống kê thường xuyên về sinh viên và khoa ngành như: tỷ lệ tuyển sinh theo giới tính, theo trình độ, theo các trường con; tỷ lệ đăng ký và chấp nhận ở các trình độ; tỷ lệ tốt nghiệp ở các trình độ v.v. Đại học Texas (University of Texas – https://data.utsystem.edu/) với cổng thông tin cung cấp bảng tin tổng hợp rất chi tiết về sinh viên nhập học, sinh viên tốt nghiệp, giảng viên, tài chính (gồm doanh thu, lệ phí và học phí), tỷ lệ sinh viên có việc làm đúng chuyên ngành sau khi tốt nghiệp, chuyển giao nghiên cứu và công nghệ, v.v. Ở quy mô toàn liên bang, các cổng hoặc USNews (usnews.com/education) tích hợp dữ liệu của gần 4000 CSGD ĐH trên toàn nước Mỹ cho phép cung cấp dữ liệu và đánh giá toàn diện về các trường học dựa trên các yếu tố như chất lượng giảng dạy, cơ sở vật chất, sự đa dạng và thành tích học sinh v.v. Có thể thấy, tại các quốc gia phát triển như Hoa Kỳ, việc khai thác dữ liệu giáo dục chủ yếu vẫn dừng ở mức tổng hợp và trình bày thông tin. Một số hệ thống bắt đầu tích hợp khả năng dự báo, như ước tính khả năng trúng tuyển dựa trên điểm GPA và SAT. Tuy nhiên, việc triển khai hệ thống BI toàn diện tại các CSGD ĐH vẫn gặp nhiều thách thức không chỉ về kỹ thuật, công nghệ hay công cụ, mà còn đến từ sự phân mảnh của dữ liệu, quy
31
trình phức tạp và thiếu sự liên kết giữa các bộ phận. Nhiều cơ sở chưa thực sự sẵn sàng về năng lực tổ chức và nhân sự để áp dụng BI một cách hiệu quả.
Một nghiên cứu tổng quan từ Salamatu Musa và đồng nghiệp trong giai đoạn 2010–2017, tổng hợp các kết quả nghiên cứu về BI trong CSGD ĐH từ các nguồn như Science Direct, IEEE, Scopus, Springer và Google Scholar, đã đề xuất 9 yếu tố quan trọng cho việc triển khai BI tại các CSGD ĐH. Những yếu tố này được phân vào ba nhóm: tổ chức, công nghệ và quy trình, giúp nâng cao tỷ lệ thành công và giảm nguy cơ thất bại khi áp dụng hệ thống BI. Yếu tố tổ chức nhấn mạnh vào tầm quan trọng của sự hỗ trợ từ ban lãnh đạo, tầm nhìn, kế hoạch được xác định rõ ràng và cấu trúc tổ chức phù hợp. Quy trình triển khai đòi hỏi sự lãnh đạo mạnh mẽ và cùng với sự tham gia của người dùng qua các giai đoạn khác nhau. Về mặt công nghệ, chất lượng hệ thống, thông tin và dịch vụ được đề cao, với các tiêu chí như tính linh hoạt, độ tin cậy và sự phản hồi kịp thời của hệ thống, độ chính xác và kịp thời của thông tin, cũng như chất lượng hỗ trợ dịch vụ cho người dùng. Sự kết hợp của ba yếu tố này là chìa khóa để đảm bảo thành công của việc triển khai BI trong CSGD ĐH (Abduldaem & Gravell, 2021).
1.1.2 Nghiên cứu trong nước
Trong nước, nghiên cứu về hệ thống BI tại CSGD ĐH là rất hiếm gặp. Tuy nhiên, cũng đã có những nghiên cứu và ứng dụng ban đầu liên quan tới các kỹ thuật trong hệ thống BI cho tổ chức, doanh nghiệp. Trong bài nghiên cứu về “Hệ khuyến nghị trong dự báo sở thích người dùng ứng dụng trong trí tuệ doanh nghiệp” tại hội thảo CITA 2017, Đà Nẵng, nhóm nghiên cứu đã đề xuất hệ thống khuyến nghị để dự đoán sở thích của người dùng. Dựa vào đó, các tác giả sắp xếp các sản phẩm đề xuất dựa trên kỹ thuật lọc cộng tác, nhằm đưa ra các gợi ý phù hợp với sở thích của khách hàng theo một trình tự, hệ thống tăng cường khả năng mua sắm và sự trung thành từ phía khách hàng. Bên cạnh đó, nghiên cứu này cũng gợi ý cách lưu trữ dữ liệu thông qua việc tích hợp vào các hệ thống hiện tại và cung cấp một mô hình để đánh giá hiệu suất của hệ thống khuyến nghị (Lương & cộng sự, 2017).
Đề tài thạc sĩ “Tìm hiểu Business Intelligence và áp dụng trong bài toán quản lý kho dược phẩm” của học viên Trần Quốc Tuấn đã trình bày tổng quan về trí tuệ doanh nghiệp, ứng dụng trí tuệ doanh nghiệp trong kho thuốc bệnh viện, giới thiệu phần mềm và kết quả đạt được (Tuấn, 2017).
Nhóm nghiên cứu từ Trường Đại học Kinh tế – Luật, thuộc Đại học Quốc Gia TP.HCM, đã đề xuất mô hình và giải pháp hệ thống BI tích hợp trong kế toán quản trị
32
và hỗ trợ ra quyết định dựa trên BI. Đề xuất này được thử nghiệm trên thực tế thông qua việc thu thập, xử lý và tích hợp dữ liệu, sau đó phân tích các chỉ số KPI tài chính từ tháng 10/2011 đến tháng 5/2020 cho hai dự án tại Công ty GS. Các kết quả được hiển thị trên bảng tin tổng hợp giúp nhà quản trị đưa ra quyết định nhanh và hiệu quả hơn (Phương & Thành, 2020).
Bài viết "Đánh giá mức độ sẵn sàng của tổ chức trong việc triển khai hệ thống BI trong môi trường ERP" của nhóm tác giả Thái Kim Phụng, Đoàn Phú Hải đã trình bày một nghiên cứu định tính kết hợp định lượng để xác định các yếu tố ảnh hưởng đến mức độ sẵn sàng triển khai BI trong các doanh nghiệp sử dụng hệ thống hoạch định nguồn lực doanh nghiệp ERP. Trên cơ sở đó, nghiên cứu đề xuất một số giải pháp nhằm nâng cao mức độ sẵn sàng, giúp doanh nghiệp chuẩn bị tốt hơn trong việc chuẩn bị triển khai hệ thống BI trong tương lai. Nghiên cứu đã khảo sát các đối tượng tham gia vào quá trình triển khai và sử dụng hệ thống ERP tại các doanh nghiệp TP Hồ Chí Minh. Tác giả đề xuất mô hình nghiên cứu, thử nghiệm mô hình, thảo luận kết quả và đề xuất giải pháp. Kết quả thử nghiệm cho thấy, các yếu tố sẵn sàng mà doanh nghiệp cần quan tâm khi triển khai hệ thống BI, theo thứ tự là tổ chức, công nghệ, quy trình và con người (Phung & Hai, 2019).
Bài viết "Hệ thống hỗ trợ quyết định giáo dục dựa trên tri thức" của nhóm tác giả Võ Thị Ngọc Châu, Nguyễn Hứa Phùng (2012) đề xuất một kiến trúc hệ thống hỗ trợ ra quyết định dành cho các tổ chức giáo dục đại học có đào tạo theo hệ thống tín chỉ. Hệ thống có kiến trúc 3 lớp: trình diễn, logic và lưu trữ, hướng thành phần, kết hợp các công cụ và thư viện của các phần mềm chuyên dụng mã nguồn mở sẵn có như MySQL, Weka và Pentaho. Kỹ thuật khai phá tri thức dùng để phân loại sinh viên (học tập kém) dựa trên trạng thái cuối cùng nhờ thuật toán J48, dự báo xu hướng với phân cụm bằng thuật toán K–means, dự báo trạng thái với phân cụm xác suất thông qua thuật toán tối đa hóa kỳ vọng và phân tích liên kết khóa học bằng thuật toán Apriori. Tri thức đúc rút hỗ trợ cho các nhà quản lý giáo dục đưa ra quyết định phù hợp hơn đối với việc học của sinh viên và hỗ trợ sinh viên khi tốt nghiệp. Tuy nhiên nghiên cứu này cũng mới dừng lại ở việc xây dựng một khung cơ bản cho hệ thống hỗ trợ ra quyết định trong giáo dục, hệ thống không linh hoạt với các chức năng và khả năng khai phá dữ liệu phụ thuộc nhiều vào thư viện của các công cụ có sẵn. Tác giả Võ Thị Ngọc Châu cũng là đồng tác giả trong nhiều nghiên cứu sâu hơn về cải tiến các thuật toán xử lý, khai phá dữ liệu trong giáo dục sau này (Vo & Nguyen, 2012).
33
Các nghiên cứu ban đầu này mặc dù chưa nhiều nhưng là những viên gạch đầu tiên đặt nền móng trong nghiên cứu và ứng dụng hệ thống BI, tại Việt Nam nói chung và tại CSGD ĐH của Việt Nam nói riêng.
1.1.3 Vấn đề và khoảng trống trong nghiên cứu, ứng dụng hệ thống trí tuệ doanh nghiệp trong cơ sở giáo dục đại học
Dựa trên các nghiên cứu về hệ thống BI cho CSGD ĐH trong và ngoài nước, có thể nhận thấy một số vấn đề và khoảng trống trong nghiên cứu, ứng dụng hệ thống BI tại CSGD ĐH như sau:
Thứ nhất: Nghiên cứu lý thuyết đã đề xuất các khung dẫn hướng cho việc xây dựng và phát triển hệ thống BI cho CSGD ĐH nói chung hoặc cho một CSGD ĐH cụ thể nói riêng, tuy nhiên hiếm gặp, đặc biệt trong nước, nghiên cứu về mô hình hệ thống phù hợp cho các CSGD ĐH trong một bối cảnh chuyển đổi tự chủ đại học như tại Việt Nam.
Thứ hai: Nghiên cứu thử nghiệm về hệ thống BI cho CSGD ĐH là các nghiên cứu tình huống hoặc nghiên cứu điển hình (case study) thường được thực hiện chỉ trong môi trường của một CSGD ĐH và tập trung vào hướng khai thác dữ liệu học thuật mà không phải là toàn bộ dữ liệu của tổ chức. Điều này cũng cho thấy độ khó và quy mô phức tạp của hoạt động phát triển hệ thống khi phải thích ứng những điều kiện về hạ tầng công nghệ, dữ liệu, mục tiêu thông tin đầu ra cụ thể của từng CSGD ĐH.
Thứ ba: Đối với các nghiên cứu thử nghiệm, các hệ thống được phát triển tập trung vào tầng khám phá dữ liệu và tạo báo cáo. Các hệ thống có tính năng dự báo là không phổ biến. Mô hình dự báo bước đầu được thử nghiệm bằng việc sử dụng các công cụ khai phá dữ liệu (WEKA, SPSS v.v.). Như vậy, khi sử dụng các giải pháp có sẵn dùng cho doanh nghiệp hoặc giải pháp mã nguồn mở như Pentaho, Business Analytics, Business Intelligence Enterprise Edition, Oracle, BusinessObjects BI, SAP, IBM Cognos, v.v., CSGD ĐH không chỉ phải giải quyết bài toán chi phí cao mà còn cần cân nhắc khả năng tích hợp của giải pháp với các nền tảng sẵn có, sự hạn chế về tính năng, mức độ thân thiện với người dùng, cũng như khả năng làm chủ kiến thức và kỹ thuật để khai thác tối đa giải pháp. Tuy nhiên, những yếu tố này thường có sự mâu thuẫn lẫn nhau, gây khó khăn trong quá trình lựa chọn.
Thứ tư: Nghiên cứu về hệ thống BI đã phát triển theo hai hướng chính: lý thuyết và thực hành thử nghiệm. Tuy nhiên, rất ít nghiên cứu xây dựng lộ trình cụ thể để triển khai hệ thống BI trong các tổ chức giáo dục đại học (Sequeira & cộng sự, 2024), đặc
34
biệt là tại các CSGD ĐH có quy mô nhỏ và vừa, nơi nguồn lực tài chính, hạ tầng thông tin và nhân lực còn hạn chế. Các CSGD ĐH tại các quốc gia đang phát triển như Việt Nam đối mặt với nhiều thách thức không chỉ trong nghiên cứu và ứng dụng, mà còn trong việc triển khai hệ thống như: đảm bảo sự phù hợp giữa mục tiêu của hệ thống và chiến lược của tổ chức; mức độ sẵn sàng của tổ chức đối với hệ thống; cả tính đầy đủ và chất lượng của dữ liệu; cũng như các phương pháp tiếp cận khác nhau của các chuyên gia trong lĩnh vực quản trị, thống kê và khai phá dữ liệu. Những thách thức này tạo ra các rào cản đáng kể khi các CSGD ĐH đầu tư vào hệ thống BI. Việc thiếu thực hành cũng dẫn đến khoảng trống kiến thức liên quan đến sự phát triển của hệ thống trong lĩnh vực giáo dục (Agustiono, 2019).
1.2 Tổng quan về nghiên cứu dự báo dựa trên dữ liệu người học
Việc tổng quan các nghiên cứu về dự báo dựa trên dữ liệu người học không nhằm mục tiêu tìm kiếm khoảng trống nghiên cứu để phát triển lý thuyết mới trong lĩnh vực này. Thay vào đó, việc tổng quan nhằm xây dựng nền tảng học thuật để hỗ trợ việc kế thừa và mở rộng các giải pháp dự báo đã được nghiên cứu, nhằm tích hợp vào mô hình hệ thống BI cho giáo dục đại học.
1.2.1 Nghiên cứu ngoài nước
Khai thác dữ liệu từ người học nói riêng và dữ liệu giáo dục nói chung mang lại nhiều tiềm năng trong việc nâng cao tỷ lệ thành công của người học. Điều này bao gồm việc nhận được sự hỗ trợ kịp thời từ giáo viên, cố vấn học tập và nhà quản lý giáo dục (Alangari & Alturki, 2020). Các nghiên cứu được thực hiện tại nhiều CSGD ĐH khác nhau trên toàn thế giới cho thấy khai thác dữ liệu trong giáo dục đã được áp dụng rộng rãi tại nhiều quốc gia với môi trường học thuật khác nhau và đang trở thành một công cụ quan trọng trong việc nâng cao chất lượng giáo dục. Dữ liệu liên quan đến người học bao gồm cả dữ liệu tĩnh (nhân khẩu học, hiệu suất hay kết quả học tập trước đó) và dữ liệu động (hành vi của người học thay đổi theo thời gian). Sự phức tạp của dữ liệu yêu cầu các phương pháp tiếp cận cẩn thận trong việc xử lý và phân tích để tạo ra các mô hình dự đoán có độ chính xác cao (Arizmendi & cộng sự, 2023). Khai phá dữ liệu giáo dục EDM và phân tích học tập LA là hai lĩnh vực sử dụng kỹ thuật khai thác dữ liệu trong giáo dục đại học và các môi trường giáo dục khác. Nghiên cứu tổng hợp về LA và EDM cho giáo dục đại học thế kỷ 21 đã chia bốn khía cạnh chính của LA và EDM gồm: (1) Phân tích học tập được hỗ trợ bởi máy tính (Computer–supported learning analytics – CSLA); (2) Phân tích hành vi được hỗ trợ bởi máy tính (CSBA); (3) Phân tích trực quan được hỗ trợ bởi máy tính (Computer–supported visualization analytics – CSVA);
35
và (4) Phân tích dự báo được hỗ trợ bởi máy tính (Computer–supported predictive analytics – CSPA). Trong đó, CSPA chiếm tỉ trọng từ 27–66% đối với từng kỹ thuật của LA và EDM. CSPA có 3 mục tiêu chính là: (1) Đánh giá tài liệu học tập; (2) Đánh giá và giám sát theo dõi thành tích học tập của người học; (3) Dự báo ý định bỏ học của người học (Aldowah & cộng sự, 2019). Nghiên cứu cho thấy kết quả học tập (performance) là yếu tố chính và đóng vai trò quan trọng trong phân tích dự báo dựa trên dữ liệu người học bởi đó vừa là kết quả cần dự báo của mục tiêu (2) vừa là căn cứ để kết luận về sự phù hợp của tài liệu, chương trình đối với người học để thực hiện mục tiêu (1). Đối với mục tiêu (3), kết quả học tập tiếp tục là yếu tố quyết định, ảnh hưởng đến ý định dừng học của người học.
Trong nghiên cứu tổng quan về dự báo kết quả học tập ở bậc đại học, các bài toán dự báo được chia thành bốn loại chính: (1) Dự báo nguy cơ bỏ học; (2) Dự báo kết quả học tập ở mức học phần; (3) Dự báo kết quả học tập theo từng năm học; (4) Dự báo kết quả học tập ở cấp độ chương trình – toàn bộ chương trình đào tạo hoặc kết quả tốt nghiệp. Như vậy, nghiên cứu này đã đưa ra một cách phân loại chi tiết hơn theo các cấp độ dự báo, phản ánh một cách tiếp cận phân tầng rõ ràng và hiệu quả hơn trong việc dự báo kết quả học tập (Alwarthan & cộng sự, 2022).
Như vậy, có thể thấy rằng việc dự báo dựa trên dữ liệu người học có thể được tiếp cận theo nhiều cách khác nhau. Việc phân loại dự báo có thể dựa trên mục tiêu ứng dụng, khung thời gian, hoặc theo nguồn và tính chất của dữ liệu (như dữ liệu tĩnh và dữ liệu động). Với mục tiêu ứng dụng dự báo dựa trên dữ liệu người học cho hệ thống BI tại các CSGD ĐH, phần tổng quan nghiên cứu này lựa chọn phân loại theo mục tiêu bài toán, nhằm làm rõ ý nghĩa và vai trò của từng loại dự báo. Theo tiêu chí này, các dự báo sẽ được chia thành ba nhóm: (1) Dự báo nhằm tăng tỷ lệ giữ chân và giảm tỷ lệ rời bỏ của người học tại CSGD ĐH (dự báo nguy cơ bỏ học); (2) Dự báo nhằm giám sát quá trình học tập của người học, qua đó hỗ trợ kịp thời – ví dụ như dự báo kết quả học tập theo từng học phần, kỳ học, hoặc năm học;(3) Dự báo phục vụ hoạt động tuyển sinh, bao gồm việc gợi ý lựa chọn ngành hoặc chương trình học phù hợp với sinh viên, cũng như dự báo số lượng tuyển sinh.
1.2.1.1 Dự báo bỏ học
Dự báo bỏ học (Dropout – DO) trong các CSGD ĐH luôn là nội dung quan trọng nhằm phát hiện sớm người học có nguy cơ bỏ học, đưa ra giải pháp hỗ trợ kịp thời và cải thiện tỷ lệ hoàn thành chương trình đào tạo. Nhiều kết luận đã được rút ra từ các nghiên cứu trong lĩnh vực này. Một nghiên cứu tại Khoa Kỹ thuật Công nghiệp, Đại học Hồi giáo Indonesia đã tìm ra những thuộc tính quan trọng nhất ảnh hưởng đến DO và so
36
sánh hiệu suất của hai thuật toán phân loại phổ biến, mạng Bayes (Naïve Bayes – NB) và cây quyết định (Decision Tree – DT). Kết quả nghiên cứu chỉ ra rằng chuyên cần và GPA của sinh viên trong học kỳ đầu tiên là hai yếu tố có ảnh hưởng mạnh mẽ nhất đến nguy cơ bỏ học và NB ưu việt hơn so với DT về độ chính xác khi chạy trên bộ dữ liệu cụ thể này (Khasanah, 2017).
Sarra (2019) tập trung vào việc xác định người học có nguy cơ thất bại thông qua việc sử dụng thống kê Hồi quy hồ sơ Bayes (Bayes Profile Regression – BPR) trên dữ liệu khảo sát tại một trường đại học ở Ý. Nghiên cứu chỉ ra rằng quyết định bỏ học của sinh viên là một quyết định ảnh hưởng đa biến số và phức tạp, có thể được nhìn nhận dưới nhiều góc độ khác nhau. Tuy nhiên, những sinh viên có nguy cơ bỏ học cao hơn thường có xu hướng học tập kém hơn và ít hài lòng hơn với trải nghiệm giáo dục tổng thể của mình. Bằng nghiên cứu này, tác giả đã đưa ra mô tả chi tiết về hồ sơ của sinh viên liên quan đến các nguy cơ bỏ học khác nhau, giúp cho CSGD ĐH có thể dựa vào đó để điều chỉnh và đa dạng hóa các biện pháp can thiệp nhằm giảm tỷ lệ bỏ học (Sarra & cộng sự, 2019).
Nghiên cứu về dự báo bỏ học của nhóm tác giả Kamal & Ahuja (2019) đã phát triển một mô hình nhằm dự báo và phát hiện các yếu tố ảnh hưởng đến kết quả học tập của sinh viên theo đuổi chương trình đào tạo chuyên nghiệp bậc đại học. Khai phá dữ liệu từ 50 biến đầu vào thuộc các nhóm nhân khẩu học, học tập, hành vi và xã hội, nghiên cứu phát hiện ra rằng kết quả học tập của học kỳ trước có tác động đáng kể đến thành tích học tập hiện tại. Nếu tỷ lệ đạt ở học kỳ trước vượt quá 60%, sinh viên có khả năng tiến bộ; ngược lại, nếu tỷ lệ chỉ đạt 50% hoặc thấp hơn, sinh viên có nguy cơ trượt hoặc bỏ học. Các yếu tố tác động khác gồm anh chị em, khoảng cách từ trường đại học đến nơi cư trú, rủi ro lớn trong năm trước, các yếu tố hành vi như thói quen uống rượu và hút thuốc cũng có tác động tiêu cực đến kết quả học tập. Việc kết hợp 3 thuật toán phân loại NB, DT và SVM cho độ chính xác lên 98.5% và có thể phát hiện được sinh viên có rủi ro từ sớm (Kamal & Ahuja, 2019).
Tại một trường đại học kỹ thuật lớn của Hungary, Kiss & cộng sự (2019) đã tập trung nghiên cứu nhằm cải thiện khả năng dự đoán sinh viên bỏ học dựa trên thành tích học tập từ thời điểm trung học đến học kỳ đầu tiên ở đại học. Ban đầu, dự đoán dựa trên dữ liệu đăng ký như điểm trung học và điểm kỳ thi matura. Sau đó, kết quả dự đoán được cải thiện bằng cách thêm điểm từ tuần đầu tiên của học kỳ đầu tiên. Việc áp dụng thuật toán Tăng cường gradient cực đại (Extreme Gradient Boosting – XGBoost) cho kết quả là điểm học kỳ đầu tiên tăng cường khả năng dự đoán sinh viên bỏ học với chỉ
37
số diện tích dưới đường cong (Area Under the Curve – AUC) đánh giá khả năng phân loại của mô hình đạt 0,920 (Kiss & cộng sự, 2019).
Với tiếp cận kết hợp DT và thuật toán di truyền để dự báo bỏ học, Santos & cộng sự (2020) đã phát hiện rằng với sinh viên có điểm GPA dưới ngưỡng xác định là 5,70 và đã đăng ký học hơn một năm có xu hướng vượt quá thời hạn của chương trình hoặc bỏ dở chương trình. Bên cạnh đó số sinh viên bỏ học (1/3) được xác định chủ yếu trong năm học đầu tiên. Độ chính xác của dự báo trên 95% (Santos & cộng sự, 2020).
Trong nghiên cứu về dự báo bỏ học cho sinh viên thuộc chương trình Kỹ thuật Tin học 6 năm của DINF9, các tác giả đã tìm ra các yếu tố quyết định liên quan đến việc người học tiếp tục học hay bỏ học sau năm đầu tiên. Dựa trên dữ liệu khảo sát từ 206 sinh viên năm thứ nhất, sử dụng DT để phân tích 40 đặc trưng của mỗi sinh viên bao gồm kết quả học tập kỳ đầu tiên, điểm thi đầu vào, thông tin nhân khẩu, kinh tế xã hội (nhóm thu nhập gia đình, thành phố, quy mô gia đình, học bổng v.v.) để xác định sinh viên có nguy cơ bỏ học cao. Mặc dù dữ liệu không cân bằng, mô hình vẫn phát hiện sáu yếu tố chính ảnh hưởng đến quyết định bỏ học gồm: GPA có trọng số, chỉ số học tập, tỷ lệ thành công trung bình, tỷ lệ thành công trên thất bại, thành tích và sự tiến bộ. Đặc trưng còn lại là nhóm thu nhập gia đình thuộc nhóm yếu tố kinh tế – xã hội (Bello & cộng sự, 2020).
Niyogisubizo & cộng sự (2022) đã đề xuất phương pháp học máy tổng hợp hai lớp mới, kết hợp nhiều thuật toán như DT, xGBoost và đã chứng minh rằng phương pháp tổng hợp hiệu quả cao hơn so với các mô hình cơ sở riêng lẻ. Tập dữ liệu thô thu thập từ Đại học Triết học Constantine, qua hồ sơ Nitra từ năm 2016 đến năm 2020, gồm 261 mẫu và 12 đặc trưng của sinh viên học dự bị. Bộ dữ liệu cung cấp cái nhìn toàn diện về quá trình học tập và thành tích của sinh viên trong chương trình, từ quyền truy cập vào hệ thống đến kết quả học tập và trạng thái tốt nghiệp. Kết quả nghiên cứu cho thấy mặc dù tập dữ liệu nhỏ, song nếu lựa chọn đúng các yếu tố và mô hình thuật toán phù hợp có thể mang lại hiệu quả dự báo cao (Niyogisubizo & cộng sự, 2022).
9 Departamento de Ingeniería Informática, khoa phụ trách đào tạo chương trình Kỹ thuật Tin học (Informatics Engineering) tại Universidad de Santiago de Chile (USACH) ở Chile
Bressane & cộng sự (2022) lại tập trung vào việc sử dụng trí tuệ nhân tạo mờ (Fuzzy Inference System – FIS) để dự báo kết quả của người học với độ chính xác lên đến 94,0%. Nghiên cứu tập trung vào việc xác định tác động của các chiến lược học tập đối với kết quả học tập của sinh viên. Các đặc trưng gồm giới tính, độ tuổi, nguồn gốc
38
trường (công/tư), việc giải bài tập, động lực theo ngữ cảnh, đọc thư mục, ôn lại bài học, kiểm soát cảm xúc, tham dự lớp học và tìm kiếm sự giúp đỡ. Tuy nhiên, nghiên cứu có hạn chế là dữ liệu quan sát ít và chỉ dựa trên một nghiên cứu thử nghiệm, điều này có thể làm giảm tính khái quát của kết quả (Bressane & cộng sự, 2022).
1.2.1.2 Dự báo để giám sát quá trình học tập của người học cho phép có những hỗ trợ cần thiết kịp thời với người học
Khi kết quả học tập được sử dụng làm đầu ra trong các mô hình dự báo, nó có thể hỗ trợ việc theo dõi, giám sát và dự đoán thành tích của người học tại nhiều thời điểm khác nhau, từ đó tối ưu hóa quá trình giảng dạy và hỗ trợ người học kịp thời trong việc lựa chọn phương pháp học tập cũng như chương trình đào tạo phù hợp.
a. Dự báo kết quả học tập mức khóa học
Các nghiên cứu loại này đã thử nghiệm nhiều phương pháp và kỹ thuật khác nhau để đạt được mục tiêu dự báo. Nghiên cứu của Devasia & cộng sự (2016) đã đề xuất một ứng dụng web sử dụng kỹ thuật phân loại NB để dự báo kết quả học tập dựa trên lịch sử học tập. Hệ thống theo đuổi mục tiêu tăng tỷ lệ thành công của sinh viên bằng cách duy trì và khai thác thông tin chi tiết về nhập học của sinh viên, chi tiết khóa học, chi tiết môn học, điểm sinh viên, điểm danh v.v.(Devasia & cộng sự, 2016).
Nghiên cứu của Z. Iqbal & cộng sự (2017) thảo luận về việc sử dụng kỹ thuật học máy để dự báo điểm số trong các học phần khác nhau của năm đầu tiên đại học, nhằm cải thiện kết quả học tập và hỗ trợ người học kịp thời. Kỹ thuật Máy Boltzmann hạn chế (Restricted Boltzmann Machine – RBM) đã được xác định là hiệu quả trong việc dự báo điểm cuối cùng của sinh viên dựa trên điểm trung học phổ thông (Higher Secondary School Certificate – HSSC) và kết quả bài kiểm tra đầu vào đại học (Iqbal & cộng sự, 2017).
Một nghiên cứu của Tsiakmaki (2018) sử dụng các kỹ thuật như hồi quy tuyến tính, SVM, DT (M5) và K láng giềng gần nhất ( K–nearest neighbors – KNN) để dự báo điểm số của sinh viên. Các mô hình được xây dựng dựa trên các đặc điểm nhân khẩu học, số lần thi lại trong mỗi học phần và điểm số cuối cùng nhằm ước tính kết quả học tập ở các học phần tiếp theo (Tsiakmaki & cộng sự, 2018).
Trong nghiên cứu của Liu (2019), mạng nơ-ron lan
truyền ngược (Backpropagation Neural Network – BPNN) đã được lựa chọn để dự báo kết quả học tiếng Anh của sinh viên. Nghiên cứu tiến hành kiểm tra tương quan Spearman's R để phân tích xem kết quả tiếng Anh bị ảnh hưởng như thế nào bởi các yếu tố như điểm trong Kỳ thi tuyển sinh đại học quốc gia (National College Entrance Examination –
39
NCEE), giới tính, độ tuổi và thái độ học tập. Kết quả cho thấy điểm NCEE có tác động lớn nhất đến khả năng tiếng Anh, tiếp theo là thái độ học tập và giới tính, trong khi độ tuổi không có tác động đáng kể đến điểm tiếng Anh (Liu, 2019).
Tập trung vào việc dự báo kết quả học tập của sinh viên cuối môn học bằng cách sử dụng các kỹ thuật khai thác dữ liệu như NB, DT và ANN, nghiên cứu của Siddiqui & Arain (2019) giới thiệu một mô hình coi việc sinh viên đến lớp đúng giờ và sự tham gia của phụ huynh vào quá trình học tập là những yếu tố quan trọng trong việc dự báo kết quả học tập của các khóa học trực tuyến bên cạnh các yếu tố về nhân khẩu học, hành vi và các yếu tố liên quan tới học tập (Siddiqui & Arain, 2019).
Trong nghiên cứu của mình, Francis & Babu (2019) đã đề xuất một mô hình/phương pháp kết hợp để dự báo kết quả. Mô hình kết hợp được phát triển dựa trên cả kỹ thuật phân loại giúp lựa chọn thuộc tính và phân cụm giúp dự báo kết quả. Mô hình này đã được thử nghiệm trên dữ liệu thời gian thực của sinh viên thuộc các ngành khác nhau và đã cho thấy kết quả vượt trội về độ chính xác (Francis & Babu, 2019).
Zohair & Mahmoud (2019) chứng minh tính khả thi của việc huấn luyện trên tập dữ liệu nhỏ (50) để dự báo kết quả luận văn của người học. Nghiên cứu khám phá khả năng xác định các yếu tố chính trong mô hình dự báo bao gồm tuổi, GPA và chuyên ngành bằng cách sử dụng thuật toán phân cụm và trực quan hóa qua bản đồ nhiệt. Nghiên cứu cũng chứng minh tính hiệu quả của SVM và thuật toán phân tích phân biệt tuyến tính (Linear Discriminant Analysis – LDA) trong việc huấn luyện tập dữ liệu nhỏ, tạo ra tỷ lệ kiểm tra độ chính xác và độ tin cậy ở mức chấp nhận được (Zohair & Mahmoud, 2019).
Nghiên cứu của Imran & cộng sự (2019) tập trung vào việc sử dụng các kỹ thuật học máy có giám sát như J48, nNGe và MLP (Multilayer Perceptron) để dự báo kết quả học tập của người học. Kết quả cho thấy J48 đạt độ chính xác cao nhất là 95,78%, cho thấy tín hiệu khả quan trong việc dự báo kết quả học tập. Nghiên cứu cũng nhấn mạnh vai trò của tiền xử lý dữ liệu và tinh chỉnh thuật toán để giải quyết vấn đề về chất lượng dữ liệu và cải thiện độ chính xác của mô hình (Imran & cộng sự, 2019).
Nghiên cứu của Injadat & cộng sự (2020) tập trung vào việc sử dụng kỹ thuật
khai thác dữ liệu và tối ưu hóa thuật toán học máy để phù hợp dự báo kết quả học tập
của sinh viên và đánh giá các yếu tố ảnh hưởng đến điểm số cuối cùng của sinh viên ở
hai giai đoạn phân phối học phần, tương ứng 20% và 50% tiến độ học phần (Injadat &
cộng sự, 2020).
40
Nghiên cứu của A. Salah Hashim & cộng sự (2020) phát triển một mô hình dự
báo kết quả học tập bằng cách sử dụng các thuật toán học máy có giám sát để xác định
người học có nguy cơ bỏ học trước kỳ thi cuối kỳ. Nghiên cứu so sánh hiệu suất của
nhiều thuật toán học máy và nhấn mạnh tầm quan trọng của việc dự báo thành công học
tập của người học. Nghiên cứu sử dụng công cụ WEKA để thử nghiệm và so sánh hiệu
suất của một số thuật toán học máy được giám sát như DT, NB, SVM, KNN, hồi quy
logistic (Logistic Regression – LR), tối ưu hóa cực tiểu tuần tự (Sequential Minimal
Optimisation – SMO) và mạng nơ-ron (Artificial Neural Networks – ANN) để dự báo
cho điểm cuối cùng và khả năng đỗ/trượt của người học tại chương trình học cử nhân
của Trường Cao đẳng Khoa học Máy tính và Công nghệ Thông tin, Đại học Basra.
Nghiên cứu cũng cho thấy LR là thuật toán tốt nhất khi dự báo khả năng đỗ/trượt của
người học (Hashim & cộng sự, 2020).
Nghiên cứu của A. Kumar Veerasamy (2020) trình bày một mô hình sử dụng các
nhiệm vụ đánh giá sớm để dự báo kết quả học tập trong khóa học lập trình. Mô hình này
sử dụng DT và rừng ngẫu nhiên (Random Forest – RF) để xác định sinh viên có nguy
cơ trong khóa học. Quá trình đánh giá diễn ra trong hai tuần đầu của kỳ học. Mô hình
có khả năng dự báo chính xác 60% kết quả học tập. Nghiên cứu cũng cho thấy 77% số
sinh viên cần được hỗ trợ có thể được xác định từ tuần thứ ba dựa trên kết quả của họ
trong các bài đánh giá định kỳ trong một khóa học lập trình cơ bản kéo dài 12 tuần.
Ngoài ra, theo phân tích, những sinh viên nhận được điểm 25% hoặc thấp hơn trong các
bài đánh giá quá trình ở hai tuần đầu tiên có nguy cơ cao không thể tiếp tục hoặc không
vượt qua bài kiểm tra cuối kỳ (Veerasamy & cộng sự, 2020).
Nghiên cứu của Adnan (2021) đề xuất một mô hình sử dụng các thuật toán học
máy để dự báo kết quả học tập trong nền tảng học tập trực tuyến. Mô hình này sử dụng
các yếu tố như điểm đánh giá của sinh viên, mức độ tương tác (bao gồm dữ liệu dòng
nhấp chuột) và các biến phụ thuộc vào thời gian để đưa ra dự báo cũng như can thiệp
kịp thời nhằm cải thiện sự tham gia và kết quả của người học trực tuyến. Kết quả thử
nghiệm cũng cho thấy mô hình dự đoán ở các tỷ lệ phần trăm khác nhau của thời lượng
khóa học sử dụng thuật toán RF cho kết quả tốt nhất (Adnan & cộng sự, 2021).
b. Dự báo kết quả học tập mức năm học, dự báo kết quả học tập mức chương
trình học/tốt nghiệp.
Dự báo kết quả của người học ở cuối mỗi kỳ hoặc khi tốt nghiệp cũng được quan tâm với mục tiêu giúp CSGD ĐH hỗ trợ sinh viên tốt nghiệp hiệu quả, tiết kiệm chi phí
41
và nâng cao hiệu suất hệ thống giáo dục. Cụ thể, trong một nghiên cứu của Hassan (2016), tác giả đã đi sâu vào việc tìm hiểu tác động của kết quả trung học và kỳ thi dự bị đại học lên GPA cuối chương trình của sinh viên khoa CNTT tại Ả Rập Xê Út. Kết quả áp dụng kỹ thuật hồi quy trên tập dữ liệu của sinh viên đại học và sau đại học cho thấy điểm trung học có ảnh hưởng mạnh đối với GPA đại học hơn so với điểm kỳ thi dự bị đại học. Bên cạnh đó, năm học ghi danh có ảnh hưởng tiêu cực đến GPA đại học và điểm trung bình đại học thường có xu hướng giảm theo thời gian (Hassan & Al–Razgan, 2016).
Nghiên cứu của Y. Altujjar và nhóm nghiên cứu (2016) đã sử dụng thuật toán ID3 để phân loại dựa vào hồ sơ của 100 sinh viên tốt nghiệp chương trình Cử nhân khoa CNTT. Mục tiêu là dự đoán kết quả học tập của sinh viên và xác định các học phần quan trọng trong chương trình Cử nhân CNTT. Nghiên cứu đã phát triển các mô hình phân loại cho từng năm của chương trình và kết quả cho thấy mô hình dựa trên dữ liệu của năm thứ hai đạt độ chính xác cao nhất (Altujjar & cộng sự, 2016).
Cũng trong nghiên cứu của mình, Khasanah (2017) đã tiến hành so sánh giữa các mô hình dự báo GPA của sinh viên tại Đại học Rajabhat Rajanagarindra. Nghiên cứu nhấn mạnh rằng các yếu tố như giới tính, học bổng và nền tảng giáo dục ảnh hưởng đến điểm số (Khasanah, 2017).
Adekitan và Salau (2019) đã nghiên cứu việc dự báo GPA tích lũy (Cumulative Grade Point Average – CGPA) của sinh viên ngành kỹ thuật tại Nigeria thông qua việc áp dụng sáu thuật toán khai thác dữ liệu khác nhau. Các thử nghiệm đã đạt độ chính xác lên tới 89,15%. Trong kết luận, các tác giả nhấn mạnh mức độ quan trọng của thành tích học tập trong ba năm đầu đối với việc xác định CGPA và xếp hạng của sinh viên, với lý do điểm số khó cải thiện ở các cấp độ cao hơn do mức độ khó và chiều sâu học thuật tăng lên (Adekitan & Salau, 2019).
Tương tự, Alyahyan và Düşteaör (2020) đã thực hiện một nghiên cứu nhằm dự báo kết quả học tập của sinh viên sau năm dự bị bằng cách áp dụng ba bộ phân loại DT khác nhau: J48, REPTree và RT (Random Tree). Trong số đó, thuật toán J48 đã được xác định là có hiệu suất tốt nhất với độ chính xác 69,3% trong việc dự đoán kết quả học tập. Các tác giả cũng đã sử dụng thuật toán lựa chọn yếu tố của mô hình để xác định các khóa học trong năm dự bị có ảnh hưởng đến CGPA của sinh viên. Qua nghiên cứu, họ đã xác định được rằng các đặc trưng quan trọng ảnh hưởng đến thành tích học tập của sinh viên CCSIT bao gồm: CGPA năm dự bị, kết quả học phần Kỹ năng máy tính, Kỹ năng giao tiếp và Toán (Alyahyan & Düşteaör, 2020).
42
Lựa chọn hai phương pháp phân loại phổ biến là C4.5 và NB trong khai thác dữ liệu giáo dục, Santoso & cộng sự (2021) sử dụng công cụ RapidMiner để thử nghiệm trên bộ dữ liệu nhỏ (dưới 79 bản ghi) đã phát hiện NB cho kết quả tốt hơn, với mức độ chính xác trung bình 73,41% cho việc dự báo kết quả học tập vào thời điểm tốt nghiệp (Santoso & cộng sự, 2021).
Trong nghiên cứu của Adekitan & Noma–Osaghae (2019), các tác giả đã khảo sát mối quan hệ giữa điểm đầu vào và CGPA của sinh viên năm thứ nhất tại Nigeria. Dựa trên các thuật toán khai thác dữ liệu, nghiên cứu cho thấy điểm đầu vào không thể giải thích hoàn toàn CGPA trong năm học đầu tiên, do đó, nghiên cứu cũng đề xuất rằng việc sử dụng thêm đặc điểm nhân khẩu học có thể tiết lộ các xu hướng trong dự báo (Adekitan & Noma–Osaghae, 2019).
Trong một nghiên cứu khác của Patil & cộng sự (2018), các tác giả đã xây dựng một hệ thống có khả năng dự báo kết quả học tập của sinh viên trong năm thứ tư dựa trên các dữ liệu như giới tính, điểm số và kết quả học tập năm thứ ba v.v. Hệ thống sử dụng thuật toán ID3, C4.5 và một phiên bản cải tiến của ID3 để phân tích dự báo (Patil & cộng sự, 2018).
Nghiên cứu của Huynh–Cam & cộng sự (2021) tập trung vào việc dự báo các yếu tố ảnh hưởng đến kết quả học tập của sinh viên năm thứ nhất dựa trên dữ liệu về hoàn cảnh gia đình của sinh viên khi bắt đầu nhập học. Bằng cách thử nghiệm các kỹ thuật như RF, C5.0, cây phân loại và hồi quy (Classification and Regression Trees – CART) và MLP trên dữ liệu từ 2.407 sinh viên đại học tại Đài Loan, nghiên cứu chỉ ra rằng CART là thuật toán hiệu quả nhất và yếu tố tác động quan trọng nhất bao gồm nghề nghiệp của mẹ, khoa/ngành, nghề nghiệp của cha, nguồn chi phí sinh hoạt chính và tình trạng nhập học (Huynh–Cam & cộng sự, 2021).
1.2.1.3 Dự báo hỗ trợ cho hoạt động tuyển sinh thông qua việc lựa chọn ngành học, chương trình học phù hợp cho sinh viên hay dự đoán số lượng tuyển sinh.
Mengash (2020) đã tiến hành một nghiên cứu với mục tiêu sử dụng khai thác dữ liệu để dự báo kết quả học tập của sinh viên đại học, qua đó hỗ trợ quá trình tuyển sinh. Dựa trên dữ liệu từ 2.039 sinh viên của một trường đại học công lập ở Ả Rập Xê Út, nghiên cứu đã xác định rằng điểm số trong kỳ thi tuyển đầu vào SAAT là yếu tố dự báo quan trọng nhất, với kỹ thuật ANN cho ra tỷ lệ chính xác cao nhất và đề xuất là kỹ thuật nên được ưu tiên trong quá trình tuyển sinh. Phản hồi từ khuyến nghị này, lãnh đạo tại PNU, nơi nghiên cứu được tiến hành, đã điều chỉnh phương pháp tuyển sinh bằng cách tăng cường ảnh hưởng của điểm SAAT trong ba tiêu chí được xem xét. Nghiên cứu tiếp
43
tục đánh giá hiệu quả của thay đổi này bằng cách so sánh CGPA năm đầu của sinh viên được tuyển theo cả hệ thống đánh giá mới và cũ. Kết quả cho thấy việc điều chỉnh phương pháp tuyển sinh đã dẫn đến sự cải thiện đáng kể trong thành tích học tập của sinh viên, với tỷ lệ sinh viên có CGPA năm đầu cao tăng 31%, trong khi tỷ lệ sinh viên có CGPA năm đầu ở mức trung bình hoặc thấp giảm 18% (Mengash, 2020).
Tương tự, Saini & Jain (2013) đã khai thác dữ liệu học tập của sinh viên để cải thiện tuyển sinh cho chương trình thạc sĩ của trường. Nghiên cứu sử dụng phương pháp phân loại dựa trên DT (ID3 và J48) và giả định rằng thành tích học tập trước đây của sinh viên có thể là cơ sở để phát triển một mô hình dự báo nhằm phân biệt sinh viên có khả năng đạt thành tích thấp trong chương trình Thạc sĩ Ứng dụng Máy tính (Master of Computer Applications – MCA). Nghiên cứu cũng chỉ ra rằng sinh viên tốt nghiệp cử nhân khoa học (B.Sc.) với chuyên ngành Toán và sinh viên cử nhân khoa học máy tính (Bachelor of Computer Applications – BCA) thường có kết quả tốt hơn trong MCA, ngược lại, sinh viên B.Sc. không chuyên ngành Toán thường không đạt kết quả cao. Điều này nhấn mạnh tầm quan trọng của việc tư vấn chính xác cho sinh viên trước khi họ chọn chương trình MCA, giúp họ đưa ra quyết định dựa trên khả năng và nền tảng học thuật của bản thân (Saini & Jain, 2013).
Nghiên cứu của Alsayed & cộng sự (2021) đã chú trọng vào mục tiêu dự báo chuyên ngành đại học phù hợp cho sinh viên. Nghiên cứu dựa trên dữ liệu từ Kaggle và sử dụng phương pháp thống kê cùng học máy như DT, RF, GBC (Gradient Boosting Classifier), v.v., nhằm xác định ngành học phù hợp với sinh viên. Kết quả từ phân tích xác thực chéo 10 lần cho thấy RF và GBC dự đoán chính xác ngành học với độ chính xác 0,75 và 0,61. Các mô hình này được đề xuất tích hợp vào hệ thống tư vấn giáo dục thông minh để làm cơ sở để các phòng tuyển sinh đề xuất hướng đi đúng đắn giúp sinh viên lựa chọn ngành phù hợp. Bởi việc chọn sai ngành nghề có thể ảnh hưởng nghiêm trọng đến sinh viên mới tốt nghiệp cũng như đến hiệu quả đào tạo của các trường đại học. Nghiên cứu cũng chỉ ra rằng lựa chọn ngành học của sinh viên phụ thuộc vào điểm số ở các kỳ thi trung học phổ thông, đại học và bài kiểm tra đầu vào, cũng như kinh nghiệm làm việc và vị trí việc làm (Alsayed & cộng sự, 2021).
Dựa chủ yếu trên dữ liệu của thí sinh đăng ký nhập học, một nghiên cứu của Slim & cộng sự (2018) đã tận dụng học máy để xây dựng mô hình dự báo số lượng ghi danh nhập học của thí sinh tại Đại học New Mexico. Để giải quyết vấn đề, nghiên cứu tiếp cận theo hai hướng, theo cá nhân và theo nhóm. Hướng tiếp cận nhóm dự đoán dựa trên đặc điểm nhóm sử dụng mô hình bán giám sát dựa trên dữ liệu cá nhân và mô hình chuỗi thời gian dựa trên dữ liệu tập hợp. Với hướng tiếp cận cá nhân, các tác giả đã áp dụng
44
phương pháp học máy như LR, SVM để dự đoán việc đăng ký của người nộp đơn dựa trên một tập hợp các đặc trưng nhất định. Sau đó, xác định tổng số người đăng ký bằng cách đếm số người đăng ký được dự đoán sẽ đăng ký. Kết quả cho thấy có một mối tương quan chặt chẽ giữa các đặc trưng liên quan đến đặc điểm của thí sinh với quyết định ghi danh của thí sinh (Slim & cộng sự, 2018).
1.2.2 Nghiên cứu trong nước
Nhiều nghiên cứu tại Việt Nam đã chú trọng vào việc khai thác và ứng dụng công nghệ khai phá dữ liệu trong lĩnh vực giáo dục. Các nghiên cứu này tập trung vào việc phát triển các hệ thống đề xuất khóa học, dự báo kết quả học tập và phân tích yếu tố ảnh hưởng đến quá trình học tập của sinh viên. Thông qua việc sử dụng các thuật toán, phương pháp và công cụ khai phá dữ liệu hiện đại, như SSDT–BI của Microsoft, SQL Server, phân tích định tính và định lượng, cũng như các kỹ thuật học sâu như MLP, các tác giả đã đưa ra những mô hình và giải pháp hiệu quả, giúp cải thiện chất lượng giáo dục và hỗ trợ sinh viên trong quá trình học tập. Những kết quả này không chỉ chứng tỏ tiềm năng của việc ứng dụng CNTT và khai phá dữ liệu trong giáo dục mà còn mở ra hướng đi mới cho việc nghiên cứu và phát triển các hệ thống hỗ trợ giáo dục tại Việt Nam trong tương lai. Một số nghiên cứu điển hình có thể kể đến như:
Nghiên cứu của Thanh Nhàn (2016) giới thiệu các phương pháp khác nhau để xây dựng hệ thống đề xuất khóa học, cho phép sinh viên dự báo kết quả học tập của mình và chọn các khóa học phù hợp để xây dựng kế hoạch học tập hiệu quả hơn. Nghiên cứu so sánh và phân tích hiệu suất của các phương pháp này bằng cách sử dụng một tập dữ liệu thực tế, lựa chọn mô hình tối ưu để triển khai hệ thống đề xuất khóa học. Kết quả ban đầu chứng minh tính khả thi và tiềm năng ứng dụng thực tiễn của hệ thống đề xuất khóa học được nghiên cứu (Thanh–Nhan & cộng sự, 2016).
Trong luận văn thạc sĩ công nghệ thông tin, tác giả Lê Xuân Lâm nghiên cứu việc sử dụng công cụ khai phá dữ liệu SSDT–BI do Microsoft phát triển. Dữ liệu được sử dụng để khai phá dữ liệu là điểm thực tế của học viên Trường Cao đẳng An ninh nhân dân I. Để giải quyết bài toán về dự báo kết quả học tập của học viên, luận văn sử dụng một số thuật toán khai phá dữ liệu được hỗ trợ trong SQL Server. Từ các mô hình dự đoán, tác giả lựa chọn ra mô hình tốt nhất và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên (Lê, 2020).
Nghiên cứu của tác giả Đinh Chung Dũng tìm hiểu các kỹ thuật khai phá dữ liệu và phát hiện tri thức cơ bản. Hai kỹ thuật chính là kỹ thuật khai phá luật kết hợp và DT. Kết quả đạt được là phát hiện một số luật trong cố vấn học tập thông qua bộ dữ liệu quản lý thông tin sinh viên hiện tại của Trường Đại học Kinh tế Quốc dân bằng việc áp dụng
45
kỹ thuật khai phá luật kết hợp và DT với sự trợ giúp của các công cụ có sẵn (Đinh, 2018).
Nhóm tác giả Vũ Sơn Tùng và Trần Thanh Phong trong nghiên cứu của mình đã kết hợp phương pháp phân tích định tính với kỹ thuật thảo luận nhóm và phương pháp định lượng thông qua mẫu dữ liệu gồm 250 sinh viên vừa học vừa làm trúng tuyển trong năm học 2017 – 2018 thuộc Trung tâm Đào tạo thường xuyên Trường Đại học Kinh tế Công nghiệp Long An. Các tác giả đã kiểm tra lại số sinh viên bỏ học để đưa vào phân tích bằng Phần mềm thống kê cho các ngành khoa học và xã hội (Statistical Package for the Social Sciences – SPSS). Kết quả của nghiên cứu cho thấy 5 yếu tố có tác động tới việc sinh viên bỏ học gồm: thời gian, thay đổi công việc, khối lượng chương trình, (4) gia đình và sự hỗ trợ (Tùng & Phong, 2022).
Tương tự, một nghiên cứu tại Trường Đại học Vinh áp dụng LR và NB phân tích
điểm thi đầu vào và kết quả học tập ba học kỳ đầu của hơn 555 sinh viên ngành Công nghệ thông tin khóa 54, 55, 56 nhằm dự đoán khả năng bị buộc ngừng học. Mục tiêu là giúp nhà trường phát hiện sớm và hỗ trợ sinh viên, giảm tỷ lệ thôi học. Các yếu tố ảnh hưởng đến việc ngừng học bao gồm điểm đầu vào, quê quán, điểm môn Ngôn ngữ Lập trình C, Toán A2 (Giải tích I) và Tư tưởng Hồ Chí Minh, với sinh viên có điểm thấp ở các môn này và điểm đầu vào thấp có xu hướng cao bị buộc ngừng học (Uyên & Tâm, 2019).
Trong một nghiên cứu của nhóm tác giả Trường đại học Cần Thơ, các tác giả đã
nghiên cứu đề xuất một phương pháp dự báo kết quả học tập của sinh viên bằng kỹ thuật học sâu nhằm khai thác cơ sở dữ liệu trong hệ thống quản lý sinh viên tại các trường đại học. Sau khi thu thập dữ liệu, các tác giả đã tiến hành phân tích lựa chọn các thuộc tính phù hợp, tiền xử lý dữ liệu, thiết kế và huấn luyện mạng MLP. Kết quả thử nghiệm cho thấy mô hình đề xuất cho kết quả dự báo khá chính xác và hoàn toàn khả thi để áp dụng vào thực tế (Sang & cộng sự, 2020).
1.2.3 Nhận định về nghiên cứu dự báo dựa trên dữ liệu người học
Thứ nhất, mặc dù dự báo dựa trên dữ liệu người học có thể được phân loại theo nhiều tiêu chí khác nhau, yếu tố cốt lõi vẫn là kết quả học tập của người học. Kết quả học tập có thể đóng vai trò là biến đầu vào (yếu tố dự báo) hoặc biến đầu ra (được dự báo) tùy thuộc vào mục tiêu nghiên cứu. Các loại dữ liệu kết quả học tập phổ biến bao gồm: điểm đánh giá, số học phần hoặc số giờ đã hoàn thành và điểm số đạt được. Một số mô hình còn sử dụng kết quả các kỳ thi đầu vào hoặc thi xếp lớp như một biến dự báo.Nhìn chung, các biến mô tả kết quả học tập trước đây có thể hỗ trợ hiệu quả trong việc dự báo vì chúng phản ánh mức độ chuẩn bị tổng thể của người học đối với một khóa học hay học phần mới. Kết quả học tập ở các học phần tương tự trước đó hoặc
46
năng lực học tập chung của người học là căn cứ hữu ích để dự đoán khả năng tham gia thành công vào các nhiệm vụ học tập tương lai.
Thứ hai, bài toán dự báo dựa trên dữ liệu người học có thể được giải quyết bằng nhiều kỹ thuật khác nhau, từ các thuật toán học máy truyền thống đến những phương pháp hiện đại và tiên tiến hơn. Tùy thuộc vào đặc điểm của tập dữ liệu và cách thức xử lý dữ liệu đầu vào, các thuật toán có thể cho ra kết quả dự báo với độ chính xác khác nhau. Một số nghiên cứu mặc dù chỉ sử dụng tập dữ liệu quy mô nhỏ hoặc dữ liệu khảo sát vẫn đạt được độ chính xác ở mức chấp nhận được, cho thấy tính linh hoạt của các mô hình học máy. Các nghiên cứu thường sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu hoặc AUC để so sánh hiệu suất của các thuật toán trong cùng một điều kiện dữ liệu.Tuy nhiên, kết quả từ các nghiên cứu khác nhau không thể so sánh trực tiếp, do sự khác biệt về nguồn dữ liệu, đặc trưng đầu vào, bối cảnh ứng dụng và quy trình tiền xử lý. Vì vậy, việc xác định một thuật toán là “tối ưu” trong mọi trường hợp là không khả thi.Thay vào đó, để xây dựng một mô hình dự báo hiệu quả, cần lựa chọn thuật toán phù hợp với đặc điểm cụ thể của tập dữ liệu đang xét. Việc tối ưu hóa mô hình theo dữ liệu đầu vào là yếu tố then chốt trong phát triển hệ thống dự báo có tính ứng dụng cao.
Thứ ba, các nghiên cứu phát triển mô hình dự báo thường được thực hiện trong bối cảnh cụ thể, với nguồn dữ liệu đã xác định hoặc giả định rằng không có rào cản trong thu thập dữ liệu. Dữ liệu được sử dụng có thể đến từ khảo sát thủ công hoặc thu thập tự động theo thời gian thực, chẳng hạn như dữ liệu hành vi học tập từ các hệ thống quản lý học tập (LMS). Tuy nhiên, việc khai thác dữ liệu hành vi đặt ra những thách thức nghiêm trọng về đạo đức và quyền riêng tư, đặc biệt trong bối cảnh thiếu minh bạch hoặc chưa có chính sách rõ ràng về sử dụng dữ liệu cá nhân trong môi trường giáo dục. Đáng chú ý, gần hai phần ba các mô hình dự báo có hiệu suất cao lại chủ yếu dựa vào dữ liệu nhân khẩu học và dữ liệu tĩnh, thay vì dữ liệu hành vi. Điều này phản ánh xu hướng ưu tiên sử dụng dữ liệu tĩnh, vốn dễ thu thập và ít gây lo ngại về đạo đức. Tuy nhiên, việc phụ thuộc vào các đặc trưng tĩnh cũng tiềm ẩn nguy cơ duy trì định kiến cố hữu trong mô hình, đặc biệt là khi các đặc điểm như giới tính, vùng miền hoặc nền tảng kinh tế – xã hội bị sử dụng một cách thiếu kiểm soát. Do đó, khi xây dựng hệ thống BI dự báo trong các CSGD ĐH – vốn thu thập dữ liệu định kỳ từ nhiều nguồn khác nhau – cần đặc biệt cân nhắc các ràng buộc về đạo đức, tính thiên lệch dữ liệu và quyền riêng tư. Việc thiết kế mô hình cần hướng đến sự cân bằng giữa hiệu quả dự báo và trách nhiệm xã hội, nhằm bảo đảm sự công bằng và minh bạch trong ứng dụng vào thực tiễn.
47
1.3 Tổng kết Chương 1
Chương 1 của luận án đã trình bày tổng quan các nghiên cứu liên quan đến hệ thống BI trong giáo dục đại học và dự báo dựa trên dữ liệu người học, tập trung vào các nghiên cứu trong khoảng thời gian 5 năm từ năm 2023 trở về trước. Dựa trên phân tích tổng quan, NCS đã đưa ra những nhận định quan trọng và xác định các khoảng trống nghiên cứu, từ đó xây dựng cơ sở và xác định hướng nghiên cứu của luận án.
48
CƠ SỞ LÝ THUYẾT
2.1 Hệ thống trí tuệ doanh nghiệp
2.1.1 Hệ thống trí tuệ doanh nghiệp trong môi trường doanh nghiệp
2.1.1.1 Khái niệm
"Trí tuệ doanh nghiệp" được Việt hóa từ thuật ngữ "Business Intelligence", viết tắt
là BI. BI được sử dụng sớm nhất vào năm 1865 bởi Richard Millar Devens để mô tả
cách chủ ngân hàng Henry Furnese kiếm lợi bằng cách sử dụng thông tin về môi trường
kinh doanh. Khả năng thu thập và phản ứng kịp thời với thông tin được coi là cốt lõi của
BI. Năm 1958, Hans Peter Luhn của IBM đã sử dụng thuật ngữ BI để mô tả khả năng
hiểu và tương tác với các sự kiện hướng đến mục tiêu mong muốn (Luhn, 1958). Năm
1989, Howard Dresner đề xuất cách hiểu mới cho thuật ngữ BI. BI được dùng để mô tả
phương pháp cải thiện việc ra quyết định kinh doanh bằng cách sử dụng các hệ thống
hỗ trợ dựa trên thực tế. Cách hiểu này được phổ biến rộng rãi vào cuối những năm 1990
(Dresner, 2009). Vercellis (2011) định nghĩa BI là một tập hợp các mô hình toán học và
phương pháp phân tích khai thác dữ liệu có sẵn để tạo ra thông tin và kiến thức hữu ích
cho các quá trình ra quyết định phức tạp (Vercellis, 2011).
Trong một số tài liệu tiếng Việt, BI còn được dịch là "Thông minh kinh doanh"
hoặc "Phân tích kinh doanh". Mỗi cách chuyển ngữ mang hàm ý khác nhau. "Thông minh
kinh doanh" nhấn mạnh vào sự thông minh, sự hiểu biết sâu sắc và khả năng ra quyết định
chính xác trên dữ liệu thuộc lĩnh vực kinh doanh. Tuy nhiên thuật ngữ này không phổ
biến và thường gây khó hiểu. "Phân tích kinh doanh", mặt khác, lại nhấn mạnh vào quá
trình xử lý, khai phá dữ liệu thông minh để tạo ra thông tin hữu ích cho hoạt động kinh
doanh. Mặc dù dễ hiểu và gần gũi hơn, nhưng cụm từ này vẫn dễ bị nhầm lẫn với các khía
cạnh phân tích dữ liệu thông thường khác. Cụm từ "Trí tuệ doanh nghiệp" vừa thể hiện
khả năng hiểu biết, suy luận và phân tích thông minh vừa chỉ rõ đối tượng áp dụng là các
tổ chức, doanh nghiệp, phản ánh đúng mục đích và bản chất của BI, đồng thời lại gần gũi
và dễ hiểu. Đó là lý do tác giả lựa chọn cụm từ "Trí tuệ doanh nghiệp" tương đương với
"BI" trong luận án này.
Hệ thống trí tuệ doanh nghiệp hay hệ thống BI ngày nay được phát triển từ các hệ
thống hỗ trợ ra quyết định từ những năm 1960 và phát triển trong suốt những năm 1980.
Xuất phát từ môi trường doanh nghiệp, mục đích của hệ thống là hướng tới việc phục vụ
49
các mục tiêu kinh doanh. Hệ thống BI được coi là một giải pháp phân tích dữ liệu toàn
diện bởi khả năng tổng hợp dữ liệu từ nhiều nguồn, bao gồm nhưng không bắt buộc dữ
liệu của các hệ thống chức năng khác nhau trong tổ chức. BI thực hiện các tác vụ phân
tích dữ liệu từ đơn giản đến phức tạp và trực quan hóa dữ liệu đa dạng thông qua các công
cụ truy vấn, công cụ khai phá, công cụ dự báo và bảng tin tổng hợp.
Yêu cầu của hệ thống BI là duy trì sự nhất quán về dữ liệu được tổng hợp từ
nhiều nguồn để đảm bảo độ chính xác và tin cậy, tránh những sai sót và tranh chấp trong
phân tích. Đồng thời, hệ thống cần linh hoạt và có khả năng điều chỉnh để phù hợp với
sự thay đổi nhu cầu đa dạng từ môi trường kinh doanh. Ví dụ như mở rộng tính năng,
tích hợp thêm nguồn dữ liệu mới, hoặc thêm mới và cải tiến báo cáo. Hệ thống BI phải
hướng đến việc cung cấp giao diện người dùng trực quan, thân thiện cho phép người
dùng tương tác, truy cập thông tin dễ dàng, linh hoạt. Qua đó người dùng phát hiện
thông tin giá trị và xu hướng tiềm ẩn thể hiện qua dữ liệu.
2.1.1.2 Kiến trúc hệ thống
Kiến trúc hệ thống theo định nghĩa của Vercellis (2011) là một kiến trúc kim tự
tháp phân tầng, hàm ý hệ thống cung cấp sự hỗ trợ, cũng như yêu cầu vai trò, năng lực
nhân sự ngày càng cao khi di chuyển từ chân lên đỉnh kim tự tháp. Ở cấp độ thấp nhất,
các quản trị viên dữ liệu chủ yếu quản lý nguồn dữ liệu và kho lưu trữ dữ liệu. Các nhà
phân tích và chuyên gia về mô hình toán, thống kê đảm nhận các cấp độ trung gian.
Trong khi đó, nhà quản lý chiếm ưu thế ở cấp độ cao nhất khi áp dụng thông tin để ra
quyết định cho lĩnh vực cụ thể. Cách tiếp cận này đảm bảo rằng hệ thống BI hỗ trợ cho
việc ra quyết định một cách thông minh trên các cấp độ khác nhau của tổ chức và đáp
ứng nhu cầu phức tạp của các tổ chức khác nhau (Vercellis, 2011).
Theo một cách tiếp cận đơn giản, hướng chức năng hơn, nghiên cứu của Bessa
và cộng sự (2016) mô tả kiến trúc hệ thống BI gồm các thành phần đảm nhận 4 công
việc chính: (1) Thu thập dữ liệu thô từ các nguồn khác nhau và chuyển đổi thành định
dạng phù hợp để phân tích; (2) Quản lý dữ liệu trong kho dữ liệu, kho dữ liệu cục bộ;
(3) Phân tích dữ liệu tạo để tạo báo cáo đánh giá hiệu suất kinh doanh và dự báo; (4)
Biểu diễn trên giao diện người dùng bao gồm bảng thông tin tổng hợp, báo cáo trực
quan hóa dữ liệu, v.v.(Bessa & cộng sự, 2016).
50
Hình 2.1: Các thành phần chính của hệ thống Trí tuệ doanh nghiệp
Nguồn: (Vercellis, 2011)
Để hiểu rõ hơn về các định nghĩa kiến trúc hệ thống, có thể hình dung như sau: Hệ thống muốn hoạt động hiệu quả cần tích hợp tốt với các hệ thống chức năng khác của tổ chức. Trong doanh nghiệp, đó là các hệ thống quản lý như hệ thống quản lý nhân sự (Human Resource Management – HRM), hệ thống quản trị quan hệ khách hàng (Customer Relationship Management – CRM), hệ thống hoạch định nguồn lực doanh nghiệp (Enterprise Resource Planning – ERP), v.v. Dữ liệu về khách hàng, sản phẩm, kho, doanh thu, chi phí, nhân sự, v.v. từ cơ sở dữ liệu của các hệ thống quản lý này là dữ liệu gốc của hệ thống BI. Ngoài ra, hệ thống có thể lấy dữ liệu từ các nguồn bên ngoài như dữ liệu thị trường, cơ quan chính phủ, các trang web tin tức, các tổ chức liên quan đến ngành nghề, v.v. Dữ liệu đôi khi được thu thập thủ công từ các nguồn như báo cáo giấy, bảng tính, hoặc tự động từ các hệ thống cảm biến IoT thời gian thực, chẳng hạn như hệ thống giám sát sản xuất hoặc vận chuyển. Trong quá trình chọn nguồn dữ liệu, những yếu tố quan trọng cần xem xét bao gồm mức độ liên quan, loại, chất lượng và độ chi tiết của dữ liệu. Tùy thuộc vào nguồn dữ liệu, quá trình ETL có thể ở các mức độ tự động khác nhau và yêu cầu sử dụng các công cụ và kỹ thuật phù hợp để đảm bảo tính toàn vẹn và độ chính xác của dữ liệu.
Các kho lưu trữ dữ liệu có thể được chia thành nhiều loại, bao gồm kho dữ liệu, kho dữ liệu cục bộ, hồ dữ liệu và kho dữ liệu hoạt động (Operational Data Store – ODS). Trong đó: (1) Kho dữ liệu thường chứa dữ liệu lịch sử có cấu trúc, đã được xử lý và chuẩn hóa từ nhiều nguồn khác nhau. Dữ liệu này thường được tổ chức dưới dạng bảng
51
hoặc khối dữ liệu, cung cấp cái nhìn đa chiều, toàn diện về hoạt động kinh doanh; (2) Kho dữ liệu cục bộ nhỏ hơn, chuyên biệt cho các lĩnh vực cụ thể hoặc các phòng ban trong tổ chức như bán hàng, tài chính, nhân sự v.v., phục vụ nhu cầu phân tích dữ liệu đặc thù của từng đơn vị và có thể được hợp nhất để tạo thành kho dữ liệu; (3) Kho ODS lưu trữ dữ liệu trung gian, tạm thời trước khi dữ liệu được chuyển đến kho dữ liệu và thường được sử dụng để truy vấn các giao dịch gần nhất; (4) Hồ dữ liệu được vận hành trên nền tảng dữ liệu lớn, đóng vai trò như một kho lưu trữ dữ liệu thô, đa dạng về loại, có thể được phân tích trực tiếp hoặc được lọc và chuyển vào kho dữ liệu để phân tích sâu hơn. Hồ dữ liệu thường gắn với quá trình trích xuất, tải và chuyển đổi dữ liệu (ELT). Mỗi hệ thống sẽ cần xác định loại kho lưu trữ dữ liệu phù hợp nhất cho mục đích sử dụng của mình. Việc triển khai và thiết lập vật lý của các kho lưu trữ dữ liệu, dù là trên một máy chủ dữ liệu đơn lẻ hay hệ thống các máy riêng biệt, phụ thuộc vào quy mô và nhu cầu cụ thể của hệ thống BI.
Công cụ phân tích, tạo báo cáo và trực quan hóa dữ liệu là thành phần cốt lõi trong hệ thống. Công cụ phân tích được tích hợp vào kiến trúc hệ thống BI bao gồm công cụ truy vấn theo ngữ cảnh (ad hoc queries), phân tích trực tuyến OLAP và phân tích kinh doanh (Business Analytics – BA). Nếu phân tích trực tuyến được dùng để tổng hợp, so sánh và phân tích dữ liệu lịch sử thông qua các chiều, thì BA sử dụng thống kê, mô hình dự báo để phát triển những hiểu biết mới dựa trên dữ liệu, thúc đẩy quá trình ra quyết định. Do đó, hệ thống BI không chỉ cảnh báo về vấn đề đã xảy ra, số lượng, mức độ thường xuyên, v.v. mà còn có thể trả lời các câu hỏi như: Tại sao điều này lại xảy ra? Điều gì sẽ xảy ra nếu xu hướng tiếp tục? Công cụ trực quan hóa dữ liệu biểu diễn dữ liệu minh họa cho xu hướng, mẫu và các yếu tố ngoại lệ trong tập dữ liệu. Báo cáo, bảng thông tin tổng hợp trình bày dữ liệu đồ họa dạng tĩnh hoặc ở chế độ xem tương tác để đào sâu chi tiết. Các chỉ số hiệu suất ở các cấp độ được trình bày đơn giản, súc tích dưới dạng biểu đồ, thanh hiệu suất, đồng hồ, bản đồ, đèn tín hiệu, v.v. Sự kết hợp giữa công cụ phân tích dữ liệu và trực quan hóa dữ liệu mang lại cho người dùng khả năng tiếp nhận thông tin một cách nhanh chóng và hiệu quả. Cổng thông tin là giao diện chính, là điểm tiếp xúc giữa người dùng và hệ thống. Để đảm bảo an toàn, bảo mật, hệ thống được quản lý và phân quyền chặt chẽ, chỉ cho phép những người dùng hợp lệ đăng nhập và truy xuất tới dữ liệu.
Ngày nay, kiến trúc hệ thống BI hiện đại ưu tiên sử dụng các công cụ BI tự phục vụ, cho phép nhà quản lý tự thực hiện truy vấn và tạo báo cáo mà không cần phải phụ thuộc vào chuyên gia hệ thống. Bên cạnh đó, BI thời gian thực (Real–Time Business Intelligence – RTBI) cung cấp khả năng phân tích dữ liệu ngay lập tức với độ trễ tối
52
thiểu. Điều này đặc biệt quan trọng trong các lĩnh vực như tài chính và giao dịch chứng khoán, nơi kết quả phân tích dữ liệu thời gian thực mang lại lợi thế cạnh tranh cho doanh nghiệp, giúp doanh nghiệp phản ứng kịp thời trước các sự kiện mới xảy ra (Bentley, 2017). Tuy nhiên, việc triển khai hệ thống RTBI gặp phải những thách thức đáng kể. Thứ nhất, yêu cầu về hệ thống mạng và phần mềm phức tạp phục vụ truyền tải và phân tích dữ liệu thời gian thực. Thứ hai, các quyết định đưa ra dựa trên dữ liệu thời gian thực tiềm ẩn rủi ro do dữ liệu chưa được xác thực hoặc xử lý quá vội vàng. Vì vậy, khi đầu tư vào hệ thống RTBI, các tổ chức cần xem xét và quyết định liệu việc truy cập ngay lập tức vào dữ liệu cho mục đích phân tích có thực sự cần thiết hay không.
Để đáp ứng nhu cầu phân tích dữ liệu lớn, đa dạng, kiến trúc hệ thống BI hiện đại sẽ ngày càng phức tạp và áp dụng công nghệ tiên tiến hơn. Trong tương lai, xu hướng phát triển hệ thống BI sẽ tập trung tích hợp các giải pháp dựa trên đám mây, học máy và trí tuệ nhân tạo AI. Những công nghệ này không chỉ cải thiện khả năng lưu trữ, phân tích và dự báo, mà còn tăng tính tương tác của hệ thống, hỗ trợ đắc lực cho sự phát triển của hệ thống BI tự phục vụ, cho phép tất cả thành viên trong tổ chức tiếp cận và khai thác dữ liệu một cách dễ dàng và hiệu quả hơn.
2.1.1.3 Yếu tố ảnh hưởng tới hình thái hệ thống
Theo Laudon, tác giả của giáo trình kinh điển về Hệ thống thông tin quản lý trong doanh nghiệp số, hệ thống thông tin quản lý của doanh nghiệp nên được tiếp cận qua ba khía cạnh chính gồm công nghệ, tổ chức và quản lý (Laudon & Laudon, 2004). Do đó, khi hoạch định hệ thống, các chuyên gia không chỉ cần quan tâm đến yếu tố công nghệ mà còn phải xem xét đến những yếu tố phi công nghệ, liên quan đến tổ chức và quản lý. Những yếu tố này giúp định hình rõ nét hình thái của hệ thống. Theo nghiên cứu tổng hợp của Bentley (2017), các yếu tố phi công nghệ có ảnh hưởng trực tiếp bao gồm: (1) Bối cảnh; (2) Các hệ thống thông tin chức năng; (3) Quy trình nghiệp vụ; (4) Khung quản lý/đánh giá hiệu suất; và (5) Khả năng của tổ chức trong việc sử dụng, phát triển thông tin, tri thức để nâng cao hiệu quả hoạt động hay còn gọi là trí tuệ của tổ chức (Bentley, 2017).
a. Bối cảnh
Bối cảnh liên quan trực tiếp đến tổ chức và quá trình hoạch định hệ thống bởi nó cung cấp cái nhìn toàn diện về môi trường trong đó tổ chức hoạt động. Phân tích bối cảnh giúp xác định các yếu tố bên trong và bên ngoài ảnh hưởng đến quyết định và chiến lược kinh doanh, là cơ sở quan trọng để phát triển và thực thi kế hoạch hệ thống một cách hiệu quả. Một trong những ví dụ điển hình của phân tích bối cảnh là phân tích
53
SWOT (Strengths – Weaknesses – Opportunities – Threats) giúp tổ chức nhận diện được điểm mạnh, điểm yếu, cũng như cơ hội và thách thức mà họ phải đối mặt. Từ đó, tổ chức có thể xây dựng chiến lược phát triển và kế hoạch hành động rõ ràng, trong đó có nội dung về ứng dụng và phát triển hệ thống thông tin để hỗ trợ cho chiến lược của tổ chức.
b. Các hệ thống thông tin chức năng
Các hệ thống thông tin chức năng (Functional Area Information Systems – FAIS), hỗ trợ các hoạt động thuộc các lĩnh vực cụ thể trong tổ chức như kế toán, tài chính, quản lý sản xuất, tiếp thị và nhân sự hoặc các hệ thống tiếp cận từ góc độ khác như TPS, ERP, OAS, MIS, DSS, ESS, CRM, hệ chuyên gia, hệ thống thương mại điện tử v.v., cung cấp dữ liệu cho hệ thống BI. Điều này nhấn mạnh vai trò quan trọng của FAIS với tư cách là nguồn cung cấp dữ liệu chính cho hệ thống BI.
c. Quy trình nghiệp vụ
Khám phá quy trình nghiệp vụ (Business Process Discovery – BPD) là một phần thiết yếu của quá trình thu thập và phân tích thông tin cần thiết cho phát triển hệ thống. BPD sử dụng kỹ thuật phân tích và tái dựng quy trình nghiệp vụ thực tế (process mining) từ dữ liệu được ghi nhận trong nhật ký sự kiện (event logs), cung cấp cái nhìn chi tiết và trực quan để tối ưu hóa và cải tiến quy trình nghiệp vụ, từ đó cải thiện và nâng cao hiệu quả hoạt động của tổ chức. Những phát hiện từ BPD không chỉ cung cấp cái nhìn sâu sắc và chi tiết về quy trình nghiệp vụ của tổ chức mà còn được tận dụng để thiết kế các báo cáo và bảng tin tổng hợp trong hệ thống BI.
d. Khung quản lý hiệu suất
Khung quản lý hiệu suất (Performance Management Framework – PMF) là một công cụ hoặc khung phương pháp hỗ trợ đo lường, đánh giá hiệu suất và là một thành phần thiết yếu của quy trình quản lý hiệu suất kinh doanh (Business Performance Management – BPM). Quy trình BPM được hỗ trợ bởi công nghệ, bao gồm ba hoạt động chính là xác định mục tiêu, thu thập dữ liệu đo lường và thực hiện biện pháp cải thiện. Khung quản lý hiệu suất như Thẻ điểm cân bằng (Balanced Scorecard – BSC), Six Sigma, Quản trị mục tiêu và kết quả then chốt (Objectives and Key Results – OKR), Quản lý chất lượng toàn diện (Total Quality Management – TQM) và Giá trị gia tăng kinh tế (Economic Value Added – EVA) giúp tổ chức xác định các mục tiêu chiến lược và quản lý hiệu suất đạt được so với những mục tiêu này. Hệ thống BI thu thập, tổng hợp dữ liệu, tạo thông tin đo lường liên quan đến tiến độ, hiệu suất của tổ chức đối với các mục tiêu đã đặt ra trước đó, hỗ trợ nhà quản lý can thiệp và điều chỉnh các kế hoạch nhằm cải thiện hiệu suất trong tương lai. Nhờ vào các khung này, hệ thống BI cung cấp
54
cho tổ chức một cái nhìn toàn diện và có cơ sở khoa học để định hướng, triển khai và đánh giá hiệu quả các chiến lược và kế hoạch hành động dựa trên dữ liệu thực tiễn.
e. Trí tuệ tổ chức
Trí tuệ tổ chức (Organizational Intelligence – OI) bao gồm các yếu tố liên quan đến nhân sự, quy trình, công cụ và công nghệ, cũng như văn hóa trong việc thu thập, xử lý và sử dụng thông tin cũng như tri thức trong tổ chức. Đây là một khía cạnh quan trọng thể hiện năng lực tiếp cận và quản trị tri thức của tổ chức. OI cho thấy khả năng quản lý tri thức và học tập của tổ chức, khả năng giải thích và hành động hiệu quả trên cơ sở thông tin và chỉ báo từ môi trường kinh doanh, khả năng phát triển, chia sẻ và sử dụng kiến thức phù hợp với mục đích, cùng khả năng phản ánh, học hỏi từ kinh nghiệm. OI hiện diện trong các yếu tố như kiến thức và kỹ năng của nhân sự, quy trình thu thập, quản lý và chia sẻ thông tin trong tổ chức, công nghệ và công cụ (bao gồm cơ sở dữ liệu, hạ tầng mạng và phần mềm cộng tác) phục vụ cho việc chia sẻ và phổ biến thông tin, cùng văn hóa học hỏi, hợp tác và đổi mới. Những yếu tố này khuyến khích nhân viên chia sẻ kiến thức và ý tưởng, tạo cơ hội học tập và phát triển, công nhận và khen thưởng tư duy đổi mới.
Như vậy, hệ thống BI là một cấu thành cơ bản của OI và chịu tác động của OI. Hệ thống cung cấp các công cụ và kỹ thuật để thu thập, phân tích, hiển thị và chia sẻ dữ liệu. Ngược lại, để xây dựng một hệ thống BI hiệu quả, tổ chức cần có một tiềm năng OI mạnh mẽ để đảm bảo việc thu thập và quản lý dữ liệu, thông tin được thực hiện đúng cách. Bên cạnh đó, OI cung cấp một khía cạnh quan trọng khi phát triển BI, đó là việc hiểu rõ hơn về tổ chức và người dùng cuối. Từ đó, hệ thống BI có thể được tùy chỉnh để đáp ứng nhu cầu đặc thù của tổ chức. OI là nền tảng cần thiết để triển khai BI hiệu quả, trong khi BI góp phần tăng cường năng lực OI.
2.1.2 Hệ thống trí tuệ doanh nghiệp trong môi trường giáo dục
2.1.2.1 Hệ thống trí tuệ doanh nghiệp và mục tiêu đảm bảo chất lượng giáo dục đại học
Mục tiêu cốt lõi của các CSGD ĐH không chỉ dừng lại ở việc tạo ra lợi nhuận như các doanh nghiệp mà còn hướng đến việc phổ biến và phát triển tri thức, góp phần thúc đẩy sự tiến bộ của xã hội và cộng đồng. Các CSGD ĐH có nhiệm vụ cung cấp kiến thức chuyên môn và kỹ năng cần thiết cho người học, giúp họ trở thành chuyên gia trong lĩnh vực của mình, đồng thời đảm bảo năng lực cạnh tranh trong bối cảnh quá nhiều biến động hiện nay.
Việc sử dụng hệ thống BI trong các CSGD ĐH có thể hỗ trợ hiệu quả cho những nhiệm vụ này. Bên cạnh đó, nguồn dữ liệu bùng nổ đã tạo tiềm năng lớn để CSGD ĐH
55
khai thác thông qua hệ thống BI. Hệ thống BI được cho là rất quan trọng trong việc phân tích dữ liệu lớn và giúp CSGD ĐH nhanh chóng nhận được thông tin chi tiết về hiệu suất hoạt động (Apraxine & Stylianou, 2017; Javier, 2017). Việc tích hợp dữ liệu đa dạng từ tất cả các mảng chức năng khác nhau của CSGD ĐH trong một hệ thống BI toàn diện có thể mang lại lợi ích to lớn. Tuy nhiên, điều đó cũng đòi hỏi một nỗ lực rất đáng kể trong việc thiết kế và xây dựng nhằm đảm bảo hệ thống có khả năng tích hợp và phân tích dữ liệu, đáp ứng đầy đủ toàn bộ nhu cầu quản lý của các cấp và các đơn vị khác nhau (Guster & Brown, 2012). Trong thực tế thử nghiệm, các nghiên cứu cho thấy hệ thống BI mang lại lợi ích chính cho các bộ phận đào tạo, tiếp thị, tuyển sinh và quản lý (Ranjan & Malik, 2007).
Trong đào tạo, dựa trên phân tích dữ liệu học tập, các CSGD ĐH có thể có cái nhìn sâu sắc hơn về người học bằng cách phân tích hành vi (Jayakody & Perera, 2016; Zhang, 2016) và kết quả học tập (Agustiono, 2019), từ đó phát triển các chương trình dạy, học bổ sung nhằm hỗ trợ người học, cải thiện kết quả học tập và nâng cao các chỉ số như tỷ lệ đỗ/đạt, tỷ lệ duy trì và mức độ hài lòng của người học (Baepler & Murdoch, 2010; Boulila & cộng sự, 2023; Hamed & cộng sự, 2017; Hariguna & cộng sự, 2019; Javier, 2017; Maia & cộng sự, 2018; Villegas–Ch & cộng sự, 2018). Hệ thống BI cung cấp hiểu biết sâu sắc về người học giúp nắm bắt nhu cầu và cá nhân hóa các dịch vụ đối với người học (Al Farsi & Saini, 2015).
Trong tiếp thị và tuyển sinh, nếu biết được chương trình nào phổ biến trên thị
trường, CSGD ĐH có thể cung cấp thông tin sát hơn về môi trường học thuật giúp tăng
khả năng cạnh tranh (Falakmasir & cộng sự, 2010). Dữ liệu nhân khẩu (quốc gia, tuổi,
giới tính), tỷ lệ xác nhận nhập học, chi phí thu nạp, giá trị vòng đời của người học,
v.v., được dùng để hỗ trợ các bộ phận truyền thông và tuyển sinh trong việc đánh giá
hiệu quả các hoạt động hiện tại, dự báo xu hướng tương lai, cũng như điều chỉnh chiến
lược thị trường mục tiêu.
Trong quản lý, các chỉ số hiệu suất chính như số lượng sinh viên, chi phí thu nạp
sinh viên, kết quả học tập, tỷ lệ duy trì và giá trị vòng đời của sinh viên được cung cấp
bởi hệ thống hỗ trợ rất nhiều cho lãnh đạo trong công tác quản lý, điều chỉnh hoạt động
của CSGD ĐH (Apraxine & Stylianou, 2017).
Các lợi ích trong đào tạo, tiếp thị, tuyển sinh và quản lý góp phần tạo ra lợi thế
cạnh tranh cho các CSGD ĐH. Chất lượng dịch vụ và mức độ hài lòng của khách hàng
tạo ra sự khác biệt cho CSGD ĐH và giúp họ đạt được mục tiêu tồn tại lâu dài (Tsinidou
& cộng sự, 2010). Hệ thống BI giám sát và quản lý hiệu quả hoạt động của các CSGD
56
ĐH (Javier, 2017; Scholtz & cộng sự, 2018) và hỗ trợ việc đánh giá và giám sát hiệu suất
liên quan đến đảm bảo chất lượng. Đảm bảo chất lượng là quá trình liên tục, mang tính
hệ thống, bao gồm các chính sách, cơ chế, tiêu chuẩn, quy trình, biện pháp nhằm duy trì
và nâng cao chất lượng giáo dục đại học. Sự thiếu vắng đảm bảo chất lượng có thể cản
trở sự tồn tại và phát triển bền vững của các CSGD ĐH (Sorour & cộng sự, 2020). Các
chỉ số chất lượng trong giáo dục đại học có thể được phân loại thành bốn nhóm chính: (1)
Chỉ số hành chính, (2) Chỉ số hỗ trợ sinh viên, (3) Chỉ số giảng dạy và (4) Chỉ số thành
tích của sinh viên. Hệ thống BI có khả năng cung cấp các bảng tin tổng hợp và báo cáo
tóm tắt liên quan đến các chỉ số này (Welzant & cộng sự, 2011). Hệ thống BI và đảm bảo
chất lượng giáo dục đại học nên song hành cùng nhau (Colbran & Al–Ghreimil, 2013).
Khi hệ thống BI hỗ trợ cho việc đánh giá và giám sát hiệu suất liên quan đến đảm bảo
chất lượng giáo dục đại học, nó đồng thời đặt nền móng cho công tác kiểm định, chứng
minh chất lượng, giúp các CSGD ĐH minh bạch trong các hoạt động, kết quả đạt được,
đồng thời xây dựng niềm tin và thể hiện trách nhiệm giải trình của CSGD ĐH. Tuy nhiên,
sự mơ hồ về các khái niệm trong đảm bảo chất lượng, đơn cử như tiêu chuẩn kiểm định,
có thể tạo ra những thách thức khi triển khai hệ thống BI (Sorour & cộng sự, 2020).
Như vậy, có thể thấy rằng về mặt lý thuyết, lợi ích mà hệ thống BI toàn diện
mang lại là không thể phủ nhận. Tuy nhiên, từ góc độ thực hành và thử nghiệm, hệ thống
BI chủ yếu tập trung vào việc hỗ trợ các hoạt động như đào tạo, tiếp thị, tuyển sinh và
quản lý, đặc biệt là quản lý đảm bảo chất lượng, với dữ liệu chính thu thập từ người học.
Điều này có thể được lý giải bởi các nguyên nhân sau:
Thứ nhất: Dữ liệu người học đóng vai trò cốt yếu trong các quy trình lõi của
CSGD ĐH, bao gồm học tập, giảng dạy, phát triển chương trình và quản lý.
Với quy trình học tập, dữ liệu người học đóng vai trò trung tâm trong các giai
đoạn: tuyển sinh, đăng ký học phần, học tập, đánh giá kết quả, tốt nghiệp và phát triển
nghề nghiệp. Ở giai đoạn tuyển sinh, thông tin cá nhân, nhân khẩu và hồ sơ học tập của
thí sinh được thu thập để hoàn thiện đơn đăng ký, đồng thời phục vụ việc đánh giá mức
độ đạt tiêu chuẩn và đưa ra quyết định nhập học. Khi đăng ký học phần, dữ liệu về cá
nhân, khóa học và chi tiết thanh toán được ghi lại, hỗ trợ quản lý việc đăng ký và lệ phí.
Trong quá trình học tập, dữ liệu như điểm danh, bài tập, bài kiểm tra và các đánh giá
khác giúp theo dõi tiến độ học tập, xác định các điểm cần cải thiện và hỗ trợ kịp thời
cho người học. Ở giai đoạn tốt nghiệp, dữ liệu về tín chỉ, học phần đã hoàn thành và
chuẩn đầu ra được sử dụng để đánh giá việc hoàn thành các yêu cầu tốt nghiệp. Cuối
cùng, đối với phát triển nghề nghiệp, dữ liệu về kỹ năng, trình độ, thực tập và sở thích
57
công việc hỗ trợ các dịch vụ hướng nghiệp, kết nối sinh viên với các cơ hội việc làm
phù hợp.
Với quy trình giảng dạy, dữ liệu người học có vai trò quan trọng trong việc hỗ trợ giảng viên đánh giá hiệu quả của các khóa học. Dữ liệu như kết quả bài tập, bài kiểm tra, bài thi và các đánh giá khác, cùng với phản hồi của sinh viên qua khảo sát, giúp giảng viên hiểu rõ hơn về các nội dung mà sinh viên gặp khó khăn. Thông tin này được sử dụng để đánh giá hiệu quả của phương pháp giảng dạy, tài liệu học tập và mức độ liên kết giữa mục tiêu khóa học và kết quả học tập. Dựa trên phân tích dữ liệu, giảng viên có thể đưa ra các quyết định để điều chỉnh phương pháp giảng dạy, đáp ứng tốt hơn nhu cầu của người học và nâng cao trải nghiệm học tập tổng thể.
Với quy trình thiết kế và phát triển chương trình đào tạo, dữ liệu người học đóng vai trò quan trọng trong việc cung cấp căn cứ thực tiễn để điều chỉnh nội dung và cấu trúc chương trình. Thông qua việc phân tích nhu cầu và phản hồi của sinh viên, dữ liệu này được sử dụng để thiết kế chương trình phù hợp, phân bổ nguồn lực hợp lý và hỗ trợ sinh viên chuyển tiếp giữa các bậc học hoặc chương trình đào tạo khác nhau. Ngoài ra, dữ liệu còn giúp đảm bảo chương trình đào tạo đáp ứng các tiêu chuẩn kiểm định chất lượng và góp phần tối ưu hóa kết quả học tập.
Với quy trình quản lý và hỗ trợ, dữ liệu người học được tận dụng để cải thiện
hiệu quả ra quyết định liên quan tới chất lượng dịch vụ cho người học, thúc đẩy sự cải
tiến liên tục trong giáo dục. Việc sử dụng dữ liệu người học không chỉ giúp cải thiện các
quy trình nội bộ mà còn góp phần tối ưu hóa trải nghiệm của người học, đảm bảo chất
lượng giáo dục và đáp ứng kỳ vọng của các bên liên quan.
Thứ hai: Dữ liệu người học được tạo ra và tích lũy từ các quy trình lõi của CSGD
ĐH, gia tăng theo thời gian dựa trên số lượng người học và số lượng sự kiện mà họ tham
gia. Lượng dữ liệu này có tiềm năng lớn để khai thác nhằm phục vụ các mục tiêu của
CSGD ĐH.
Tóm lại, phân tích trên cho thấy hệ thống BI dựa trên dữ liệu người học là một
giải pháp tối ưu để tận dụng hiệu quả nguồn tài nguyên dữ liệu đầy tiềm năng. Khai thác
dữ liệu người học là phương thức ưu việt để thu thập thông tin và hiểu biết về người
học, góp phần đảm bảo chất lượng giáo dục và đáp ứng mục tiêu cốt lõi của CSGD ĐH.
Thêm vào đó, nghiên cứu về hệ thống BI dựa trên dữ liệu người học sẽ cho phép giới
hạn phạm vi nghiên cứu một cách hợp lý, tập trung vào các vấn đề trong lĩnh vực trọng
yếu, giúp giảm thiểu khối lượng công việc, hướng đến tính khả thi và hiệu quả trong
triển khai hệ thống.
58
2.1.2.2 Khung hệ thống BI trong cơ sở giáo dục đại học
Trong ngữ cảnh phát triển hệ thống thông tin, khung – hay framework – bao gồm
một tập các quy tắc, cấu trúc và công cụ được sắp xếp trước để hỗ trợ việc phát triển hệ
thống một cách hiệu quả. Các khung giúp tiết kiệm thời gian và công sức bằng cách cung
cấp các thành phần và chức năng cơ bản được xây dựng sẵn, giúp các nhà phát triển tập
trung vào việc xây dựng các tính năng đặc thù của hệ thống thay vì phải xây dựng lại từ
đầu.
Trong ngữ cảnh nghiên cứu hệ thống thông tin, khung có thể được hiểu là một
tạo tác dùng để mô tả hệ thống, thường trình bày dưới dạng sơ đồ, giúp nhà nghiên cứu
nắm bắt khái quát các khía cạnh khác nhau như kiến trúc, công nghệ, quy trình phát
triển, quản trị, v.v. của hệ thống, dẫn hướng cho việc nghiên cứu và triển khai các hệ
thống thông tin phức tạp.
a. Khung kiến trúc hệ thống
Khung kiến trúc hệ thống BI trong CSGD ĐH đã được đề xuất trong nhiều nghiên
cứu. Khung mô tả kiến trúc hệ thống với các thành phần thường được tổ chức theo cấu
trúc phân tầng, tương tự như kiến trúc hệ thống BI doanh nghiệp, có thể khái quát thành
ba khối chính: (1) ETL (trích xuất, chuyển đổi và tải dữ liệu); (2) Kho dữ liệu; (3) Phân
tích và trực quan hóa dữ liệu (Niño & cộng sự, 2020; Sorour & cộng sự, 2020). Tuy
nhiên, sẽ có sự khác biệt về nguồn dữ liệu tích hợp, các chỉ số đo lường được sử dụng
trong báo cáo và bảng tin tổng hợp, cũng như mức độ chi tiết và phân tách của các tầng
chức năng trong từng khối chính.
Có thể thấy rõ đặc điểm phân tầng và sự khác biệt về nguồn dữ liệu trong khung
kiến trúc đề xuất bởi Van Dyk (2008). Đây là một khung kiến trúc được điều chỉnh từ
khung kho dữ liệu của Kimball bao gồm 3 tầng chính: (1) Tầng ETL thực hiện trích
xuất, chuyển đổi và tải dữ liệu vào kho lưu trữ chung từ nhiều nguồn như hệ thống ERP,
LMS, SIS, hệ thống tài chính và nguồn dữ liệu khảo sát thủ công. Dựa trên nghiên cứu
về mối tương quan giữa hành vi học trực tuyến trên LMS và các chỉ số hiệu quả giảng
dạy, tác giả đã trích xuất dữ liệu về sự tương tác của người học từ nền tảng học trực
tuyến LMS (dưới dạng tệp .csv), kết hợp với dữ liệu về phong cách học tập được khảo
sát thủ công thông qua bảng hỏi để chuyển đổi và tải vào kho dữ liệu; (2) Tầng lưu trữ
dữ liệu gồm các kho dữ liệu cục bộ được tổ chức theo các đối tượng cụ thể như sinh
viên, cựu sinh viên, và hành vi học tập (dòng nhấp chuột); (3) Tầng phân tích thực hiện
59
các phân tích theo ngữ cảnh và đưa ra chỉ số đo lường tiêu chuẩn nhằm đánh giá hiệu
quả giảng dạy trực tuyến thông qua 9 thước đo cụ thể. Mặc dù trong nghiên cứu này, hệ
thống BI có kiến trúc tập trung và hỗ trợ phân tích dữ liệu hành vi học trực tuyến ở mức
cơ bản, tuy nhiên khung là một gợi ý tốt để mở rộng cho các hệ thống BI tại các CSGD
ĐH khác (van Dyk, 2008).
Hình 2.2: Khung hệ thống Trí tuệ doanh nghiệp
Nguồn: (van Dyk, 2008)
Tương tự, tính phân tầng đặc trưng và bảng tin tổng hợp cũng được thể hiện rõ trong khung kiến trúc hệ thống BI quản lý hiệu suất CSGD ĐH của Muntean & cộng sự (2020). Cụ thể, các tầng gồm: (1) Tầng kho dữ liệu; (2) Tầng báo cáo – gồm báo cáo truy vấn theo ngữ cảnh và báo cáo giao dịch; (3) Tầng phân tích – gồm phân tích đa chiều OLAP, khai thác dữ liệu, khai thác văn bản, và dự báo; (4) Tầng giám sát – qua bảng thông tin tổng hợp và thẻ điểm cân bằng với các chỉ số hiệu suất chính, cho phép tương tác qua cổng thông tin của CSGD ĐH. Thiết kế trọng tâm của tầng giám sát là bảng tin tổng hợp quản lý hiệu suất với thước đo thể hiện qua các chỉ số về các mảng như: sinh viên và việc dạy học, nghiên cứu, nhân sự, tài chính, quy trình và vận hành. Các chỉ số được đề xuất như: số lượng tuyển sinh theo chương trình, số lượng sinh viên tốt nghiệp, sinh viên quốc tế, phân bố theo giới tính, tỷ lệ duy trì trong năm đầu, tỷ lệ tốt nghiệp, tỷ lệ có việc làm, tỷ lệ học và tốt nghiệp ở bậc thạc sĩ và tiến sĩ, số lượng sinh viên sống trong khuôn viên trường, v.v. Đây có thể là nội dung bắt buộc tại một bảng tin tổng hợp của bất kỳ CSGD ĐH nào và tùy chỉnh theo các tiêu chuẩn cụ thể cho CSGD ĐH (Muntean & cộng sự, 2010).
60
Khung BI bền vững của Scholtz & cộng sự (2018) tiếp tục mở rộng nghiên cứu trước đó với sáu tầng chức năng: (1) Tầng trích xuất, chuyển đổi và tải dữ liệu; (2) Tầng lưu trữ dữ liệu; (3) Tầng báo cáo; (4) Tầng phân tích; (5) Tầng giám sát; (6) Tầng trình bày (Scholtz & cộng sự, 2018). Dựa trên lý thuyết về các bên liên quan, khung mới bổ sung hai tầng nhằm phản ánh vai trò của các bên liên quan chính, bao gồm người dùng, nhà quản lý và đội ngũ công nghệ thông tin. Ngoài ra, khung BI bền vững mở rộng phạm vi báo cáo từ hiệu suất truyền thống sang các mảng khác như quản trị bền vững. Tuy nhiên, do các hạn chế về nguồn lực và dữ liệu, hệ thống BI thử nghiệm chỉ thu thập, xử lý dữ liệu giới hạn trong mảng quản trị cơ sở vật chất và quản lý người học. Việc thử nghiệm và đánh giá hệ thống thử nghiệm qua năm tiêu chí do Jooste & cộng sự (2014) đề xuất vẫn mang lại những bằng chứng giá trị về tính khả thi và khả năng mở rộng của hệ thống BI khi áp dụng theo hướng dẫn của khung (Jooste & cộng sự, 2014).
Để đáp ứng nhu cầu thực tiễn, kiến trúc BI hiện đại trong CSGD ĐH cũng cần tích hợp các giải pháp BI tự phục vụ và tận dụng dịch vụ điện toán đám mây. Điều này cho phép các CSGD ĐH khai thác tối đa lợi ích từ hệ thống (Liyang & cộng sự, 2011; Muriithi & Kotzé, 2013; Sorour & cộng sự, 2020). Khi áp dụng giải pháp, CSGD ĐH cần phải chuẩn bị đầy đủ nguồn nhân lực và tài chính để đảm bảo việc vận hành hệ thống trong dài hạn và mở rộng hệ thống trong tương lai.
b. Khung quy trình
Khung quy trình có vai trò định hướng cho việc khai thác dữ liệu, phát triển và triển khai hệ thống dựa trên các khung kiến trúc BI. Như đã đề cập, việc phát triển và triển khai một hệ thống bao quát nhiều khía cạnh trong CSGD ĐH là nhiệm vụ phức tạp, đòi hỏi nhiều nguồn lực. Do đó, các nghiên cứu đã tập trung vào một số khía cạnh cốt lõi, như tuyển sinh, đào tạo, để đề xuất các giải pháp thực tiễn. Trên cơ sở đó, các khung quy trình được xây dựng nhằm hỗ trợ hiệu quả việc khai thác dữ liệu, phát triển và triển khai các hệ thống BI thuộc dạng này.
Về khung quy trình khám phá dữ liệu học thuật, có thể nhắc tới khung được Romero & Ventura (2007) đề xuất nhằm cung cấp thông tin giá trị cho nhà quản trị và các khuyến nghị hữu ích cho người học (Romero & Ventura, 2007). Khung quy trình này đặt nền móng cho hệ thống thông minh giáo dục EI (Aziz & cộng sự, 2012; Chen, 2012), một giải pháp BI nhằm cải thiện kết quả học tập của người học và môi trường quản lý trong giáo dục.
Kế đến, nghiên cứu của Arteaga & cộng sự (2020) cũng đề cập tới khung quy trình phân tích dữ liệu học thuật, tập trung vào khía cạnh người học, nhằm cung cấp các
61
báo cáo hiệu suất học tập, hỗ trợ người học, giáo viên và nhà quản lý trong việc tự đánh giá và cải thiện. Dữ liệu định dạng (.pdf, .csv, .xls) được thu thập từ giáo viên và sinh viên trong vòng 5 năm được dùng để kiểm chứng tính hiệu quả của hệ thống trong việc cải thiện môi trường giáo dục và hỗ trợ ra quyết định (Arteaga & cộng sự, 2020). Tương tự, khung quy trình tích hợp khai thác dữ liệu học thuật vào hệ thống BI của Villegas– Ch & cộng sự (2020) gồm sáu giai đoạn chính: (1) lựa chọn nguồn dữ liệu, (2) lựa chọn dữ liệu cần phân tích, (3) tiền xử lý dữ liệu, (4) chuyển đổi dữ liệu, (5) khai thác dữ liệu và (6) khám phá tri thức. Sơ đồ SIPOC (Supplier – Input – Process – Output – Customer) được sử dụng để minh họa chi tiết cho nguồn cung dữ liệu, đầu vào, các bước xử lý, đầu ra và đích đến của thông tin trong hệ thống (Villegas–Ch & cộng sự, 2020).
Khung quy trình phát triển hệ thống BI, tương tự, cũng thường được thiết kế gắn liền với việc xây dựng các hệ thống BI dựa trên dữ liệu người học. Trong nghiên cứu của Anardani và cộng sự (2019), khung quy trình này kế thừa lộ trình phát triển hệ thống BI của Moss và Atre (2003), với mục tiêu xây dựng một hệ thống đánh giá kết quả học tập của người học và cung cấp các báo cáo phục vụ hoạt động kiểm định theo tiêu chuẩn kiểm định giáo dục quốc gia Indonesia BAN–PT (Anardani & cộng sự, 2019).
c. Khung quản trị hệ thống
Để đảm bảo việc xây dựng và vận hành thành công hệ thống, khung quản trị BI bổ sung nhiều yếu tố. Ví dụ như nguyên tắc hướng dẫn, chiến lược, chính sách, quy trình, cơ quan ra quyết định và vai trò trong hệ thống (Niño & cộng sự, 2020), hoặc các yếu tố như: tầm nhìn tổ chức; chiến lược và mục tiêu; quy trình kinh doanh cần thiết để thực hiện chiến lược; quy trình khai thác dữ liệu và các chỉ số KPI; nguồn nhân lực; công nghệ BI; và hạ tầng công nghệ thông tin dựa trên tiêu chuẩn hệ thống BI trưởng thành của Gartner (Muntean & cộng sự, 2011; Zulkefli & cộng sự, 2015). Những yếu tố này không chỉ giúp kiểm soát hiệu quả hệ thống mà còn đảm bảo thành công của dự án, đồng thời tạo sự nhất quán giữa mục tiêu phát triển hệ thống và tầm nhìn của tổ chức.
2.2 Phân tích dữ liệu người học và dự báo dựa trên dữ liệu người học
2.2.1 Dữ liệu người học
10 Data Quality Campaign (DQC) là một tổ chức phi lợi nhuận tập trung vào việc nâng cao chất lượng dữ liệu giáo dục. Mục tiêu của DQC là đảm bảo rằng dữ liệu được sử dụng một cách hiệu quả để hỗ trợ học sinh, giáo viên,
Theo định nghĩa của DQC10, dữ liệu người học được mô tả theo nhiều khía cạnh: (1) thông tin học thuật như ghi danh, khóa học, thứ bậc, hoàn thành khóa học và tốt
62
nghiệp dùng để theo dõi tiến độ học tập và thành tích tổng quát của người học qua thời gian, (2) dữ liệu kết quả bài kiểm tra trong ngắn hạn, phản ánh khả năng học tập của người học tại các thời điểm khác nhau, (3) dữ liệu nhân khẩu học bao gồm giới tính, tuổi, chủng tộc, tôn giáo, tình trạng kinh tế, nhu cầu giáo dục đặc biệt, (4) dữ liệu ghi nhận hoạt động của người học trong môi trường học đường như điểm danh, hành vi bên trong lớp học, rèn luyện kỷ luật, hoạt động ngoại khóa.
Tại Việt Nam, theo điều 8 Thông tư 42/2021/TT–BGDĐT quy định nội dung danh mục cơ sở dữ liệu giáo dục và đào tạo, thông tin người học trong CSGD ĐH được hiểu là: "Thông tin về hồ sơ lý lịch, tuyển sinh, quá trình học tập, kết quả học tập, rèn luyện, văn bằng, ra trường, có việc làm và các thông tin khác theo quy định".
Như vậy, dữ liệu người học bao gồm các dữ liệu được thu thập cho từng cá nhân người học để tạo thành một cái nhìn toàn diện về quá trình học tập, kết quả đạt được của người học. Sự phức tạp của dữ liệu yêu cầu các phương pháp tiếp cận cẩn thận trong việc xử lý, phân tích và tạo các mô hình dự đoán có độ chính xác cao (Arizmendi & cộng sự, 2023).
2.2.2 Phân tích dữ liệu người học
Để khai thác dữ liệu người học, các nghiên cứu đã sử dụng các kỹ thuật trong Phân tích dữ liệu học tập (Learning Analytics – LA) và Khai phá dữ liệu giáo dục (Educational Data Mining – EDM).
2.2.2.1 Phân tích dữ liệu học tập
nhà quản lý giáo dục và các nhà hoạch định chính sách trong việc cải thiện kết quả học tập và phát triển nghề
nghiệp.
Phân tích dữ liệu học tập (LA) được định nghĩa là việc thu thập, đo lường, phân tích, báo cáo dữ liệu về người học và môi trường học tập của người học nhằm hiểu rõ và tối ưu hóa quá trình học tập cũng như môi trường học tập (Lang & cộng sự, 2017). Có ba yếu tố then chốt trong định nghĩa của LA, bao gồm: dữ liệu, phân tích và hành động (Siemens, 2013). Quy trình LA thường gồm các nhiệm vụ chính: thu thập dữ liệu, báo cáo kết quả, dự báo xu hướng, thực hiện hành động và tinh chỉnh các biện pháp dựa trên kết quả phân tích. Dữ liệu thu thập có thể bao gồm tiến độ học tập, kết quả học tập và mức độ tham gia của người học. Từ đó, tiên đoán về kết quả học tập, phát hiện hành vi học tập, hoặc trạng thái cảm xúc không mong muốn của người học. Những thông tin này giúp nhà quản lý hiểu rõ hơn về tình hình đào tạo, đồng thời đề xuất các biện pháp cải thiện, thực hiện tác động kịp thời và cung cấp hỗ trợ thích hợp để giảm tỷ lệ bỏ học,
63
tăng tỷ lệ hoàn thành chương trình học (Şahin & Yurdugül, 2020). Việc phân tích đánh giá được thực hiện tại từng thời điểm, giúp nắm bắt quá trình học tập một cách liên tục hoặc theo từng giai đoạn. Dữ liệu thu thập theo thời gian thực thậm chí có thể tạo điều kiện cho việc ra quyết định ngay lập tức (Ifenthaler & Yau, 2020). LA cũng được sử dụng trong các nghiên cứu để xác định điểm mạnh và điểm yếu cho phép xây dựng chiến lược can thiệp thực tế, cung cấp sự hỗ trợ cá nhân hóa cho người học (Blackmon & Moore, 2020; Daniel, 2015; Jia & Maloney, 2015; Wong & cộng sự, 2019).
Một số phương pháp phân tích chính của LA gồm: (1) Trực quan hóa dữ liệu qua đồ thị và biểu đồ giúp tăng khả năng phân tích và nhận thức; (2) Phân tích mối quan hệ giữa các cá nhân hoặc nhóm trong mạng xã hội để xác định các mô hình và xu hướng; (3) Phân tích ngữ nghĩa của từ để xác định các mẫu và xu hướng thông qua việc sử dụng ngôn ngữ (Avella & cộng sự, 2016). Trong số đó, trực quan hóa dữ liệu được chú trọng đặc biệt trong các nghiên cứu thử nghiệm bởi khả năng cung cấp cảnh báo kịp thời cho giảng viên, hỗ trợ phát hiện các hành vi không mong muốn trong quá trình học tập và đưa ra các khuyến nghị hữu ích cho người học (Daniel, 2015; Peña–Ayala, 2014; Wong & cộng sự, 2019).
2.2.2.2 Khai phá dữ liệu giáo dục
Khai phá dữ liệu giáo dục EDM bao gồm các phương pháp nghiên cứu dữ liệu đặc thù từ môi trường giáo dục (Bakhshinategh & cộng sự, 2018). EDM sử dụng các kỹ thuật khai phá dữ liệu để phân tích nhằm trả lời các câu hỏi giáo dục quan trọng (Romero & Ventura, 2013). Ví dụ thường thấy về EDM là khai phá dữ liệu học tập để đưa ra các khuyến nghị về chương trình học tập tối ưu cho người học hoặc dự báo kết quả học tập của người học từ dữ liệu lịch sử. Hiện nay, EDM được xem là một lĩnh vực nghiên cứu độc lập, đóng vai trò quan trọng trong việc phát hiện các mẫu và xu hướng trong hành vi và kết quả học tập của người học. Ngoài ra, nó hỗ trợ khám phá tri thức về các hiện tượng trong quá trình đào tạo và học tập từ các bộ dữ liệu lớn.
2.2.2.3 Các khía cạnh của phân tích dữ liệu học tập và khai phá dữ liệu giáo dục
Mặc dù LA và EDM là hai mảng nghiên cứu khác nhau, nhưng chúng có mối liên hệ khá mật thiết. Các nội dung, phương pháp, và kỹ thuật được sử dụng trong LA và EDM có thể giao nhau theo một số nhận định của cộng đồng các nhà nghiên cứu. Các mô hình do EDM tạo ra thường được sử dụng để phát triển các hệ thống gia sư thông minh, trong khi kết quả của LA có xu hướng hỗ trợ cho việc ra quyết định quản lý (Guzmán–Valenzuela & cộng sự, 2021). Áp dụng EDM và LA trong giáo dục đại học
64
là hữu ích trong việc phát triển chiến lược tập trung vào người học, đảm bảo nhu cầu và mục tiêu của người học là trung tâm của trải nghiệm giáo dục.
Nghiên cứu tổng quan của Aldowah & cộng sự (2019) đã cung cấp một đánh giá khá toàn diện về LA và EDM trong giáo dục đại học trong giai đoạn từ 2000 đến 2017. Dựa trên kết quả của 402 nghiên cứu, các tác giả thống kê tỉ trọng của bốn khía cạnh chính của LA và EDM là CSLA chiếm 30%, CSBA là 20%, CSVA là 9,50% và lớn nhất là CSPA 63,25% (Aldowah & cộng sự, 2019). Trong đó:
CSLA tạo ra thông tin dựa trên dữ liệu tương tác của người học trong môi trường LMS. Thông qua việc đánh giá tương tác của người học trong một nhóm, giảng viên theo dõi liên tục hoạt động học tập, đánh giá hiệu quả của khóa học và xác định các biện pháp can thiệp có thể được thực hiện (Retalis & cộng sự, 2006). Việc phân tích hành vi học tập và tương tác của người học với tài liệu khóa học cũng giúp đánh giá hiệu quả giáo dục và hỗ trợ thiết kế các chiến lược can thiệp để nâng cao khả năng nhận thức của người học (Vatrapu & cộng sự, 2011).
CSBA tiết lộ các mô hình hành vi học tập nhằm cải thiện trải nghiệm và dự báo kết quả học tập của người học trong các khóa học trực tuyến. EDM và LA được dùng để phát hiện hành vi bất thường của người học và xác định những người học thành công dựa trên hành vi của họ (He, 2013; Hung & Zhang, 2008; Jeong & Biswas, 2008; McCuaig & Baldwin, 2012; Romero & Ventura, 2010).
CSVA giúp biểu diễn quá trình học tập và trải nghiệm của người học một cách trực quan, ví dụ như biểu đồ hóa cuộc thảo luận trực tuyến. Công cụ trực quan hóa dữ liệu giúp đơn giản hóa dữ liệu phức tạp, hỗ trợ quá trình đánh giá, theo dõi sự tương tác của người học với hệ thống giáo dục trực tuyến (Peña–Ayala, 2014; Romero & Ventura, 2010).
CSPA dự báo kết quả và khả năng duy trì của người học trong một khóa học bằng
cách đánh giá thành tích, sự tham gia, mức độ tham gia, điểm số và kiến thức lĩnh vực
của người học đồng thời khám phá kiến thức và các mẫu ẩn trong một lượng lớn dữ liệu
để xác định những người bỏ học sớm và xác định ai cần đặc biệt chú ý (Baradwaj & Pal,
2012; Sembiring & cộng sự, 2011).
2.2.3 Dự báo dựa trên dữ liệu người học
2.2.3.1 Nội dung dự báo
Dự báo dựa trên dữ liệu người học sử dụng kỹ thuật của LA và EDM với các
mảng dự báo chia thành ba nhóm chính: (1) dự báo về dự báo sự phù hợp của tài liệu
học tập với người học, (2) dự báo đánh giá và theo dõi việc học tập của người học, (3)
65
dự báo bỏ học và tỷ lệ duy trì (Aldowah & cộng sự, 2019). Trong đó, có thể thấy kết
quả học tập (performance) là yếu tố chính trong dự báo. Dự báo về dự báo sự phù hợp
của tài liệu học tập với người học sử dụng kết quả học tập làm căn cứ cho dự báo. Kết
quả học tập cũng là đầu ra cho dự báo đánh giá và theo dõi việc học tập của người học
và là yếu tố chính, có tính quyết định tới ý định dừng học của người học trong dự báo
bỏ học và tỷ lệ duy trì. Để dự báo kết quả học tập của người học, nhóm tác giả Alwarthan
và cộng sự (2022) đã phân thành 4 nội dung là: (1) dự báo bỏ học, (2) dự báo thành
công ở cấp độ khóa học, (3) dự báo kết quả học tập vào thời điểm tốt nghiệp và (4) dự
báo kết quả vào cuối năm học (Alwarthan & cộng sự, 2022).
Nghiên cứu này sẽ tổng hợp, phân loại nội dung dự báo theo mục đích sử dụng
của hoạt động dự báo để thấy được ý nghĩa của dự báo trong hệ thống BI tại CSGD ĐH.
Nội dung dự báo bao gồm: (1) Dự báo bỏ học – dự báo với mục tiêu tăng tỷ lệ giữ chân,
giảm tỷ lệ rời bỏ của người học với CSGD ĐH; (2) Dự báo để giám sát quá trình học
tập của người học cho phép có những hỗ trợ cần thiết kịp thời với người học; (3) Dự
báo hỗ trợ cho hoạt động tuyển sinh thông qua việc lựa chọn ngành học, chương trình
học phù hợp cho sinh viên và số lượng ghi danh.
a. Dự báo bỏ học
Mô hình dự báo bỏ học dựa trên kết quả học tập, dữ liệu nhân khẩu học và các
yếu tố kinh tế – xã hội. Ví dụ, mô hình của Sarra & cộng sự (2019) dựa trên 6 yếu tố
liên quan tới học tập trong học kỳ đầu tiên như điểm thi, động lực, thu nhập của bố mẹ,
v.v. (Sarra & cộng sự, 2019). Mô hình dự báo tốt nhất đạt được bằng cách sử dụng dữ
liệu liên quan đến kết quả học tập trong kỳ đầu tiên của bậc đại học (Kiss & cộng sự,
2019). Chuyên cần và GPA học kỳ là những yếu tố ảnh hưởng lớn nhất đến kết quả học
tập (Khasanah, 2017). Người học có GPA học kỳ dưới 5.79 có khả năng bỏ học cao hơn
(Santos & cộng sự, 2020). Kết quả học tập ở học kỳ trước có tác động đáng kể đến thành
tích hiện tại và nguy cơ bỏ học. Ngoài ra, các yếu tố nhân khẩu học, hành vi và xã hội
cũng ảnh hưởng đáng kể (Kamal & Ahuja, 2019).
Như vậy, dự báo bỏ học luôn là một bài toán phức tạp, với các mô hình dự báo
bị tác động bởi nhiều yếu tố ngoài kết quả học tập. Trong đó, động lực, sự hài lòng, tự
phản tỉnh và nhận thức đều đóng vai trò quan trọng. Động lực có thể bao gồm các yếu
tố như môi trường gia đình, mức độ hỗ trợ từ cha mẹ, ảnh hưởng từ bạn bè, kỹ năng và
năng lực cá nhân, sức khỏe, cùng những mục tiêu cá nhân. Sự hài lòng với chất lượng
giáo dục, mức độ hỗ trợ từ giáo viên và nhà trường, cũng như chương trình học và cơ
66
hội phát triển, đều có thể ảnh hưởng đến quyết định tiếp tục học hay không của người
học. Việc người học tiếp tục học hay không còn chịu ảnh hưởng bởi khả năng tự đánh
giá bản thân, nhận thức về khoảng cách địa lý, điều kiện kinh tế và các định kiến xã hội
liên quan đến việc học.
Dự báo bỏ học là một nhiệm vụ khó khăn, phần lớn do dữ liệu đáng tin cậy thường
thiếu và khó thu thập. Nhiều dữ liệu cần thiết phải được thu thập thông qua các hoạt
động khảo sát, làm gia tăng thách thức trong việc đảm bảo độ chính xác của dự báo. Tại
các quốc gia đang phát triển, nơi hệ thống quản lý dữ liệu còn chưa hoàn chỉnh, khả
năng theo dõi và thu thập dữ liệu lại càng hạn chế hơn.
b. Dự báo để giám sát quá trình học tập của người học
Dự báo kết quả học tập ở các mức cho phép nhà quản lý, giảng viên, cố vấn học tập theo dõi chặt chẽ và có những kế hoạch từ sớm để hỗ trợ và can thiệp kịp thời trong quá trình học tập của người học.
Dự báo kết quả học tập mức khóa học hoặc mức học phần rất phổ biến và hữu ích, đặc biệt là trong môi trường học tập trực tuyến, nơi mà việc theo dõi sự tiến bộ và tương tác của người học có thể khá khó khăn. Có nhiều yếu tố có thể ảnh hưởng đến kết quả học tập mức khóa học, bao gồm nhưng không giới hạn như thông tin cá nhân, hành vi học tập, kết quả quá trình học tập trước đó. Điểm trung bình tích lũy và điểm trung học phổ thông là yếu tố được dùng để dự báo kết quả học tập (Iqbal & cộng sự, 2017). Điểm tuyển sinh ảnh hưởng tới điểm môn học (Zohair & Mahmoud, 2019). Điểm thi xét tuyển đầu vào và thái độ học tập đóng vai trò quan trọng đối với kết quả của các kỳ thi cuối kỳ (Liu, 2019). Điểm bài kiểm tra có khả năng dự báo nguy cơ đối với người học (Veerasamy & cộng sự, 2020). Hành vi và kết quả học tập có mối liên hệ mật thiết với nhau. Người học tích cực, chăm chỉ có xu hướng đạt kết quả tốt hơn và ngược lại (Francis & Babu, 2019). Mức độ chuyên cần và sự tham gia của phụ huynh có tác động lớn đến kết quả học tập (Siddiqui & Arain, 2019).
Dự báo kết quả học tập vào cuối năm học thường bị ảnh hưởng bởi các yếu tố ngoài. Một số yếu tố như việc làm của cha mẹ, nguồn thu nhập chính, tình trạng nhập học và điểm thi vào trường đã được xác định là các yếu tố quan trọng trong việc dự báo hiệu suất học tập (Huynh–Cam & cộng sự, 2021; Mengash, 2020). Một số nghiên cứu cho thấy mối liên hệ yếu giữa tiêu chí nhập học và thành công học thuật của người học (Adekitan & Noma–Osaghae, 2019), trong khi các yếu tố khác như GPA, số tín chỉ đạt được và công việc của cha mẹ lại có tác động đáng kể (Patil & cộng sự, 2018).
67
Dự báo kết quả học tập của người học tại thời điểm tốt nghiệp thường sử dụng kết quả học tập của những năm trước hoặc kết quả của một nhóm môn học cụ thể trong chương trình học. Ví dụ: GPA của năm thứ ba là yếu tố ảnh hưởng cao nhất đến GPA tốt nghiệp năm cuối (Adekitan & Salau, 2019). Điểm môn học năm thứ hai là yếu tố ảnh hưởng cao nhất đến GPA tốt nghiệp năm cuối (Altujjar & cộng sự, 2016). CGPA của năm đầu tiên và ba môn học trong năm đầu tiên như nhập môn toán học, kỹ năng máy tính và kỹ năng giao tiếp là các yếu tố ảnh hưởng lớn đến CGPA tốt nghiệp (Alyahyan & Düşteaör, 2020). Bốn môn học có ảnh hưởng quan trọng đến CGPA năm cuối bao gồm hệ điều hành, thống kê, vật lý tổng quan, lập trình máy tính và thuật toán (Alangari & Alturki, 2020). Ngoài ra, những thông tin cá nhân và điểm đầu vào cũng có mức độ ảnh hưởng nhất định. Ví dụ, điểm đầu vào và thông tin cá nhân của người học ảnh hưởng đến CGPA tốt nghiệp (Putpuek & cộng sự, 2018). Các kỳ thi dự bị đại học như đánh giá năng lực xét tuyển đại học (Scholastic Assessment Test – SAT) và kiểm tra năng lực chung (General Achievement Test– GAT) không ảnh hưởng nhiều đến GPA của người học, trong khi GPA trung học cao lại ảnh hưởng đến GPA của người học (Hassan & Al– Razgan, 2016).
Mô hình dự báo kết quả học tập phụ thuộc chủ yếu vào các đặc trưng của chính người học như: kỹ năng, điểm số, sự tò mò, hiệu quả, thiếu sót, kiến thức đã có về lĩnh vực, thời gian thực thi, năng lực, mức độ chính xác, sự cam kết, thành tựu đạt được, sự tham gia, sự tiếp thu, sự điều chỉnh v.v. Các yếu tố bên ngoài có mức độ tác động nhất định, tuy nhiên yêu tố ngoại vi có sự thay đổi không theo quy luật trong quá trình học có thể làm cho dự báo trở nên không chính xác, đặc biệt đối với các dự báo kết quả học tập cho một khoảng thời gian dài như dự báo kết quả cuối năm học hoặc thành tích khi tốt nghiệp.
c. Dự báo hỗ trợ cho hoạt động tuyển sinh
Các mô hình dự báo có thể phối hợp giữa dữ liệu tuyển sinh và dữ liệu học tập nhằm cung cấp thông tin hỗ trợ quá trình ra quyết định trong tuyển sinh. Saini và Jain (2013) nhấn mạnh tầm quan trọng của việc tư vấn chính xác cho sinh viên dựa trên thành tích học tập trước đây của họ (Saini & Jain, 2013). Tương tự, Mengash (2020) đã xác định điểm thi SAT là yếu tố dự báo quan trọng nhất cho kết quả học tập của sinh viên, từ đó đề xuất thay đổi phương pháp tuyển sinh tại trường PNU, giúp cải thiện đáng kể thành tích học tập của sinh viên được tuyển (Mengash, 2020). Nghiên cứu của Alsayed và cộng sự (2021) tích hợp các mô hình dự đoán nhằm xác định chuyên ngành đại học phù hợp vào hệ thống tư vấn giáo dục thông minh, cho phép sinh viên lựa chọn ngành học phù hợp với khả năng của bản thân (Alsayed & cộng sự, 2021). Slim và cộng sự (2018) khi dự
68
đoán số lượng sinh viên ghi danh đã cho thấy mối tương quan chặt chẽ giữa các đặc điểm cá nhân của thí sinh và quyết định ghi danh của họ (Slim & cộng sự, 2018). Việc hỗ trợ lựa chọn chuyên ngành gặp nhiều khó khăn do các phương thức tuyển sinh ngày càng đa dạng, dữ liệu về tuyển sinh có thể rất khác biệt, thậm chí trong cùng một CSGD ĐH. Tương tự như dự báo kết quả học tập vào thời điểm tốt nghiệp, mô hình có thể bị ảnh hưởng của nhiều yếu tố bên ngoài bên cạnh các đặc trưng của chính người học.
2.2.3.2 Kỹ thuật dự báo
Các kỹ thuật khai phá dữ liệu nói chung và tỉ trọng của các kỹ thuật này đã được sử dụng trong dự báo được thảo luận trong nghiên cứu tổng quan về LA và EDM của Aldowah & cộng sự (2019) cho thấy sự đa dạng và mức độ phổ biến của các kỹ thuật sử dụng trong dự báo. Các kỹ thuật được nhóm lại thành 10 nhóm chính gồm: (1) phân loại cho phép gán dữ liệu vào các lớp xác định trước; (2) phân cụm người học có đặc điểm tương tự vào các nhóm, giúp hiểu rõ hơn về đặc điểm học tập của từng nhóm; (3) thống kê bằng phần mềm thống kê chuyên dụng để cung cấp cái nhìn sâu sắc về hành vi và thành tích học tập; (4) luật kết hợp cho phép xác định mối quan hệ giữa các biến và dự báo khả năng xảy ra một kết quả cụ thể dựa trên các mối quan hệ đó; (5) hồi quy cho thấy mối quan hệ giữa biến phụ thuộc và biến độc lập. Khác với phân loại, hồi quy tập trung vào dự báo một giá trị số liên tục; (6) khai phá dữ liệu trực quan kết hợp khai phá và trực quan hóa để hiển thị mẫu và thông tin từ dữ liệu phức tạp; (7) mẫu tuần tự giúp tìm ra mối quan hệ giữa các sự kiện tuần tự; (8) khai phá văn bản trích xuất thông tin từ văn bản không cấu trúc dựa trên web và môi trường học tập cộng tác trực tuyến; (9) phân tích tương quan đo lường mối quan hệ tuyến tính giữa hai biến; (10) phát hiện ngoại lệ khám phá nhằm loại bỏ các quan sát bất thường từ tập dữ liệu, giúp cải thiện độ chính xác của mô hình dự báo (Aldowah & cộng sự, 2019).
Đối với dự báo kết quả học tập, nghiên cứu tổng hợp của Alwarthan & cộng sự (2022) cho thấy hầu hết các mô hình sử dụng nhóm kỹ thuật phân loại (87%). Một số ít nghiên cứu sử dụng nhóm kỹ thuật hồi quy (9%) và phân cụm (4%). Tương tự, nghiên cứu của Khan (2021) cũng kết luận phân loại và hồi quy được coi là phổ biến nhất trong các nghiên cứu liên quan đến dự báo kết quả học tập của người học (Khan & Ghosh, 2021). Tương ứng với các nhóm kỹ thuật sẽ có có các kỹ thuật cụ thể mang đặc trưng của nhóm. Ví dụ, trong nhóm kỹ thuật phân loại, các kỹ thuật phổ biến được sử dụng là DT, NB, ANN, SVM, KNN, RF, LR và mô hình tổng hợp kết hợp nhiều kỹ thuật dự báo (Xiao & cộng sự, 2022).
Mức độ phổ biến của nhóm kỹ thuật có thể xuất phát từ ưu điểm vượt trội của các kỹ thuật này trong xử lý dữ liệu người học và sự phù hợp với bài toán dự báo. Khi áp
69
và tái hợp tổng trung lập mẫu/tập
dụng các kỹ thuật dự báo cho một bài toán hoặc một kỹ thuật cho các bài toán dự báo khác nhau có thể cho kết quả dự báo với độ chính xác khác nhau. Ví dụ, RF và ANN đã vượt trội hơn SVM, LR, NB và KNN trong nghiên cứu của (Yağcı, 2022). Một nghiên cứu khác cũng khẳng định về độ chính xác của kết quả đạt được từ RF, tiếp theo là tối ưu hóa tuần tự tối thiểu trong hồi quy (Sequential Minimal Optimization for Regression_SMOreg) (Bootstrap Aggregating/bagging) (Tsiakmaki & cộng sự, 2018). Kỹ thuật RF đã đạt kết quả cao trong 57% nghiên cứu, cho thấy tính hiệu quả của thuật toán này trong việc dự đoán kết quả học tập của người học (Alwarthan & cộng sự, 2022). Trong nghiên cứu về dự báo điểm GPA môn học của Al Breiki & cộng sự (2019) kỹ thuật hồi quy vượt trội hơn so với các kỹ thuật phân loại (Al Breiki & cộng sự, 2019). Hoặc trong nghiên cứu dự báo CGPA tốt nghiệp, NB vượt trội hơn DT trong việc dự báo (Santoso & cộng sự, 2021). Có một số yếu tố ảnh hưởng đến độ chính xác cuối cùng của mô hình, bao gồm làm sạch dữ liệu, đặc trưng được sử dụng và kích thước của bộ dữ liệu (Hashim & cộng sự, 2020). Việc áp dụng kỹ thuật trích xuất đặc trưng đã cải thiện mô hình dự đoán, đạt hơn 80% độ chính xác (Adnan & cộng sự, 2021). Kết quả dự báo cao nhất đạt được khi xem xét các đặc trưng tại thời điểm đạt ngưỡng 50% khóa học (Injadat & cộng sự, 2020). Việc sử dụng bộ dữ liệu cân bằng và lựa chọn các đặc trưng phù hợp đã làm tăng độ chính xác của mô hình (Imran & cộng sự, 2019).
Như vậy, mỗi kỹ thuật có ưu nhược điểm riêng. Điều quan trọng là phải xem xét cẩn thận để đảm bảo rằng chúng phù hợp với bối cảnh và mục tiêu của phân tích (Guzmán–Valenzuela & cộng sự, 2021). Một số kỹ thuật có thể hiệu quả hơn những kỹ thuật khác, tùy thuộc vào dữ liệu trong bài toán dự báo. Các chỉ số đã được thiết lập để đánh giá các mô hình dự báo và so sánh các kỹ thuật khác nhau trong cùng một nghiên cứu, nhưng các mô hình dự báo được thiết lập trong các nghiên cứu khác nhau là không thể so sánh được, vì dữ liệu huấn luyện và các đặc trưng được sử dụng trong các nghiên cứu là không đồng nhất. Trong các nghiên cứu khác nhau, kết luận về kỹ thuật nào là tốt nhất cũng rất khác nhau. Các mô hình dự báo được thiết lập trong các nghiên cứu cụ thể phụ thuộc rất nhiều vào bộ dữ liệu và rất khó sử dụng mô hình dự báo này trong các môi trường hoặc hệ thống khác (Xiao & cộng sự, 2022). Do vậy, mặc dù lựa chọn kỹ thuật là chìa khóa để phát triển mô hình dự báo hiệu quả nhưng cần linh hoạt về phương án do những hạn chế về tính sẵn có của dữ liệu đào tạo (Kew & Tasir, 2022). "Không có phương pháp tiêu chuẩn hóa cho LA và nó đã được thực hiện bằng cách sử dụng các phương pháp tiếp cận đa dạng cho các mục tiêu khác nhau." (Wong, B.T.M., 2017).
2.2.3.3 Quy trình xây dựng mô hình dự báo
70
Trong nghiên cứu của Aldowah & cộng sự (2019), quy trình khai phá dữ liệu áp dụng kỹ thuật LA và EDM gồm năm bước cơ bản: (1) thu thập dữ liệu; (2) chuẩn bị dữ liệu hay tiền xử lý dữ liệu, (3) sử dụng các mô hình khai phá dữ liệu, (4) đánh giá mô hình và (5) trình bày (Aldowah & cộng sự, 2019). Nghiên cứu của Jankatun và cộng sự (2022) phát triển kiến trúc cho hệ thống đánh giá kết quả học tập của người học dựa trên học máy SPPS – DSA và được đánh giá về tổng thể là phù hợp. Kiến trúc gồm bốn thành phần chính là: (1) nguồn dữ liệu, (2) phương pháp và thuộc tính học máy và (3) quy trình khoa học dữ liệu. Về quy trình khoa học dữ liệu cơ bản gồm năm bước (1) xác định thách thức, (2) thu thập mẫu dữ liệu, (3) thiết kế mô hình, (4) thử nghiệm mô hình trên một tập dữ liệu để xem nó có thể hoạt động như thế nào trong thế giới thực và (5) triển khai và duy trì các mô hình (Jantakun & cộng sự, 2022). Nghiên cứu của Xiao và cộng sự (2022) đề xuất quy trình thiết lập mô hình dự báo bao gồm bốn giai đoạn như sau: (1) thu thập dữ liệu, (2) tiền xử lý dữ liệu, (3) thiết lập mô hình dự báo, (4) đánh giá và ứng dụng. Trong đó sẽ bao gồm 10 bước chính: thu thập dữ liệu thô, ghi nhãn dữ liệu, xử lý giá trị còn thiếu, rời rạc hóa, chuẩn hóa, cân bằng, lựa chọn tính năng, phân tách dữ liệu, thiết lập mô hình dự báo, đánh giá và giải thích (Xiao & cộng sự, 2022). Từ các nghiên cứu này, quy trình xây dựng mô hình dự báo có thể tổng hợp trong các bước cơ bản sau:
Bước 1: Thu thập dữ liệu. Các nghiên cứu trước đây chủ yếu thu thập dữ liệu thô từ LMS, SIS và các hệ thống thông tin quản lý khác, khối lượng dữ liệu nói chung là nhỏ (dưới 1000 trường hợp) (Xiao & cộng sự, 2022). Hệ thống SIS là một trong những nguồn dữ liệu lưu trữ nhiều dữ liệu người học như dữ liệu cá nhân, dữ liệu nhân khẩu học và kết quả học tập. Hệ thống LMS chứa dữ liệu về khóa học và việc tham gia thảo luận và tham dự các kỳ thi và bài tập trực tuyến cùng kết quả đánh giá. Dữ liệu phản ánh động lực, sự phản hồi và nhận thức của người học thường không có sẵn trong SIS, LMS và phải thu thập bằng cách sử dụng các phương pháp thủ công như bảng hỏi.
Bước 2: Tiền xử lý dữ liệu để đảm bảo chất lượng dữ liệu. Các phương pháp tiền xử lý dữ liệu thiết yếu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, giảm dữ liệu và chuyển đổi dữ liệu.
Làm sạch dữ liệu liên quan đến việc loại bỏ nhiễu và xử lý các giá trị bị thiếu, để cải thiện chất lượng của dữ liệu. Dữ liệu thiếu là những dữ liệu không đầy đủ và có thể được xử lý bằng cách loại bỏ các bộ dữ liệu có nhiều giá trị bị thiếu, hoặc điền giá trị thiếu trong thuộc tính số bằng giá trị trung bình, trung vị, hoặc mode của thuộc tính và điền giá trị thiếu trong thuộc tính không phải số bằng giá trị mode (giá trị xuất hiện nhiều nhất) của thuộc tính. Các nghiên cứu sử dụng các phương pháp loại bỏ hoặc điền thủ công để xử lý các giá trị còn thiếu trong dữ liệu. Một số kết quả thử nghiệm cho thấy
71
phương pháp loại bỏ là tốt nhất. Dữ liệu nhiễu, còn được biết đến như là lỗi ngẫu nhiên, có thể được loại bỏ bằng cách sử dụng các phương pháp rời rạc hóa dữ liệu. Phát hiện và loại bỏ ngoại lệ sẽ xác định một đối tượng bất thường có hành vi khác biệt so với các đối tượng khác. Việc xác định ngoại lệ cũng có thể được thực hiện bằng cách sử dụng các phương pháp biểu diễn đồ họa như boxplots hoặc các phương pháp học không giám sát như phân cụm.
Tích hợp dữ liệu kết hợp dữ liệu từ nhiều nguồn và lưu trữ chúng thành một nguồn duy nhất, giúp loại bỏ sự dư thừa và không nhất quán trong dữ liệu. Trong một số trường hợp, các nguồn dữ liệu khác nhau chứa cùng một dữ liệu với tên gọi khác nhau. Khi các nguồn dữ liệu được kết hợp lại sẽ dẫn đến vấn đề dư thừa, không nhất quán. Như vậy phải khớp và gộp dữ liệu bằng cách xử lý bất đồng nhất kiểu dữ liệu, đồng nhất hóa mã hóa dữ liệu, xử lý dữ liệu trùng lặp.
Giảm dữ liệu sẽ chuyển đổi dữ liệu gốc thành tập dữ liệu nhỏ hơn nhưng vẫn giữ lại thông tin quan trọng. Dữ liệu sau khi giảm cho kết quả phân tích tốt hơn hoặc gần như giống với kết quả ban đầu. Có thể áp dụng nhiều chiến lược giảm dữ liệu, như: (1) giảm về số lượng bằng sử dụng mô hình tham số và không tham số, (2) giảm chiều dữ liệu bằng cách giảm số lượng đặc trưng của tập dữ liệu, sử dụng nhiều kỹ thuật liên quan đến nén dữ liệu, lựa chọn đặc trưng và xây dựng đặc trưng.
Chuyển đổi dữ liệu là chuyển dữ liệu thành một hình thức khác phù hợp cho quá trình khai thác dữ liệu. Chuẩn hóa dữ liệu và rời rạc hóa dữ liệu là một số kỹ thuật chuyển đổi dữ liệu thường được sử dụng. Các phương pháp rời rạc hóa dữ liệu được sử dụng để thay thế các giá trị thuộc tính số (ví dụ, chiều cao) bằng các giá trị danh nghĩa (ví dụ, cao, trung bình, hoặc thấp). Chuẩn hóa dữ liệu thường được sử dụng trong các trường hợp như các thuộc tính của dữ liệu có phạm vi khác nhau có thể gây sự hiểu lầm về độ quan trọng trong mô hình học máy làm ảnh hưởng tới mô hình và giảm hiệu suất của mô hình. Chuẩn hóa dữ liệu giúp đưa tất cả các thuộc tính về cùng một phạm vi, giúp mô hình học máy đánh giá chúng một cách công bằng hơn. Một số kỹ thuật học máy, như LR, ANN và SVM, hoạt động tốt nhất khi tất cả các thuộc tính đều nằm trong cùng một phạm vi. Một số mô hình như DT và RF hoạt động tốt mà không cần chuẩn hóa dữ liệu (Aldowah & cộng sự, 2019).
Trong bước tiền xử lý, các phương pháp nêu trên được thực hiện để nâng cao hiệu suất và độ chính xác của mô hình dự báo. Tuy nhiên, không phải tất cả là bắt buộc và việc áp dụng phụ thuộc vào tập dữ liệu. Tùy thuộc vào bộ dữ liệu, có thể áp dụng các phương pháp khác nhau với các kỹ thuật phù hợp. Kỹ thuật rời rạc hóa không giám sát, như phép chia tự động cách đều hoặc đẳng tần được sử dụng để rời rạc hóa các giá trị
72
số trong dữ liệu. Kỹ thuật chuẩn hóa được sử dụng phổ biến nhất là phương pháp tối thiểu – tối đa. Kỹ thuật lấy mẫu quá mức, lấy mẫu dưới mức và kết hợp sẽ giải quyết vấn đề mất cân bằng nhiều lớp trong dữ liệu (Xiao & cộng sự, 2022).
Bước 3: Huấn luyện mô hình bao gồm lựa chọn các kỹ thuật dự báo để huấn luyện trên tập dữ liệu lớn. Các kỹ thuật học có giám sát và không giám sát đều có thể được sử dụng để xác định các mẫu và xu hướng có ý nghĩa trong dữ liệu. Học có giám sát sử dụng một tập hợp dữ liệu được gắn nhãn để đào tạo mô hình. Mô hình sau đó có thể được sử dụng để đưa ra dự báo hoặc phân loại trên dữ liệu mới, không được gắn nhãn. Trong khi đó, kỹ thuật học không giám sát liên quan đến việc phân tích dữ liệu mà không có bất kỳ nhãn nào có sẵn để xác định các mẫu trong dữ liệu.
Hầu hết các nhà nghiên cứu sử dụng kinh nghiệm chuyên môn để chọn các đặc trưng một cách thủ công, một số khác sử dụng các phương pháp khác như lựa chọn đặc trưng dựa trên xem xét tương quan. Tùy theo mục tiêu dự báo, các nghiên cứu có thể chọn các loại nhãn bao gồm nhãn nhị phân như thành công hay thất bại, nhãn nhiều lớp như trượt, đạt, bình thường, xuất sắc, v.v. hoặc nhãn số như GPA (Xiao & cộng sự, 2022).
Thông thường, việc huấn luyện mô hình sẽ được thực hiện trên tập dữ liệu huấn luyện, là một tập con được lấy từ tập dữ liệu gốc. Phần dữ liệu còn lại sẽ được sử dụng làm tập dữ liệu kiểm tra sau khi mô hình đã được huấn luyện. Kết quả kiểm tra sẽ được sử dụng để đánh giá hiệu quả của mô hình. Có nhiều cách để phân chia tập dữ liệu, trong đó phổ biến là phân chia giữ lại (holdout) và xác thực chéo.
Trong phương pháp holdout, tập dữ liệu gốc được chia ngẫu nhiên thành hai tập dữ liệu riêng biệt gồm một tập huấn luyện và một tập kiểm tra. Tỷ lệ phân chia thường dựa trên kích thước của tập dữ liệu. Thông thường, 70% dữ liệu được sử dụng để huấn luyện mô hình và 30% còn lại được sử dụng để kiểm tra độ chính xác của mô hình. Phương pháp holdout đơn giản phù hợp với việc huấn luyện trên tập dữ liệu lớn, tuy nhiên độ chính xác phụ thuộc vào tỷ lệ phân chia bởi một lần chia dữ liệu không phản ánh được toàn bộ sự đa dạng của dữ liệu gốc.
Trong xác thực chéo, tập dữ liệu được chia ngẫu nhiên thành k tập con bằng nhau nơi việc huấn luyện và kiểm tra được áp dụng k lần. Trong mỗi lần lặp, k–1 phần được sử dụng để huấn luyện mô hình và phần còn lại được sử dụng để kiểm tra giúp đánh giá, ước lượng hiệu suất mô hình dự báo. K–fold sử dụng toàn bộ dữ liệu cho cả huấn luyện và kiểm tra. Điều này giúp mô hình tận dụng tối đa dữ liệu và giảm thiểu khả năng đánh giá thiên lệch do cách chia dữ liệu. Leave–one–out là một trường hợp đặc biệt của xác
thực chéo được sử dụng khi có tập dữ liệu nhỏ. Tập dữ liệu có kích thước được chia
(cid:1)
73
thành phần. Trong mỗi lần lặp, một mẫu được sử dụng cho việc kiểm tra và phần còn
(cid:1)
lại dùng cho việc huấn luyện. Xác thực chéo là phương pháp được hầu hết các nhà nghiên cứu sử dụng để phân chia dữ liệu (Xiao & cộng sự, 2022).
Bước 4: Đánh giá mô hình là đánh giá độ chính xác, hiệu quả của một mô hình dự báo nhằm đảm bảo rằng mô hình không chỉ phù hợp với dữ liệu hiện có mà còn có khả năng dự báo chính xác trên các tập dữ liệu mới. Tùy thuộc vào kỹ thuật dự báo sử dụng có thể sử dụng các phương pháp đánh giá khác nhau. Ví dụ, với kỹ thuật phân loại, một trong hai kỹ thuật học có giám sát chính được sử dụng để dự báo (Alwarthan, S.A. và cộng sự, 2022), ma trận nhầm lẫn thường được sử dụng để đánh giá. Đánh giá bằng ma trận nhầm lẫn cho thấy mô hình có thể phân biệt tốt như thế nào giữa các mẫu từ ít nhất hai lớp khác nhau. Bốn giá trị trong ma trận nhầm lẫn là:
- Dương tính thực (True Positive –TP): Số lượng trường hợp mà mô hình dự báo
là đúng và thực tế cũng là đúng.
- Âm tính thực (True Negative –TN): Số lượng trường hợp mà mô hình dự báo là
sai và thực tế cũng là sai.
- Dương tính giả (False Positive – FP): số lượng trường hợp mà mô hình dự báo là
đúng nhưng thực tế là sai.
- Âm tính giả (False Negative – FN): số lượng trường hợp mà mô hình dự báo là
sai nhưng thực tế là đúng.
TP và TN đề cập đến các mẫu được phân loại chính xác, trong khi FP và FN đề cập đến các mẫu được phân loại sai. Từ các chỉ số này có thể tính toán các chỉ số hiệu suất được sử dụng phổ biến nhất để đánh giá mô hình dự báo dùng kỹ thuật phân loại (Xiao & cộng sự, 2022), bao gồm:
- Độ chính xác tổng thể (Accuracy) = Tỷ lệ chính xác toàn bộ các mẫu =
TP+TN/(TP+FP+TN+FN)
- Độ nhạy (Sensitivity/Recall) = Tỷ lệ dương thực sự (True Positive Rate –TPR) =
TP/(TP+FN)
- Tỷ lệ dương giả (False Positive Rate – FPR) = FP/(FP+TN)
- Độ đặc hiệu (Specificity) = Tỷ lệ âm thực sự = TN/(TN+FP)
- Độ chính xác (Precision) = Tỷ lệ dự báo đúng dương thực sự = TP/(TP+FP)
- Điểm F (F1– score) = trung bình điều hòa của độ chính xác và độ nhạy = 2*Độ
chính xác*Độ nhạy/Độ chính xác + Độ nhạy)
74
Các chỉ số này có thể được sử dụng trong các tình huống khác nhau và bổ sung hỗ trợ lẫn nhau. Ví dụ: khi làm việc với tập dữ liệu mất cân bằng, trong đó số lượng mẫu trong các lớp khác nhau không đồng đều, chỉ sử dụng độ chính xác tổng thể có thể không cung cấp một đánh giá chính xác. Do đó, cần xem xét các giá trị bổ sung như độ nhạy, độ đặc hiệu và F1–score. Hoặc khi đánh giá mức độ phân biệt tốt giữa các lớp trong mô hình phân loại (đặc biệt là phân loại nhị phân), có thể sử dụng giá trị diện tích dưới đường cong ROC (Receiver Operating Characteristic Curve), là đồ thị của TPR và FPR ở các ngưỡng phân loại khác nhau, còn gọi là AUC (Area Under the ROC Curve). AUC đánh giá khả năng phân loại tổng thể và AUC càng gần 1, mô hình càng tốt trong việc phân biệt giữa các lớp.
(2.1)
(cid:16)
(cid:7) (cid:8) (cid:8) ∑ ((cid:11)(cid:12) (cid:7)
Trong dự báo giá trị liên tục, sai số bình phương trung bình (Mean Squared Error – MSE) là một trong những thước đo phổ biến để đánh giá hiệu suất của mô hình. Sai số bình phương trung bình được hiểu là giá trị trung bình của các bình phương sai số, tức là sự chênh lệch giữa giá trị ước lượng và giá trị thực tế được đánh giá. MSE đo lường kỳ vọng của sự mất mát do sai số bình phương, hay còn được gọi là mất mát bậc hai. MSE còn được biết đến như là moment bậc hai của sai số, do đó nó bao gồm cả phương sai và độ lệch của ước lượng. Đối với các ước lượng không thiên vị, MSE chính là phương sai của ước lượng đó.
− (cid:11)(cid:14)(cid:12)) (cid:2)(cid:3)(cid:4) = Trong đó:
- n: là số lượng quan sát,
: là giá trị thực tế của quan sát thứ i và -
(cid:11)(cid:12) : là giá trị ước lượng (dự đoán) cho quan sát thứ i. -
(cid:11)(cid:17)(cid:18)
MSE tính toán trung bình của các bình phương của các sai số, nơi sai số là khoảng cách giữa giá trị dự đoán và giá trị thực tế. MSE càng thấp, mô hình dự đoán càng chính xác.
2.3 Tổng kết Chương 2
Nội dung chương trình bày cơ sở lý thuyết của hệ thống BI và lý thuyết về phân tích và dự báo dữ liệu người học. Vai trò của hệ thống BI dựa trên dữ liệu người học được làm rõ để luận giải trên cơ sở khoa học và thực tiễn về sự cần thiết của hệ thống BI dựa trên dữ liệu người học cho CSGD ĐH nói chung và CSGD ĐH Việt Nam nói riêng. Các yếu tố cấu thành và tác động tới hình thái hệ thống được làm rõ để hiểu được cách thức tổ chức và hoạch định hệ thống. Khung hệ thống trong CSGD ĐH được tổng hợp để làm cơ sở cho đề xuất mô hình hệ thống. Nội dung dự báo, kỹ thuật, quy trình
75
xây dựng mô hình dự báo được tìm hiểu để làm cơ sở đề xuất cách thức tích hợp tính năng dự báo vào hệ thống. Tóm lại, cơ sở lý thuyết được trình bày trong Chương 2 giúp NCS làm rõ dần câu hỏi nghiên cứu số 1 và câu hỏi nghiên cứu số 2 và là nền tảng lý thuyết để NCS đề xuất mô hình hệ thống BI dự báo dựa trên CSGD ĐH tại Việt Nam.
76
ĐỀ XUẤT MÔ HÌNH HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP HỖ TRỢ DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC CHO CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM
3.1 Phân tích, đánh giá các yếu tố ảnh hưởng tới hệ thống
Dựa trên dữ liệu khảo sát, NCS phân tích và đánh giá các yếu tố ảnh hưởng tới hình
thái hệ thống như đã nhắc tới ở nội dung cơ sở lý thuyết thuộc mục 2.1.1.3 Chương 2.
3.1.1 Phân tích các yếu tố ảnh hưởng
3.1.1.1 Bối cảnh cơ sở giáo dục đại học Việt Nam
Các CSGD ĐH Việt Nam đang từng bước được tăng cường quyền tự chủ, đồng thời chất lượng cũng từng bước được nâng lên để tiệm cận với các chuẩn mực quốc tế. Khi CSGD ĐH thay đổi mô hình, ví dụ từ công lập sang công lập tự chủ và đòi hỏi trách nhiệm minh bạch, sẽ cần một giải pháp thỏa đáng cho bài toán về đào tạo nguồn nhân lực chất lượng cao, đáp ứng yêu cầu phát triển kinh tế, xã hội, gắn kết với thị trường lao động và “lấy người học làm trung tâm”.
11 Số thứ tự các CSGD ĐH trong danh sách khảo sát.
Để đảm bảo chất lượng giáo dục tại các CSGD ĐH, các CSGD ĐH cần có những thay đổi và cải tiến toàn diện trong đó có việc ứng dụng và phát triển các hệ thống công nghệ hỗ trợ cho quá trình quản trị. Các nghiên cứu về ý kiến đánh giá ngoài của chuyên gia sau quá trình kiểm định các CSGD ĐH cho thấy rằng các trường không chỉ cần nâng cấp phần mềm, hệ thống thông tin hiện có (1, 6, 8, 9, 17, 19, 24, 30) 11 mà còn cần thực hiện chuyển đổi số và áp dụng quản trị đại học tiên tiến (1, 7, 8, 11, 13, 21, 24, 26, 28, 29). Một hệ thống thông tin đảm bảo chất lượng bên trong và bên ngoài cần được phát triển để quản lý và phân tích kết quả, dự báo xu hướng, hỗ trợ việc ra quyết định của các cấp quản lý, lãnh đạo (1, 2, 3, 4, 6, 7, 8, 9, 15, 17, 19, 21, 23, 24). Các hệ thống dựa trên phần mềm quản trị tích hợp để đảm bảo tuân thủ các chính sách thủ tục bảo mật và an toàn thông tin (1, 6, 8). Hệ thống có thể giám sát và kiểm tra từ tuyển sinh đến tốt nghiệp, giám sát và đánh giá tiến trình học tập, nghiên cứu của người học (1, 19, 20, 23, 24, 29, 30). Đặc biệt cần chú trọng khảo sát ý kiến người học để điều chỉnh và cải tiến hoạt động hỗ trợ người học (31). Hệ thống cần có hướng dẫn chi tiết, biểu mẫu thống kê, công cụ đối sánh để hỗ trợ quá trình tự đánh giá chương trình đào tạo (1, 2, 5, 7, 12, 16, 17, 20). Ngoài ra, cần xây dựng các chỉ số để quản lý và đánh giá theo chỉ số thị trường (7, 9, 11,
77
12, 17, 20, 23, 26, 27, 28), áp dụng các kỹ thuật Thẻ điểm cân bằng và phương pháp Hoshin Kanri giúp xây dựng và thực hiện chiến lược (10). Chi tiết ý kiến trong Phụ lục 1.
3.1.1.2 Thực trạng hạ tầng công nghệ thông tin và các hệ thống chức năng liên quan tới dữ liệu người học trong cơ sở giáo dục đại học
12 Theo mẫu báo cáo tình hình ứng dụng công nghệ thông tin trong quản lý, hỗ trợ các hoạt động dạy–học và nghiên cứu khoa học tại các cơ sở đào tạo đại học, cao đẳng
13 Công ty nghiên cứu và tư vấn hàng đầu Gartner đề xuất quá trình chuyển đổi số gồm các giai đoạn như sau: 1) chưa có ý tưởng gì; 2) có mong muốn chuyển đổi số; 3) thiết kế chuyển đổi số; 4) triển khai chuyển đổi số; 5) mở
rộng phạm vi chuyển đổi số; 6) gặt hái kết quả chuyển đổi số.
Tại CSGD ĐH Việt Nam, các hệ thống thông tin được thiết kế và triển khai theo hướng tăng dần và phân chia thành nhiều hệ thống con. Mỗi hệ thống con được thiết kế và triển khai độc lập để đảm bảo sự ổn định, linh hoạt và đáp ứng các nhu cầu cơ bản. Trong số các hệ thống này, các dạng hệ thống thông tin chức năng có dữ liệu liên quan tới người học có thể kể đến như quản lý đào tạo, quản lý tuyển sinh, quản lý sinh viên, quản lý học phí, học bổng, thi trắc nghiệm, học trực tuyến, quản lý thời khóa biểu, kế hoạch giảng dạy, quản lý văn bằng, chứng chỉ, quản lý thư viện điện tử/học liệu số v.v12. Các hệ thống này nếu được triển khai đầy đủ, đồng bộ sẽ hỗ trợ toàn diện cho quy trình quản lý liên quan tới người học từ tuyển sinh đến học tập và sau tốt nghiệp, giúp quy trình lõi liên quan tới người học được thực hiện nhịp nhàng và hiệu quả hơn. Các hệ thống công nghệ riêng lẻ hoặc tích hợp có thể hỗ trợ việc lưu trữ dữ liệu cũng như tạo và luân chuyển báo cáo. Tuy nhiên, ở Việt Nam, với mức độ chuyển đổi số trong giáo dục đại học hiện vẫn còn thấp, dẫn đến hầu hết các hệ thống thông tin trong CSGD ĐH là không đầy đủ và không đồng bộ. Hiện chưa có khảo sát để đánh giá rõ ràng về hiện trạng ứng dụng CNTT, HTTT tại CSGD ĐH. "Tuy nhiên, căn cứ vào việc triển khai giáo dục trực tuyến trong đại dịch Covid–19, theo số liệu cuối năm 2020, có thể phỏng chừng 45% CSGD ĐH đang ở giữa giai đoạn 3 và 4; còn lại 55% đang ở giai đoạn 1, 2 hoặc 3 của chuyển đổi số" (Đỗ Nhật Tiến, 2022)13. Như vậy, hạ tầng CNTT và ứng dụng HTTT tại các CSGD ĐH ở Việt Nam đang trong quá trình chuyển đổi số nhưng vẫn chưa đồng đều và chưa đạt đến mức độ cao. Trong khi đó, mức độ phát triển hạ tầng CNTT và khả năng lưu trữ, xử lý của các HTTT liên quan ảnh hưởng trực tiếp đến khả năng thu thập và lưu trữ, xử lý dữ liệu người học. Các CSGD ĐH hiện đại hơn và ứng dụng đồng bộ hơn các hệ thống công nghệ như hệ thống LMS, các ứng dụng học tập trực tuyến và các nền tảng học tập, sẽ có khả năng thu thập dữ liệu phong phú hơn về hành vi và kết quả học tập của người học.
78
Theo kết quả tổng hợp đối với 36 CSGD ĐH đã được kiểm định bởi trung tâm kiểm định thuộc Đại học Quốc gia Hà Nội giai đoạn 2019–2023, đa số các CSGD ĐH đảm bảo tiêu chuẩn 11 về hệ thống thông tin đảm bảo chất lượng bên trong theo bộ tiêu chuẩn đánh giá chất lượng CSGD ĐH được quy định tại Điều 14 Quy định về kiểm định chất lượng CSGD ĐH ban hành kèm theo Thông tư 12/2017/TT–BGDĐT. Tuy nhiên, không phải tất cả các CSGD ĐH đều đạt được điểm tối đa trong tiêu chuẩn 11. Các CSGD ĐH được xem xét có số điểm chủ yếu ở 4 nhóm 3,5; 3,75; 4 và 4,25 trong đó số lượng CSGD ĐH đạt được mức điểm > = 4 là nhỏ, chủ yếu đạt ở mức 3,75 (72,2%) phù hợp với nhận xét "Hệ thống quản lý thông tin đảm bảo chất lượng bên trong đã được đầu tư và bước đầu hỗ trợ cho các cấp ra quyết định". Điều này thể hiện ở kết quả hoạt động cụ thể ở mảng đào tạo như: "Hệ thống theo dõi, giám sát, đánh giá tỷ lệ người học tốt nghiệp, thôi học, thời gian tốt nghiệp trung bình của các ngành đào tạo được triển khai" (3,5) và các dữ liệu thông tin được lưu trữ và có thể trích xuất hỗ trợ cho việc ra quyết định (3,75–4,25).
Hình 3.1: Tỉ trọng các mức đạt tiêu chuẩn kiểm định 11 của các CSGD ĐH
Nguồn: Tác giả tổng hợp
Tuy nhiên, từ các giải pháp gợi ý, có thể thấy nhiều CSGD ĐH chưa có một kế hoạch chi tiết dành cho việc phát triển Hệ thống quản lý thông tin đảm bảo chất lượng bên trong. Sự thiếu hụt này ảnh hưởng đến khả năng hỗ trợ quyết định của ban lãnh đạo (1, 2, 6, 7, 11, 21, 23). Điều này thể hiện trước hết ở việc các CSGD ĐH chưa tận dụng được sự phát triển của CNTT để thu được lợi ích tối ưu từ việc thu thập dữ liệu cho tới giám sát chất lượng giảng dạy (9, 13, 14, 17, 19, 21, 26). Việc liên kết thông tin nội bộ và bên ngoài vẫn chưa đạt được hiệu quả mong muốn (2, 3, 4, 6, 7, 21, 23). Các hệ thống vẫn cần được cải tiến, từ phần mềm quản lý đến quy trình vận hành, để phù hợp với xu hướng thời đại 4.0 (9, 17, 18, 19, 24, 25, 26). Các hệ thống thông tin hiện nay vẫn thiếu các công cụ
79
mạnh mẽ để phân tích, dự báo và đánh giá kết quả, gây ra khó khăn cho việc quản lý (2, 3, 4, 6, 11, 15, 23, 24, 26). Thêm vào đó, việc triển khai phần mềm quản lý tích hợp và bảo mật dữ liệu chưa thực sự đáng tin cậy, khiến cho dữ liệu chưa được thống nhất và an toàn (1, 6, 8, 16, 17). Chi tiết các ý kiến được trích dẫn trong Phụ lục 1.
Với xu hướng học trực tuyến và số hóa giáo dục, việc triển khai các hệ thống như LMS hoặc E–Learning là rất cần thiết, giúp người học có nhiều lựa chọn học tập không chỉ trong khuôn viên trường. Xu hướng học trực tuyến không chỉ đem lại những cơ hội mới cho học viên mà còn mở ra một lĩnh vực rộng lớn cho việc phân tích dữ liệu dựa trên dữ liệu người học. Trong bối cảnh triển khai hệ thống LMS hoặc E–Learning, dữ liệu học tập trở nên phong phú và đa dạng, tạo điều kiện cho việc dự báo và can thiệp kịp thời cho người học. Nội dung và hình thức học tập ngày càng được cá nhân hóa dựa trên những dữ liệu hành vi được thu thập, cải tiến dựa trên phản hồi thực tế từ người học.
Tuy nhiên, tại thời điểm hiện tại trên tổng số 36 CSGD ĐH được khảo sát chỉ một số ít trường đã ứng dụng hiệu quả hệ thống LMS vào hoạt động đào tạo. Các ý kiến gợi ý giải pháp (7/35) nhấn mạnh đến việc cần đầu tư và ứng dụng phần mềm LMS càng sớm càng tốt (6, 30, 35) hoặc cải tiến và hoàn thiện hệ thống LMS nhằm nâng cao chất lượng quản lý học tập và khai thác hiệu quả hơn từ hệ thống này (19, 29, 32). Đồng thời, cũng cần chú trọng tới việc phát triển cơ sở dữ liệu cho hệ thống LMS, giúp hệ thống hoạt động hiệu quả (29). Hoặc, kết hợp phương pháp đào tạo truyền thống và trực tuyến (Blended Learning) giúp tạo ra một môi trường học tập linh hoạt và đa dạng hơn cho người học thông qua LMS (36). Việc nghiên cứu và xây dựng liên kết giữa hệ thống LMS và các phần mềm quản lý đào tạo khác cũng được đề xuất với mục tiêu giúp dễ dàng theo dõi, giám sát và đánh giá quá trình học tập của người học (36).
3.1.1.3 Quy trình nghiệp vụ liên quan tới dữ liệu người học
Dữ liệu người học được ghi nhận, tạo các báo cáo được luân chuyển qua các Khoa và phòng ban, đơn vị quản lý. Quy trình này được trình bày trong sơ đồ Hình 3.2.
Quy trình này dựa trên những khảo sát thực tiễn tại một số CSGD đại học ở Việt Nam. Như vậy, dọc theo quy trình xử lý dữ liệu người học, dữ liệu được ghi nhận và lưu trữ phân tán tại các đơn vị, phòng ban chức năng khác nhau như Phòng quản lý đào tạo, Phòng công tác sinh viên, Phòng Khảo thí, Khoa quản lý và thậm chí là cá nhân các giáo viên. Các đơn vị, phòng ban tham gia vào quá trình ghi nhận và lưu trữ dữ liệu đồng thời xây dựng các báo cáo tổng hợp để sử dụng nội bộ cũng như tổng hợp thống kê để chuyển lên các đơn vị khác hoặc lãnh đạo nhà trường. Dữ liệu liên quan người học cũng có thể được thu thập từ các hoạt động liên quan tới thư viện, hoạt động nghiên cứu khoa
80
học hoặc từ hệ thống học tập trực tuyến. Tuy nhiên, các dữ liệu dạng này còn hiếm gặp, không được ghi nhận một cách có hệ thống hoặc là những dữ liệu phi cấu trúc, nên có khó khăn nhất định trong hoạt động tổng hợp, tạo báo cáo.
Hình 3.2: Quy trình nghiệp vụ liên quan tới dữ liệu người học
Nguồn: Tác giả tổng hợp
3.1.1.4 Khung quản lý hiệu suất
Về nguyên tắc, khung quản lý hiệu suất tập trung vào việc đo lường và cải thiện hiệu quả hoạt động của CSGD ĐH, đảm bảo các mục tiêu chiến lược được thực hiện
81
một cách hiệu quả. Nhiều nghiên cứu cho thấy có một xu hướng trong việc đánh giá hiệu suất của CSGD ĐH dựa trên các tiêu chuẩn kiểm định đảm bảo chất lượng giáo dục (ví dụ tiêu chuẩn kiểm định chất lượng CSGD ĐH) khi xây dựng hệ thống BI. Bộ tiêu chuẩn đánh giá chất lượng giáo dục là mức độ yêu cầu và điều kiện mà CSGD ĐH phải đáp ứng để được công nhận đạt tiêu chuẩn chất lượng giáo dục. Bộ tiêu chuẩn này là một thành phần trong Khung đảm bảo chất lượng. Khung quản lý hiệu suất dựa trên các tiêu chuẩn kiểm định tạo ra một ngôn ngữ chung, giúp các CSGD ĐH đánh giá, so sánh và cải thiện theo các chuẩn mực quốc gia và quốc tế. Đánh giá hiệu suất của CSGD ĐH thông qua các tiêu chuẩn kiểm định không chỉ cung cấp cái nhìn sâu sắc về hiệu quả hoạt động của CSGD ĐH mà còn giúp các CSGD ĐH tự so sánh trên một chuẩn, đồng thời đóng góp vào trách nhiệm giải trình công khai của CSGD ĐH.
Tại Việt Nam, bộ tiêu chuẩn kiểm định chất lượng CSGD ĐH do Bộ Giáo dục và Đào tạo ban hành là một bộ tiêu chuẩn phổ biến hiện nay được các tổ chức đánh giá ngoài, độc lập, đánh giá các CSGD ĐH. Mỗi tiêu chuẩn ứng với một lĩnh vực hoạt động của cơ sở giáo dục; trong mỗi tiêu chuẩn có một số tiêu chí. Mỗi tiêu chí đánh giá đưa ra mức độ yêu cầu và điều kiện cần đạt được ở một khía cạnh cụ thể của mỗi tiêu chuẩn. Tính tới thời điểm tháng 2/2022 đã có 164 CSGD ĐH tham gia vào hoạt động đánh giá và đạt được chứng nhận đạt chuẩn. Ngoài việc được đánh giá qua bộ tiêu chuẩn này, cũng có 7 trường đại học trên cả nước được đánh giá theo các bộ tiêu chuẩn nước ngoài của các tổ chức như Mạng lưới Đảm bảo chất lượng các trường đại học ASEAN (AUN– QA), Hội đồng cấp cao về đánh giá nghiên cứu và giáo dục đại học Pháp (HCERES).
3.1.1.5 Hệ thống thông tin quản trị và cơ sở dữ liệu tích hợp
Hệ thống thông tin quản trị và cơ sở dữ liệu tích hợp được nhắc tới trong khuyến nghị là một khía cạnh thể hiện của trí tuệ tổ chức OI trong CSGD ĐH. Trí tuệ tổ chức OI trong CSGD ĐH không chỉ dừng lại ở năng lực quản lý và tổ chức sử dụng tri thức, mà còn bao gồm năng lực công nghệ trong việc quản lý, chia sẻ tri thức nhằm tạo ra giá trị, thúc đẩy đổi mới và cải tiến liên tục để đạt được các mục tiêu của CSGD ĐH.
Dựa trên các khuyến nghị đã được đưa ra cho thấy có một nhu cầu mạnh mẽ từ các CSGD ĐH trong việc triển khai và hoàn thiện hệ thống cơ sở dữ liệu và phần mềm quản trị tích hợp. Các CSGD ĐH đang chú trọng đến việc đảm bảo sự thống nhất trong việc liên kết dữ liệu, cùng với đó là việc đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin.
Các CSGD ĐH cần đầu tư và triển khai xây dựng phần mềm quản trị tích hợp, hệ thống cơ sở dữ liệu tích hợp (1, 2, 3, 5, 6, 7, 8, 13, 14, 15, 19, 35, 36). Việc phân tích
82
dữ liệu được coi là một khía cạnh quan trọng, giúp chuyển hóa dữ liệu thành tri thức và hỗ trợ việc ra quyết định của lãnh đạo và quản lý (1, 7, 11, 34, 36). Ví dụ: "Hoàn thiện phần mềm quản lý thông tin đảm bảo chất lượng có các tính năng quản lý theo lĩnh vực/liên thông dữ liệu đảm bảo sẵn sàng trích xuất phục vụ công tác quản lý " (13) và "Có biện pháp quản trị tích hợp cơ sở dữ liệu đảm bảo chất lượng, phân tích được xu hướng, dự báo kết quả để hỗ trợ hiệu quả cho các cấp liên quan ra quyết định phù hợp." (34, 36). Việc đảm bảo chất lượng dữ liệu và thông tin là một yêu cầu liên tục, cùng với đó là việc tăng cường hiệu quả công tác quản lý và cải thiện chất lượng dạy và học (3, 5, 13, 13,18, 19, 20, 24, 33, 35, 36).
Dựa trên các yêu cầu, có thể suy luận rằng các CSGD ĐH đang trong giai đoạn hoặc đang có kế hoạch triển khai và hoàn thiện hệ thống phần mềm quản trị và cơ sở dữ liệu tích hợp. Sự nhấn mạnh vào việc "hoàn thiện", "nghiên cứu", "xây dựng" hệ thống, phần mềm cho thấy rằng, có thể, các CSGD ĐH đã triển khai một hệ thống nào đó, nhưng hiện nay hệ thống đang trong giai đoạn cải tiến, nâng cấp và mở rộng chức năng hoặc một số CSGD ĐH chưa có, hoặc đang muốn xây dựng hệ thống. Điều này yêu cầu các CSGD ĐH tiếp tục đầu tư và nâng cấp để đáp ứng nhu cầu ngày càng cao về quản trị và quản lý.
Cuối cùng là các yếu tố pháp lý và chính sách về bảo mật và quyền riêng tư của dữ liệu người học ảnh hưởng đến quyết định về việc khai thác dữ liệu. Các cơ sở giáo dục phải đảm bảo rằng việc thu thập và sử dụng dữ liệu tuân thủ quy định pháp lý, đảm bảo quyền riêng tư và an toàn thông tin của người học. Bảo mật và an toàn thông tin là một ưu tiên hàng đầu, với nhiều yêu cầu nhấn mạnh vào việc đảm bảo chính sách và thủ tục bảo mật (1, 2, 3, 5, 7, 11, 18, 20, 24). Chi tiết ý kiến trong Phụ lục 2.
3.1.2 Đánh giá các yếu tố ảnh hưởng
Thứ nhất: Trong bối cảnh kinh tế Việt Nam phát triển theo hướng kinh tế thị trường định hướng xã hội chủ nghĩa, giáo dục đại học đang trải qua sự ảnh hưởng sâu rộng từ quá trình đổi mới và toàn cầu hóa, tạo ra cơ hội và áp lực đồng thời, đòi hỏi CSGD áp dụng biện pháp cải tiến toàn diện, bao gồm việc áp dụng công nghệ hỗ trợ quản trị và hệ thống thông tin đảm bảo chất lượng bên trong và bên ngoài.
Thứ hai: Do sự hạn chế, không đầy đủ, và thiếu đồng bộ của các hệ thống thông tin chức năng dẫn tới rủi ro thiếu hụt nguồn dữ liệu quan trọng cho hệ thống. Thêm vào đó, sự mất mát, trùng lặp và sai sót trong dữ liệu lưu trữ phân tán cũng tạo ra khó khăn khi xây dựng hệ thống.
83
Thứ ba: Quy trình nghiệp vụ thể hiện rằng các khối công việc, đặc biệt liên quan
đến truy xuất dữ liệu người học, có sự kết nối chặt chẽ và tương tác giữa nhiều đơn vị,
phòng ban trong CSGD ĐH. Vì vậy, hệ thống BI cần thiết kế giao diện thân thiện, dễ sử
dụng, đáp ứng nhu cầu của đa dạng đối tượng từ quản lý cấp cao, lãnh đạo khoa, phòng
ban đến giảng viên và chuyên viên. Đặc biệt, các báo cáo dành cho lãnh đạo cấp cao
phải đảm bảo tính tổng hợp và khả năng dự báo, đồng thời khai thác được giá trị tiềm
ẩn trong dữ liệu người học. Hệ thống cũng cần được xây dựng với cơ chế phân quyền
rõ ràng và bảo mật chặt chẽ để đảm bảo chỉ những người có thẩm quyền mới được truy
cập và thực hiện các nhiệm vụ liên quan.
Thứ tư: Các báo cáo xuất phát từ dữ liệu người học như số lượng sinh viên nhập
học, khối lượng giảng dạy, tỷ lệ tốt nghiệp v.v. đều ảnh hưởng tới hiệu suất của CSGD
ĐH. Các CSGD ĐH cần phải nắm bắt được các báo cáo đó ở mọi cấp độ. Các CSGD
ĐH có thể sử dụng bảng thông tin tổng hợp để quản lý hiệu suất của người học bằng
cách thiết lập các chỉ số và theo dõi chúng theo thời gian thông qua trực quan hóa dữ
liệu. Hệ thống BI ít nhất phải hỗ trợ việc thu thập và phân tích dữ liệu theo những tiêu
chuẩn đảm bảo chất lượng giáo dục do Bộ Giáo dục và Đào tạo ban hành, cũng như các
tiêu chuẩn quốc tế nếu cần, giúp báo cáo công khai và minh bạch, đóng góp vào trách
nhiệm giải trình của CSGD ĐH. Việc tự động hóa quá trình thu thập, xử lý và phân tích
dữ liệu sẽ giảm thiểu công sức cần thiết và tăng cường hiệu suất làm việc. Khi phát triển
ở mức độ chín muồi, hệ thống có thể mở rộng để phản ánh được mức độ chuẩn bị của
sinh viên khi ra trường để đáp ứng nhu cầu thị trường lao động, qua đó đánh giá đầu ra
chất lượng của giáo dục cũng như cho phép so sánh hiệu suất giữa các CSGD ĐH để có
cái nhìn sâu sắc về vị trí cạnh tranh của mỗi trường đại học.
Thứ năm: CSGD ĐH đã và đang sử dụng chủ yếu dữ liệu cấu trúc từ các hệ thống
giao dịch. Dữ liệu phi cấu trúc vẫn chưa được khai thác rộng rãi. Điều này tạo ra hạn
chế nhất định trong hoạt động ra quyết định của lãnh đạo các cấp. Tuy nhiên, CSGD
ĐH đã dần nhận thức được tầm quan trọng của việc "hiểu biết" về dữ liệu mình đang
có, việc phân tích dữ liệu được coi trọng để chuyển hóa thông tin thành tri thức hữu ích,
giúp CSGD ĐH đạt được các mục tiêu chiến lược của mình.
84
3.2 Nhu cầu của phân tích và dự báo dựa trên dữ liệu người học tại cơ sở giáo
dục đại học Việt Nam
Để đề xuất nội dung cần phân tích và dự báo trên dữ liệu người học của hệ thống
BI, cần xem xét một số yếu tố ảnh hưởng như: (1) mức độ ứng dụng thực tế của hệ thống
thông tin liên quan đến dữ liệu người học tại các CSGD ĐH vì đây là nguồn cung cấp dữ
liệu đầu vào cho hệ thống; (2) nhu cầu phân tích, dự báo của các CSGD ĐH ở các khía
cạnh cốt lõi như tuyển sinh, tăng tỷ lệ duy trì, giám sát và hỗ trợ tư vấn học tập. Các yếu
tố này là cơ sở quan trọng để xác định nội dung cần phân tích dự báo trong hệ thống BI,
đảm bảo rằng các phân tích và dự báo của hệ thống thực sự hữu ích.
3.2.1 Nhu cầu liên quan tới tuyển sinh
Kết quả tổng hợp ý kiến cho thấy các CSGD ĐH có nhiều nhu cầu trong hoạt
động quản trị tuyển sinh. Cụ thể: ứng dụng các nền tảng và công cụ CNTT để cải tiến
công tác quản lý, giám sát và đánh giá tuyển sinh (4, 36); tổng kết và đánh giá toàn diện
về hoạt động tuyển sinh và nhập học (3, 6, 28); điều tra và dự báo nguồn nhân lực ngành
nghề đào tạo (10, 11), dự báo xu hướng (36); và lấy ý kiến các bên liên quan về các
ngành nghề đang đào tạo để xác định và điều chỉnh chỉ tiêu (16), nhằm cải thiện công
tác tuyển sinh. Yêu cầu này là phù hợp trong bối cảnh có sự cạnh tranh rất lớn từ các
CSGD ĐH (Hình 3.3).
Trong đó, đáng chú ý là yêu cầu rất lớn về việc phân tích kết quả tuyển sinh (2,
6, 8, 9, 14, 18, 19, 21, 24, 27, 30, 33, 34, 35, 36). Nhiều ý kiến nhấn mạnh tầm quan
trọng của việc phân tích kết quả tuyển sinh để từ đó đưa ra các giải pháp điều chỉnh phù
hợp với tiêu chí tuyển chọn và phương thức xét tuyển. Các điều chỉnh này nhằm nâng
cao chất lượng và hiệu quả của quá trình tuyển sinh. Cụ thể như "Phân tích đa chiều kết
quả tuyển sinh theo địa phương, theo phương thức và tổ hợp xét tuyển để có các điều
chỉnh phù hợp". Việc tuyển sinh cần có sự "đánh giá sự tương quan giữa kết quả tuyển
sinh và kết quả học tập, kết quả đầu ra để có thể cải tiến các phương thức, tiêu chí chọn
lựa người học phù hợp hơn"(24), đồng thời "đổi mới nội dung tư vấn và phương thức
định hướng ngành học" (36) hay cập nhật và thay đổi cách tiếp cận trong việc tư vấn
cho người học về việc lựa chọn ngành học sao cho phù hợp với khả năng, sở thích, mong
muốn và tương lai của người học. Như vậy việc "Sử dụng hiệu quả phần mềm tuyển
sinh trong công tác đánh giá, phân tích kết quả, dự báo xu hướng" cũng đồng thời là
việc sử dụng công nghệ số để nâng cao chất lượng và hiệu quả của quy trình tuyển sinh.
85
Phần mềm này ngoài việc tự động thu thập, phân tích và báo cáo kết quả tuyển sinh, mà
còn giúp CSGD ĐH dễ dàng theo dõi sự tiến bộ và xác định xu hướng của người học.
Chi tiết ý kiến trong Phụ lục 3.
Hình 3.3: Dữ liệu tuyển sinh tổng hợp từ trang của Bộ Giáo dục và Đào tạo
Nguồn: tác giả tổng hợp từ http://csdldh.moet.gov.vn/
3.2.2 Nhu cầu liên quan tới theo dõi giám sát hỗ trợ người học
Cố vấn học tập và giảng viên đóng một vai trò không thể thiếu trong việc hỗ trợ và tạo điều kiện thuận lợi cho quá trình học tập của người học. Việc tăng cường hoạt động giao lưu giữa sinh viên và đổi mới hình thức tư vấn không chỉ giúp người học học hỏi kinh nghiệm từ người đi trước mà còn góp phần phát triển kỹ năng giao tiếp và xã hội (2, 3). Vai trò của cố vấn học tập được nhấn mạnh hơn bao giờ hết, khi mà người học cần có sự tăng cường quan tâm, hỗ trợ nói chung (3, 9, 15, 16, 17, 18, 21) và về tâm lý nói riêng (9, 15, 17, 21). Cải thiện hiệu quả công tác cố vấn học tập cũng trở nên quan trọng (10). Điểm đặc biệt là việc tiếp cận quan điểm cá thể hóa người học (12) để đáp ứng nhu cầu đa dạng của mỗi cá nhân.
Cơ sở hạ tầng và hệ thống công nghệ thông tin là nền tảng quan trọng hỗ trợ cố vấn học tập trong việc giám sát tiến độ học tập của người học (4, 13, 18, 19, 20, 24). Cần có sự rà soát và hoàn thiện các quy định liên quan, xây dựng cơ sở dữ liệu về kết quả rèn luyện và kết quả hỗ trợ người học (5). Thiết lập hệ thống tổng thể giúp rà soát và đánh giá hiệu quả công tác phục vụ, hỗ trợ một cách bài bản (6, 20). Ngoài ra, việc chú trọng đầu tư vào hệ thống giám sát, cung cấp công cụ và hình thức đa dạng để giám
86
sát người học, từ phần mềm quản lý người học tới cơ sở dữ liệu (5, 6, 13, 18, 19, 20, 21, 22, 23, 24, 27, 29) đều giúp nâng cao hiệu quả trong hỗ trợ người học. Nghiên cứu và đổi mới "hệ thống giám sát người học" để tập trung vào việc giám sát quá trình, kết quả và hiệu quả phục vụ, hỗ trợ người học cũng là một phần quan trọng trong việc đảm bảo chất lượng giáo dục. Như vậy, "tăng cường hiệu quả của hệ thống giám sát người học đồng bộ từ phần mềm quản lý đến cơ sở dữ liệu đánh giá tiến trình học tập, kết quả học tập và nghiên cứu của người học, cải tiến các hoạt động hỗ trợ người học, nhất là trong tư vấn, cố vấn học tập và nghiên cứu khoa học" sẽ nắm bắt và theo dõi quá trình học tập của người học một cách tổng thể và liên tục. Nó không chỉ bao gồm việc giám sát tiến trình học tập hàng ngày mà còn liên kết với cơ sở dữ liệu để phân tích và đánh giá hiệu suất học tập và tiến độ của người học. Công nghệ hỗ trợ việc giám sát, bao gồm phần mềm quản lý chung và cơ sở dữ liệu được thiết kế để lưu trữ và phân tích dữ liệu liên quan đến học tập và nghiên cứu. Việc này góp phần nâng cao hiệu quả theo dõi và đánh giá tiến trình học tập và nghiên cứu của người học trở nên hiệu quả hơn, cải thiện các dịch vụ hỗ trợ người học, cảnh báo và cung cấp sự hỗ trợ cần thiết để người học đạt được mục tiêu của mình. Chi tiết ý kiến trong Phụ lục 4.
3.2.3 Nhu cầu liên quan tới tăng tỷ lệ tốt nghiệp
Đa số các CSGD ĐH đều có nhu cầu về tìm các giải pháp hiệu quả để tăng tỷ lệ người học tốt nghiệp đúng hạn và giảm thời gian tốt nghiệp trung bình (11, 19, 20, 31, 34, 36) hoặc nghiên cứu và xây dựng các giải pháp hạn chế tỷ lệ người học bị cảnh báo học tập và buộc thôi học (10, 21, 23, 24). Tuy nhiên, để các CSGD ĐH áp dụng các biện pháp cải tiến quá trình đào tạo, cải thiện tỷ lệ bỏ học, tỷ lệ tốt nghiệp, thời gian tốt nghiệp, đều cần căn cứ vào kết quả phân tích (1, 2, 6, 7, 13, 15, 17, 27, 32, 33, 35). Việc xác định các tỷ lệ có việc làm sau khi tốt nghiệp là cần thiết (4, 33). Yêu cầu kết quả khảo sát (1) và việc đối sánh kết quả học hằng năm của người học các ngành đào tạo (2, 7, 13) cung cấp cái nhìn tổng quát về tỷ lệ bỏ học, chậm tốt nghiệp. Đồng thời, yêu cầu phân tích xu hướng và đối sánh giữa các chương trình đào tạo cũng giúp cải tiến chất lượng đào tạo (8, 9, 26, 30). Yêu cầu đối sánh với các trường đại học khác giúp CSGD ĐH có cái nhìn rõ hơn về vị trí của mình trong lĩnh vực giáo dục (5, 6, 22, 25, 33). Đặc biệt, việc tiếp tục phân tích nguyên nhân là cần thiết để có các biện pháp hạn chế tỷ lệ người học thôi học ở các lĩnh vực đặc thù (14, 17). CSGD ĐH cũng cần khích lệ động cơ học tập và hướng nghiệp cho người học (15). Bên cạnh đó, việc hoàn thiện quy định về giám sát và thống kê (26) và có hướng dẫn giám sát và thống kê là căn cứ quan trọng để điều chỉnh chiến lược đào tạo (8, 9). Chi tiết ý kiến trong Phụ lục 5.
87
3.3 Mô hình hệ thống trí tuệ doanh nghiệp với tính năng dự báo dựa trên dữ liệu người học cho cơ sở giáo dục đại học Việt Nam
Kế thừa nghiên cứu về khung hệ thống BI cho CSGD ĐH, các yếu tố tác động tới hình thái hệ thống, đặc thù với CSGD ĐH Việt Nam và những nhu cầu cấp thiết về thông tin quản trị dựa trên dữ liệu người học đáp ứng cho các tiêu chuẩn kiểm định giáo dục đại học, NCS đề xuất mô hình cho hệ thống BI với tính năng dự báo dành cho CSGD ĐH Việt Nam dựa trên dữ liệu người học. Mô hình được tiếp cận ở ba nội dung: (1) Mô hình kiến trúc hệ thống; (2) Mô hình xử lý dữ liệu của hệ thống; (3) Mô hình quy trình xây dựng và phát triển hệ thống.
3.3.1 Mô hình kiến trúc hệ thống
Dựa trên phân tích các khung kiến trúc trong 2.1.2, có thể thấy có một khung kiến trúc phân tầng nhất quán được áp dụng cho các CSGD ĐH. Các tầng đảm nhiệm nhiệm vụ như xử lý và tích hợp dữ liệu, lưu trữ dữ liệu, phân tích và trình bày. Tuy nhiên, thiết kế kiến trúc hệ thống ứng dụng BI tại các CSGD ĐH lại rất đa dạng, thể hiện giải pháp được tùy chỉnh, tích hợp các giải pháp dữ liệu trung tâm với các công cụ điện toán đám mây (Sequeira & cộng sự, 2024). Tầng xử lý và tích hợp dữ liệu đảm nhiệm vai trò quan trọng trong việc chuyển đổi dữ liệu thông qua các công cụ ETL như Pentaho Data Integration (Kettle), để làm sạch và chuẩn hóa dữ liệu từ nhiều nguồn khác nhau (Menolli & cộng sự, 2020),(Ortiz & Hallo, 2019). Tại tầng lưu trữ, các công nghệ lưu trữ đa dạng được sử dụng như Postgres (Menolli & cộng sự, 2020) hoặc SQL Server (Al Rashdi & Nair, 2017) để lưu trữ và quản lý dữ liệu. Tầng phân tích sử dụng công nghệ như OLAP và công cụ SharePoint (Al Rashdi & Nair, 2017), Mondrian (Menolli & cộng sự, 2020) để thực hiện các phân tích chuyên sâu, trong khi tầng trình bày cung cấp các giao diện trực quan hóa dựa trên web, bảng tin tổng hợp và các công cụ báo cáo (Al Rashdi & Nair, 2017). Do đó, trong triển khai thực tế, mỗi CSGD ĐH có thể linh hoạt lựa chọn các công nghệ và giải pháp khác nhau cho từng tầng, tùy thuộc vào nhu cầu và nguồn lực sẵn có của CSGD ĐH.
Đối với các CSGD ĐH Việt Nam, hệ thống BI dự báo dựa trên dữ liệu người học cần thỏa mãn các yêu cầu chức năng: (1) tích hợp dữ liệu từ nhiều nguồn, bao gồm cả dữ liệu thủ công và dữ liệu từ các hệ thống thông tin chức năng liên quan tới người học; (2) cung cấp báo cáo trực quan, có thể tùy chỉnh theo ngữ cảnh, phản ánh chỉ số hiệu suất, chất lượng của CSGD ĐH, tham chiếu tiêu chuẩn kiểm định của các CSGD ĐH; (3) thực hiện dự báo dựa trên dữ liệu người học đáp ứng các nhu cầu đã phân tích trong
88
Mục 3.2. Đồng thời hệ thống cần đáp ứng các yêu cầu phi chức năng được chỉ ra trong các nghiên cứu như:
Hiệu suất và khả năng mở rộng: Do phải xử lý lượng dữ liệu lớn thu thập từ nhiều nguồn nên hệ thống phải đảm bảo hiệu suất và khả năng mở rộng. Hệ thống cần cung cấp thời gian phản hồi nhanh cho các truy vấn và truy xuất dữ liệu, ngay cả khi khối lượng dữ liệu và số lượng người dùng tăng lên. Điều này đảm bảo rằng hệ thống có thể xử lý các tập dữ liệu lớn và số lượng người dùng ngày càng tăng mà không bị suy giảm hiệu suất (Kimball & Ross, 2013). Thời gian phản hồi của các hệ thống BI thường không cố định, vì còn phụ thuộc vào nhiều yếu tố như loại truy vấn, khối lượng dữ liệu, hiệu năng phần cứng, tốc độ đường truyền, phần mềm và số lượng người dùng truy cập đồng thời. Tuy nhiên, từ thực tiễn về trải nghiệm người dùng thì thời gian phản hồi thích hợp với hệ thống là trong khoảng 1–5s với các truy vấn từ đơn giản tới phức tạp. Với các yêu cầu dự báo, thời gian chấp nhận <10s.
Khả năng sử dụng: Hệ thống hướng tới đối tượng người dùng không phải là chuyên gia công nghệ, mà là các nhà quản lý, cố vấn học tập, giảng viên. Do đó, giao diện người dùng cần phải trực quan, dễ nắm bắt, người dùng dễ dàng sử dụng và tự mình thực hiện truy vấn, trích xuất thông tin mà không cần hỗ trợ kỹ thuật. Giao diện gồm hình ảnh trực quan hóa dữ liệu rõ ràng, nhất quán và bảng điều khiển dễ truy cập cho các đối tượng người dùng với các mức độ chuyên môn khác nhau (Few, 2006).
Bảo mật dữ liệu: Hệ thống BI xử lý dữ liệu với các thông tin nhạy cảm gồm thông tin cá nhân, quá trình học tập và các hoạt động của sinh viên trong CSGD ĐH, do đó cần phải bảo vệ dữ liệu nhạy cảm thông qua các biện pháp bảo mật mạnh mẽ, bao gồm xác thực người dùng, mã hóa dữ liệu và kiểm soát truy cập (Stallings & Brown, 2015). Hệ thống BI cũng cần tuân thủ các quy định và tiêu chuẩn liên quan, chẳng hạn như luật bảo vệ dữ liệu để tránh các rủi ro về pháp lý.
Toàn vẹn dữ liệu: Hệ thống cung cấp thông tin cho các cấp quản lý để ra quyết định. Thông tin chất lượng phụ thuộc vào dữ liệu nhất quán và chính xác. Do vậy, hệ thống cần đảm bảo chất lượng và tính toàn vẹn dữ liệu cao thông qua việc áp dụng các quy trình xác thực dữ liệu và cơ chế kiểm tra lỗi (Redman, 2001).
Tin cậy và khả dụng: Cũng như hầu hết các hệ thống quản lý, hệ thống BI cần đáng tin cậy, với thời gian ngừng hoạt động tối thiểu, đảm bảo rằng người dùng có thể truy cập dữ liệu và báo cáo bất cứ khi nào cần. Khả dụng cao là yếu tố không thể thiếu đối với các hệ thống hỗ trợ thông tin cho việc ra quyết định dựa vào dữ liệu (Patterson & Hennessy, 2013).
89
Tích hợp: Hệ thống nên có khả năng tích hợp liền mạch với các phần mềm và nguồn dữ liệu khác, cho phép phân tích dữ liệu toàn diện trên các nền tảng và hệ thống khác nhau (Linthicum, 2000).
Bảo trì: Vì dữ liệu và yêu cầu phân tích có thể thường xuyên thay đổi, do đó hệ thống nên được thiết kế theo kiến trúc và công nghệ dễ bảo trì, dễ cập nhật, nhằm thích ứng nhanh chóng với các thay đổi mà không gây gián đoạn đáng kể cho người dùng.
Dựa trên các yêu cầu, NCS đề xuất mô hình kiến trúc của hệ thống BI dự báo
dựa trên dữ liệu người học tại CSGD ĐH Việt Nam, thể hiện trong Hình 3.4.
Hình 3.4: Mô hình kiến trúc hệ thống được đề xuất
Nguồn: Tác giả đề xuất
90
3.3.1.1 Nguồn dữ liệu
Nguồn dữ liệu là thành phần đầu vào quan trọng của hệ thống. Mặc dù nguồn dữ liệu không nằm trong phạm vi của hệ thống, nhưng đó là yếu tố không thể bỏ qua khi thiết kế kiến trúc hệ thống do sự ảnh hưởng của nó tới các thành phần cấu thành khác của hệ thống. Dữ liệu thu thập từ các nguồn cần thỏa mãn điều kiện: (1) có sẵn và ưu tiên có thể thu thập tự động; (2) được cập nhật trên đa số (bản ghi) sinh viên; (3) dữ liệu có ý nghĩa trong phân tích và dự báo. Do vậy, nguồn dữ liệu có thể là dữ liệu có cấu trúc từ CSDL của HTTT quản lý hồ sơ và học tập của sinh viên như cổng thông tin đào tạo quản lý điểm và điểm danh, hệ thống đăng ký môn học (tín chỉ), hệ thống quản lý học tập (CMS, LMS), hệ thống quản lý thư viện, hệ thống phục vụ cho công tác tuyển sinh (CRM), v.v.
Các nền tảng học trực tuyến đặc biệt bùng nổ trong giai đoạn Covid, tuy nhiên dữ liệu trên các nền tảng Zoom, Trans hay Microsoft Teams sẽ bị hạn chế do các ứng dụng này được khai thác thông qua dịch vụ của nhà cung cấp địa phương và quốc tế. Các nền tảng này khó có thể cung cấp dữ liệu nguồn khả dụng, do vậy tốt nhất dữ liệu nên trích xuất từ các hệ thống quản lý hồ sơ và học tập đã tồn tại, hoặc sớm có kế hoạch phát triển khi CSGD ĐH chuyển đổi số. Các hệ thống quản lý này thường trực thuộc các phòng ban, đơn vị liên quan đến đào tạo, tuyển sinh và công tác sinh viên. Điều này cũng hỗ trợ cho việc xây dựng các kho dữ liệu cục bộ liên quan sau này nếu cần.
Từ hệ thống tuyển sinh, dữ liệu được trích xuất sẽ phản ánh toàn bộ quá trình sinh viên đăng ký xét tuyển đại học. Dữ liệu này bao gồm thông tin cá nhân, thông tin nhân khẩu học và các dữ liệu liên quan đến đăng ký xét tuyển đại học. Cụ thể như: họ và tên, giới tính, ngày tháng năm sinh, nơi sinh, dân tộc, số định danh, địa chỉ thường trú, trường THPT, chương trình học phổ thông, đối tượng ưu tiên, địa chỉ liên hệ, ngành đăng ký xét tuyển, tổ hợp môn xét tuyển, điểm trung bình các năm học THPT và điểm thi tốt nghiệp THPT (áp dụng đối với thí sinh không thuộc diện được miễn thi tốt nghiệp THPT theo quy định của Bộ Giáo dục và Đào tạo).
Từ hệ thống quản lý đào tạo, dữ liệu được trích xuất sẽ phản ánh quá trình học tập, khảo thí v.v. Cụ thể như: chương trình học, lịch học, khóa học/học phần, kết quả kiểm tra, kết quả học phần, trung bình tích lũy, sinh viên đánh giá giảng viên v.v.
Từ hệ thống công tác sinh viên, dữ liệu được trích xuất sẽ phản ánh toàn bộ quá trình hoạt động và rèn luyện của người học trong suốt thời gian học tập tại trường. Các thông tin được trích xuất bao gồm: thông tin về đơn vị đào tạo (khoa, lớp, chuyên ngành);
91
vai trò và hoạt động của sinh viên (chức vụ, hoạt động đoàn thể, hoạt động đảng); kết quả rèn luyện và thành tích học tập (điểm rèn luyện, khen thưởng, kỷ luật); các chế độ chính sách (học bổng, miễn giảm học phí); và các văn bằng, chứng chỉ cùng thông tin tốt nghiệp của sinh viên.
Các dữ liệu không có giá trị trong phân tích dự báo nên loại bỏ. Dữ liệu học thuật rất quan trọng, có thể được sử dụng làm đặc trưng chính để dự báo kết quả học tập của người học, kết hợp với dữ liệu phản ánh khía cạnh cá nhân xã hội và hỗ trợ tài chính của người học sẽ cho kết quả phân tích dự báo khá toàn diện về đối tượng khách hàng chính của CSGD ĐH.
3.3.1.2 Tầng ETL
Tầng ETL đóng vai trò là cầu nối và bộ xử lý trung tâm trong kiến trúc dữ liệu, chịu trách nhiệm thu thập, tinh chỉnh và chuyển giao dữ liệu từ các hệ thống nguồn đa dạng đến kho dữ liệu đích. Việc tích hợp dữ liệu từ các nguồn khác nhau, bao gồm các hệ thống quản lý học tập và hồ sơ học tập, là một thách thức phổ biến, được khắc phục thông qua việc áp dụng ETL và kho dữ liệu (Sequeira & cộng sự, 2024).
Tầng ETL không chỉ là một tập hợp các chức năng, mà là một dòng chảy liên tục của dữ liệu, nơi dữ liệu thô từ nhiều nguồn được hút vào, trải qua quá trình tinh chế và biến đổi phức tạp, sau đó được chuyển giao một cách có tổ chức đến kho dữ liệu, đảm bảo dữ liệu đầu ra là sạch, nhất quán và sẵn sàng cho các phân tích BI hiệu quả.
Khi trích xuất dữ liệu từ CSDL của các hệ thống quản lý và đưa vào mô đun ETL, hệ thống sử dụng các kết nối tới CSDL hoặc sử dụng API để truy cập vào CSDL của các hệ thống quản lý. Hệ thống sử dụng truy vấn SQL hoặc API để lấy dữ liệu cần thiết từ các bảng hoặc nguồn dữ liệu khác, nhằm giảm tải cho hệ thống nguồn. Dữ liệu này (kết hợp với dữ liệu thu thập dưới dạng tập tin CSV, Excel, XML, JSON, text) sẽ được làm sạch và chuẩn hóa để loại bỏ các lỗi và sự không nhất quán, sau đó được tích hợp để tạo ra một tập dữ liệu thống nhất. Dữ liệu có thể được lưu trữ tạm thời trong các hệ thống lưu trữ hoặc các cơ sở dữ liệu hiệu suất cao trước khi mã hóa hoặc chuyển đổi theo yêu cầu của hệ thống đích, sau đó tải vào kho dữ liệu và các kho dữ liệu cục bộ. Ngoài giải pháp tự phát triển mô đun ETL, hệ thống có thể tích hợp công cụ mã nguồn mở hoặc thương mại như Apache NiFi, Talend Open Studio, Kettle (Pentaho Data Integration), Informatica PowerCenter để thực hiện quy trình trên. Trong đó, khuyến nghị sử dụng các công cụ mã nguồn mở có thể đáp ứng ràng buộc về hạn chế vốn đầu tư. Tất cả các công cụ kể trên đều xử lý được dữ liệu từ nguồn có cấu trúc và không có cấu trúc.
92
Để hệ thống BI xử lý dữ liệu hiệu quả, các dữ liệu từ các hệ thống chức năng cần được trích xuất chính xác theo yêu cầu nghiệp vụ, được làm sạch và chuẩn hóa để đảm bảo tính đồng nhất về ngữ nghĩa và được mã hóa phù hợp với yêu cầu phân tích và dự báo (đối với các dữ liệu phân loại như giới tính, tôn giáo, quốc gia, khoa, v.v.).
3.3.1.3 Tầng lưu trữ dữ liệu
Dữ liệu chảy vào tầng lưu trữ dữ liệu trực tiếp từ tầng ETL. Sau khi trải qua các quy trình trích xuất, biến đổi và làm sạch phức tạp, dữ liệu đã được chuẩn hóa và tích hợp được tải vào kho dữ liệu tại tầng ETL. Đây là điểm đến cuối cùng của dữ liệu trong quy trình ETL, đảm bảo rằng mọi thông tin được lưu trữ tại đây đều đã đạt chất lượng cao, đồng nhất và sẵn sàng cho việc khai thác. Mối liên kết này là một chiều, tầng ETL đẩy dữ liệu vào tầng lưu trữ, tạo nên một nguồn dữ liệu đáng tin cậy cho toàn bộ hệ thống BI.
Tầng này bao gồm kho dữ liệu lưu trữ dữ liệu của các hệ thống thông tin quản lý nguồn. Tùy thuộc vào nhu cầu và nguồn lực sẵn có của CSGD ĐH, hệ thống được tùy chỉnh, tích hợp các giải pháp dữ liệu trung tâm hoặc các công cụ điện toán đám mây. Với hiện trạng dữ liệu của các CSGD ĐH ngày càng gia tăng, hệ thống nên sử dụng công nghệ điện toán đám mây để xây dựng kho dữ liệu nhằm đảm bảo khả năng mở rộng khi có sự gia tăng dữ liệu. Thêm vào đó, nếu sử dụng các dịch vụ này, nhiều công cụ khác như ETL, ML v.v. cũng có thể được tích hợp sẵn trong dịch vụ điện toán đám mây của nhà cung cấp.
NCS so sánh trên 13 giải pháp kho dữ liệu thương mại và mã nguồn mở tốt nhất dựa trên các đặc trưng về: (1) Mô hình triển khai (C – đám mây, F – tại chỗ); (2) Khả năng mở rộng (H – mức cao, M – mức trung bình, L – mức thấp); (3) Chức năng chính (E – Trích xuất chuyển đổi tải dữ liệu, T – kiểm thử, A – Phân tích và BI, O – tổng thể); (4) Độ phức tạp trong triển khai (H – mức cao, M – mức trung bình, L – mức thấp); Hỗ trợ (C – từ cộng đồng, S – từ nhà cung cấp) có kết quả được thể hiện trong bảng sau.
Bảng 3.1: So sánh giải pháp kho dữ liệu thương mại và mã nguồn mở
Chức năng chính
Hỗ trợ
Độ phức tạp trong triển khai
Giải pháp
Mô hình triển khai
Khả năng mở rộng
C
F H M L E
T
A
O H M
L
C
S
1
1
1
1
Amazon RedShift
1
1
1
1
1
1
BiG EVAL
93
BigQuery
1
1
1
1
1
1
CData Sync
1
1
1
1
1
1
Domo
1
1
1
1
1
Informatica
1
1
1
1
1
1
1
1
1
1
1
Oracle Autonomous Database
Pentaho
1
1
1
1
1
QuerySurge
1
1
1
1
1
1
SAP
1
1
1
1
1
1
1
1
1
1
1
1
1
Tableau Server
1
1
1
1
1
1
Talend Open Studio
1
1
1
1
The Ab Initio software
Nguồn: Tác giả tổng hợp
14 https://www.guru99.com/
Đánh giá chung về xu hướng phát triển của các giải pháp kho dữ liệu cho thấy giải pháp đám mây đang dần chiếm ưu thế với khả năng mở rộng vượt trội và chi phí linh hoạt theo nhu cầu sử dụng. Nhiều nhà cung cấp đã phát triển các giải pháp kết hợp, cho phép doanh nghiệp kết hợp linh hoạt giữa môi trường đám mây và tại chỗ, trong đó các giải pháp dành cho doanh nghiệp thường hỗ trợ cả hai mô hình triển khai. Mặc dù giải pháp đám mây có ưu thế về khả năng mở rộng và tự động hóa, giải pháp tại chỗ vẫn được ưa chuộng trong các môi trường đòi hỏi kiểm soát bảo mật cao. Xu hướng tự động hóa và tích hợp đa nền tảng ngày càng được chú trọng, giúp giảm độ phức tạp trong triển khai và vận hành. Về mặt hỗ trợ, các giải pháp doanh nghiệp thường cung cấp dịch vụ chuyên nghiệp đa kênh với tài liệu đầy đủ và đội ngũ hỗ trợ liên tục 24/7, trong khi các giải pháp mã nguồn mở tận dụng sức mạnh của cộng đồng người dùng lớn và tích cực. Mặc dù ngoài 13 giải pháp nêu trên thì còn nhiều giải pháp về kho dữ liệu khác, nhưng đây là 13 giải pháp được đánh giá tốt nhất dựa trên nền tảng trực tuyến14 nơi từng đưa ra đánh giá về hơn 5000 phần mềm các loại. Trong số 13 giải pháp này, dễ nhận thấy BigQuery của Google là một lựa chọn tốt cho CSGD ĐH nếu muốn triển khai kho dữ liệu trên nền điện toán đám mây bởi khả năng dễ mở rộng, độ phức tạp triển khai thấp, bên cạnh đó lại được hỗ trợ tích cực từ cả nhà cung cấp và cộng đồng. Đặc biệt,
94
xét riêng về góc độ kỹ thuật cho giải pháp kho lưu trữ, Google BigQuery nổi bật với hiệu suất vượt trội trong việc xử lý các truy vấn dài hạn và khả năng tích hợp tự nhiên với hầu hết các nguồn dữ liệu. Nền tảng này cung cấp khả năng sao lưu và phục hồi dữ liệu tự động, đồng thời không giới hạn về dung lượng lưu trữ cũng như năng lực xử lý. Dịch vụ hỗ trợ truyền dữ liệu với độ trễ thấp, cho phép xử lý dữ liệu theo thời gian thực một cách hiệu quả. Đặc biệt, BigQuery còn được đánh giá cao về tính kinh tế với chi phí sử dụng hợp lý (có kịch bản sử dụng miễn phí).
3.3.1.4 Tầng nghiệp vụ
Tầng nghiệp vụ đóng vai trò là trung tâm điều phối và xử lý thông tin trong kiến trúc hệ thống, nơi các yêu cầu từ người dùng được tiếp nhận, xử lý logic nghiệp vụ và tương tác với dữ liệu để tạo ra các dịch vụ có giá trị. Tầng này kết nối chặt chẽ với các tầng khác, đảm bảo luồng thông tin mượt mà và cung cấp các chức năng cốt lõi cho toàn bộ hệ thống. Các yêu cầu từ người dùng – thông qua tầng giao diện người dùng hay tầng hiển thị – được chuyển đến tầng nghiệp vụ. Tầng nghiệp vụ truy xuất dữ liệu từ tầng lưu trữ dữ liệu để thực hiện các xử lý cần thiết.
Tầng nghiệp vụ kết nối và xử lý các yêu cầu nghiệp vụ thông qua nhiều dịch vụ quan trọng. Các dịch vụ nền tảng dùng chung như xác thực (Single Sign-On – SSO), thông báo (SMS, Email) và quản lý dữ liệu chủ nhằm đảm bảo tính nhất quán và bảo mật dữ liệu cho người dùng. Dịch vụ ứng dụng là khối dịch vụ lõi cung cấp các chức năng như báo cáo, dự báo, truy vấn theo ngữ cảnh, giúp người dùng khai thác dữ liệu một cách hiệu quả. Các API bên ngoài được tích hợp cho phép hệ thống truy xuất và tương tác với các dịch vụ khác, mở rộng khả năng và phạm vi hoạt động. Kênh thông điệp đảm bảo việc truyền tải thông tin mượt mà giữa các dịch vụ.
(1) Dịch vụ báo cáo
Dịch vụ báo cáo trong tầng nghiệp vụ có nhiệm vụ trích xuất dữ liệu từ kho dữ liệu để tạo ra các báo cáo chuyên nghiệp và trực quan. Để đáp ứng yêu cầu này, dịch vụ sử dụng các API của các công cụ BI như Tableau, Power BI, Looker v.v. Những API này giúp các công cụ BI dễ dàng tích hợp vào các hệ thống hiện có, cho phép chia sẻ dữ liệu và thông tin một cách liền mạch giữa các ứng dụng khác nhau. Trong số các công cụ, Power BI là một công cụ nổi bật cung cấp API cho phép tích hợp với các hệ thống khác. Power BI REST API cho phép các nhà phát triển thực hiện nhiều thao tác như quản lý báo cáo, bảng điều khiển, tập dữ liệu và người dùng, cũng như nhúng nội dung Power BI vào các ứng dụng tùy chỉnh. Điều này giúp các tổ chức có thể tự động hóa các tác vụ, nhúng báo cáo và tạo ra các giải pháp dữ liệu
95
động. Ngoài Power BI, công cụ như Tableau cũng cung cấp API để tích hợp và mở rộng khả năng của chúng trong các hệ thống khác. Tableau là một công cụ BI mạnh mẽ với khả năng xử lý hiệu quả các tập dữ liệu lớn (hàng tỉ bản ghi) và tạo ra các biểu đồ, bảng tin tổng hợp phức tạp với giao diện đẹp mắt. Công cụ này có thể tương thích với nhiều nền tảng khác nhau và đặc biệt hỗ trợ tốt ngôn ngữ lập trình R và Python, cho phép thực hiện các phân tích chuyên sâu và phức tạp. Những tính năng này khiến Tableau trở thành lựa chọn lý tưởng cho các chuyên gia phân tích dữ liệu và các tổ chức cần xử lý và trực quan hóa dữ liệu ở mức độ chuyên nghiệp. Tableau có API cho phép truy cập và thao tác dữ liệu, nhúng bảng điều khiển và tích hợp với các ứng dụng khác.
Báo cáo tạo ra phục vụ cho các phòng ban và cấp quản lý khác nhau trong cơ sở CSGD ĐH, từ cấp Bộ môn, Khoa đến các phòng chức năng như Phòng Đào tạo, Phòng Công tác sinh viên và Phòng Thanh tra pháp chế. Mỗi đơn vị được truy cập báo cáo theo mức độ phân quyền và lĩnh vực phụ trách, tập trung vào các mảng chính như tuyển sinh, đào tạo và công tác sinh viên. Nội dung báo cáo được tùy chỉnh dựa trên yêu cầu của người dùng và tuân theo các chuẩn kiểm định đầu ra của Việt Nam. Điều này đảm bảo rằng thông tin được cung cấp không chỉ chính xác mà còn phù hợp với các tiêu chuẩn chất lượng và quản lý hiện hành. NCS đề xuất xây dựng nội dung báo cáo tham chiêu trên tiêu chuẩn (5, 8, 11) kiểm định đầu ra của chương trình đào tạo (TT 04/2016/TT- BGDĐT) cho từng chuyên ngành đào tạo và tiêu chuẩn (13, 15, 17, 22) kiểm định đầu ra cơ sở đào tạo (TT 12/2017/TT-BGDĐT). Một số gợi ý nội dung báo cáo của hệ thống, dựa trên dữ liệu người học, như mô tả trong Bảng 3.2.
Bảng 3.2: Một số nội dung báo cáo được đề xuất
Báo cáo Đơn vị liên quan
Tuyển sinh
Báo cáo chất lượng hoạt động tuyển sinh gồm thông tin về năm học, nhóm ngành, ngành, trình độ, chỉ tiêu, số đăng ký dự tuyển, số lượng trúng tuyển, số lượng nhập học, tỷ lệ nhập học, tỷ lệ nhập học so với chỉ tiêu, tỷ lệ nhập học so với trúng tuyển v.v)
Đào tạo, khảo thí
Phân tích phổ điểm các môn, học phần Tổng hợp thi lại/học lại Thống kê học tập theo học phần Tổng hợp điểm theo kỳ/năm/tích lũy
96
Thống kê mức độ hài lòng của sinh viên đối với học phần, giáo viên Thống kê mức độ hài lòng của người học với chương trình đào tạo Tổng hợp danh sách vi phạm quy chế thi học phần/năm học
Công tác sinh viên
Tổng hợp danh sách ban cán sự lớp hàng năm Tổng hợp kết quả khám sức khỏe đầu khóa Tổng hợp điểm rèn luyện theo kỳ/năm/khóa Tổng hợp danh sách cấp học bổng, khen thưởng, kỷ luật, cảnh báo học vụ, bảo lưu, thôi học Thống kê khảo sát sinh viên cuối khóa về chất lượng đào tạo Thống kê khảo sát tình trạng việc làm của cựu sinh viên
Nguồn: Tác giả đề xuất
Bảng tin tổng hợp trong hệ thống BI của CSGD ĐH được thiết kế để trình bày
các chỉ số đo lường và kiểm soát tổng thể cho Ban giám hiệu. Khác với hệ thống BI
doanh nghiệp tập trung vào các khía cạnh tài chính và phát triển, hệ thống BI của CSGD
ĐH hướng đến giám sát các chỉ số về tuyển sinh, đào tạo và công tác sinh viên, phù hợp
với mục tiêu của CSGD ĐH. Nội dung bảng tin tổng hợp bao gồm số liệu ở các khía
cạnh trên và tham chiếu đến tiêu chí trong tiêu chuẩn 5 của Dự thảo Thông tư quy định
Chuẩn CSGD ĐH, gồm các nội dung tham khảo phụ lục 6:
- Số lượng người học nhập học so sánh với chỉ tiêu kế hoạch và biến động trung
bình trong 3 năm gần nhất.
- Phần trăm người học bỏ học trong toàn trường và tỷ lệ từ bỏ ở năm đầu tiên. - Tỷ lệ người học hoàn thành chương trình không quá 1,5 lần thời gian dự kiến và
tỷ lệ tốt nghiệp đúng thời gian quy định.
- Tỷ lệ người học tốt nghiệp có việc làm, bao gồm cả việc tự tạo việc làm phù hợp với trình độ đào tạo hoặc tiếp tục học cao hơn trong vòng 12 tháng (hoặc 18 tháng cho ngành Y).
- Phần trăm người học tốt nghiệp cảm thấy hài lòng với quá trình học tại trường. - Phần trăm người học hài lòng với giảng viên dựa trên chất lượng và hiệu quả
giảng dạy.
(2) Dịch vụ dự báo
97
Hệ thống sử dụng kỹ thuật thống kê nâng cao và học máy để khai phá sâu dữ liệu.
Các kỹ thuật dự báo có thể được áp dụng bao gồm nhiều phương pháp như hồi quy tuyến
tính (LR), cây quyết định (DT), mạng nơ-ron nhân tạo (ANN), máy vector hỗ trợ (SVM),
K láng giềng gần nhất (KNN) và rừng ngẫu nhiên (RF). Mỗi phương pháp có độ chính
xác khác nhau và phụ thuộc vào đặc điểm dữ liệu cụ thể của từng CSGD ĐH. Các mô
hình dự báo được xác định, huấn luyện và tích hợp vào dịch vụ phân tích dự báo trong
quá trình xây dựng hệ thống.
Việc xác định các nội dung dự báo phụ thuộc nhiều vào tính sẵn có của dữ liệu
và phải đáp ứng nhu cầu của CSGD ĐH về tư vấn tuyển sinh, cố vấn học tập, cũng như
theo dõi tỷ lệ tốt nghiệp và bỏ học. Do vậy, NCS đề xuất hai nội dung dự báo chính mà
CSGD ĐH Việt Nam cần thực hiện và những rào cản khi thực hiện, bao gồm:
Bảng 3.3: Nội dung dự báo dựa trên dữ liệu học cho CSGD ĐH Việt Nam
Bài toán dự báo Mục tiêu Rào cản Mức độ khả thi
Dự báo này sẽ giúp giáo viên Hệ thống khó thu Trung bình
và cố vấn học tập xác định thập và ghi nhận
được những người học có nguy đầy đủ dữ liệu về
cơ, gặp khó khăn trong quá hành vi của người
trình học, cần được hỗ trợ học thông qua các
thêm. Từ đó, CSGD ĐH có thể hệ thống LMS
sắp xếp nguồn lực hiệu quả hoặc E–Learning
hơn, như tăng giờ học trợ giúp do mức độ không
hoặc xây dựng kế hoạch học phổ biến hoặc
tập riêng cho những người học chưa hoàn thiện
Dự báo kết quả học tập để giám sát người học và hỗ trợ tư vấn tuyển sinh này. Đồng thời, giảng viên có của các hệ thống
thể điều chỉnh phương pháp này tại các CSGD
giảng dạy cho phù hợp và ĐH Việt Nam.
CSGD ĐH có thể đánh giá
được mức độ thành công của
phương pháp giảng dạy và
chương trình học.
98
Bài toán dự báo Mục tiêu Rào cản Mức độ khả thi
Thiếu dữ liệu Hệ thống giúp CSGD ĐH nhận Thấp
đáng tin cậy, biết sớm những người học có
thiếu dữ liệu phản nguy cơ bỏ học để có thể can
ánh về tác động thiệp kịp thời, từ đó nâng cao tỷ
tâm lý, xã hội, lệ hoàn thành chương trình học.
kinh tế tới việc Đồng thời, hệ thống cũng phân Dự báo bỏ học tiếp tục học của tích và xác định các yếu tố chính
sinh viên. ảnh hưởng đến quyết định bỏ
học của người học như vấn đề
tài chính, tâm lý, hoặc khả năng
tiếp cận nội dung học tập.
Nguồn: Tác giả đề xuất
Nghiên cứu đề xuất thực hiện ưu tiên nội dung dự báo kết quả học tập để giám
sát người học và hỗ trợ tư vấn tuyển sinh vì dữ liệu cần thiết cho bài toán này chủ
yếu dựa trên kết quả học tập của sinh viên đã được lưu trữ sẵn trong hệ thống quản lý
phổ biến tại CSGD ĐH. Trong khi đó, dự báo bỏ học đòi hỏi nhiều dữ liệu phức tạp hơn
về tâm lý, xã hội và kinh tế của sinh viên mà các CSGD ĐH hiện chưa có hoặc chưa
được thu thập đầy đủ. Đó cũng là lý do trong nghiên cứu thử nghiệm NCS tập trung thử
nghiệm dự báo kết quả học tập hỗ trợ giám sát người học và hỗ trợ tuyển sinh, dự báo
bỏ học không được nghiên cứu sâu trong luận án này.
Tuy nhiên, khi thực hiện dự báo kết quả học tập, cần lưu ý một số vấn đề quan
trọng sau:
(i) Về dự báo kết quả học tập hỗ trợ giám sát người học
Thứ nhất, về dữ liệu đầu vào, cần đảm bảo hệ thống thu thập dữ liệu đầy đủ và
hiệu quả. Chất lượng của dữ liệu sẽ ảnh hưởng trực tiếp đến độ chính xác của các mô
hình dự báo, do đó cần có quy trình kiểm soát và làm sạch dữ liệu phù hợp. Kết quả học
tập chịu ảnh hưởng của nhiều yếu tố như đặc điểm người học, nền tảng học tập, điều
kiện kinh tế, tâm lý và xã hội, việc xây dựng mô hình dự báo cần cân nhắc kỹ lưỡng
trong việc lựa chọn và tích hợp các đặc trưng này. Trong trường hợp thiếu dữ liệu định
99
tính như động lực học tập hay mức độ hài lòng của người học, có thể tập trung ưu tiên
vào các chỉ số định lượng như điểm số và tỷ lệ hoàn thành môn học (Guzmán–
Valenzuela & cộng sự, 2021).
Thứ hai, về mặt kỹ thuật, cần nghiên cứu kỹ và lựa chọn kỹ thuật dự báo phù hợp
với đặc thù dữ liệu và mục tiêu giám sát. Việc lựa chọn kỹ thuật dự báo cần được thực
hiện cẩn thận để tránh đưa ra kết quả thiếu chính xác hoặc gây hiểu nhầm.
Cuối cùng cần tuân thủ nghiêm ngặt các quy định về bảo mật thông tin và đạo
đức trong nghiên cứu để đảm bảo quyền riêng tư của người học tại CSGD ĐH.
(ii) Về dự báo kết quả học tập hỗ trợ tuyển sinh
Khi thực hiện dự báo kết quả học tập để hỗ trợ tuyển sinh, cần lưu ý việc kết hợp
được hai nguồn dữ liệu chính: dữ liệu đầu vào tuyển sinh (như điểm số, nguyện vọng, ngành
nghề đăng ký) và dữ liệu quá trình học tập của các khóa trước. Mục tiêu của việc dự báo
cần tập trung vào việc đánh giá khả năng thành công của người học trong từng ngành học
cụ thể và xác định mức độ phù hợp giữa năng lực người học với yêu cầu của ngành. Kết
quả dự báo này sẽ là công cụ hỗ trợ quan trọng cho nhân viên tuyển sinh trong việc tư vấn
chọn ngành học, đồng thời giúp người học đưa ra quyết định phù hợp với năng lực thực tế.
(3) Dịch vụ truy vấn theo ngữ cảnh
Với sự phát triển của trí tuệ nhân tạo AI và xu hướng hệ thống BI tự phục vụ,
dịch vụ này cho phép nhà quản lý của CSGD ĐH thực hiện các yêu cầu theo ngữ
cảnh một cách đơn giản, thân thiện mà không cần kiến thức chuyên sâu về kỹ thuật.
Kết hợp với sự hỗ trợ của các API AI, dịch vụ truy vấn theo ngữ cảnh tập trung vào
việc tự động phân tích và biểu diễn dữ liệu khi lãnh đạo đưa ra yêu cầu dưới dạng
văn bản, ngôn ngữ tự nhiên. Dịch vụ AI sẽ phân tích và tạo ra các biểu đồ và sơ đồ
Ad hoc phù hợp với thông tin cần thiết, hỗ trợ tối đa trong việc ra quyết định nhanh
chóng và chính xác.
Dịch vụ truy vấn theo ngữ cảnh không chỉ giúp tự động hóa quá trình tạo truy
vấn mà còn chuẩn bị mã biểu diễn biểu đồ một cách tự động, từ đó tối ưu hóa khả năng
truy cập và hiển thị dữ liệu theo yêu cầu của người dùng một cách linh hoạt và trực quan.
Trong số các API AI, API của OpenAI là một lựa chọn đáng chú ý, nhờ các mô hình AI
100
lớn như GPT–3 và ChatGPT, nổi bật với khả năng xử lý ngôn ngữ tự nhiên mạnh mẽ và
dễ sử dụng, thích hợp cho nhiều mục đích khác nhau.
Cơ chế thực hiện truy vấn kết hợp API của OpenAI diễn ra như sau: Hệ thống
tiếp nhận yêu cầu từ người dùng về việc vẽ biểu đồ và gửi yêu cầu này kèm theo cấu
trúc bảng hiện có trong kho dữ liệu thông qua API của OpenAI đến mô hình ngôn ngữ
lớn (Large Language Model – LLM). Dựa trên yêu cầu của người dùng và cấu trúc
bảng dữ liệu, mô hình sẽ sinh ra truy vấn phù hợp để lấy dữ liệu, đồng thời tạo mã lệnh
biểu diễn dữ liệu dưới dạng biểu đồ. Sau khi nhận được kết quả, hệ thống sẽ sẵn sàng
đáp ứng yêu cầu của người dùng, cung cấp biểu đồ trực quan để hỗ trợ phân tích và ra
quyết định.
3.3.1.5 Tầng hiển thị
Ứng dụng hệ thống có thể được truy cập thông qua giao diện web, di động,
máy tính để bàn. Thông tin được cung cấp thông qua bảng thông tin tổng hợp, báo
cáo, chức năng dự báo để cho phép nhà quản lý, giảng viên cải thiện khả năng ra
quyết định, hỗ trợ thực hiện các mục tiêu chiến lược và chiến thuật liên quan tới
người học của CSGD ĐH. Giao diện người dùng sử dụng các mẫu thiết kế giao diện
phổ biến giúp người dùng linh hoạt dễ dàng trong quá trình tiếp cận thông tin.
3.3.1.6 Mô hình xử lý dữ liệu dựa trên dữ liệu người học
Dữ liệu được luân chuyển giữa các tầng của hệ thống, thể hiện trong mô hình
quy trình xử lý dữ liệu, như được minh họa trong Hình 3.5. Từ các nguồn dữ liệu đầu
vào, bao gồm các hệ thống quản lý đào tạo, chấm điểm trực tuyến, tuyển sinh và công
tác sinh viên, thông tin được thu thập và xử lý qua quy trình ETL. Sau khi xử lý, dữ
liệu được đưa vào kho lưu trữ trung tâm, từ đó có thể được phân tích bằng các công
cụ như học máy để dự báo hoặc thông qua API hỗ trợ phân tích BI và AI. Kết quả từ
quá trình xử lý này được sử dụng để tạo báo cáo, bảng tin tổng hợp và thấy được các
mẫu hoặc xu hướng quan trọng. Những thông tin đầu ra này đáp ứng nhu cầu của hai
nhóm người dùng chính: nhóm quản lý (nhận báo cáo, thông tin tổng hợp) và nhóm
giảng viên/chuyên viên (sử dụng mẫu, xu hướng để nâng cao giảng dạy).
101
Hình 3.5: Mô hình xử lý dữ liệu dựa trên dữ liệu người học
Nguồn: tác giả đề xuất
3.3.1.7 Đánh giá về việc đáp ứng các yêu cầu của mô hình kiến trúc được đề xuất
Mô hình kiến trúc được đề xuất có thể nói đã đáp ứng được cơ bản các yêu cầu
chức năng cũng như yêu cầu phi chức năng của hệ thống. Thiết kế kiến trúc ở mức cao
này đã thể hiện sự linh hoạt cao trong việc tích hợp cả giải pháp nguồn mở và các giải
pháp thương mại. Thiết kế có khả năng mở rộng để xử lý khối lượng dữ liệu lớn và đáp
ứng nhu cầu ngày càng tăng của các CSGD ĐH. Việc tập trung vào khả năng trực quan
hóa dữ liệu thông qua các công cụ hiện đại giúp người dùng cuối có thể dễ dàng tiếp
cận và hiểu được thông tin từ các phân tích phức tạp. Kiến trúc mô-đun hóa cho phép
các tổ chức giáo dục linh hoạt trong việc lựa chọn và tích hợp các công cụ phù hợp với
nhu cầu và nguồn lực của CSGD ĐH, đồng thời đảm bảo khả năng mở rộng và nâng cấp
trong tương lai.
Bảng 3.4: Đánh giá về đáp ứng các yêu cầu phi chức năng của mô hình đề xuất
STT Giải pháp đề xuất Tích hợp Bảo trì
Toàn vẹn dữ liệu Khả năng sử dụng Bảo mật dữ liệu Hiệu suất và khả năng Tin cậy và Khả dụng
102
mở rộng
v v v
1
Sử dụng các công cụ BI, giữ công cụ và nền tảng thường xuyên cập nhật
v v
2
Phần mềm hệ thống có thể cập nhật, tối ưu hóa truy vấn và tinh chỉnh mô hình dữ liệu
v v 3 Giải pháp đám mây
v v 4 Kiến trúc mô đun
v 5 Bảng điều khiển kéo thả
Truy vấn theo ngữ cảnh v 6
v 7 Giao diện người dùng sử dụng các mẫu thiết kế phổ biến
v v 8 Hệ thống đa người dùng, truy cập dựa trên vai trò
v v
9
Mô đun ETL làm sạch và chuyển đổi dữ liệu, thực hiện các quy trình xác thực và làm sạch dữ liệu
v
10
Sử dụng định dạng và cấu trúc dữ liệu (noSQL) trong kho dữ liệu
Nguồn: tác giả tổng hợp
Mặc dù có những điểm tương đồng với mô hình hệ thống BI doanh nghiệp, mô hình hệ thống BI của CSGD ĐH có sự khác biệt rõ rệt về mục tiêu, nguồn và tính chất dữ liệu, cùng với tiêu chuẩn, tiêu chí phân tích, đánh giá. Nếu BI tại doanh nghiệp hướng đến tối ưu hóa lợi nhuận và hiệu suất vận hành, thì BI trong giáo dục lại tập trung vào nâng cao và chuẩn hóa chất lượng đào tạo, đáp ứng yêu cầu kiểm định và hỗ trợ người học. Tuy dữ liệu ở cả hai lĩnh vực đều được thu thập từ nhiều nguồn, nhưng dữ liệu của hệ thống tại CSGD ĐH mang tính đặc thù khi kết hợp giữa dữ liệu có chu kỳ, theo giai đoạn, định lượng và định tính từ các hoạt động quản lý đào tạo, học tập, cố vấn học tập, tuyển sinh v.v. được trích xuất từ các hệ thống thông tin hoặc được nhập thủ công từ khảo sát. Người dùng hệ thống bao gồm nhiều đối tượng như ban giám hiệu, phòng đào
103
tạo, khảo thí, kiểm định và giảng viên. Do đó, hệ thống cần cung cấp các báo cáo trực quan, dễ hiểu, có khả năng tùy chỉnh theo ngữ cảnh và gắn với các bộ tiêu chuẩn đánh giá chất lượng giáo dục. Như vậy, BI trong giáo dục không nhằm mục tiêu thương mại như trong doanh nghiệp, mà tập trung vào sứ mệnh nâng cao chất lượng đào tạo, hỗ trợ ra quyết định và đảm bảo sự phát triển bền vững của nhà trường.
3.3.2 Mô hình quy trình xây dựng và phát triển hệ thống
Song song với việc đề xuất mô hình kiến trúc hệ thống, mô hình xử lý dữ liệu NCS đã xây dựng quy trình phát triển và triển khai hệ thống BI dựa trên sự kế thừa các lộ trình phát triển và quy trình triển khai từ các nghiên cứu trước, đồng thời điều chỉnh để phù hợp với đặc thù của hệ thống BI dự báo dựa trên dữ liệu người học. Những khung quy trình được kế thừa gồm:
Lộ trình phát triển BI (BI development road map) (Moss & Atre, 2003) gồm 6 giai đoạn: (1) Xác định tính khả thi; (2) Lập kế hoạch; (3) Phân tích nghiệp vụ; (4) Thiết kế; (5) Xây dựng; (6) Triển khai. Lộ trình là một hướng dẫn chi tiết và thực tế, giúp tổ chức triển khai các dự án BI một cách hiệu quả, có tổ chức và đáp ứng được các mục tiêu chiến lược của tổ chức. Lộ trình không chỉ tập trung vào kỹ thuật mà còn chú trọng vào sự phối hợp giữa các bên liên quan và tầm nhìn kinh doanh dài hạn.
Nghiên cứu của Morais & Lopes (2019) đề xuất quy trình triển khai giải pháp BI trong CSGD ĐH bao gồm các giai đoạn sau: (1) phân tích quy trình kinh doanh, cũng như sứ mệnh và chiến lược của CSGD ĐH; (2) phân tích các chỉ số hiện có cho từng quy trình; (3) xem xét tài liệu để xác định và định nghĩa các KPI; (4) được xác thực bởi nhân viên phụ trách từng quy trình và các điều chỉnh tiếp theo đối với danh sách các KPI phát sinh từ quá trình xác thực; (5) xác định các hệ thống chức năng được triển khai tại CSGD ĐH; (6) phân tích hệ thống chức năng để xác định các nguồn dữ liệu cần thiết cho các KPI; (7) xác định hồ sơ truy cập của người dùng; (8) lựa chọn và triển khai giải pháp công nghệ BI (Morais & Lopes, 2019).
Quy trình sáu bước phát triển bảng tin tổng hợp được đề xuất trong (Caraiani & Dumitrana, 2005) và ứng dụng trong nghiên cứu của (Scholtz & cộng sự, 2018) gồm: (1) Xác định mục tiêu; (2) Xác định danh sách các nhiệm vụ, năng lực và trách nhiệm; (3) Thiết lập các chỉ số (4) Thu thập thông tin dựa trên các chỉ số đã xác định; (5) Phát triển bảng tin tổng hợp; (6) Đánh giá bảng tin tổng hợp.
Từ các nghiên cứu trên, NCS đã đề xuất quy trình các bước xây dựng, phát triển hệ thống phù hợp với hệ thống BI dự báo dựa trên công nghệ học máy. Quy trình gồm các giai đoạn với các nhiệm vụ tương ứng như sau:
104
Giai đoạn 1: Khảo sát sơ bộ và xác lập dự án phát triển hệ thống BI dự báo
- Xác định mục tiêu, phạm vi của hệ thống và các lợi ích tiềm năng khi sử dụng hệ
thống đối với CSGD ĐH (1).
Giai đoạn 2: Lên kế hoạch
- Đánh giá hiện trạng hạ tầng công nghệ và nghiên cứu xu hướng ứng dụng công
nghệ trong lĩnh vực giáo dục (2).
- Xác định rõ ràng nhiệm vụ, năng lực và trách nhiệm thực hiện dự án phát triển,
giúp định rõ kế hoạch triển khai hệ thống (3).
Giai đoạn 3: Phân tích nghiệp vụ
- Phân tích dữ liệu, siêu dữ liệu (4). - Xác định yêu cầu báo cáo, yêu cầu chỉ số chính cho bảng thông tin tổng hợp và
định nghĩa bài toán dự báo (5). - Phát triển nguyên mẫu hệ thống (6).
Giai đoạn 4: Thiết kế
- Thiết kế dữ liệu trong kho dữ liệu (7). - Thiết kế quy trình ETL (8).
Giai đoạn 5: Phát triển
- Cài đặt/thiết lập ETL, tiền xử lý dữ liệu (9). - Huấn luyện và cài đặt mô hình dự báo (10). - Phát triển hệ thống ứng dụng tích hợp mô hình học máy đã được huấn luyện, bao gồm phát triển các báo cáo và bảng tin tổng hợp với các chỉ số đã xác định (11).
Giai đoạn 6: Triển khai
- Triển khai hệ thống (12). - Đánh giá hệ thống (13). - Tối ưu và cải tiến hệ thống dựa trên kết quả đánh giá, tìm kiếm cách cải thiện và
tối ưu hóa mô hình dự báo cùng hệ thống phát triển (14).
Các giai đoạn được mô tả chi tiết trong Hình 3.8. Trong đó quy trình cho xây
dựng mô hình dự báo (10) được cụ thể theo các bước:
105
Hình 3.6: Quy trình xây dựng mô hình dự báo được đề xuất
Nguồn: tác giả đề xuất
Các đặc trưng hay biến cho dự báo nên là đặc trưng với dữ liệu sẵn có trong các
hệ thống quản lý. Dữ liệu đã được làm sạch và tiền xử lý trong quá trình ETL. Các kỹ
thuật dự báo có thể sử dụng là kỹ thuật phân loại và thống kê phổ biến như LR, KNN,
NB, SVM, DT, RF, ANN. Việc huấn luyện mô hình tùy thuộc vào số lượng và độ phức
tạp của dữ liệu có thể chia theo phương pháp phù hợp (holdout nếu dữ liệu lớn và phương
pháp xác thực chéo nếu dữ liệu nhỏ hơn). Đánh giá mô hình bằng các chỉ số phù hợp
(chỉ số của ma trận nhầm lẫn với dự báo cho các biến phân loại và trung bình bình
phương lỗi cho các biến liên tục). Dữ liệu của CSGD ĐH dành cho dự báo khác nhau
thì mô hình dự báo sẽ khác nhau. Do vậy với một đơn vị hoặc CSGD ĐH trong quá trình
xây dựng hệ thống sẽ phải tìm ra mô hình dự báo phù hợp và thử nghiệm nó để thấy
được về độ chính xác hoặc tính hiệu quả của dự báo về độ chính xác.
Trong đề xuất này, ngoài việc đảm bảo các bước cốt lõi trong quy trình phát triển
hệ thống như khảo sát sơ bộ và xác lập dự án để xác định rõ mục tiêu, phạm vi và lợi
ích tiềm năng của hệ thống BI, tạo nền tảng vững chắc trước khi triển khai, nghiên cứu
còn nhấn mạnh giai đoạn phân tích nghiệp vụ với trọng tâm là phân tích dữ liệu (bao
gồm siêu dữ liệu) và phát triển nguyên mẫu hệ thống, cho phép kiểm tra sớm các chức
năng và yêu cầu hệ thống. Bảng tin tổng hợp được tích hợp chặt chẽ vào hệ thống để hỗ
trợ trực quan hóa thông tin. Đặc biệt, NCS đã đưa vào quy trình bước tích hợp công
nghệ học máy, giúp xây dựng và triển khai các mô hình dự báo nhằm đáp ứng nhu cầu
phân tích nâng cao và hỗ trợ hiệu quả quá trình ra quyết định trong các CSGD ĐH.
Vai trò của các đơn vị, cá nhân trong quy trình được giải thích qua Hình 3.7:
106
Hình 3.7: Mô hình quy trình xây dựng, phát triển hệ thống được đề xuất
Nguồn: Tác giả đề xuất
107
Hình 3.8: Quy trình xây dựng, phát triển hệ thống được đề xuất
Nguồn: Tác giả đề xuất
108
3.4 Tổng kết Chương 3
Nội dung chương gồm phân tích các yếu tố ảnh hưởng tới hình thái hệ thống và nhu cầu phân tích dự báo đối với hệ thống, xuất phát từ các khuyến nghị cho các CSGD ĐH Việt Nam (36 CSGD ĐH mẫu). Từ đó đề xuất mô hình chung cho hệ thống BI dự báo dựa trên dữ liệu người học cho CSGD ĐH Việt Nam. Đề xuất mô hình bao gồm: (1) mô hình kiến trúc hệ thống; (2) mô hình xử lý dữ liệu của hệ; (3) mô hình quy trình xây dựng, phát triển hệ thống. Qua nội dung của Chương 2 và Chương 3, NCS đã trả lời trọn vẹn câu hỏi nghiên cứu 1 và câu hỏi nghiên cứu 2 của luận án.
Công trình khoa học được công bố gắn với kết quả của Chương 3:
(2022), 'A Proposed Business Intelligence Framework for Autonomous and Non–public Higher Education Institutions in Vietnam', In Intelligent Systems and Networks: Selected Articles from ICISN 2022, Vietnam (pp. 168–177). Singapore: Springer Nature Singapore.
109
THỬ NGHIỆM CHỨC NĂNG CHÍNH CỦA HỆ THỐNG TRÍ TUỆ DOANH NGHIỆP VỚI TÍNH NĂNG DỰ BÁO DỰA TRÊN DỮ LIỆU NGƯỜI HỌC TẠI CƠ SỞ GIÁO DỤC ĐẠI HỌC VIỆT NAM VÀ MỘT SỐ KHUYẾN NGHỊ
4.1 Thiết kế thử nghiệm
4.1.1 Mục tiêu và phạm vi thử nghiệm
Mục tiêu của thử nghiệm là xây dựng hệ thống với các chức năng chính dựa trên mô hình kiến trúc và quy trình đã đề xuất của nghiên cứu với mục đích đánh giá tính khả thi của mô hình kiến trúc, tính đúng đắn của quy trình và hiệu quả tổng thể của hệ thống. Quá trình này bao gồm việc kiểm tra khả năng một CSGD ĐH với nhu cầu và nguồn lực sẵn có có thể linh hoạt lựa chọn các công nghệ và giải pháp cho từng tầng trong mô hình kiến trúc để triển khai hệ thống, đảm bảo tích hợp dữ liệu từ nhiều nguồn, truy vấn linh hoạt, báo cáo tổng hợp trên nhiều khía cạnh và thực hiện dự báo một cách hiệu quả dựa trên dữ liệu người học. Đồng thời, thử nghiệm cũng giúp xác định mô hình dự báo phù hợp và đánh giá độ chính xác của các mô hình dự báo khi áp dụng trên dữ liệu thực tế. Từ đó, đưa ra kết luận rằng hệ thống có thể đáp ứng tốt các yêu cầu phân tích và hỗ trợ ra quyết định cho quản lý các cấp của CSGD ĐH.
4.1.2 Đơn vị thử nghiệm
NCS đề xuất xây dựng thử nghiệm các chức năng chính của hệ thống BI dự báo dựa trên dữ liệu người học tại Trường Đại học G tại cơ sở Hà Nội. Hệ thống này được đặt tên là BIG, viết tắt của Business Intelligence for G.
Trường Đại học G được lựa chọn nhằm đảm bảo các yêu cầu được nêu ra trong nghiên cứu của Apraxine & Stylianou (2017) về triển khai hệ thống BI cho các CSGD ĐH, bao gồm: (1) Phù hợp với tầm nhìn và mục tiêu, góp phần hoàn thành chiến lược tổng thể của tổ chức; (2) Quy trình thực hiện dựa trên phân tích nhu cầu kinh doanh hiện tại; (3) Dữ liệu có sẵn và đảm bảo độ tin cậy (Apraxine & Stylianou, 2017). Kết quả thử nghiệm sẽ làm rõ thêm về điều kiện, yêu cầu và phương pháp thực hiện trong triển khai hệ thống thực tế.
Mặc dù Trường Đại học G là trường đại học liên kết quốc tế, triển khai chương trình học dựa trên khung chương trình của Trường Đại học G (Vương quốc Anh), với chuẩn chất lượng chương trình là chuẩn quốc tế, tuy nhiên Nhà trường vẫn tuân thủ yêu cầu chung của Bộ Giáo dục và Đào tạo Việt Nam đối với một CSGD ĐH. Cụ thể, Nhà
110
trường phải xây dựng và thực hiện hệ thống đảm bảo chất lượng giáo dục nội bộ, thường xuyên kiểm tra, đánh giá và cải tiến chất lượng đào tạo, đồng thời, phải thực hiện đánh giá theo các tiêu chuẩn kiểm định chất lượng CSGD ĐH của Bộ Giáo dục và Đào tạo15.
Hiện tại, Trường Đại học G có các cơ sở đặt tại các thành phố lớn ở Việt Nam. Những cơ sở này đang hướng tới mục tiêu phát triển nhanh. Để thực hiện chiến lược này, đặc biệt trong bối cảnh kinh tế suy thoái, các nhà quản lý phải đối mặt với nhiều khó khăn và có nhiều vấn đề cần được giải quyết dựa trên thông tin chính xác để giải quyết, hỗ trợ hoạt động cũng như chuẩn bị báo cáo phục vụ công tác kiểm định của nhà trường.
4.1.3 Quy trình phát triển hệ thống thử nghiệm
Nghiên cứu sinh đã tuân thủ quy trình phát triển hệ thống BI dự báo như đề xuất
tại Mục 3.3.2 Chương 3. Cụ thể, các giai đoạn chính gồm:
(i) Giai đoạn khảo sát sơ bộ và xác lập hệ thống với mục đích làm sáng tỏ lý do, tính khả thi và giá trị kinh doanh mà hệ thống mang lại cho Nhà trường. Qua tìm hiểu, khảo sát, NCS đưa ra những đánh giá về một số hạn chế mà từ đó Trường nên bắt đầu phát triển hệ thống BI dự báo dựa trên dữ liệu người học. Cụ thể: (1) Các hệ thống chức năng tạo ra một lượng lớn dữ liệu theo thời gian. Tuy nhiên, vì các hệ thống này hoạt động độc lập và không có sự liên kết, dẫn tới dữ liệu không tập trung, khó khai thác, khó báo cáo để hỗ trợ việc ra quyết định của các cấp quản lý; (2) Quản lý cấp cao mong muốn đo lường hiệu quả hoạt động của tổ chức để làm cơ sở cho việc hoạch định chiến lược và ra quyết định; (3) Trường không có hệ thống nào có kho lưu trữ dữ liệu tập trung đủ để khai thác. Từ đó có thể thấy, Trường có nhu cầu áp dụng hệ thống BI để: (1) trích xuất dữ liệu dễ dàng và tạo các báo cáo chi tiết, đa chiều, trực quan; (2) phát hiện các vấn đề tồn tại trong quy trình và nhận diện các cơ hội bị bỏ lỡ; (3) giúp ra quyết định dựa trên dữ liệu có sẵn; (4) tìm câu trả lời nhanh chóng cho các vấn đề liên quan đến hoạt động nghiệp vụ. Nhu cầu áp dụng hệ thống, cam kết của lãnh đạo và lượng dữ liệu phong phú cũng là tiền đề cho tính khả thi của hệ thống. Tuy nhiên, là một CSGD ĐH ngoài công lập, Trường ưu tiên chất lượng ở mức độ cạnh tranh, nhưng rất cân nhắc khi cung cấp kinh phí cần thiết để phát triển một hệ thống BI.
15 Nhà Trường thực hiện hoạt động kiểm định CSGD ĐH của Bộ Giáo dục và Đào tạo, được thực hiện bởi Trung tâm kiểm định Sài Gòn, là là 1/7 Trung tâm kiểm định được Bộ GD&ĐT cấp phép.
(ii) Giai đoạn lên kế hoạch có hai công việc chính bao gồm: (1) đánh giá hạ tầng công nghệ thông tin và (2) Lên kế hoạch thực thi cho từng giai đoạn. Đánh giá hạ tầng
111
nhằm xem xét khả năng kế thừa các yếu tố phần cứng, phần mềm của hệ thống đã có và việc lập kế hoạch thực thi. Bên cạnh đó, các yếu tố phi kỹ thuật như các hướng dẫn, quy trình, mô hình dữ liệu logic và các tiêu chuẩn khác nhau cũng được tìm hiểu để đảm bảo tính nhất quán trong việc thiết kế dữ liệu cho hệ thống sau này.
(iii) Giai đoạn phân tích nghiệp vụ bao gồm: (1) Tiến hành gửi câu hỏi phỏng vấn tới lãnh đạo, quản lý các phòng ban như Đào tạo, Tuyển sinh và Công tác sinh viên, giảng viên để thu thập thông tin về kỳ vọng của người dùng cuối đối với hệ thống. Dựa trên thông tin thu thập được, xác định các yêu cầu của người dùng cụ thể đối với hệ thống BI; (2) Phân tích các tài liệu và cấu trúc dữ liệu của các hệ thống chức năng liên quan để xác định các yêu cầu về dữ liệu của hệ thống. Từ phân tích quy trình nghiệp vụ và phân tích yêu cầu người dùng có thể gợi ý các luồng dữ liệu đầu vào và nội dung bảng thông tin tổng hợp của hệ thống; (3) Phát triển một nguyên mẫu hoạt động dựa trên yêu cầu. Kiến trúc hệ thống thử nghiệm này dựa trên mô hình kiến trúc phân tầng đã được đề xuất và được cải tiến qua các chu kỳ cho tới khi thỏa mãn yêu cầu người dùng.
Bảng 4.1: Ví dụ một số câu hỏi cần giải quyết của các bộ phận
Câu hỏi của bộ phận Bộ phận yêu cầu
Tuyển sinh
Thời điểm thích hợp nhất để bắt đầu chiến dịch tuyển sinh là thời điểm nào? Nên đến trường nào, tỉnh nào, khi nào? Làm sao để tư vấn đúng ngành để tránh bỏ học? Thời gian chăm sóc như nào là đủ (1 tháng, 6 tháng, ...?), cần bao nhiêu cuộc gọi/email, thời điểm gọi trong năm?
Đào tạo
Điểm cấp 3 nào sẽ quyết định kết quả của sinh viên trong quá trình học? Điểm của môn Academic English có thực sự cải tiến các môn sau này của sinh viên hay không? Mối liên hệ giữa hoạt động ngoại khóa với điểm số môn học? Điểm các nhóm môn học có tác động đến cơ hội việc làm khác nhau của sinh viên? Các bạn tham gia phong trào nhiều liệu cơ hội việc làm tốt hơn không?
Nguồn: Tác giả thu thập
(iv) Giai đoạn thiết kế kho dữ liệu và mô đun trích xuất, chuyển đổi và tải dữ liệu. Kho dữ liệu sẽ tập hợp dữ liệu từ các nguồn: (1) Dữ liệu từ bộ phận đào tạo trích xuất từ trang AP (Academic Portal) bao gồm dữ liệu điểm của sinh viên, GPA của giảng viên, lịch học và tình trạng điểm danh; (2) Dữ liệu từ bộ phận tuyển sinh bao gồm thông
112
tin của học sinh trước khi nhập học, học bổng, v.v.; (3) Dữ liệu từ bộ phận công tác sinh viên bao gồm thông tin sinh viên tham gia các câu lạc bộ, các sự kiện tại trường và các kỳ thực tập (On the Job Training – OJT).
(v) Giai đoạn phát triển gồm công việc cài đặt mô đun ETL, phát triển ứng dụng và xây dựng và cài đặt mô hình dự báo. Việc xây dựng các mô hình dự báo cho từng CSGD ĐH cụ thể là cần thiết, vì dữ liệu người học có thể khác nhau giữa các cơ sở. Sự khác biệt này ảnh hưởng đến việc lựa chọn thuật toán dự báo cũng như hiệu quả của mô hình. Do đó, trong quá trình xây dựng hệ thống cho một CSGD ĐH, nhà nghiên cứu và phát triển cần tìm kiếm và thử nghiệm để tạo ra mô hình dự báo phù hợp với cơ sở đó. Trong nghiên cứu này, dựa trên dữ liệu người học của Trường, NCS đã thử nghiệm xây dựng các mô hình dự báo cho một số bài toán phổ biến, ứng dụng trong quản lý đào tạo và tuyển sinh. Nội dung chi tiết được trình bày từ mục 4.2.1 đến mục 4.2.4.
(vi) Giai đoạn triển khai gồm công việc triển khai và dùng thử ứng dụng của hệ
thống lấy ý kiến đánh giá người dùng về độ chính xác, hiệu quả của hệ thống.
4.1.4 Công cụ, công nghệ, môi trường phát triển hệ thống thử nghiệm
4.1.4.1 Công cụ và công nghệ
Hệ thống thử nghiệm được phát triển để cung cấp một nền tảng BI dự báo và báo cáo trực quan, truy vấn theo ngữ cảnh bao gồm các tầng chính: (1) Mô đun ETL; (2) Tầng dữ liệu; (3) Tầng nghiệp vụ; (4) Tầng trình bày, dựa trên mô hình kiến trúc đã đề xuất ở Chương 3. Căn cứ vào mục tiêu thử nghiệm và điều kiện thử nghiệm, NCS lựa chọn các công cụ và công nghệ cho từng tầng như sau:
Tầng trình bày: Sử dụng HTML/CSS để thiết kế và hiển thị giao diện người dùng dưới dạng trang web (front–end). ReactJS, một framework JavaScript, được dùng để tạo các tương tác động và xử lý sự kiện trên trang. HTML/CSS đảm bảo giao diện người dùng có thể được trình bày và tùy chỉnh linh hoạt, kết hợp với khả năng tương tác động và quản lý tốt của Reactjs xây dựng giao diện người dùng web hiện đại và tối ưu trải nghiệm.
Tầng logic nghiệp vụ: Sử dụng Flask, một framework web nhẹ của Python quản lý ứng dụng back–end. Flask có tính linh hoạt, hiệu năng cao và khả năng dễ dàng tích hợp với các APIs cũng như thư viện Python cần dùng cho các mô hình dự báo. Tableau API được tích hợp để tạo và quản lý các báo cáo trực quan và cung cấp giao diện tương tác thân thiện với người dùng. Các thư viện Python như scikit–learn, TensorFlow và NumPy được sử dụng cho các bài toán dự báo: scikit–learn tối ưu cho các bài toán học máy như phân loại và hồi quy; TensorFlow phù hợp với các mô hình deep learning phức tạp; và NumPy hỗ trợ xử lý số liệu và tính toán ma trận hiệu quả. Để xây dựng báo cáo
113
tự phục vụ thông minh, OpenAI API được lựa chọn nhờ khả năng xử lý ngôn ngữ tự nhiên và tạo báo cáo tùy chỉnh theo ngữ cảnh, đáp ứng linh hoạt nhu cầu người dùng. Như vậy, các công nghệ được lựa chọn đảm bảo hiệu năng cao, dễ mở rộng và phù hợp cho hệ thống hiện đại.
Tầng dữ liệu: Sử dụng hệ quản trị cơ sở dữ liệu quan hệ MySQL để quản trị dữ liệu. MySQL là hệ quản trị cơ sở dữ liệu mã nguồn mở, miễn phí và có thể triển khai trên các máy chủ hoặc dịch vụ đám mây với chi phí thấp. Lựa chọn MySQL cho hệ thống thử nghiệm bởi sự phù hợp về cấu trúc dữ liệu, quy mô dữ liệu và ngân sách hạn chế giúp giảm chi phí và đơn giản hóa triển khai. Việc chuyển đổi dữ liệu từ MySQL sang các hệ thống dữ liệu lớn như Google BigQuery là khả thi trong trường hợp cần xử lý khối lượng dữ liệu lớn với nhu cầu phân tích nâng cao.
Mô đun ETL được xây dựng bằng Python để thực hiện các quy trình trích xuất, chuyển đổi và tải dữ liệu. Python cung cấp nhiều thư viện mạnh mẽ để kết nối và làm việc với đa dạng nguồn dữ liệu, giúp dễ dàng tích hợp và xử lý thông tin. Đối với cơ sở dữ liệu, các thư viện như pyodbc, sqlalchemy và pymysql hỗ trợ kết nối linh hoạt đến các hệ quản trị phổ biến như MySQL, PostgreSQL, SQL Server, Oracle và nhiều hệ thống khác. Với tập tin Excel, các thư viện như pandas, openpyxl và xlrd cho phép đọc và ghi dữ liệu một cách hiệu quả, ngay cả với các bảng tính phức tạp. Ngoài ra, Python có khả năng xử lý dữ liệu từ nhiều định dạng khác nhau, bao gồm JSON, CSV và XML đồng thời hỗ trợ chuyển đổi dữ liệu linh hoạt để đáp ứng các yêu cầu lưu trữ hoặc phân tích. Ngoài ra, các thư viện của Python còn hỗ trợ làm sạch dữ liệu (lọc dữ liệu lỗi, loại bỏ giá trị null, chuẩn hóa cột) hay tích hợp các phép biến đổi phức tạp như gộp, tách và tính toán trên tập dữ liệu, ngay cả với các tập dữ liệu lớn và phức tạp. Việc tự xây dựng mô đun ETL bằng Python giúp tránh phụ thuộc vào các công cụ trả phí cao nhưng vẫn triển khai hệ thống ETL hiệu quả, phù hợp với quy mô và ngân sách của tổ chức.
4.1.4.2 Môi trường phát triển
Môi trường phát triển hệ thống gồm tập hợp các công cụ, công nghệ, phần mềm và cơ sở hạ tầng cần thiết để xây dựng, thử nghiệm và triển khai hệ thống, đảm bảo rằng hệ thống hoạt động đúng như thiết kế. Thành phần của môi trường phát triển gồm:
-
IDE Visual Studio Code được sử dụng để lập trình phía back–end, front–end và ETL.
- Trình duyệt web Google Chrome, Mozilla Firefox, Safari dùng để kiểm tra và gỡ
lỗi giao diện người dùng.
- Máy chủ cơ sở dữ liệu với MySQL Server và MySQL Workbench dùng để quản
lý và truy vấn cơ sở dữ liệu.
114
- Máy chủ web với Flask, Python và các thư viện cần thiết.
4.1.5 Thiết kế kiến trúc hệ thống thử nghiệm
Kiến trúc thử nghiệm của hệ thống BIG, cùng các công nghệ và công cụ tương
ứng, được minh họa trong Hình 4.1.
Hình 4.1: Kiến trúc BIG
Nguồn: Tác giả thử nghiệm
Với kiến trúc trên, hoạt động của hệ thống sẽ như sau: Người dùng, là cấp quản lý hoặc giảng viên, truy cập vào trang web ở front–end. Yêu cầu từ người dùng sẽ được gửi xuống back–end để xử lý. Tùy thuộc vào từng loại yêu cầu, các xử lý tương ứng sẽ là:
- Với yêu cầu xây dựng các báo cáo trực quan, yêu cầu sẽ được gửi tới tầng Tableau API. Tầng này sẽ gửi yêu cầu dữ liệu tới kho dữ liệu, sau khi nhận dữ liệu sẽ xây dựng báo cáo dưới dạng trực quan bằng các API của Tableau và gửi lại cho tầng
115
back–end. Tầng back–end nhận dữ liệu, hình ảnh của báo cáo và gửi cho tầng front–end để hiển thị.
Hình 4.2: Trình tự xử lý yêu cầu báo cáo
Nguồn: Tác giả thử nghiệm - Với các yêu cầu dự báo thì các mô-đun Python tương ứng ở back–end sẽ được
khởi chạy.
o Nếu mô hình được xây dựng động thì sẽ lấy dữ liệu từ kho dữ liệu để huấn
luyện và dự báo rồi gửi kết quả đến tầng front-end thông qua Flask..
Hình 4.3: Trình tự xử lý yêu cầu dự báo động
Nguồn: Tác giả thử nghiệm
116
o Nếu mô hình đã được xây dựng trước thì sẽ dự báo dựa trên mô hình rồi thông
qua Flask để trả kết quả cho tầng front–end
Hình 4.4: Trình tự xử lý yêu cầu dự báo dựa trên mô hình đã huấn luyện
Nguồn: Tác giả thử nghiệm - Với yêu cầu truy vấn tạo báo cáo theo ngữ cảnh, ví dụ như sử dụng ngôn ngữ
tự nhiên, hệ thống sẽ gửi yêu cầu của người dùng kèm với cấu trúc bảng hiện
có trong CSDL thông qua API của OpenAI tới mô hình LLM. Mô hình dựa
theo yêu cầu và cấu trúc bảng sẽ sinh câu SQL để truy vấn dữ liệu rồi gửi lại
cho back–end đồng thời đoạn lệnh Javascript để vẽ biểu đồ. Back–end nhận
câu SQL sẽ truy vấn DB để lấy dữ liệu sau đó gửi dữ liệu và đoạn mã Javascript
cho front–end. Front-end chạy đoạn mã JavaScript với dữ liệu nhận được để
vẽ và hiển thị biểu đồ cho người dùng..
Hình 4.5: Trình tự xử lý yêu cầu truy vấn sử dụng ngôn ngữ tự nhiên
117
Nguồn: Tác giả thử nghiệm
Về cơ bản, BIG cung cấp giao diện cho người dùng cuối là cấp quản lý, giảng
viên, chuyên viên tại Trường Đại học G có thể xem các báo cáo trực quan và tương tác
dạng web.
Hình 4.6: Các ca sử dụng của người dùng hệ thống
Nguồn: Tác giả thử nghiệm
4.2 Kết quả thử nghiệm
4.2.1 Cài đặt ETL và Kho dữ liệu
Dữ liệu lưu trữ tại kho dữ liệu sẽ được quy tập từ các nguồn: (1) Dữ liệu từ bộ
phận đào tạo trích xuất từ trang AP (Academic Portal) bao gồm dữ liệu điểm của sinh
viên, GPA của giảng viên, lịch học và tình trạng điểm danh; (2) Dữ liệu từ bộ phận tuyển
sinh bao gồm thông tin của học sinh trước khi nhập học, học bổng, v.v. ; (3) Dữ liệu từ
bộ phận công tác sinh viên bao gồm thông tin sinh viên tham gia các câu lạc bộ, các sự
kiện tại trường và các kỳ thực tập OJT. Dữ liệu nguồn có định dạng đa dạng, bao gồm
118
dữ liệu từ phần mềm, nhập tay và bảng tính. Dữ liệu từ các nguồn trải qua quá trình trích
xuất và xử lý trước khi được tải vào kho dữ liệu. Mô-đun ETL sẽ thực hiện việc đọc,
trích xuất và làm sạch dữ liệu. Cụ thể:
(1) Dữ liệu của tuyển sinh và công tác sinh viên chủ yếu ở định dạng Excel (Hình
4.7) được chuẩn hóa như: định dạng đúng kiểu, chiều dài trường dữ liệu, xử lý cấu trúc
riêng biệt của các trường dữ liệu (khoảng trắng, nội dung gộp/tách), ánh xạ nội dung dữ
liệu đúng ý nghĩa v.v.
Hình 4.7: Nội dung một tập tin dữ liệu nguồn từ bộ phận Công tác sinh viên
Nguồn: Tác giả thử nghiệm
Hình 4.8: Mô-đun trích xuất và làm sạch dữ liệu
Nguồn: Tác giả thử nghiệm
119
(2) Dữ liệu đào tạo từ trang web AP được trích xuất qua truy vấn SQL để lược bỏ dữ liệu thừa, tập trung vào dữ liệu cần thiết, kết nối nhiều bảng và phá bỏ các mối quan hệ nhằm phù hợp với định dạng của Kho dữ liệu.
Hình 4.9: Bảng dữ liệu được trích xuất từ cơ sở dữ liệu của trang AP
Nguồn: Tác giả thử nghiệm
(3) Thống nhất dữ liệu đã được trích xuất và làm sạch từ các nguồn và tải vào
kho dữ liệu.
Danh sách bảng trong kho dữ liệu
Activities (Fullname, Rollnumber, Score, Note, Club, Event, Semester, Year)
Admission (AdmissionYear, District, Fullname, Gender, DateOfBirth, HighSchool, Math, Literature, English)
Attendance (CourseID, RollNumber, Fullname, Gender, RecordTime, Slot, Status, Comment, CourseDetail, SubjectCode, GroupName, Lecturer, SemesterName, Year)
Enrolled (Admission, Year, District, Fullname, Gender, DateOfBirth, HighSchool, Math, Literature, English, Rollnumber, Major)
GPACourses (Year, Term, SubjectCode, SubjectName, GroupName, Lecturer, NumberOfSlots, GPA)
GPAQuestions (Year, Term, Lecturer, GroupName, SubjectCode, SubjectName, QuestionID, AvgAnswer, NumberOfSlots)
120
GPALectures (Year, Term, SubjectCode, SubjectName, GroupName, Lecturer, NumberOfSlots, GPA)
OJT (Rollnumber, Fullname, Communication, InterviewCV, FirstPeriod, Company, Positive, Negative, Suggestion, Awareness, JobResult, Result, Semester, Year,
PositiveWords, NegativeWords, SuggestionWords)
Profiles (RollNumber, Major, Fullname, DateOfBirth, Gender, Address, MobilePhone, Email)
Passrate (CourseID, ClassName, SubjectName, Lecturer, SemesterName, Year, PassRate)
Results (RollNumber, Fullname, Gender, CourseID, SubjectCode, ClassName, SubjectName, Lecturer, SemesterName, AverageMark, IsPassed)
(Rollnumber, Major, DropoutTime, ReserveTime, ReserveCourses,T
Dropout akeCareContent, DropoutReason)
Jobs (Major, CurrentJob, CurrentPosition, IsRelated, CurrentSalary,
HaveJobWhileStudy, NoJobChange, FirstJobSalary)
Hình 4.10: Trích xuất, chuyển đổi và tải dữ liệu
Nguồn: Tác giả thử nghiệm
4.2.2 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu đánh giá kết quả và dữ liệu hành vi của người học
Bài toán 1: Dự báo việc trượt hay đỗ của người học tại một lần học của một môn học.
Mục tiêu của dự báo là dự đoán người học trượt hay đỗ một môn học trong giai đoạn đầu dựa trên những môn đã học. Các bước xây dựng mô hình dự báo được thực hiện theo đề xuất.
4.2.2.1 Thử nghiệm xây dựng mô hình
121
Bước 1: Lựa chọn đặc trưng dùng trong dự báo
Việc lựa chọn đặc trưng dựa trên hiểu biết về miền nghiên cứu và sự sẵn có của dữ liệu. Theo nghiên cứu của Tomasevic và cộng sự (2020) để tối đa hóa hiệu suất dự báo, kiến thức về miền cần được cung cấp như một sự hỗ trợ cho việc lựa chọn các bộ dữ liệu đầu vào hoặc các đặc trưng tốt nhất liên quan đến người học (Tomasevic & cộng sự, 2020). Kết quả của một số nghiên cứu trước có liên quan tới dự báo kết quả học tập của người học, ví dụ: nghiên cứu của Khasanah (2017) cho thấy chuyên cần và GPA của sinh viên trong học kỳ đầu tiên là hai yếu tố có ảnh hưởng mạnh mẽ nhất đến ý định bỏ học (Khasanah, 2017); nghiên cứu tổng hợp của Khan & Ghosh (2021) về dự báo kết quả người học chỉ ra rằng các yếu tố liên quan tới nền tảng (xã hội, học vấn v.v.), hành vi và kết quả đánh giá có tác động đáng kể tới kết quả học tập của người học, nhưng không có báo cáo cho thấy ảnh hưởng đáng kể của giới tính lên kết quả dự báo. Các phát hiện cho thấy hành vi của người học được đo lường trong suốt thời gian của khóa học và đánh giá kết quả nội bộ kết hợp cùng nhau có thể dự đoán kết quả học tập với độ chính xác trung bình là 88,02% (Khan & Ghosh, 2021). Với dữ liệu khả dụng của các hệ thống hiện tại là dữ liệu điểm của các môn đã được học, dữ liệu điểm danh thể hiện hành vi và dữ liệu điểm trung bình đánh giá giáo viên thể hiện thái độ của người học với giáo viên, NCS mong muốn xây dựng thử nghiệm mô hình dự báo có thể dự báo về việc đỗ/trượt của sinh viên khi học được hơn hai tuần một môn học cụ thể. Từ đó, NCS đã lựa chọn các biến đầu vào dành cho việc dự báo trượt hay đỗ của một người học đối với việc học môn “Advance Programming” mã môn “1651” như sau:
- Avg1633: Điểm trung bình môn các lần của môn Website Design, biến độc lập,
biến định lượng
- Avg1649: Điểm trung bình môn các lần của môn Data Structure and Algorithm, biến
độc lập, biến định lượng
- Avg1644: Điểm trung bình môn các lần của môn Cloud Computing, biến độc lập,
biến định lượng.
- AbsPercent: Phần trăm nghỉ học của người học trên tổng số buổi học của môn 1651 - AvgAnswer: Trung bình đánh giá giảng viên dạy môn 1651 trong lần học hiện tại. - TimesToLearn: Tổng số lần học môn học của người học (tính cả lần học hiện tại). - Biến được dự báo (IsPass) là kết quả đỗ/trượt môn 1651 trong một lần cụ thể , là
một biến nhị phân.
Dự báo đỗ/trượt của môn 1651 dựa trên điểm trung bình của một số môn học mà người học đã học trước đó trong lộ trình. Việc lựa chọn các môn có thể dựa trên kinh nghiệm. Các môn này, theo sắp xếp chương trình đào tạo, có thể cung cấp kiến thức cần
122
thiết cho môn 1651. Do vậy, các biến này được kỳ vọng là sẽ ảnh hưởng tới kết quả đỗ/trượt cho môn học cần dự báo. Các biến còn lại thể hiện hành vi, thái độ và năng lực học tập của người học.
Bước 2: Lựa chọn kỹ thuật dự báo
Với mô hình dự báo việc đỗ/trượt một người học đối với một lần học của một môn thì biến được dự báo là biến nhị phân, nhận hai giá trị là đỗ (1) hoặc trượt (0). Khi biến mục tiêu (hoặc biến phụ thuộc) là nhị phân, tức có hai trạng thái thì mô hình hồi quy logistic nhị phân là thích hợp. Hồi quy logistic nhị phân (Binary Logistic Regression – BLR) sử dụng hàm logistic, hay hàm logit làm phương trình giữa và .
(cid:23)(cid:24) 1−(cid:23)(cid:24)(cid:26) = (cid:27)0 + (cid:27)1(cid:19)1 + (cid:27)2(cid:19)2 + . . . + (cid:27) (cid:19)
(cid:11) (cid:19) (4.1)
ln (cid:22) Trong đó:
- : xác suất xảy ra sự kiện ( ),
(cid:23)(cid:24) (cid:11) = 1 - : xác suất không xảy ra sự kiện ( ),
1 − (cid:23)(cid:12) (cid:11) = 0 : hằng số hồi quy và
(cid:27)0 - - : hệ số hồi quy
(cid:27)1, . . . , (cid:27) Hàm sigmoid sẽ biến đổi đầu ra của hàm logit thành một xác xuất của
nằm ) nếu xác suất lớn hơn 0.5 và (cid:11)
(4.2)
trong khoảng từ 0 đến 1. Như vậy, khả năng đỗ ( ngược lại, khả năng không xảy ra sự kiện ( ) nếu xác suất nhỏ hơn 0.5. (cid:11) = 1
(cid:27)0 + (cid:27)1(cid:19)1 + (cid:27)2(cid:19)2 + ...+ (cid:27) (cid:19)
1+ %
(cid:11) = 0 (cid:27)0 + (cid:27)1(cid:19)1 + (cid:27)2(cid:19)2 + ...+ (cid:27) (cid:19) % (cid:23)(cid:24) = (cid:23)((cid:11) = 1) = " ((cid:11) = 1|$) =
Mô hình không chỉ dự báo nhãn mà còn cho phép dự báo xác suất, giúp hiểu rõ hơn về mức độ chắc chắn đối với mỗi dự đoán. Khi mô hình được huấn luyện đúng cách và dữ liệu phù hợp, hồi quy binary logistic có thể cung cấp dự báo chính xác và đáng tin cậy. Thêm vào đó phương pháp này không tốn quá nhiều tài nguyên tính toán. Đó là lý do NCS đã sử dụng phương pháp dự báo theo mô hình hồi quy binary logistic để chạy thử nghiệm.
Việc chạy thử nghiệm được thực hiện bằng phần mềm SPSS với mục tiêu tìm được các yếu tố tác động chính tới hiệu suất học tập của người học và kiểm định được ý nghĩa thống kê của mô hình.
Bước 3: Xây dựng mô hình, kiểm định và đánh giá mô hình, loại dần các đặc trưng không ảnh hưởng đến kết quả dự báo.
Đối với bài toán dự báo, không hẳn càng có nhiều đặc trưng thì kết quả dự báo càng chính xác. Việc thực hiện phân tích trên một tập dữ liệu quá lớn, bao gồm nhiều đặc trưng không liên quan có thể làm giảm hiệu suất của thuật toán hoặc mô hình, đồng
123
thời làm giảm độ chính xác của dự báo. Việc sử dụng đặc trưng không liên quan hay không phù hợp có thể có ảnh hưởng tiêu cực đến các phân tích được thực hiện (Tomasevic & cộng sự, 2020). Có nhiều cách thức để xác định tập các đặc trưng hay biến đầu vào dành cho dự báo. Theo cách làm của Tanner và Toivonen (2010), các tác giả đã thử thêm hoặc loại trừ các đặc trưng. Sau đó, xác định mức độ ảnh hưởng của từng đặc trưng với các dự báo và từ đó sử dụng trọng số đặc trưng tương ứng (Tanner & Toivonen, 2010). Cách làm tương tự cũng được thực hiện bởi (Adnan & cộng sự, 2021; Hashim & cộng sự, 2020). Do vậy, NCS đã thực hiện việc xây dựng mô hình qua nhiều lần chạy. Qua mỗi một lần chạy, loại dần các biến đầu vào hay các đặc trưng không có tác động mang tính thống kê lên xác xuất đỗ môn 1651. - Số lượng quan sát dùng xây dựng mô hình dự báo là 502. - Kết quả chạy tham khảo Phụ lục 7. - Kiểm định mô hình bằng các phương pháp kiểm định, phân tích giá trị p–value16 để xác định mức độ tin cậy của kết quả kiểm định. Chọn độ tin cậy là 95%, mức
ý nghĩa Bốn loại kiểm định được xem xét là (1) Kiểm định Chi bình
& = 0,05.
phương (Chi–square) giúp xác định xem mô hình có tốt hơn mô hình null, mô hình chỉ chứa hệ số chặn và không có biến độc lập và các biến độc lập có đóng góp ý nghĩa vào mô hình hay không; (2) Đánh giá mức độ phù hợp của mô hình tổng thể với dữ liệu quan sát dựa trên so sánh giá trị –2LL (–2 Log Likelihood) của mô hình đầy đủ và mô hình khởi tạo; (3) Kiểm định Hosmer và Lemeshow để đánh giá mức độ phù hợp (goodness–of–fit) của mô hình, kiểm tra xem mô hình hồi quy logistic có dự đoán chính xác các xác suất quan sát hay không và (4) Kiểm định Wald để đánh giá ý nghĩa của các hệ số hồi quy trong mô hình, kiểm tra xem biến độc lập có ảnh hưởng tới biến phụ thuộc hay không.
- Đánh giá mô hình dựa trên bảng phân loại, xác định tỷ lệ trung bình dự báo đúng.
Bảng 4.2: Tổng hợp kết quả hai lần chạy xây dựng mô hình dự báo đỗ/ trượt trong lần học môn 1651
Kiểm định Đánh giá
Trong bảng phân loại ta thấy các đối tượng Kiểm định Chi bình phương có p–value (.Sig) < "Việc bổ sung biến 0,05 => Bác bỏ giả thiết Lần chạy 1. Đưa tất cả
16 Trong bối cảnh các kiểm định, p–value là xác suất để quan sát được dữ liệu hoặc một điều gì đó cực đoan hơn nếu giả thuyết
()
(Null Hypothesis) là đúng.
(0
124
Kiểm định Đánh giá
Lần chạy các biến vào mô hình
độc lập vào mô hình không làm gia tăng khả năng tiên đoán", như vậy mô hình với biến độc lập đưa vào là tốt hơn khi ước lượng tiên đoán tới việc trượt hay đỗ của một người học đối với môn 1651. So sánh –2LL của mô hình cuối cùng (514,212) nhỏ hơn với –2LL của mô hình khởi tạo (695,920). R2 ảo (Cox & Snell R Square = 0,334, Nagelkere R Square = 0,405) do vậy mô hình cuối là chấp nhận được. Kiểm định Hosmer và Lemeshow có .Sig = 0,716
"Mô hình > 0.05 do đó không bác bỏ giả thuyết
()
theo quan sát thực tế và dự đoán. Trong 251 trường hợp quan sát bị trượt có 175 trường hợp hợp dự báo trượt. Tỷ lệ dự báo đúng là 69,7%. Trong 251 trường hợp quan sát đỗ thì có 196 trường hợp dự báo đỗ. Tỷ lệ dự báo đúng là 78,1%. Tỷ lệ trung bình dự đúng là báo = (67,7+78,1)/2 73,9%.
có mức độ phù hợp tốt." Đối với các biến trong phương trình hồi quy, có thể thấy cả ba biến Avg1649, Avg1644, Avg1633 và biến absPercent đều có .Sig của kiểm định Wald < 0,05 do đó có ảnh hưởng tới khả năng đỗ môn 1651. Hệ số hồi quy B chưa chuẩn hoá của ba biến độc lập Avg1649, Avg1644, Avg1633 đều dương, do đó ba biến này tác động thuận lên biến
phụ thuộc. Hệ số hồi quy chưa chuẩn hoá của
*
biến độc lập absPercent âm do đó biến này tác động ngược lên biến phụ thuộc. Hai biến còn lại có .Sig > 0,05 do đó việc đánh giá điểm trung bình môn và việc số lần học môn 1651 không có tác động mang tính thống kê lên xác suất đỗ môn 1651.
Kiểm định Chi bình phương có .Sig <0,05 do đó bác
bỏ giả thiết " Việc bổ sung biến độc lập vào mô
()
hình không làm gia tăng khả năng tiên đoán –2LL ở mô hình cuối cùng là 516,259 nhỏ hơn với –2LL của mô hình khởi tạo = 695,920. R2 ảo (Cox & Snell R Square = 0,301, Nagelkere R Square =0,401) do vậy mô hình hồi quy là chấp nhận được.
2 Loại bỏ các biến có .Sig >0.05 của kiểm định Wald Trong 251 trường hợp quan sát bị trượt có 175 trường hợp hợp dự báo trượt. Tỷ lệ dự báo đúng là 69.7%. Trong 251 trường hợp quan sát đỗ thì có 194 trường hợp dự báo đỗ. Tỷ lệ dự báo đúng là
125
Kiểm định Đánh giá Lần chạy
77,3 %. Tỷ lệ trung bình dự báo đúng là (67,7+77,3)/2 = 73,5%.
Kiểm định Hosmer and Lemeshow có .Sig = 0,618 >0,05 do đó chấp nhận mô hình. Đối với các biến trong phương trình hồi quy, có thể thấy cả ba biến Avg1649, Avg1644, Avg1633 và biến absPercent đều có .Sig của kiểm định Wald < 0,05 do đó có ảnh hưởng tới khả năng đỗ lần học môn 1651.
Nguồn: Tác giả thử nghiệm
Phương trình hồi quy logistic nhị phân thu được:
(cid:26) = −2,333 + 0,174 ∗ Avg1633 + 0,269 ∗ Avg1644 + 0,154 ∗ Avg1649
ln (cid:22) (cid:23) 1 − (cid:23)
− 4,958 ∗ absPercent Hệ số hồi quy chưa chuẩn hoá của ba biến độc lập Avg1649, Avg1644,
Avg1633 đều dương, do đó ba biến này tác động thuận lên biến phụ thuộc. Hệ số hồi *
quy chưa chuẩn hoá của biến độc lập absPercent âm do đó biến này tác động ngược
lên biến phụ thuộc. *
>?,@@@ A B,CDE∗FGHCI@@ A B,?IJ∗FGHCIEEA B,CKE∗FGHCIEJ>E,JKL∗MNOPQRSQTU
=
>?,@@@ A B,CDE∗FGHCI@@ A B,?IJ∗FGHCIEEA B,CKE∗FGHCIEJ>E,JKL∗MNOPQRSQTU
Phương trình xác suất theo công thức (4.2):
(cid:7) V= 4.2.2.2 Kết luận từ thử nghiệm mô hình
(cid:23) =
Sau khi thử nghiệm xây dựng mô hình cho bài toán 1, NCS rút ra một số kết luận
như sau:
- Có một số môn học trước có tác động có ý nghĩa thống kê tới việc đỗ/trượt một
môn học sau.
- Với dữ liệu hiện tại, điểm trung bình đánh giá giảng viên (GPA giảng viên) trong vòng 2 tuần đầu, đối với mỗi môn học không có ý nghĩa dự báo đối với việc sinh viên đỗ/trượt môn học đó. Điều này gợi ý thay đổi mốc thời gian đánh giá môn học.
- Trong từng lần học cụ thể, mức độ chuyên cần sẽ ảnh hưởng tới khả năng đỗ/trượt
của người học trong môn học đó.
- Mô hình LR mặc dù cho độ chính xác dự báo trên 70% (ở mức chấp nhận được), nhưng không quá cao như kỳ vọng. Tuy nhiên, sử dụng LR cũng như các phương pháp hồi quy nói chung, cho phép giải thích về tác động của các biến/đặc trưng
126
trong mô hình dự báo. Đây là một ưu điểm, bởi theo Xiao & cộng sự (2020) thì khả năng diễn giải yếu của quá trình và kết quả dự báo sẽ khiến các nhà giáo dục gặp khó khăn trong việc xác định các yếu tố có tác động đáng kể đến kết quả học tập của người học, đồng thời làm giảm độ tin cậy của kết quả dự báo (Xiao & cộng sự, 2022).
- Mặc dù, trong quá trình xây dựng mô hình dự báo, dữ liệu về thái độ và hành vi của người học trong quá trình học một môn học có thể được sử dụng và kiểm chứng mức độ ảnh hưởng trong quá trình xây dựng mô hình. Tuy nhiên, khi đưa vào hệ thống BI với đặc điểm dữ liệu thường được cập nhật định kỳ (vào cuối mỗi kỳ, cuối mỗi năm), dữ liệu này thường không có sẵn hoặc đã mất hiệu lực tại thời điểm cập nhật. Bên cạnh đó, theo Arizmendi & cộng sự (2023), gần 2/3 mô hình hoạt động tốt thường bao gồm dữ liệu nhân khẩu học hoặc dữ liệu tĩnh thay vì dựa vào dữ liệu hành vi và việc sử dụng dữ liệu hành vi đặt ra một số lo ngại về mặt đạo đức (Arizmendi & cộng sự, 2023).
4.2.3 Kết quả xây dựng mô hình dự báo động dựa trên dữ liệu đánh giá kết quả của người học
Bài toán 2: Dự báo việc trượt hay đỗ của một người học đối với một môn học.
Từ các kết luận của mô hình thử nghiệm trong 4.3.1, NCS dự kiến xây dựng mô hình dự báo đối với việc đỗ/trượt của người học đối với một môn học thỏa mãn tiêu chí: (1) dựa trên dữ liệu có sẵn và có hiệu lực của hệ thống BI; (2) có thể lựa chọn đặc trưng/biến đầu vào linh hoạt trong quá trình dự báo – gọi tắt là mô hình dự báo động (ví dụ như chọn linh hoạt điểm trung bình các môn học trước đó để thực hiện dự báo cho kết quả của môn học sau sao cho phù hợp với sự thay đổi của chương trình học; (3) thuật toán được lựa chọn phù hợp và mang lại kết quả tốt cho dự báo; và (4) có thể dự báo trước khi sinh viên bắt đầu học phần. Dự báo sớm trước khi học là một bài toán ít được nghiên cứu trong dự báo kết quả học tập của người học. Chỉ có khoảng 33% trong số các nghiên cứu được tổng hợp bởi Hashim & cộng sự (2020) có khả năng dự đoán kết quả học tập của sinh viên trước khi khóa học bắt đầu (Hashim & cộng sự, 2020). Các bước xây dựng mô hình dự báo được thực hiện theo trình tự trong Mục 4.2.3.1.
4.2.3.1 Thử nghiệm xây dựng mô hình dự báo động
Bước 1: Lựa chọn đặc trưng dùng trong dự báo.
Theo nghiên cứu trước, dữ liệu như điểm trong bài tập, bài kiểm tra trên lớp, điểm danh, hành vi học tập, v.v. trong quá trình học môn học mặc dù tỏ ra rất hữu ích trong quá trình dự báo nhưng lại khó có thể giúp dự báo sớm trước khi bắt đầu khóa học
127
(Khan & Ghosh, 2021). Để thỏa mãn yêu cầu dựa trên dữ liệu có sẵn và có hiệu lực của hệ thống BI, NCS đưa vào mô hình dự báo dữ liệu điểm của các môn đã được học, đây là dữ liệu luôn sẵn có của các hệ thống hiện tại.
Cụ thể, để dự báo việc trượt hay đỗ của một người học đối với môn “Advance
Programming” mã môn “1651”, các biến đầu vào dùng để dự báo bao gồm:
- Avg1618: Điểm trung bình môn các lần của môn Programming, biến độc lập,
biến định lượng
- Avg1622: Điểm trung bình môn các lần của môn Database Design and
Development, biến độc lập, biến định lượng
- Avg1633: Điểm trung bình môn các lần của môn Website Design, biến độc lập,
biến định lượng
- Avg1649: Điểm trung bình môn các lần của môn Data Structure and Algorithm,
biến độc lập, biến định lượng
- Avg1644: Điểm trung bình môn các lần của môn Cloud Computing, biến độc lập,
biến định lượng
- Biến được dự báo (IsPass) là kết quả đỗ/trượt môn 1651 trong một lần cụ thể, đây
là biến nhị phân.
Bước 2: Sử dụng LR để kiểm tra các đặc trưng/biến đầu vào được đưa vào mô hình.
Mục tiêu sử dụng LR chạy trên SPSS để kiểm tra xem các biến đầu vào có phù hợp không, và có tồn tại tác động chéo giữa chúng hay không. Giải thích cho các tác động của các biến đầu vào đối với biến được dự báo.
Tương tự như trên, NCS cũng chạy SPSS qua các bước, để chọn các đặc trưng/biến đầu vào phù hợp và kiểm tra tác động chéo của các biến đầu vào. Mô hình LR cho phép kiểm soát các biến gây nhiễu có thể ảnh hưởng đến mối quan hệ giữa biến độc lập và biến phụ thuộc bằng cách thêm biến gây nhiễu vào mô hình như một biến giải thích. Khi thêm như vậy, mô hình ước lượng ảnh hưởng của mỗi biến độc lập trên biến phụ thuộc, cùng với việc kiểm soát sự biến thiên do biến gây nhiễu. Kết quả chạy tham khảo phụ lục 7 của báo cáo.
Bảng 4.3: Tổng hợp kết quả ba lần chạy kiểm tra đặc trưng đầu vào
Lần chạy Kiểm định Đánh giá
Kiểm định Chi bình phương: .Sig < 0,05,
bác bỏ giả thiết .
() 1. Đưa toàn bộ các biến vào cùng lúc Trong 129 trường hợp quan sát bị trượt có 79 trường hợp hợp dự báo trượt. Tỷ lệ dự báo đúng (–2LL) mô hình cuối cùng < (–2LL = ) mô hình khởi tạo. R2 ảo (Cox & Snell R
128
Lần chạy Kiểm định Đánh giá
là 61,2 %. Trong 366 trường hợp quan sát đỗ thì có 345 trường hợp dự báo đỗ. Tỷ lệ dự báo đúng là 94,3 %. Tỷ lệ trung bình dự báo đúng là (61,2 + 94,3)/2 = 85,7 %
Square = 0.335, Nagelkere R Square =0.491), mô hình chấp nhận được Kiểm định Hosmer and Lemeshow: .Sig = 0,05, chấp nhận mô hình. Hai biến Avg1688 và Avg1622 có .Sig lần lượt = 0,198 và = 0,289 > 0,05, không có ảnh hưởng. Ba biến còn lại có .Sig <0,05 có ảnh hưởng. Hệ số hồi quy B chưa chuẩn hoá của ba biến độc lập này đều dương, do đó ba biến này tác động thuận lên biến phụ thuộc.
Kiểm định Chi bình phương ta có .Sig <0,05 do đó bác bỏ giả thiết .
()
Trong 129 trường hợp quan sát bị trượt có 78 trường hợp hợp dự báo trượt. Tỷ lệ dự báo đúng là 60,5 %. Trong 366 trường hợp quan sát đỗ thì có 346 trường hợp dự báo đỗ. Tỷ lệ dự báo đúng là 94,5 %. Tỷ lệ trung bình dự báo đúng là (60,5 + 94,5)/2 = 85,7%. 2. Chạy lại sau khi loại bỏ 2 biến có .Sig >0.05 của kiểm định Wald. Kiểm tra tác động chéo giữa các biến còn lại.
(–2LL) mô hình cuối < (–2LL) của mô hình khởi tạo. R2 ảo (Cox & Snell R Square = 0,334, Nagelkere R Square =0,489), mô hình hồi quy là chấp nhận được. Kiểm định Hosmer and Lemeshow có .Sig = 0,051 > 0,05, chấp nhận mô hình. Khi đưa các biến thể hiện tương tác chéo vào mô hình hồi quy, có thể thấy 3 biến tương tác .Sig lần lượt > 0,05 do đó không có yếu tố tương tác giữa các biến độc lập. Mặt khác, khi đưa các biến này vào mô hình làm thay đổi ý nghĩa thống kê của biến Avg1649 (.Sig >0,05).
Kiểm định Chi bình phương ta có .Sig
<0,05 do đó bác bỏ giả thiết " Việc bổ
()
3. Loại bỏ các biến tương tác
Trong 129 trường hợp quan sát bị trượt có 80 trường hợp hợp dự báo trượt. Tỷ lệ dự báo đúng là 62 %. Trong 366 trường hợp quan sát đỗ thì sung biến độc lập vào mô hình không làm gia tăng khả năng tiên đoán", như vậy mô hình với biến độc lập đưa vào là tốt hơn khi ước lượng tiên đoán tới việc trượt hay
129
Lần chạy Kiểm định Đánh giá
có 346 trường hợp dự báo đỗ. Tỷ lệ dự báo đúng là 94,5 %. Tỷ lệ trung bình dự báo đúng là (61,2 + 94,3)/2 = 86,1 %. Tăng hơn so với hai mô hình lần chạy trước.
đỗ của một người học đối với môn “Advance Programming”. – 2 Log likelihood (–2LL) ở mô hình cuối cùng 369,469 nhỏ hơn với –2LL của mô hình khởi tạo (Block 0). R2 ảo (Cox & Snell R Square = 0,330, Nagelkere R Square =0,484) do vậy mô hình hồi quy là chấp nhận được. Kiểm định Hosmer and Lemeshow hay kiểm định goodness–of–fit (GOF) có .Sig = 0,162 >0,05 do chấp nhận mô hình. Đối với các biến trong phương trình hồi quy, có thể thấy cả ba biến Avg1649, Avg1644, Avg1633 đều có .Sig < 0,05 do đó có ảnh hưởng tới khả năng đỗ môn 1651.
Nguồn: Tác giả thử nghiệm
Phương trình hồi quy logistic nhị phân thu được:
(cid:26) = −3,016 + 0,268 ∗ Avg1649 + 0,311 ∗ Avg1644 + 0,266 ∗ Avg1633 chưa chuẩn hoá của ba biến độc lập này đều dương, do đó ba
ln (cid:22) (cid:23) 1 − (cid:23) Hệ số hồi quy
*
biến này tác động thuận lên biến phụ thuộc. OR (Avg1649) = 1,331 đồng nghĩa với việc khi tăng điểm của môn 1649 lên một đơn vị thì xác suất đỗ môn 1651 tăng 1,331 lần. OR (Avg 1644) = 1,345 đồng nghĩa với việc khi tăng điểm của môn 1644 lên một đơn vị thì xác suất đỗ môn 1651 tăng 1.345 lần. OR (Avg 1663) = 1,305 đồng nghĩa với việc khi tăng điểm của môn 1663 lên một đơn vị thì xác suất đỗ môn 1651 tăng 1,304 lần.
WX,)(cid:7)Y V ),(cid:16)YZ∗[\](cid:7)Y^_ V ),X(cid:7)(cid:7)∗[\](cid:7)Y^^V ),(cid:16)YY∗[\](cid:7)YXX
WX,)(cid:7)Y V ),(cid:16)YZ∗[\](cid:7)Y^_ V ),X(cid:7)(cid:7)∗[\](cid:7)Y^^V ),(cid:16)YY∗[\](cid:7)YXX
Phương trình xác suất theo công thức (4.2):
(cid:23) = % 1 + % Kết luận từ việc sử dụng LR để lựa chọn đặc trưng cho mô hình
Sau khi sử dụng mô hình LR để lựa chọn biến đầu vào/đặc trưng sử dụng trong
dự báo, NCS nhận thấy:
130
- Mỗi môn học có một ảnh hưởng riêng biệt và độc lập đối với kết quả đỗ/trượt
của môn học cụ thể.
- Mức độ ảnh hưởng sẽ khác nhau và việc thêm vào hoặc loại bỏ điểm trung bình
một số môn học có thể ảnh hưởng tới độ chính xác của mô hình.
- Dự báo việc đỗ/trượt một môn học từ điểm trung bình của các môn học khác cho
độ chính xác tổng thể cao, vượt quá 80%
Bước 3: Huấn luyện mô hình, lựa chọn thuật toán dự báo phù hợp
Như vậy, dự báo việc trượt hay đỗ một môn học theo các môn học khác là khả thi và có thể áp dụng nhiều thuật toán phân loại khác nhau trong học máy. Để lựa chọn thuật toán phù hợp cho tập dữ liệu, NCS cài đặt 5 thuật toán: LR, GNB, KNN, SVR, RF và cho chạy các thuật toán này trên cùng một bộ dữ liệu. Đây là các thuật toán phân loại phổ biến được sử dụng trong dự báo. Đối với các đặc trưng dùng để dự báo tương tự nhau, đều là giá trị định lượng, việc lựa chọn các thuật toán này có độ chính xác tương đối cao và cho tốc độ xây dựng mô hình nhanh chóng. Để lựa chọn mô hình, NCS so sánh các mô hình dựa trên các tham số trong ma trận nhầm lẫn và chỉ số hiệu suất phù hợp của mô hình.
Thuật toán GNB
Thuật toán GNB (Gaussian Naive Bayes) là một thuật toán học máy có giám sát dựa trên Định lý Bayes, được sử dụng chủ yếu cho bài toán phân loại. 'Naive' hay 'ngây thơ' trong tên của thuật toán ám chỉ giả định về sự độc lập của các đặc trưng. Trong phiên bản Gaussian của Naive Bayes, giả định rằng các đặc trưng tuân theo phân phối chuẩn Gaussian. Mỗi đặc trưng có một giá trị trung bình (mean) và độ lệch chuẩn (standard deviation) riêng. Với giả thiết các đặc trưng là các điểm trung bình môn học trước đó là tương đối độc lập và điểm có phân phối gần chuẩn, việc áp dụng thuật toán GNB là phù hợp cho mô hình dự báo. Kết quả đỗ/trượt của môn học cần dự báo được gán nhãn lần lượt là (1) và (0).
và độ lệch chuẩn Với GNB, với mỗi lớp đỗ/trượt các tham số như trung bình
của điểm trung bình mỗi môn học được thống kê từ dữ liệu. Từ đó, tính xác suất `a
cho mỗi lớp theo công thức: điều kiện với mỗi đặc trưng "a (cid:19)(cid:24)
(cid:7)
? (jk W lg)
? (cid:16)fg
(cid:19)(cid:24) (4.3)
? exp (−
d(cid:16)efg
b((cid:19)(cid:12)|c) = )
Xác suất điều kiện của đặc trưng X cho trước lớp C:
(cid:8)
(4.4)
b($|c) = b((cid:19)(cid:7)|c) ∙ b((cid:19)(cid:16)|c) ∙. . . b((cid:19)(cid:8)|c) = ∏(cid:12)o(cid:7) b((cid:19)(cid:12)|c)
131
Xác suất P(C|X) cho mỗi lớp C (đỗ/trượt) sẽ là:
p(q|r)∙p(r)
(cid:8)
p(q)
(4.5)
b(c|$) = ∝ b(c) ∙ ∏(cid:12)o(cid:7) b((cid:19)(cid:12)|c) Trong đó:
là xác suất điều kiện của lớp C (đỗ/trượt) cho trước véc tơ đặc trưng X -
(điểm trung bình các môn học), b(c|$)
- là xác suất điều kiện của đặc trưng X cho trước lớp C,
b($|c) - là xác xuất tiên nghiệm của lớp C và
b(c) - là xác xuất tiên nghiệm của đặc trưng X
b($) Sau khi tính xác suất của các lớp, lớp được chọn sẽ là lớp có xác suất lớn nhất
(4.6)
c(cid:23)t%u = vtwxv(cid:19)cb(c|$) Thuật toán KNN
KNN hoạt động bằng cách xác định k láng giềng gần nhất của một điểm dữ liệu
nhất định trong không gian đặc trưng. Tập dữ liệu gồm điểm trung bình các môn học
trước và kết quả đỗ/trượt của môn học mục tiêu. Mỗi điểm dữ liệu là một vector n chiều,
trong đó mỗi chiều là điểm trung bình của môn học trước. Thuật toán sử dụng khoảng
(4.6)
(cid:16)
(cid:8) yo(cid:7)
cách Euclid từ điểm dữ liệu cần dự báo tới tất cả các điểm dữ liệu trong tập huấn luyện.
u((cid:19), (cid:19)(cid:12)) = d∑ ((cid:19)y − (cid:19)(cid:12),y) Trong đó:
- x: là điểm dữ liệu cần dự báo,
: là điểm dữ liệu thứ i trong tập huấn luyện và -
(cid:19)(cid:12) - : lần lượt là giá trị của đặc trưng thứ j trong điểm dữ liệu x và
(cid:19)(cid:12) (cid:19)y, (cid:19)(cid:12),y Sau khi xác định được k điểm dữ liệu trong tập dữ liệu có khoảng cách gần nhất
đến điểm cần dự báo, thuật toán đếm số phiếu của các lớp (đỗ/trượt) trong k điểm gần
nhất. Lớp có nhiều phiếu nhất sẽ là kết quả dự báo. Giá trị k tối ưu sẽ được xác định
trong quá trình huấn luyện dữ liệu.
Thuật toán SVR
Thuật toán SVR (Support Vector Regression) là một biến thể của SVM (Support
Vector Machine) dùng cho các bài toán hồi quy. Khác với SVM truyền thống được sử
132
dụng cho phân loại, SVR có thể được sử dụng để dự đoán kết quả liên tục. Sử dụng SVR
để dự báo điểm số của một môn học dựa trên điểm trung bình của các môn học khác,
sau đó so sánh với ngưỡng điểm để dự báo trượt hay đỗ.
Sử dụng tập huấn luyện để huấn luyện mô hình SVR nhằm tìm một siêu phẳng
(hyperplane) trong không gian n–chiều giúp hồi quy các điểm dữ liệu sao cho sai số nằm
trong khoảng cho phép. Sử dụng mô hình đã huấn luyện để dự báo điểm số của môn học
mục tiêu trên tập kiểm tra hoặc dữ liệu mới, sau đó so sánh điểm số dự báo với ngưỡng
điểm để quyết định trượt hay đỗ.
Ý tưởng chính của SVR là tìm một hàm hồi quy tuyến tính hoặc phi tuyến
sao cho dự báo nằm trong một dải có độ rộng xung quanh giá trị mục tiêu thực tế . z((cid:19))
Hàm hồi quy có dạng: | {
(4.7)
z((cid:19)) = } ∙ (cid:19) + (cid:27) Trong đó:
là vector đặc trưng, -
(cid:19) - là trọng số và
} - là hằng số
(cid:27) Để đảm bảo hồi quy phẳng nhất có thể hay giá trị không quá lớn dẫn đến mô
hình quá khớp (overfitting) và giảm thiểu các sai số vượt quá khoảng sai số , thì hàm }
mục tiêu của SVR là tối thiểu hóa: {
(4.8)
(cid:16) (cid:7) (cid:16) „|}|„
∗ (cid:8) + c ∑ (…(cid:12) + …(cid:12) (cid:12)o(cid:7)
ƒ
∗ min€,(cid:129),‚,‚k
(4.9)
‡
) † với các ràng buộc
|(cid:24) − (}1(cid:19)1(cid:24) + }2(cid:19)2(cid:24) + . . . + }x(cid:19)x(cid:24) + (cid:27)) ≤ { + …(cid:24) ∗ (}1(cid:19)1(cid:24) + }2(cid:19)2(cid:24) + . . . + }x(cid:19)x(cid:24) + (cid:27)) − |(cid:24) ≤ { + …(cid:24) ∗ …(cid:24), …(cid:24) ≥ 0 Trong đó:
: là vectơ trọng số, -
} - : là độ lệch, và xác định hyperlane,
(cid:27) } (cid:27) - : là tham số điều chỉnh, xác định mức độ phạt cho các điểm nằm ngoài khoảng
sai số và c
133
- và là các biến chùng cho phép vi phạm lề , xử lý các điểm dữ liệu ngoài
∗ khoảng sai số. …
{ …
Dự báo điểm số của môn học mục tiêu dựa trên mô hình SVR đã huấn luyện:
(4.10)
|Š = } ∙ (cid:19) + (cid:27) Trong đó:
- là điểm số dự báo và
- |‹ là vector đặc trưng của dữ liệu mới
(cid:19) So sánh điểm số dự báo (mức điểm qua môn)
(4.11)
với ngưỡng điểm |Š Œ
(cid:141)ế(cid:143) (cid:144)‘ả = “ Đỗ ế‘ | Š ≥ Œ –tượ(cid:143) ế‘ | Š ≤ Œ Thuật toán rừng ngẫu nhiên
Thuật toán rừng ngẫu nhiên RF là một phương pháp học máy mạnh và phổ biến, dựa trên việc kết hợp nhiều cây quyết định DT để cải thiện độ chính xác và khả năng tổng quát hóa. Với tập dữ liệu gồm điểm trung bình của các môn học trước và kết quả
đỗ/trượt của môn học mục tiêu. Khi huấn luyện mô hình, thuật toán sẽ khởi tạo cây
quyết định. Với mỗi cây, lấy mẫu ngẫu nhiên với thay thế từ tập huấn luyện (kỹ thuật (cid:1)
bootstrap sampling). Tại mỗi nút của cây, chọn ngẫu nhiên một tập con các đặc trưng
từ đặc trưng có sẵn từ dữ liệu ban đầu ( để tìm ra đặc trưng tốt nhất để phân x
x < )
(4.12)
(cid:16)
r (cid:12)o (cid:7)
chia. Các phân chia này có thể dựa trên tiêu chí như độ lợi thông tin (information gain) hoặc độ giảm Gini (Gini impurity reduction). Gini impurity là một thước đo mức độ hỗn hợp của các lớp trong một tập dữ liệu, cho biết xác suất mà một mẫu được chọn ngẫu nhiên sẽ bị phân loại sai nếu nó được gán nhãn dựa trên phân phối nhãn hiện tại trong tập dữ liệu.
š(cid:24) (cid:24) (›) = 1 − ∑ ((cid:23)(cid:12)) Trong đó:
- : là tập dữ liệu tại một nút,
› - : là số lớp và
c : là tỷ lệ của lớp trong tập dữ liệu -
› (cid:24)
(cid:23)(cid:12) Độ giảm Gini là mức độ giảm trong Gini impurity sau khi dữ liệu được chia dựa trên một đặc trưng cụ thể. Một đặc trưng tốt dùng để phân chia dữ liệu là đặc trưng giúp giảm Gini impurity nhiều nhất.
134
|(cid:157)ž|
Ÿ o(cid:7)
|(cid:157)|
(4.13)
∆š(cid:24) (cid:24) = š(cid:24) (cid:24)(›) − ∑ š(cid:24) (cid:24)(› ) Trong đó:
- : là tập dữ liệu tại một nút,
› - : số nhánh sau khi phân chia,
x - : tập con thứ k sau khi phân chia,
› - : số lượng mẫu trong tập con thứ và
|› | ¡ - : số lượng mẫu trong tập dữ liệu ban đầu.
|›| Như vậy nếu dùng độ giảm Gini để tạo cây, thuật toán sẽ bắt đầu từ nút gốc. Đối với mỗi đặc trưng thử tất cả các giá trị ngưỡng có thể, sau đó tính Gini impurity cho mỗi tập con sau khi phân chia và tính độ giảm Gini cho mỗi phép phân chia. Đặc trưng và giá trị phân chia nào có độ giảm Gini lớn nhất sẽ được chọn để phân chia nút hiện tại. Lặp lại cho mỗi nhánh mới cho tới khi đạt điều kiện dừng (độ sâu tối đa của cây hoặc số lượng mẫu nhỏ hơn một ngưỡng định trước).
Để dự báo đối với một điểm dữ liệu mới, thuật toán lấy biểu quyết đa số của các
dự báo được đưa ra bởi mỗi cây quyết định
(4.14)
(((cid:19)) = xv¢£t(cid:24)(cid:143)(cid:11)_¥£(cid:143)% (ℎ(cid:7)((cid:19)), ℎ(cid:16)((cid:19)), . . , ℎ§((cid:19)))
: là dự báo cuối cùng từ rừng ngẫu nhiên và
Trong đó: - - : là dự báo từ cây . (((cid:19))
¢
ℎy((cid:19)) Để thử nghiệm các thuật toán, NCS lựa chọn điểm của bộ môn Công nghệ thông tin, trong đó một môn học của năm thứ 2 làm đầu ra và dùng các điểm môn học của năm thứ nhất làm đầu vào cho dự báo. Các bản ghi được trích xuất từ tập dữ liệu chính phải đảm bảo có đủ điểm của tất cả các môn thuộc đầu vào và đầu ra với ít nhất một lần đánh giá.
Sử dụng thư viện scikit learn của Python, NCS thử nghiệm huấn luyện các mô hình học máy và đánh giá, so sánh kết quả trong các trường hợp lựa chọn đặc trưng (điểm trung bình các môn học) khác nhau - lựa chọn đặc trưng động. Để đảm bảo sự đồng nhất trong các lần thử nghiệm, các tham số của các thuật toán được lựa chọn mặc định từ thư viện.
Để đánh giá các mô hình, đối với mỗi thuật toán, NCS đã sử dụng kỹ thuật xác thực chéo k–fold (k–fold cross validation) với k = 10 để chia tập dữ liệu huấn luyện – kiểm tra. Đây là phương pháp giúp đảm bảo rằng mô hình học máy có thể tổng quát hóa tốt trên dữ liệu mới và không bị quá khớp vào một tập hợp con cụ thể của dữ liệu. Như
135
vậy, với mỗi thuật toán, tập dữ liệu được chia thành 10 phần bằng nhau, 1 phần được chọn làm tập kiểm tra, các phần còn lại làm tập huấn luyện và xoay vòng 10 lần tương
ứng với 10 lần chạy thuật toán. Tính toán các giá trị trung bình dương tính thực
–b = , trung bình dương tính giả , trung bình âm tính thực
1 ¡ ¡ ∑ ¨b(cid:24) 1 –(cid:1) = và các chỉ số hiệu suất trung bình khác
, trung bình âm tính giả
1 ¡ ¡ ∑ –b(cid:24) 1 ¨b = 1 1 ¡ ¡ ¡ ∑ –(cid:1)(cid:24) ¡ ∑ ¨(cid:1)(cid:24) 1 1 từ kết quả chạy trên các tập dữ liệu kiểm tra.
¨(cid:1) =
Thử nghiệm huấn luyện lần 1: Dự báo kết quả đỗ/trượt môn 1651 dựa trên một tập hợp các môn học 1618, 1619, 1622, 1633, 1623, 1625. Số lượng các bản ghi thỏa mãn gồm bản ghi của 654 sinh viên.
Bước 4 (1): Đánh giá kết quả thử nghiệm các mô hình
Bảng 4.4: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của môn thực hành và lý thuyết
Mô hình ©¬«««« ¬«««« «««««««««««««««« ®¯¯°±²³¯´ RF ©ª«««« ª«««« 49,5 8,3 4,3 2,9 88,92 «««««««««««««««« µ − ¶¯·±² 0,9322 ««««««««««««««««« ¸¹²¯º»º¯º¼´ 0,6587 ®½¾«««««« 0,7403
SVR 51,7 6,4 6,2 0,7 89,38 0,9374 0,5079 0,6153
KNN 51,0 6,0 6,6 1,4 87,69 0,9272 0,4761 0,6153
GNB 45,9 8,8 3,8 6,5 84,15 0,8991 0,6984 0,6730
LR 49,8 7,2 5,4 2,6 87,69 0,9256 0,5714 0,5673
Nguồn: Tác giả thử nghiệm
Thuật toán SVR có cao nhất cho thấy mô hình tốt khi nhận diện sinh
«««««««««««««««« ¨1 − ¿a£t%
viên đỗ. Thuật toán GNB có cao nhất cho thấy mô hình tốt khi nhận diện
«««««««««««««««« (cid:3)(cid:23)%a(cid:24)z(cid:24)a(cid:24)(cid:143)(cid:11)
sinh viên trượt. Tuy nhiên xét về tổng thể SVR được đánh giá là tốt nhất do có độ chính
«««««««««««««««« Àaa‘t% a(cid:11)
xác tổng thể lớn nhất.
136
Hình 4.11: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là các kết quả của các môn thực hành và các kết quả của các môn lý thuyết.
Nguồn: Tác giả thử nghiệm
Thử nghiệm huấn luyện lần 2: Dự báo kết quả đỗ/trượt môn 1651 dựa trên một tập hợp các môn học lập trình 1618, 1623, 1633. Số lượng các bản ghi thỏa mãn gồm bản ghi của 718 sinh viên.
Bước 4 (2) : Đánh giá kết quả thử nghiệm các mô hình
««««««««««««««««« ®¯¯°±²³¯´
Bảng 4.5: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của 3 môn thực hành
«««««««««««««««« µ − ¶¯·±² 0,9124 0,9129 0,9106 0,8974 0,9115
««««««««««««««««« ¸¹²¯º»º¯º¼´ 0,6089 0,5897 0,5641 0,6923 0,6089
Mô hình ¬««««« ª««««« ©¬««««« ©ª«««« RF 6,1 3,8 86,06 51,6 9,5 SVR 51,9 9,2 6,4 3,5 86,06 KNN 52,0 8,8 6,8 3,4 85,63 GNB 49,0 10,8 4,8 6,4 84,23 LR 6,1 3,9 85,92 51,5 9,5
®½¾««««««« 0,6895 0,6719 0,6757 0,7071 0,6957 Nguồn: Tác giả thử nghiệm
137
Hình 4.12: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là kết quả của 3 môn thực hành
Nguồn: Tác giả thử nghiệm Xét về tổng thể RF và SVR được đánh giá là tốt nhất do có độ chính xác tổng thể
«««««««««««««««« ¨1 − ¿a£t%
«««««««««««««««« của GNB là cao (cid:3)(cid:23)%a(cid:24)z(cid:24)a(cid:24)(cid:143)(cid:11)
««««««««««««««« cho thấy mô hình tốt hơn khi nhận diện sinh viên đỗ. Thuật toán GNB có Àaa‘t% a(cid:11) cao hơn cho thấy mô hình tốt hơn khi nhận diện sinh viên trượt. nhất chứng tỏ khả năng phân biệt giữa các lớp của mô hình tốt nhất.
lớn nhất. So sánh tiếp các chỉ số. Thuật toán SVR có cao hơn
ÀÁc««««««
Thử nghiệm huấn luyện lần 3: Dự báo kết quả đỗ/trượt môn 1651 dựa trên một tập hợp các môn học lý thuyết 1619, 1623, 1625. Số lượng các bản ghi thỏa mãn gồm bản ghi của 650 sinh viên.
Bước 4 (3): Đánh giá kết quả thử nghiệm các mô hình
Bảng 4.6: Chỉ số hiệu suất các mô hình với trường hợp đặc trưng đầu vào là các điểm trung bình của 3 môn lý thuyết
Mô hình ©¬«««« ¬«««« «««««««««««««««« ®¯¯°±²³¯´ RF ©ª«««« ª«««« 48,7 4,8 7,8 3,7 82,31 «««««««««««««««« µ − ¶¯·±² 0,8943 ««««««««««««««««« ¸¹²¯º»º¯º¼´ 0,3809 ®½¾«««««« 0,5416
SVR 49,8 4,6 8,0 2,6 83,69 0,5416 0,9038 0,3650
KNN 49,8 4,8 7,8 2,6 84,00 0,5416 0,9054 0,3809
GNB 46,4 8,0 4,6 6,0 83,69 0,7083 0,8974 0,6349
LR 50,1 4,5 8,1 2,3 84,00 0,5416 0,9059 0,3571
Nguồn: Tác giả thử nghiệm
138
Hình 4.13: Chỉ số của ma trận nhầm lẫn và độ chính xác tổng thể (trung bình) với trường hợp đặc trưng đầu vào là kết quả của 3 môn lý thuyết
Nguồn: Tác giả thử nghiệm
Xét về tổng thể KNN và LR được đánh giá là tốt nhất do có độ chính xác tổng
thể lớn nhất. Thuật toán LR có cao nhất cho thấy mô hình tốt
««««««««««««««« Àaa‘t% a(cid:11)
«««««««««««««««« ¨1 − (cid:3)a£t%
hơn khi nhận diện sinh viên đỗ. Thuật toán GNB có cao nhất cho thấy mô
«««««««««««««««« (cid:3)(cid:23)%a(cid:24)z(cid:24)a(cid:24)(cid:143)(cid:11)
hình tốt hơn khi nhận diện sinh viên trượt. Do vậy nếu mục tiêu dự báo chính xác sinh
viên trượt môn và giảm thiểu dự báo sai sinh viên đỗ môn thì chọn GNB và ngược lại
dự báo sinh viên qua môn thì chọn LR. Trong trường hợp hệ thống BI của trường quan
tâm tới sinh viên có nguy cơ trượt để hỗ trợ kịp thời thì sẽ chọn GNB. GNB cũng cho
độ phân biệt giữa các lớp cao. Khi chọn độ đặc hiệu làm tiêu chí cho mô hình ta có thể
giải quyết vấn đề về mất cân bằng trong tập dữ liệu gốc làm ảnh hưởng tới độ chính xác
tổng thể của mô hình.
4.2.3.2 Kết luận từ thử nghiệm xây dựng mô hình dự báo động
Trong quá trình thử nghiệm xây dựng mô hình dự báo động với các đặc trưng
đầu vào thay đổi, NCS nhận thấy:
- Các chỉ số hiệu suất của mô hình phụ thuộc vào việc lựa chọn các đặc trưng là
điểm trung bình các môn học trước đó.
139
o Việc dự báo kết quả học của một môn thực hành dựa trên điểm số của các môn lý thuyết cho độ chính xác tổng thể thấp hơn là việc dự báo dựa trên
điểm số của các môn thực hành.
o Dự báo cho kết quả độ chính xác tổng thể tốt nhất khi kết hợp cả điểm môn lý thuyết và điểm môn thực hành, tuy nhiên điều này cũng phải đánh
đổi bằng việc khối lượng dữ liệu được xử lý sẽ lớn hơn.
Do vậy, khi triển khai việc dự báo với các đặc trưng đầu vào (các điểm trung
bình) thay đổi, hệ thống sẽ áp dụng quy trình dự báo như sau:
1. Người dùng lựa chọn đặc trưng hay lựa chọn các môn có điểm trung bình được đưa vào mô hình dự báo và môn là mục tiêu dự báo đỗ/trượt. Khuyến cáo chọn
nhiều môn.
2. Hệ thống huấn luyện tự động các mô hình trên cùng một bộ dữ liệu.
3. Hệ thống lựa chọn mô hình tốt nhất theo tiêu chí (độ đặc hiệu lớn nhất).
4. Hệ thống thực hiện dự báo từ dữ liệu đầu vào dựa trên mô hình vừa được lựa chọn.
4.2.4 Kết quả xây dựng mô hình dự báo dựa trên dữ liệu tuyển sinh và dữ liệu đánh giá kết quả của người học
Bài toán 3: Dự báo sự phù hợp của người học khi chọn chuyên ngành học
Mục tiêu của dự báo là dự đoán người học phù hợp với chuyên ngành học nào tại CSGD ĐH dựa trên dữ liệu tuyển sinh đầu vào và dữ liệu học tập của các sinh viên thuộc các chuyên ngành tại Trường.
4.2.4.1 Thử nghiệm xây dựng mô hình
Bước 1: Lựa chọn đặc trưng
Trong giai đoạn đầu, các nghiên cứu về dự báo lựa chọn chuyên ngành thường tập trung đánh giá mức độ phù hợp giữa hồ sơ thí sinh và các tiêu chí chọn ngành. Chẳng hạn, nghiên cứu của Zubaedah & cộng sự (2021) tính toán xác suất thí sinh nhập học các ngành kỹ thuật dựa trên điểm số ở các môn Toán, Vật lý, Hóa học, Sinh học, Ngôn ngữ và Kỹ thuật thực hành (Zubaedah & cộng sự, 2021). Mô hình phân tích thứ bậc (Analytic Hierarchy Process – AHP) được áp dụng để so sánh, đánh giá mức độ ưu tiên của các môn học đối với từng ngành, từ đó hỗ trợ thí sinh đưa ra quyết định chọn ngành phù hợp. Tương tự, Bautista & cộng sự (2016) xác định tiềm năng nhập học ngành dựa trên các yếu tố quan trọng như giới tính, kết quả học tập ở các môn Đại số, Giải tích tích phân, Giải tích vi phân, Vật lý 1 và Vật lý 2 (Bautista & cộng sự, 2016). Trong khi đó,
140
nghiên cứu của Iyer & Variawa (2019) phân tích khuynh hướng tiềm năng của sinh viên năm nhất bằng cách so sánh mức độ tương đồng giữa hồ sơ thí sinh và hồ sơ của sinh viên năm cuối trong các chuyên ngành khác nhau, từ đó đưa ra gợi ý về các chuyên ngành tiềm năng (Iyer & Variawa, 2019). Phương pháp này cũng được áp dụng trong các nghiên cứu khác (Iyer & Variawa, 2019; Latifah & cộng sự, 2019; Meng & Fu, 2021). Tuy nhiên, việc lựa chọn chuyên ngành chỉ dựa trên sự phù hợp này không hẳn là tối ưu. Để đánh giá hiệu quả lựa chọn ngành tốt, cần theo dõi kết quả học tập và nghề nghiệp của sinh viên sau khi tốt nghiệp. Điều này sẽ giúp xây dựng các mô hình gợi ý dựa trên sở thích cá nhân của thí sinh cũng như đánh giá về thành công của cựu sinh viên (Powar & cộng sự, 2017).
Một điểm dễ nhận thấy là các nghiên cứu trước đây thường dự báo dựa trên các đặc trưng từ dữ liệu học thuật được thu thập trong thời gian dài. Tuy nhiên, việc chỉ sử dụng dữ liệu học thuật có thể hạn chế vì không phản ánh đầy đủ các khía cạnh khác của năng lực cá nhân. Nghiên cứu của Latifah & cộng sự (2019) đã bổ sung yếu tố cá nhân bên cạnh kết quả học tập để dự báo xu hướng lựa chọn ngành của thí sinh, giúp khắc phục phần nào hạn chế này (Latifah & cộng sự, 2019). Tương tự, các nghiên cứu (Al– Shalabi, 2019) và (Stein & cộng sự, 2020) đã xây dựng mô hình gợi ý dựa trên kỹ năng, sở thích và kinh nghiệm nhằm cải thiện kết quả dự báo. Tuy nhiên, nghiên cứu của Al– Shalabi chỉ tập trung vào nhóm sinh viên có GPA từ 3.0 đến 4.0, đã làm giảm tính khái quát của kết quả. Hạn chế tương tự cũng xuất hiện trong nghiên cứu của (Stein & cộng sự, 2020), khi việc loại bỏ các ngành ít phổ biến trong quá trình gợi ý đã làm giảm tính đa dạng trong các khuyến nghị.
Khi thực hiện dự báo phù hợp chuyên ngành dựa trên dữ liệu tuyển sinh chẳng hạn như điểm thi từ các kỳ thi đánh giá năng lực đầu vào, các nghiên cứu thường có kỳ vọng từ dữ liệu cá nhân của thí sinh có thể dự đoán lộ trình phù hợp cho thí sinh đó. Nghiên cứu Xiao & Yi (2021) dựa trên dữ liệu học thuật như ACT, SAT và NCEE, phát triển mô hình trí tuệ nhân tạo nhằm dự đoán lộ trình và thiết kế kế hoạch đào tạo cá nhân hóa, đạt độ chính xác 95% (Xiao & Yi, 2021). Nghiên cứu Mengash (2020) phát triển hệ thống hỗ trợ ra quyết định trong tuyển sinh, dựa trên điểm HSGA, SAAT và GAT dự báo kết quả học tập của thí sinh trong tương lai (Mengash, 2020). Tuy nhiên, giống như nhiều nghiên cứu khác, các nghiên cứu này vẫn chủ yếu dựa vào đặc trưng học thuật (điểm đầu vào), mà chưa khai thác hiệu quả các đặc trưng phi học thuật, vốn cũng ảnh hưởng đến năng lực học tập trong tương lai. Vai trò của các yếu tố phi học thuật được nhắc tới trong nhiều nghiên cứu (Kamal & cộng sự, 2020; Sethi & cộng sự, 2020; Wei & cộng sự, 2017) cho thấy sự phức tạp trong quyết định của sinh viên khi lựa chọn
141
chuyên ngành phù hợp. Sự phù hợp của chuyên ngành không chỉ thể hiện qua kết quả học thuật mà còn ảnh hưởng bởi nhiều yếu tố khác như hoàn cảnh gia đình, tính cách và hoạt động ngoại khóa.
Để hỗ trợ việc lựa chọn chuyên ngành phù hợp cho thí sinh tại Trường Đại học G, NCS đã xây dựng một mô hình dự báo với các biến đầu vào bao gồm: tỉnh, giới tính, điểm Toán, điểm Văn, điểm Ngoại ngữ và chuyên ngành mà thí sinh lựa chọn. Dữ liệu này được thu thập từ bộ phận Tuyển sinh. Biến đầu ra của mô hình là xác suất thí sinh đạt được điểm trung bình môn từ 6,5 trở lên trong chuyên ngành đã chọn, với dữ liệu được cung cấp bởi bộ phận Đào tạo. Như vậy, trong nghiên cứu này, NCS đã kết hợp dữ liệu từ nhiều nguồn (tuyển sinh và đào tạo) để xây dựng mô hình dự báo, sử dụng các đặc trưng phản ánh năng lực của thí sinh từ cả hai khía cạnh: học thuật (điểm Toán, Văn, Ngoại ngữ) và phi học thuật (tỉnh, giới tính). Cách tiếp cận này mang lại một cái nhìn toàn diện về năng lực của thí sinh. Việc áp dụng mô hình dự báo không chỉ giúp bộ phận tuyển sinh tư vấn ngành học một cách hiệu quả hơn mà còn hỗ trợ thí sinh đưa ra lựa chọn chính xác và hình dung trước những thách thức có thể gặp phải trong hành trình học tập.
Bước 2: Lựa chọn thuật toán
Dự báo ngành học có thể được thực hiện dựa trên các quy tắc chuyên gia (Al Ahmar, 2012; Alghamdi & cộng sự, 2019; Salaki & cộng sự, 2015). Nghiên cứu của Al Ahmar, (2012) phát triển một hệ thống chuyên gia dựa trên quy tắc nhằm hỗ trợ học sinh trung học chọn ngành đại học (Al Ahmar, 2012). Dù hệ thống này giúp sinh viên lựa chọn ngành dựa trên sở thích, kỹ năng và yêu cầu ngành học, nhưng các quy tắc được xây dựng từ kinh nghiệm cá nhân có thể dẫn đến sự thiên lệch, khó đánh giá hiệu quả và không bao quát đầy đủ sự đa dạng về kỹ năng cũng như sở thích của sinh viên. Nghiên cứu Salaki & cộng sự, (2015) sử dụng logic mờ để hỗ trợ học sinh trung học nghề chọn chuyên ngành, với dữ liệu từ điểm số ba môn IPA, Tiếng Anh và TIK (Salaki & cộng sự, 2015). Tuy nhiên, các quy tắc logic mờ dựa trên ý kiến chuyên gia cũng gặp những hạn chế tương tự như nghiên cứu của Al Ahmar (2012). Cả hai nghiên cứu đều không sử dụng dữ liệu thực tế về kết quả chọn ngành và thành công của sinh viên để xây dựng, kiểm chứng mô hình, do đó, luật suy diễn và luật mờ chỉ phù hợp với bối cảnh cụ thể của CSGD ĐH được nghiên cứu. Nghiên cứu Dhar & Jodder (2020) giới thiệu hệ thống khuyến nghị tự động dựa trên kết quả học tập trước đó của học sinh để dự báo hiệu suất và đề xuất chương trình phù hợp với mục tiêu nghề nghiệp. Cụ thể, mô hình LightGBM hiệu quả với các chương trình khoa học và nghệ thuật - nhân văn, trong khi CatBoost phù hợp với chương trình thương mại và kỹ thuật (Dhar & Jodder, 2020).
142
Các thuật toán học máy được sử dụng để dự đoán điểm dựa trên điểm môn học trước đó nhằm hỗ trợ chọn chuyên ngành (Abosamra & Faloudah, 2019; Ezz & Elshenawy, 2020), thậm chí có thể được lựa chọn một cách tự động sao cho phù hợp (Ezz & Elshenawy, 2020). So sánh hiệu suất các thuật toán cho thấy ANN cho kết quả tốt nhất (Abosamra & Faloudah, 2019). Phương pháp sử dụng mạng ANN đa lớp cũng được chứng minh là hiệu quả trong nhiều nghiên cứu khác (Abosamra & Faloudah, 2019; Alam & cộng sự, 2021; Hussain & cộng sự, 2018; Latifah & cộng sự, 2019; Mengash, 2020; Xiao & Yi, 2021).
Nhờ khả năng vượt trội trong xử lý và phân tích dữ liệu phức tạp, ANN có thể dự đoán hiệu quả ngay cả trong những trường hợp mà các kỹ thuật khác không thể thực hiện được. ANN bao gồm một số đơn vị xử lý được kết nối với nhau để xử lý thông tin (Alam & cộng sự, 2021). Ý tưởng về hoạt động của ANN được lấy cảm hứng từ cơ chế của bộ não con người, trong đó hàng tỷ nơ–ron được liên kết với nhau thông qua các sợi trục, cho phép chúng truyền tín hiệu qua các khớp thần kinh. Trong ANN, sự kết nối giữa các đơn vị xử lý được biểu thị bằng trọng số. Đầu vào của ANN bao gồm các giá trị khác nhau, được ánh xạ tới các vectơ trọng số, có thể mang giá trị dương hoặc âm. Để tạo ra kết quả, một hàm toán học được sử dụng để tính toán trọng số và ánh xạ chúng
(4.15). ANN là một hệ thống toán học đến đầu ra theo công thức
(cid:11) = }(cid:7)(cid:19)(cid:7) + . . + }(cid:8)(cid:19)(cid:8)
linh hoạt và phi tuyến, có khả năng mô hình hóa các hàm phức tạp. Đặc biệt, ngay cả khi tồn tại mối quan hệ phi tuyến giữa các biến độc lập đầu vào và biến phụ thuộc đầu ra, ANN vẫn có thể áp dụng để dự đoán. ANN còn có khả năng phát hiện và mô hình hóa toàn bộ các tương tác tiềm ẩn giữa các biến trong bộ dự báo (Abosamra & Faloudah, 2019). Sau khi được đào tạo đúng cách, ANN thường đạt độ chính xác cao hơn so với các phương pháp phân loại thông thường. Ngoài ra, cơ chế xử lý ngầm của ANN giúp mạng duy trì khả năng dự đoán chính xác ngay cả khi một số nút bị xóa hoặc xảy ra lỗi hàm (Latifah & cộng sự, 2019). Tuy nhiên, chính cơ chế này cũng đặt ra thách thức, như yêu cầu tài nguyên tính toán lớn và khó giải thích mô hình. Do đó, việc đánh giá mô hình ANN cần cân nhắc nhiều yếu tố, bao gồm: độ chính xác, tốc độ xử lý, độ trễ, hiệu suất, khả năng chịu lỗi, khối lượng dữ liệu, khả năng mở rộng và mức độ hội tụ.
Do các đặc trưng đầu vào đa dạng và có thể có mối quan hệ phi tuyến phức tạp giữa các đặc trưng nên NCS quyết định dùng mô hình mạng nơ-ron học sâu, ANN đa lớp hay DNN để dự báo. DNN đã được sử dụng cho cả học có giám sát và không giám sát, nhưng trong nghiên cứu này, NCS áp dụng DNN học có giám sát vì đầu vào và đầu ra đã được biết để huấn luyện mô hình. Mô hình đã được thử nghiệm với các giá trị khác nhau để điều chỉnh trọng số tốt nhất để có được đầu ra hiệu quả mong đợi.
143
- Lớp đầu vào (input layer): chứa các nút tương ứng với các đặc trưng của dữ liệu đầu vào. Số lượng nút trong lớp đầu vào bằng với số lượng đặc trưng của dữ liệu.
- Lớp ẩn (hidden layers): DNN thường có nhiều lớp ẩn giữa lớp đầu vào và lớp đầu ra. Mỗi lớp ẩn chứa một số lượng nút nhất định và mỗi nút trong lớp ẩn kết nối với các nút ở lớp trước đó và lớp sau đó.
- Lớp đầu ra (output layer): chứa các nút tương ứng với các giá trị cần dự đoán. Số lượng nút trong lớp đầu ra phụ thuộc vào bài toán cụ thể (ví dụ: 1 nút cho hồi quy, n nút cho phân loại n lớp).
- Trọng số (weights) và điểm chặn (biases): mỗi kết nối giữa các nút có một trọng số liên kết và mỗi nút (ngoại trừ lớp đầu vào) có một điểm chặn. Trong quá trình huấn luyện, mạng sẽ tự động điều chỉnh các trọng số này để giảm thiểu sai số giữa dự báo và giá trị thực tế. Trọng số và điểm chặn được cập nhật trong quá trình huấn luyện để giảm thiểu hàm mất mát (loss function). Hàm khởi tạo xác định giá trị ban đầu cho các trọng số trong mạng nơ-ron. Giá trị khởi đầu hợp lý giúp mô hình bắt đầu học một cách hiệu quả và nhanh chóng hội tụ. Hàm kích hoạt giúp mô hình hóa các mối quan hệ phi tuyến giữa đầu vào và đầu ra và mạng nơ-ron học được các đặc trưng phức tạp từ dữ liệu thông qua việc áp dụng các phép biến đổi phi tuyến.
Cấu trúc cơ bản của mạng DNN:
Bước 3: Xây dựng mô hình và huấn luyện
Để xây dựng DNN cho dự báo học tập, ngoài việc làm rõ về đầu vào và đầu ra bước tiếp theo là xác định các tầng ẩn trong mạng. Thông số chi tiết của mạng nơ-ron DNN dự báo kết quả học tập theo dữ liệu tuyển sinh như sau:
Lớp đầu vào gồm 6 nút ứng với 6 thông tin tuyển sinh, sử dụng hàm kích hoạt
tuyến tính (linear) và hàm khởi tạo uniform (phân phối đều).
Lớp ẩn gồm 3 tầng, mỗi tầng gồm 25 nút. Số tầng và số nút được lựa chọn sau nhiều lần thử nghiệm để đảm bảo tính chính xác của mô hình dự báo cũng như không bị tình trạng quá khớp. Các lớp ẩn sử dụng hàm khởi tạo uniform và hàm kích hoạt Relu. Hàm Relu (Rectified Linear Unit) giúp mạng học và biểu diễn các mối quan hệ phi tuyến giữa đầu vào và đầu ra .
z((cid:19)) = xv(cid:19)(0, (cid:19))
Lớp đầu ra gồm 1 nút là điểm trung bình các môn học (đã làm tròn) của người học sau khi nhập học gồm điểm giai đoạn tiếng Anh và điểm giai đoạn chuyên ngành. Lớp đầu ra sử dụng hàm kích hoạt sigmoid, khởi tạo uniform. Hàm sigmoid giới hạn đầu ra trong một khoảng cụ thể (ví dụ: 0 đến 1). Hệ số học learning rate α=0,005, quyết
144
định mức độ cập nhật trọng số sau mỗi bước tối ưu, việc chọn hệ số học thích hợp thường yêu cầu một số thử nghiệm, điều chỉnh hệ số học theo thời gian.
Hàm tối ưu adamax giúp điều chỉnh và tối ưu trọng số của mô hình dựa trên dữ liệu. Hàm adamax dựa trên việc ước tính trung bình di chuyển độ dốc theo thời gian và trung bình di chuyển bình phương của độ dốc, được đánh giá ổn định hơn với các gradient lớn, không phụ thuộc vào điều chỉnh chuẩn hóa, hiệu suất tốt trong một số trường hợp cụ thể.
Mô hình mạng:
Đầu vào:
- Tỉnh nơi học sinh theo học: số hóa thành dữ liệu phân loại: 0,1,2 …
- Giới tính học sinh: số hóa thành dữ liệu phân loại (0 – Nữ, 1 – Nam)
- Điểm 3 môn Toán, Văn, Ngoại Ngữ: số thực 0–10
- 3 chuyên ngành mà học sinh lựa chọn theo học: số hóa thành dữ liệu phân loại (0
– CNTT, 1 – QTKD, 2 – TKĐH)
Đầu ra
- điểm trung bình được làm tròn, với quy ước rằng một môn bị coi là trượt nếu điểm
< 6,5
0 nếu điểm trung bình < 6,5
1 nếu điểm trung bình
≥ 6,5
Hình 4.14: Mô hình mạng học sâu
Nguồn: Tác giả thử nghiệm
145
Từ tập dữ liệu tuyển sinh các năm 2020 và 2021, NCS chọn ra được 797 thí sinh
đã nhập học và có kết quả học tập tại trường. Trong dữ liệu này, tập huấn luyện gồm
70%, tập kiểm thử 30% được lựa chọn ngẫu nhiên trên toàn dữ liệu.
Ví dụ với một người học đầu vào là [10. 0. 8,4 4. 6,6 0.] thì khi thay đổi thông số
cuối (ngành học) từ 0 sang 1 hoặc 2, có kết quả đầu ra lần lượt là 0,77; 0,05 và 0,38. Điều
đó có nghĩa là người học đã chọn đúng ngành học với kết quả dự báo khả năng học tập (khả
năng đạt được trung bình môn lớn hơn hoặc bằng 6,5 ) là 0,77 trong khi nếu chọn ngành 1
hoặc 2 sẽ có kết quả dự báo tương ứng là 0,05 và 0,38. Một ví dụ khác, khi người học với
đầu vào là [0. 0. 7,8 5,75 6,4 1.] thì có kết quả tương ứng 0,49, 0,18 và 0. Người học này lẽ
ra nên chọn chuyên ngành 0 thay vì 1 thì sẽ có sẽ có khả năng đạt kết quả học tập tốt hơn.
Bảng 4.7: Kết quả chạy thử nghiệm mô hình dự báo tuyển sinh
Đặc trưng đầu vào
Dự báo nếu chọn ngành
Kết quả lựa chọn
CNTT
QTKD
Tỉnh
Toán Văn
Giới tính
Ngoại ngữ
Ngành chọn
(0)
(1)
TKĐH (2)
10
0
8,4
4,0
6,6
0,77
0,05
0,38
2
Chọn đúng ngành
0
0
7,8
5,75
6,4
0,49
0,18
0
1
Chọn sai ngành
Nguồn: tác giả thử nghiệm
Bước 4: Đánh giá kết quả thử nghiệm mô hình
Do kết quả được làm tròn nên mô hình dự báo 2 trường hợp: học được và không học được. Sau khi mô hình được huấn luyện, việc đánh giá mô hình sẽ dựa theo kết quả thực tế của việc học tập so với kết quả dự báo. Với cách đánh giá như trên, tỷ lệ dự báo đúng trên tập huấn luyện là 0,93 trong khi tỷ lệ dự báo đúng trên tập kiểm tra là 0,73. Hàm loss MSE hội tụ và bị chặn ở 1000 lượt (epoch).
146
Hình 4.15: Kết quả làm tròn của đầu ra dự báo so với kết quả thực tế trên tập huấn luyện (trái) và tập kiểm tra (phải)
Nguồn: Tác giả thử nghiệm
Hình 4.16: Giá trị hàm mất mát theo các chu kỳ
Nguồn: Tác giả thử nghiệm
Tóm lại NCS đã đề xuất một phương pháp dự báo động cho phép lựa chọn linh hoạt thuật toán phân loại và dữ liệu môn học đầu vào trong quá trình dự báo sớm kết quả học tập. Tính linh hoạt này giúp hệ thống thích ứng với những thay đổi thường xuyên trong chương trình đào tạo đại học. Đồng thời, NCS xây dựng mô hình mạng nơ- ron học sâu nhằm hỗ trợ dự báo lựa chọn chuyên ngành, kết hợp dữ liệu học thuật và phi học thuật từ quy trình đào tạo và đặc điểm tuyển sinh tại Việt Nam. Mặc dù mới thử nghiệm tại trường đại học G, kết quả bước đầu cho thấy mô hình có tiềm năng ứng dụng rộng rãi trong các CSGD ĐH khác trên toàn quốc.
147
Hình 4.17: Quy trình tóm lược tạo mô hình dự báo
Nguồn: Tác giả thử nghiệm
4.2.5 Kết quả phát triển hệ thống
Hệ thống BIG là một giải pháp tổng thể bao gồm:
- Mô-đun trích xuất tổng hợp dữ liệu từ nhiều nguồn (đào tạo, tuyển sinh và công
tác sinh viên) để đưa vào kho dữ liệu.
- Phần mềm dưới dạng website cung cấp giao diện thân thiện cho phép xem các báo cáo, bảng tin tổng hợp trực quan của các bộ phận trong trường là đào tạo, tuyển sinh và công tác sinh viên. Trang chủ bao gồm bảng tin tổng hợp tổng quan về tình hình đào tạo, tuyển sinh và các hoạt động của sinh viên trong trường. Các trang con bao gồm các báo cáo chi tiết của từng bộ phận tuyển sinh, đào tạo và công tác sinh viên.
148
Hình 4.18: Giao diện hệ thống BIG
Hình 4.19: Báo cáo kết quả các hoạt động ngoại khoá của sinh viên Nguồn: Tác giả thử nghiệm
Nguồn: Tác giả thử nghiệm
Hình 4.20: Báo cáo tỷ lệ qua môn
Nguồn: Tác giả thử nghiệm Hình 4.21: So sánh GPA Toán, Văn, Ngoại ngữ của các sinh viên nhập học theo chuyên ngành
Nguồn: Tác giả thử nghiệm
- Tính năng nâng cao gồm các trang dự báo với nhiều phương pháp phân tích và mô hình dự báo khác nhau. Các kết quả dự báo này sẽ mang lại những hiệu quả thiết thực trong công tác đào tạo và tuyển sinh: (1) dự báo động kết quả của người học trước khi học một môn học theo điểm của các môn học khác trước đó. Môn học được lựa chọn linh hoạt trong quá trình dự báo, (2) dự báo hỗ trợ lựa chọn ngành học phù hợp cho thí sinh đăng ký học theo chuyên ngành.
149
Hình 4.22: Giao diện dự báo lựa chọn ngành dựa trên dữ liệu tuyển sinh Hình 4.23: Giao diện dự báo kết quả người học
Nguồn: Tác giả thử nghiệm Nguồn: Tác giả thử nghiệm
150
- Trang quản lý dành cho quản trị viên (admin) bao gồm quản lý người dùng. - 24 dạng báo cáo với khoảng 40 báo cáo phái sinh và bảng tin tổng hợp đã thực hiện và tiếp tục được bổ sung đã và đang thực sự thay đổi góc nhìn của các nhà quản lý trong việc sử dụng phân tích trực quan dữ liệu.
- Trang truy vấn và tạo báo cáo theo tình huống, cho phép người dùng truy vấn
bằng ngôn ngữ tự nhiên.
Hình 4.24: Giao diện truy vấn sử dụng ngôn ngữ tự nhiên
Nguồn: Tác giả thử nghiệm
Hình 4.25: Giao diện truy vấn tạo báo cáo theo tình huống
Nguồn: Tác giá thử nghiệm
151
Hình 4.26: Giao diện truy vấn tạo báo cáo về bỏ học
Nguồn: Tác giá thử nghiệm
Bảng 4.8: Báo cáo đầu ra của hệ thống
Tên báo cáo đã thực hiện
Nội dung báo cáo đã thực hiện
Mục tiêu ban đầu đã thực hiện
Admission:
Students by cities – Students by schools – Majors distribution – Gate grades (Math, Literature, English) –
Genders GPA:
Sumary by lecturers in Year/Semester Làm sao để tư vấn đúng ngành để tránh bỏ học? Nên đến trường nào, tỉnh nào, thời điểm nào, hoạt động như thế nào?
– Sumary by subjects – Sumary by
classes – Sumary by Majors GPA by
individual criteria – Sumary for
Classes, by Lecturers in
Điểm cấp 3 nào sẽ quyết định hiệu năng của sinh viên trong quá trình học?
Báo cáo chất lượng hoạt động tuyển sinh gồm thông tin về năm học, nhóm ngành, số đăng ký dự tuyển, số lượng trúng tuyển, số lượng nhập học Tổng hợp thi lại/học lại Thống kê học tập theo học phần Tổng hợp điểm theo kỳ/năm/tích lũy
Year/Semesters – Sumary for subjects – Sumary for each questions Passrate:
152
Tên báo cáo đã thực hiện
Mục tiêu ban đầu đã thực hiện
Nội dung báo cáo đã thực hiện
Sumary for Courses, – Sumary by
Lecturer – Sumary by subjects –
Sumary by Majors Student activities:
– Number of clubs over years –
Number of students in clubs – Number
of events – Top students – Top clubs OJT:
Passrates in OJT – Top companies by
number of students – sumary of scores
or skills in Year/Semesters Job reports Dropout reports
Gen_AI reports Thống kê mức độ hài lòng của sinh viên đối với, giáo viên. Tổng hợp điểm rèn luyện theo kỳ/năm/khóa Các báo cáo theo tình huống Báo cáo việc làm (làm đúng ngành, chuyển việc) Báo cáo nghỉ học (Drop out_DO)
Nguồn: Tác giả thử nghiệm
4.3 Phân tích đánh giá các kết quả thử nghiệm
Quá trình thử nghiệm tốn nhiều thời gian và gặp nhiều khó khăn, chẳng hạn như thất thoát dữ liệu do lưu trữ không tốt, xử lý và làm sạch dữ liệu, tích hợp các công nghệ mới đưa vào hệ thống cho phép thực hiện các tính năng chính theo yêu cầu. Kết quả phát triển hệ thống đã đạt các mục tiêu cơ bản đề ra. Dựa trên những kết quả mà hệ thống đã đạt được, NCS đánh giá kết quả thử nghiệm phát triển hệ thống thông qua bảng sau:
Bảng 4.9: Đánh giá kết quả thử nghiệm hệ thống
STT Nội dung thử nghiệm Kết quả đạt được
Thu thập và trích xuất dữ liệu từ nhiều nguồn 1
2
3
tính khả Đảm bảo dụng và hiệu lực của dữ liệu Tạo các báo cáo trực quan cho phép giám sát người học Dữ liệu từ các bộ phận Đào tạo, Tuyển sinh và Công tác sinh viên được trích xuất và xử lý. Dữ liệu được chuẩn hóa và làm sạch trước khi lưu trữ trong kho dữ liệu. Sử dụng Tableau API để tạo và quản lý các báo cáo trực quan.
Nội dung cần cải thiện Xây dựng quy trình tự động hóa để đảm bảo dữ liệu luôn được cập nhật và chính xác Phát triển các hệ thống chức năng hỗ trợ tự động trích xuất dữ liệu Tích hợp thêm các tính năng tương tác nâng cao cho báo cáo.
153
STT Nội dung thử nghiệm Kết quả đạt được
Xây dựng mô hình dự báo việc đỗ/trượt của sinh viên Xây dựng mô hình dự báo lựa chọn ngành học của sinh viên
Phân tích dự báo dựa trên dữ liệu người học nhằm cung cấp thông tin cải thiện việc ra quyết định cho giảng viên và các nhà quản lý các cấp
4
Đảm bảo độ chính xác của mô hình dự báo như
5
Nội dung cần cải thiện Tiếp tục cải thiện mô hình dự báo để đạt độ chính xác cao hơn và mở rộng khả năng dự báo cho nhiều kịch bản khác nhau trong quản lý Ví dụ: Mối liên hệ giữa hoạt động ngoại khóa với điểm số môn học • Điểm các nhóm môn học có tác động đến cơ hội việc làm khác nhau của sinh viên? • Các bạn tham gia phong trào nhiều liệu cơ hội việc làm tốt hơn không? Tiếp tục nghiên cứu và tối ưu hóa các đặc trưng đầu vào để cải thiện độ chính xác của mô hình dự báo.
6 thiện
Cung cấp giao diện người dùng thân thiện, cung cấp khả năng tự phục vụ cho người dùng Tối ưu hóa giao diện người dùng dựa trên phản hồi từ người dùng cuối và cải trải nghiệm người dùng.
7
Khả năng tích hợp và mở rộng hệ thống
Sử dụng các thuật toán học máy Logistic Regression, GNB, KNN, SVR và Random Forest. Độ chính xác trung bình >80%. Sử dụng HTML/CSS và JavaScript để thiết kế giao diện người dùng. Sử dụng giao diện truy vấn, tạo báo cáo theo tình huống có thể sử dụng ngôn ngữ tự nhiên Hệ thống phát triển bằng các công cụ và công nghệ phổ biến như Python, Flask, MySQL, Tableau API, dễ dàng tích hợp và mở rộng.
Triển khai thực tế tại nhiều cơ sở để kiểm tra tính ổn định, hiệu suất và khả năng mở rộng của hệ thống khi đối mặt với lượng dữ liệu lớn hơn và nhiều người dùng hơn. Nguồn: Tác giả tổng hợp
154
Từ các kết quả thử nghiệm này có thể rút ra một số nhận định về điều kiện, yêu cầu và phương pháp thực hiện trong triển khai hệ thống BI dự báo dựa trên dữ liệu người học trên thực tế như sau:
Điều kiện cần thiết
- Dữ liệu chất lượng cao: Dữ liệu đầu vào phải được chuẩn hóa và làm sạch để đảm bảo tính chính xác và tin cậy. Dữ liệu từ các bộ phận khác nhau cần được thu thập đầy đủ và liên tục. Các nguồn dữ liệu từ các hệ thống chức năng là thiết yếu.
- Hạ tầng công nghệ thông tin ổn định: Cần có một hạ tầng CNTT mạnh mẽ, bao gồm máy chủ, cơ sở dữ liệu và mạng để hỗ trợ hệ thống BI hoạt động hiệu quả và ổn định.
- Cam kết từ lãnh đạo: Sự ủng hộ và cam kết từ lãnh đạo nhà trường để đảm bảo việc triển khai hệ thống BI được thực hiện suôn sẻ và nhận được nguồn lực cần thiết.
Yêu cầu cần đáp ứng
- Khả năng mở rộng: Hệ thống phải có khả năng mở rộng để xử lý lượng dữ liệu
ngày càng tăng và phục vụ nhiều người dùng cùng lúc.
- Tính dễ sử dụng: Giao diện người dùng phải thân thiện và dễ sử dụng, hỗ trợ
người dùng trong việc truy cập và sử dụng các báo cáo và dự báo.
- Bảo mật và quyền riêng tư: Hệ thống phải đảm bảo bảo mật dữ liệu và quyền
riêng tư của người dùng, tuân thủ các quy định và tiêu chuẩn bảo mật.
Phương pháp thực hiện
- Phát triển lặp đi lặp lại: Sử dụng phương pháp phát triển lặp đi lặp lại để liên tục cải tiến và tối ưu hóa hệ thống dựa trên phản hồi của người dùng và kết quả thử nghiệm.
- Tích hợp các công cụ và công nghệ phù hợp: Sử dụng các công cụ và công nghệ phổ biến như Python, Flask, MySQL, Tableau API để phát triển hệ thống, đảm bảo tính linh hoạt và khả năng mở rộng.
- Kiểm tra và đánh giá liên tục: Liên tục kiểm tra và đánh giá hiệu suất của hệ thống, tối ưu hóa các mô hình dự báo, cải thiện đặc trưng đầu vào và đảm bảo dữ liệu luôn được cập nhật và chính xác.
4.4 Các khuyến nghị triển khai
Dựa trên các nghiên cứu về lý thuyết và thử nghiệm triển khai, NCS đề xuất các khuyến nghị để tạo điều kiện cũng như thúc đẩy việc phát triển, ứng dụng hệ thống BI dự báo dựa trên dữ liệu người học tại CSGD ĐH Việt Nam. Căn cứ trên khung BI trưởng
155
thành của TDWI Analytics và các đặc điểm của CSGD ĐH Việt Nam, các khuyến nghị như sau:
4.4.1 Về mặt tổ chức
Thứ nhất: Lãnh đạo các CSGD ĐH chủ động xây dựng và thể hiện một tầm nhìn rõ ràng cùng cam kết mạnh mẽ bởi đây là yếu tố then chốt và là nền tảng định hướng cho việc ứng dụng BI nói riêng cũng như toàn bộ quá trình chuyển đổi số của đơn vị nói chung.
Tầm nhìn phải được cụ thể hóa bằng một chiến lược phù hợp, với kế hoạch bài bản và đảm bảo chất lượng, trong đó thiết lập rõ ràng các mục tiêu, lộ trình và cam kết xuyên suốt về tiêu chuẩn chất lượng. Chiến lược phải gắn kết với các mục tiêu lớn như: nâng cao chất lượng đào tạo theo chuẩn đầu ra, đẩy mạnh nghiên cứu khoa học, cải thiện thứ hạng đại học, tối ưu hóa tuyển sinh và đáp ứng các yêu cầu của hệ thống kiểm định chất lượng quốc gia (theo tiêu chuẩn của Bộ Giáo dục và Đào tạo) và quốc tế. Tầm nhìn phải thay đổi toàn diện để thấy được công nghệ không chỉ như một công cụ mà là một cuộc cách mạng trong tư duy và phương thức vận hành. Lãnh đạo phải thấy trước cách dữ liệu sẽ được khai thác trong hệ thống BI để tạo ra lợi thế cạnh tranh.
Sự cam kết mạnh mẽ và vai trò thúc đẩy chủ động từ các nhà lãnh đạo cấp cao là điều kiện tiên quyết để bảo đảm quá trình triển khai được thực hiện một cách suôn sẻ và đạt hiệu quả tối đa. Cam kết này cần được thể hiện xuyên suốt trong toàn bộ quá trình triển khai – từ công tác chỉ đạo, giám sát đến hỗ trợ các hoạt động cụ thể – nhằm bảo đảm việc ứng dụng hệ thống BI đạt được các mục tiêu đề ra. Đồng thời, lãnh đạo cũng cần chú trọng đến việc tạo điều kiện công bằng trong tiếp cận công nghệ số cho tất cả các đối tượng trong nhà trường. Việc triển khai và ứng dụng hệ thống BI không chỉ là trách nhiệm riêng của ban lãnh đạo, mà là nhiệm vụ chung của toàn thể đội ngũ trong CSGD ĐH. Trong đó, cán bộ, giảng viên, chuyên viên và đặc biệt là các nhà quản lý đều cần được tạo điều kiện tiếp cận, tham gia, đào tạo và cùng hưởng lợi từ những giá trị mà hệ thống BI mang lại.
Thứ hai: Xây dựng và phát triển văn hóa dữ liệu trong các CSGD ĐH đóng một vai trò quan trọng trong việc triển khai và ứng dụng hiệu quả hệ thống BI. Khi cán bộ, giảng viên và nhà quản lý xem dữ liệu là nền tảng quan trọng cho phân tích, đánh giá và ra quyết định – thay vì phụ thuộc vào cảm tính, kinh nghiệm cá nhân hay báo cáo giấy truyền thống – hệ thống BI mới thực sự phát huy được giá trị. Bên cạnh đó, vì BI được xây dựng trên cơ sở dữ liệu tổng hợp, liên thông trong CSGD ĐH, việc nuôi dưỡng văn
156
hóa dữ liệu còn giúp hình thành thói quen chia sẻ thông tin một cách minh bạch và hợp tác giữa các phòng ban, khoa, bộ môn.
Để nâng cao nhận thức về tầm quan trọng của dữ liệu, các CSGD ĐH nên tổ chức các hội thảo, workshop chuyên đề nhằm nhấn mạnh vai trò của phân tích dữ liệu trong việc hỗ trợ ra quyết định chính xác và kịp thời. Song song đó, phát triển kỹ năng dữ liệu cho đội ngũ cán bộ, giảng viên và nhà quản lý là điều thiết yếu. Điều này có thể thực hiện thông qua các chương trình đào tạo về BI, phân tích dữ liệu, cũng như các công cụ hỗ trợ liên quan. Khi văn hóa dữ liệu được hình thành, người dùng không chỉ tiếp nhận thông tin một chiều mà còn có năng lực phản biện, đặt câu hỏi, kiểm chứng số liệu và chủ động khai thác dữ liệu từ hệ thống BI để phục vụ công việc chuyên môn. Những bước đi này sẽ thúc đẩy khả năng hiểu và ứng dụng dữ liệu một cách có hệ thống, từ đó nâng cao hiệu quả ra quyết định dựa trên bằng chứng, đồng thời tạo dựng nền tảng vững chắc cho sự phát triển bền vững của hệ thống BI trong CSGD ĐH.
Thứ ba: Các CSGD ĐH cần đẩy mạnh hiện đại hóa hoạt động dạy và học theo hướng cá nhân hóa trải nghiệm, ứng dụng công nghệ và phát triển năng lực sinh viên, bởi chính quá trình này sẽ kiến tạo nền tảng lý tưởng cho việc ứng dụng hệ thống BI. Cụ thể, việc phát triển năng lực đội ngũ nhà giáo và cán bộ quản lý, không ngừng cải tiến chương trình và phương pháp đánh giá theo hướng sát với năng lực thực tế, chú trọng học tập cá nhân hóa và sức khỏe tinh thần của sinh viên, cũng như việc tích hợp các công nghệ học tập hiện đại, đều dẫn đến sự gia tăng mạnh mẽ về khối lượng và sự đa dạng của dữ liệu giáo dục. Nguồn dữ liệu này bao gồm: tiến trình học tập chi tiết, các kết quả đánh giá đa dạng, mức độ tương tác với nội dung học tập, phản hồi và chỉ số hài lòng của sinh viên, trở thành nguồn tài nguyên vô cùng quý giá. Chính nhu cầu cấp thiết phải khai thác hiệu quả nguồn tài nguyên dữ liệu này để thấu hiểu sâu sắc hơn từng cá nhân người học, đánh giá chính xác hiệu quả của các phương pháp sư phạm đổi mới và đưa ra các quyết định quản lý, điều chỉnh dựa trên bằng chứng xác thực đã tạo nên một điều kiện chín muồi và một yêu cầu gần như tất yếu cho việc triển khai các giải pháp BI trong các CSGD ĐH.
Thứ tư: Trong bối cảnh giáo dục đại học hiện nay, các CSGD ĐH Việt Nam đang hướng đến mục tiêu đảm bảo chất lượng đầu ra đạt chuẩn kiểm định quốc gia. Việc tăng cường mức quy chuẩn này không chỉ nâng cao khả năng cạnh tranh mà còn gián tiếp thúc đẩy việc áp dụng các hệ thống tiên tiến trong quản lý giáo dục, như hệ thống BI. Chính vì vậy, để hệ thống BI thực sự phát huy vai trò và hỗ trợ đắc lực cho mục tiêu đạt chuẩn kiểm định, việc tích hợp sâu rộng nó vào quy trình vận hành là điều kiện tiên quyết. Các báo cáo và phân tích từ BI cần được lồng ghép một cách chặt chẽ vào các
157
quy trình quản lý, đảm bảo chất lượng, tự đánh giá và cải tiến liên tục theo yêu cầu của chuẩn kiểm định.
4.4.2 Về mặt quản lý
Thứ nhất: Để triển khai thành công một hệ thống – đặc biệt là hệ thống BI, vốn dựa trên việc khai thác dữ liệu theo nhu cầu thực tiễn và định hướng chiến lược riêng của từng cơ sở giáo dục đại học – thì ngay từ giai đoạn phát triển cần có sự tham gia chặt chẽ và giao tiếp hiệu quả giữa tất cả các bên liên quan. Việc này nhằm bảo đảm sự thấu hiểu chung, thống nhất về yêu cầu và định hướng hệ thống phù hợp với mục tiêu chiến lược đã đề ra. Thiếu sự phối hợp hoặc giao tiếp kém giữa các bên có thể dẫn đến hiểu nhầm, lệch hướng mục tiêu hoặc phát sinh sai sót, gây gián đoạn tiến độ và ảnh hưởng đến hiệu quả triển khai hệ thống. Để giải quyết các vấn đề này, việc thành lập một hội đồng BICC (Trung tâm năng lực BI) như theo khuyến nghị (Niño & cộng sự, 2020) là một giải pháp hiệu quả. Hội đồng này bao gồm các thành viên từ hội đồng học thuật, chuyên gia công nghệ thông tin và các chuyên gia phân tích dữ liệu trong lĩnh vực giáo dục. BICC định rõ chính sách BI và đảm bảo rằng tầm nhìn BI được đồng thuận và phù hợp với kế hoạch tổ chức, quản lý tài nguyên, mua sắm, lập kế hoạch và đảm bảo tích hợp nhu cầu nghiệp vụ và dữ liệu, từ đó nâng cao hiệu quả triển khai và giảm thiểu rủi ro. BICC giúp thu hẹp khoảng cách giữa các nhà phát triển dự án và người dùng thực tế của hệ thống BI. Ba vai trò quan trọng trong BICC bao gồm: (1) Chuyên gia miền nghiệp vụ với sự tham gia của đại diện lãnh đạo nhà trường, lãnh đạo các khoa, phòng ban chức năng chủ chốt như Phòng Đào tạo, Phòng Khoa học Công nghệ, Phòng Đảm bảo Chất lượng, Phòng Công tác Sinh viên, ... chịu trách nhiệm hiểu và dịch các nhu cầu trong CSGD ĐH thành yêu cầu BI. Họ làm việc gần gũi với các bên liên quan để xác định KPI và số liệu quan trọng, đồng thời cung cấp hướng dẫn về cách sử dụng giải pháp BI để đạt được mục tiêu của CSGD ĐH; (2) Chuyên gia phân tích dữ liệu phân tích chi tiết các quy trình và xác định các yêu cầu cụ thể, sử dụng mô hình hóa dữ liệu, phân tích và kỹ thuật thống kê để xác định xu hướng, trình bày hiệu quả các phát hiện cho các thành viên khác trong BICC; (3) Chuyên gia dữ liệu chịu trách nhiệm thiết kế và triển khai các giải pháp quản lý dữ liệu, giải trình về chất lượng dữ liệu đầu vào từ các đơn vị. Bên cạnh việc thiết lập một cơ cấu phối hợp và chuyên môn vững chắc như BICC để định hướng và kết nối các bên, khi bước vào giai đoạn thực hiện hệ thống, các CSGD ĐH cần đảm bảo sự ổn định về năng lực chuyên môn trong đội ngũ và vai trò lãnh đạo trong quá trình chuyển đổi. CSGD ĐH cần phát triển nhân sự hiệu quả, tìm và đào tạo đúng người, đúng thời điểm, biến họ thành hạt nhân của dự án. Song song đó, việc thúc đẩy hợp tác với các đối tác công nghệ, các chuyên gia tư vấn, và đồng thời đầu
158
tư vào việc nâng cao năng lực nội tại của đội ngũ để có thể làm chủ và phát huy tối đa hiệu quả của các giải pháp số, đặc biệt là khả năng phân tích và khai thác dữ liệu từ hệ thống BI. Cần thiết lập một đội ngũ nội bộ sẵn sàng học hỏi và kế thừa kinh nghiệm từ các chuyên gia tư vấn và có kế hoạch phân bổ nguồn lực một cách linh hoạt giữa các bộ phận trong CSGD ĐH để đảm bảo sự thành công và tính bền vững của quá trình phát triển, vận hành hệ thống.
Thứ hai: Để minh bạch và hiệu quả trong quản lý, việc xây dựng chính sách quản trị hệ thống là hết sức cần thiết. Khi CSGD ĐH ngày càng phụ thuộc vào dữ liệu để vận hành và ra quyết định, hệ thống BI cần được quản trị một cách bài bản, nhằm đảm bảo hoạt động ổn định, thích ứng linh hoạt và phát triển bền vững. Với mục tiêu duy trì hoạt động liên tục, chính sách bao gồm một tập các định hướng, nguyên tắc, quy định quản lý kiểm soát toàn bộ vòng đời hệ thống từ phân tích nhu cầu, thiết kế kiến trúc dữ liệu, phát triển báo cáo và bảng tin, đến vận hành, nâng cấp và loại bỏ khi cần thiết. Trong đó, các hoạt động bảo trì và cập nhật định kỳ (kiểm tra hiệu năng, vá lỗi bảo mật, cập nhật phần mềm và công cụ phân tích) đóng vai trò quan trọng trong việc duy trì tính ổn định và chính xác của hệ thống, giúp hệ thống luôn đảm bảo tính sẵn sàng, không bị gián đoạn hay xuống cấp theo thời gian.
Để đảm bảo hệ thống BI có thể thích ứng linh hoạt với các thay đổi trong môi trường giáo dục mà vẫn duy trì tính ổn định và tin cậy, chính sách vận hành cần quy định rõ quy trình quản trị thay đổi – từ khâu tiếp nhận yêu cầu đến triển khai chính thức. Trong mô hình tổ chức nếu có sự hiện diện của BICC, vai trò kiểm soát thay đổi nên được phân định rõ ràng: các yêu cầu điều chỉnh báo cáo, chỉ số phân tích hoặc bổ sung chức năng mới phát sinh từ các đơn vị nghiệp vụ như Phòng Đào tạo, Phòng Khảo thí và Đảm bảo Chất lượng, ... sẽ được chuyên gia miền nghiệp vụ trong BICC tổng hợp và chuẩn hóa. Sau đó, chuyên gia phân tích dữ liệu sẽ tiến hành đánh giá tính khả thi, xác định phạm vi tác động, các rủi ro tiềm ẩn và mô hình hóa các thay đổi cần thiết. Kết quả phân tích này được trình và phê duyệt chính thức bởi toàn thể BICC, bảo đảm rằng thay đổi phù hợp với cấu trúc dữ liệu tổng thể và không gây ảnh hưởng tiêu cực đến các báo cáo hiện hữu. Sau khi được phê duyệt, chuyên gia phân tích dữ liệu kết hợp với chuyên gia dữ liệu sẽ chịu trách nhiệm triển khai các kỹ thuật thay đổi – từ cập nhật kho dữ liệu, công thức tính KPI đến kiểm thử báo cáo – đồng thời tài liệu hóa đầy đủ để phục vụ đào tạo và vận hành. Quy trình kiểm soát thay đổi như vậy không chỉ giúp phòng ngừa rủi ro sai lệch dữ liệu hay việc phát triển tùy tiện, mà còn bảo đảm hệ thống BI luôn đồng bộ với nhu cầu quản trị của CSGD ĐH và các tiêu chuẩn kiểm định mới. Thêm vào đó, cơ chế đánh giá định kỳ cũng nên được kích hoạt để điều chỉnh hệ thống BI một cách
159
chủ động nhằm đáp ứng không chỉ nhu cầu trước mắt mà còn có khả năng định hướng cho việc phát triển lâu dài, hỗ trợ chiến lược dài hạn của CSGD ĐH.
Thứ ba: Xây dựng chính sách bảo mật và an toàn thông tin để tạo nền tảng niềm tin và tính hợp pháp trong quản trị dữ liệu học thuật. Trong một thế giới vận hành dựa trên dữ liệu, niềm tin của người dùng và sự tuân thủ pháp luật chính là hai trụ cột không thể thiếu để các hệ thống BI thực sự phát huy giá trị. Chính sách bảo mật và an toàn thông tin trong CSGD ĐH cần được thiết kế không chỉ để chặn nguy cơ, mà để xây dựng một văn hóa dữ liệu có trách nhiệm, trong đó mọi quyền truy cập và hành vi khai thác thông tin đều được kiểm soát, truy vết và đánh giá theo nguyên tắc minh bạch.
Chính sách phân quyền và kiểm soát truy cập cần được thiết kế theo mô hình tiếp cận theo vai trò (Role–Based Access Control – RBAC), nhưng linh hoạt theo ngữ cảnh học thuật. Điều này có nghĩa là không ai được truy cập nhiều hơn mức cần thiết và cũng không ai bị hạn chế quá mức khi có trách nhiệm chính đáng với dữ liệu. Ví dụ, phòng Tuyển sinh – dù không trực tiếp phụ trách công tác đào tạo – vẫn cần được cấp quyền truy cập có giới hạn tới một số báo cáo tổng hợp về tình hình học tập hoặc tỷ lệ tốt nghiệp của sinh viên theo ngành để phục vụ công tác tư vấn tuyển sinh hoặc hoạch định chiến lược truyền thông. Cách tiếp cận này vừa giúp giảm thiểu rủi ro rò rỉ thông tin nhạy cảm, vừa đảm bảo khả năng truy cập hiệu quả cho các hoạt động quản lý trong toàn trường.
Cùng với đó, chính sách bảo vệ dữ liệu cá nhân cần được thiết kế để nâng cao hơn việc tuân thủ luật định để trở thành một cam kết mang tính đạo đức – rằng nhà trường không chỉ sử dụng dữ liệu đúng mục đích mà còn tôn trọng quyền riêng tư và sự an toàn của mỗi cá nhân trong hệ sinh thái số. Điều này đặc biệt quan trọng trong bối cảnh hệ thống BI tích hợp các chức năng dự báo kết quả học tập hoặc hành vi rủi ro, vốn liên quan trực tiếp đến hồ sơ cá nhân của người học. Chẳng hạn, kết quả dự báo nguy cơ học kém của một sinh viên không nên được sử dụng để áp đặt định kiến hoặc hạn chế cơ hội tham gia các hoạt động học thuật, mà cần được xem như một tín hiệu để nhà trường chủ động hỗ trợ – thông qua cố vấn học tập, học bổng khuyến khích (khó khăn tài chính), hoặc tư vấn cá nhân hóa. Việc xác lập rõ các giới hạn trong sử dụng dữ liệu dự báo sẽ góp phần bảo vệ người học khỏi các quyết định thiên lệch và củng cố nguyên tắc công bằng trong giáo dục.
Cuối cùng, không thể không nhấn mạnh tầm quan trọng của chính sách sao lưu và phục hồi – vốn là biểu hiện của một văn hóa sẵn sàng cho bất trắc. Càng tích hợp sâu vào vận hành, hệ thống BI càng cần có khả năng phục hồi nhanh chóng sau sự cố. Một kế hoạch phục hồi dữ liệu tốt không chỉ là một biện pháp phòng ngừa rủi ro, mà còn là
160
điều kiện nền tảng để đảm bảo sự ổn định tổ chức khi cần ra quyết định trong những thời điểm then chốt.
4.4.3 Về mặt công nghệ
Thứ nhất: Hạ tầng dữ liệu thiếu đồng bộ, phân mảnh và kết nối rời rạc là một trong những rào cản chính khiến việc ứng dụng hệ thống BI tại các CSGD ĐH còn gặp nhiều hạn chế. Dữ liệu đầu vào thường thiếu nhất quán do được phân tán trên nhiều hệ thống không tương thích, nhập liệu còn thủ công và chậm cập nhật, làm suy giảm nghiêm trọng độ tin cậy cũng như khả năng tích hợp – những yếu tố nền tảng quyết định hiệu quả vận hành của hệ thống BI. Để BI thực sự phát huy vai trò như một công cụ hỗ trợ chiến lược và ra quyết định dựa trên dữ liệu, CSGD ĐH cần tập trung đầu tư vào xây dựng một hạ tầng công nghệ đồng bộ và hiện đại. Điều này đòi hỏi, (1) phải tự động hóa toàn diện các quy trình nghiệp vụ cốt lõi như đào tạo, tuyển sinh và công tác sinh viên. Không chỉ để nâng cao hiệu suất vận hành, mà quan trọng hơn là đảm bảo dữ liệu được thu thập liên tục, chính xác và có cấu trúc từ các hệ thống chức năng như SIS, LMS hay CRM nội bộ. Việc này giúp cải thiện cơ bản chất lượng và tính sẵn có của dữ liệu đầu vào cho hệ thống BI. (2) Việc tích hợp và đồng bộ hóa dữ liệu cần được thực hiện thông qua các công cụ ETL hiệu quả, triển khai theo một chiến lược linh hoạt, phù hợp với nhu cầu khai thác đa dạng của các đơn vị chức năng. Điều đó cho phép hình thành một kho dữ liệu trung tâm có cấu trúc rõ ràng, được tổ chức khoa học, đáng tin cậy – đóng vai trò làm nền tảng vững chắc cho việc khai thác, phân tích và trực quan hóa thông tin thông qua hệ thống BI. Như vậy, một hạ tầng công nghệ thông tin vững chắc, có khả năng tích hợp cao và được vận hành chuyên nghiệp chính là điều kiện tiên quyết để triển khai thành công và đảm bảo tính bền vững của hệ thống BI trong các CSGD ĐH.
Thứ hai: Hệ thống BI dự báo dựa trên dữ liệu người học hiện nay thường sử dụng các công nghệ khai phá dữ liệu để phân tích, kết hợp với điện toán đám mây làm nền tảng lưu trữ và xử lý. Tùy vào mức độ trưởng thành, các CSGD ĐH có thể sử dụng dịch vụ của các nhà cung cấp uy tín như Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform, IBM Cloud hoặc Oracle Cloud, nhằm tận dụng khả năng mở rộng linh hoạt và hiệu suất xử lý cao. Khi quy mô dữ liệu người học và nhu cầu truy xuất tăng lên, nền tảng đám mây cho phép hệ thống BI thích ứng nhanh chóng mà không làm gián đoạn hoạt động. Tuy nhiên, việc tích hợp điện toán đám mây vào hệ thống BI cần được thực hiện có kế hoạch, có kiểm soát và phù hợp với điều kiện nội tại của nhà trường. Để đảm bảo triển khai thành công, CSGD ĐH cần đáp ứng một số điều kiện hạ tầng và quản trị sau: (1) Cơ sở hạ tầng mạng vững chắc bao gồm băng thông rộng, độ tin cậy cao và độ trễ thấp, nhằm đảm bảo truyền tải dữ liệu giữa hệ thống đám mây và
161
người dùng diễn ra an toàn, liên tục. Việc sử dụng mạng riêng ảo (VPN) là cần thiết để đảm bảo truy cập từ nhiều địa điểm vẫn được mã hóa và bảo vệ; (2) Sử dụng phương pháp, kỹ thuật bảo mật dữ liệu toàn diện: Các biện pháp bảo vệ cần bao gồm mã hóa dữ liệu, kiểm soát truy cập theo vai trò (RBAC), giám sát hệ thống theo thời gian thực và tuân thủ các quy định về bảo vệ dữ liệu cá nhân. Đây là yếu tố sống còn để duy trì niềm tin và tuân thủ pháp lý; (3) Cần lựa chọn nhà cung cấp dịch vụ phù hợp. Nhà trường cần đánh giá kỹ các yếu tố như chi phí, mức độ hỗ trợ kỹ thuật, khả năng mở rộng và năng lực bảo mật của nhà cung cấp, đồng thời xem xét khả năng tuân thủ các yêu cầu pháp lý đặc thù trong lĩnh vực giáo dục; (4) Tích hợp mượt mà với hệ thống hiện hữu. Các phần mềm và hệ thống đang sử dụng (SIS, LMS, CRM…) cần có khả năng kết nối ổn định với nền tảng đám mây thông qua API hoặc các công cụ tích hợp chuyên dụng, tránh việc xây dựng lại từ đầu hoặc gây ngắt quãng dữ liệu.
4.5 Khuyến nghị về đánh giá hệ thống
Hệ thống BI, với tính năng nổi bật là khả năng tích hợp dữ liệu từ nhiều nguồn và trực quan hóa thông tin nhằm hỗ trợ quá trình ra quyết định, cần được đánh giá dựa trên nhiều tiêu chí khác nhau. Theo nghiên cứu của Scholtz & cộng sự (2018), có bảy tiêu chí quan trọng để đánh giá tính bền vững của các công cụ BI (Scholtz & cộng sự, 2018). Trong số đó, năm tiêu chí đã được Jooste và cộng sự (2014) xác định, bao gồm: khả năng hiển thị, tính linh hoạt, khả năng học hỏi, khả năng hoạt động và kiểm soát lỗi và trợ giúp người dùng (Jooste & cộng sự, 2014).
Khả năng hiển thị liên quan đến cách thức hệ thống cung cấp thông tin, hướng dẫn, lựa chọn điều hướng và trạng thái của hệ thống một cách rõ ràng và cấu trúc tốt vào mọi thời điểm. Tiêu chí tính linh hoạt đánh giá mức độ người dùng có thể kiểm soát và cá nhân hóa ứng dụng theo mục đích sử dụng cá nhân hoặc nhóm. Khả năng học hỏi đo lường mức độ mà phần mềm cho phép người dùng hiểu và sử dụng ứng dụng một cách dễ dàng. Khả năng hoạt động xem xét đến tính dễ sử dụng và kiểm soát của phần mềm. Trong khi đó, tiêu chí kiểm soát lỗi và trợ giúp đánh giá khả năng của hệ thống trong việc ngăn ngừa và xử lý lỗi, cũng như cung cấp sự hỗ trợ cần thiết cho người dùng khi cần.
Thêm vào đó, hai tiêu chí về hiệu lực và hiệu quả cũng đã được bổ sung, phù hợp với mọi ứng dụng công nghệ thông tin (Albert & Tullis, 2013). Hiệu lực là mức độ mà phần mềm giúp người dùng hoàn thành chính xác một nhiệm vụ cụ thể (Preece & cộng sự, 1994), trong khi hiệu quả đo lường mức độ mà sản phẩm hoạt động đúng như mong đợi, giúp người dùng thành công trong việc thực hiện nhiệm vụ của mình (Albert & Tullis, 2013; Rubin & Chisnell, 2008). Bảy tiêu chí này cũng tương thích với mô hình
162
đánh giá hiệu quả hệ thống thông tin của DeLone & McLean (2003), nhấn mạnh việc đánh giá hệ thống dựa trên chất lượng dịch vụ, chất lượng thông tin và sự hài lòng của người dùng (DeLone & McLean, 2003).
Hiệu quả có thể được định lượng bằng nỗ lực mà người dùng yêu cầu để hoàn thành một nhiệm vụ nhất định. Trong bối cảnh của hệ thống BI dự báo dựa trên dữ liệu người học, NCS khuyến nghị bổ sung 2 tiêu chí liên quan tới dự báo dựa trên dữ liệu là: (1) Thời gian thực hiện nhằm đo lường thời gian cần thiết để hệ thống hoàn thành các nhiệm vụ cụ thể, như làm sạch dữ liệu khai phá dữ liệu (chạy mô hình dự báo), hoặc trích xuất báo cáo. Thời gian hoàn thành nhiệm vụ càng ngắn cho thấy hiệu suất của hệ thống càng cao và là yếu tố góp phần vào hiệu quả của hệ thống; (2) Độ chính xác và độ tin cậy của dự báo với mục tiêu đánh giá tính chính xác của các mô hình dự báo sử dụng trong hệ thống, hoặc các chỉ số hiệu suất khác. Độ chính xác cao trong dự báo chứng tỏ hệ thống hiệu quả trong việc xử lý và phân tích dữ liệu.
4.6 Tổng kết Chương 4
Nội dung Chương 4 trình bày về thử nghiệm xây dựng, phát triển hệ thống với các chức năng lõi dựa trên mô hình đã đề xuất và các khuyến nghị triển khai hệ thống tại CSGD ĐH Việt Nam, cùng với phương pháp đánh giá hiệu quả hệ thống sau khi triển khai.
Việc thử nghiệm tại một CSGD ĐH giúp làm rõ sự phù hợp và tính khả thi của đề xuất mô hình hệ thống ở Chương 3, đồng thời bổ sung các tri thức thực hành về phát triển hệ thống BI với tính năng dự báo dựa trên dữ liệu người học, làm rõ điều kiện, yêu cầu, cách thức triển khai hệ thống trên thực tế.
Kết quả thử nghiệm là một hệ thống có khả năng tích hợp dữ liệu từ nhiều nguồn, có các chức năng tạo các báo cáo trực quan và bảng tin tổng hợp, chức năng truy vấn linh hoạt bằng ngôn ngữ tự nhiên và truy vấn dựa trên tình huống, chức năng dự báo để hỗ trợ cho nhà quản lý trong quá trình ra quyết định. Các mô hình dự báo được xây dựng cho hai mảng gồm dự báo kết quả học tập hỗ trợ giám sát người học và dự báo kết quả học tập hỗ trợ tuyển sinh. Luận án đã đưa ra cách tiếp cận động trong việc áp dụng học máy để đưa ra một cách thức dự báo sớm kết quả một môn học dựa trên các đặc trưng đầu vào là các môn học khác, có thể thay đổi, cũng như mô hình dự báo sớm hỗ trợ tuyển sinh phù hợp với dữ liệu người học của CSGD ĐH Việt Nam.
Công trình khoa học được công bố gắn với kết quả của Chương 4:
163
1. (2024), “Automation Process for Learning Outcome Predictions” International Journal of Advanced Computer Science and Applications (IJACSA), 15(2),
2024. http://dx.doi.org/10.14569/IJACSA.2024.0150291
2. (2023), March, 'Predicting Student Study Performance in a Business Intelligence System', The International Conference on Intelligent Systems & Networks (pp. 346– 355). Singapore: Springer Nature Singapore.
3. (2022), 'Nghiên cứu giải pháp hệ thống BI cho cơ sở giáo dục đại học trong bối cảnh chuyển đổi số, thử nghiệm tại đại học G', Hội thảo quốc gia: Giải pháp phát triển kinh tế số và thương mại điện tử bền vững cho Việt Nam, 2022.
164
KẾT LUẬN
1. Tổng kết quá trình nghiên cứu
Luận án nghiên cứu đề xuất mô hình hệ thống BI dự báo dựa trên dữ liệu người học cho các CSGD ĐH Việt Nam. Trên cơ sở phân tích bối cảnh chung, bối cảnh của giáo dục và tình hình nghiên cứu, ứng dụng trong và ngoài nước, luận án đã xác định nhu cầu cấp thiết của việc xây dựng hệ thống BI dự báo dựa trên dữ liệu người học nhằm kiểm soát và giám sát hiệu suất của CSGD ĐH, cung cấp thông tin hỗ trợ cho các nhà quản lý đại học trong việc ra quyết định và quản trị đại học, cũng như thông tin trong việc điều chỉnh cách thức dạy và học hướng tới người học, cá nhân hóa đối với người học nhằm nâng cao chất lượng đào tạo và khả năng cạnh tranh của CSGD ĐH. Luận án sử dụng phương pháp nghiên cứu chủ đạo là phương pháp Khoa học thiết kế DSR cùng các phương pháp bổ trợ là phương pháp phân tích và tổng hợp tài liệu, phương pháp khảo sát và xử lý dữ liệu định tính. Luận án đã xác định khoảng trống nghiên cứu từ nghiên cứu tổng quan trong và ngoài nước. Luận án sử dụng (1) các lý thuyết nền tảng về hệ thống trí tuệ doanh nghiệp, hệ thống trí tuệ doanh nghiệp trong giáo dục và lý thuyết về phân tích dự báo dựa trên dữ liệu học thuật, (2) các yếu tố đặc trưng của CSGD ĐH Việt Nam ảnh hưởng tới hệ thống, (3) nhu cầu về dự báo dựa trên dữ liệu người học thực tế để từ đó đề xuất mô hình hệ thống BI với tính năng dự báo dựa trên dữ liệu người học. Mô hình bao gồm 3 khía cạnh là mô hình kiến trúc, mô hình quy trình triển khai và mô hình xử lý dữ liệu phân tích dự báo. Môi trường triển khai thử nghiệm hệ thống là trường đại học G với dữ liệu người học được thu thập trong vòng 5 năm. Từ kết quả thử nghiệm, luận án cũng đưa ra các khuyến nghị để có thể triển khai mô hình tại các CSGD ĐH Việt Nam. Các khuyến nghị nhóm theo 3 khía cạnh quan trọng tác động tới hệ thống là tổ chức, quản lý và công nghệ. Đồng thời, luận án cũng đề xuất khuyến nghị liên quan tới việc đánh giá hiệu quả của hệ thống. Mô hình được đề xuất trong Chương 3 và các kết quả thử nghiệm trong Chương 4, khuyến nghị trong Chương 4 của luận án về cơ bản đã trả lời được câu hỏi nghiên cứu được đặt ra trong phần mở đầu.
2. Những đóng góp mới của luận án
Những đóng góp mới về mặt học thuật, lý luận
Thứ nhất: Luận án sử dụng phương pháp tiếp cận mới thông qua việc xây dựng khung lý thuyết đa ngành liên kết hệ thống các tầng lý thuyết về Hệ thống trí tuệ doanh nghiệp (Business Intelligence – BI), Phân tích học tập, Học máy và Dự báo nhằm làm rõ vai trò, cấu trúc và nguyên lý vận hành của hệ thống BI trong giáo dục có tích hợp chức năng dự báo và dựa trên dữ liệu người học.
165
Thứ hai: Luận án đã mở rộng cơ sở lý thuyết về hệ thống BI trong giáo dục thông qua việc đề xuất một mô hình hệ thống tập trung vào hai năng lực cốt lõi còn thiếu vắng trong các nghiên cứu trước: (i) khả năng dự báo dựa trên dữ liệu người học và (ii) khả năng tự phục vụ thông minh dựa trên ứng dụng trí tuệ nhân tạo (AI). Mô hình được cụ thể hóa trên ba khía cạnh: (1) Kiến trúc hệ thống được kế thừa và điều chỉnh từ các nghiên cứu của Kimball, van Dyk (2008), Muntean và cộng sự (2010), Scholtz và cộng sự (2018); (2) Quy trình phát triển hệ thống vận dụng có chọn lọc mô hình của Moss và Atre (2003); (3) Logic phân tích và dự báo được tổ chức theo cấu trúc SIPOC từ nghiên cứu của Villegas–Ch và cộng sự (2020). Mô hình được điều chỉnh để phù hợp với điều kiện hạ tầng dữ liệu, năng lực công nghệ và yêu cầu triển khai thực tiễn tại các cơ sở giáo dục đại học (CSGD ĐH) Việt Nam, bảo đảm tính khả thi, linh hoạt, khả năng mở rộng và năng lực phân tích thông minh.
Thứ ba: Luận án đề xuất một phương pháp dự báo động cho phép lựa chọn linh hoạt thuật toán phân loại và dữ liệu môn học đầu vào trong quá trình dự báo sớm kết quả học tập. Tính linh hoạt này giúp hệ thống thích ứng với những thay đổi thường xuyên trong chương trình đào tạo đại học. Đồng thời, luận án xây dựng mô hình mạng nơ-ron học sâu nhằm hỗ trợ dự báo lựa chọn chuyên ngành, kết hợp dữ liệu học thuật và phi học thuật từ quy trình đào tạo và đặc điểm tuyển sinh tại Việt Nam. Mặc dù mới thử nghiệm tại một đơn vị, kết quả bước đầu cho thấy mô hình có tiềm năng ứng dụng rộng rãi trong các CSGD ĐH khác trên toàn quốc.
Thứ tư: Luận án sử dụng phương pháp nghiên cứu hỗn hợp, kết hợp ba phương pháp: (1) tổng hợp lý thuyết, (2) nghiên cứu định tính để phân tích bối cảnh thực tiễn và (3) Design Science Research (DSR) trong thiết kế mô hình và phát triển hệ thống. Nghiên cứu dựa trên hai nguồn dữ liệu chính: 36 báo cáo kiểm định chất lượng giáo dục đại học (2018–2023) và dữ liệu người học từ một trường đại học (2015–2021). Các nguồn dữ liệu này đóng vai trò then chốt, làm cơ sở cho quá trình thiết kế, triển khai và cung cấp bằng chứng thực nghiệm, đánh giá tính hiệu quả của mô hình dự báo được đề xuất trong luận án.
Những phát hiện, đề xuất mới rút ra được từ kết quả nghiên cứu, khảo sát của luận án
Luận án đã đề xuất mô hình hệ thống BI tích hợp tính năng dự báo dành riêng cho các CSGD ĐH Việt Nam. Mô hình có khả năng tích hợp với hệ thống dữ liệu hiện có, vận hành linh hoạt nhờ công nghệ hiện đại. Điểm nổi bật là việc thử nghiệm thành công mô hình hệ thống có tính năng dự báo động và sử dụng mạng nơ-ron học sâu để hỗ trợ sinh viên lựa chọn chuyên ngành dựa trên cả dữ liệu học thuật và phi học thuật.
166
Các CSGD ĐH nên triển khai hệ thống BI dự báo để hỗ trợ quản trị, cảnh báo sớm rủi ro học tập và cá nhân hóa tư vấn học tập. Nhà quản lý cần ưu tiên đầu tư hạ tầng dữ liệu và đào tạo nhân lực phân tích dữ liệu phù hợp với bối cảnh tự chủ và chuyển đổi số. Nghiên cứu của luận án cũng mở ra hướng nghiên cứu mới về ứng dụng AI trong giáo dục đại học Việt Nam.
3. Hạn chế và hướng phát triển
Kết quả nghiên cứu của luận án về cơ bản đã trả lời được các câu hỏi nghiên cứu và bổ sung tri thức vào các khoảng trống nghiên cứu, đặt nền tảng cho việc nghiên cứu, triển khai và ứng dụng hệ thống BI nói chung và hệ thống BI dự báo dựa trên dữ liệu người học nói riêng tại CSGD ĐH Việt Nam. Tuy nhiên, kết quả nghiên cứu còn nhiều hạn chế và đây cũng là hướng phát triển tiếp theo của luận án.
Hạn chế về dữ liệu: Luận án chưa tập trung nhiều vào dạng dữ liệu động của người học, dữ liệu hành vi được thu thập từ các hệ thống học và hỗ trợ học tập trực tuyến. Dữ liệu về tình trạng học tập của người học được phân loại thành bốn khía cạnh: (1) dữ liệu hành vi học tập, trong đó dữ liệu được theo dõi giữa người học và môi trường học tập; (2) dữ liệu cảm xúc, trong đó dữ liệu được thu thập từ tâm lý và sinh lý của người học trong quá trình học trực tuyến; (3) dữ liệu mạng học tập là loại thứ ba, trong đó dữ liệu được thu thập từ sự tương tác của người học với những người khác trong học tập trực tuyến; (4) dữ liệu về trình độ học tập thu thập từ các kỳ thi hoặc kết quả mà học sinh đạt được. Dữ liệu hành vi học tập và dữ liệu trình độ học tập là hai loại dữ liệu phân tích liên quan đến người học được tìm thấy chủ yếu trong LMS. Dữ liệu hành vi học tập cũng được tìm thấy chủ yếu trong môi trường học tập ảo và môi trường dựa trên web trong khi loại dữ liệu được sử dụng nhiều nhất trong môi trường dựa trên máy tính là dữ liệu mạng học tập. Đây cũng là một mảng dữ liệu quan trọng được khai thác trong các nghiên cứu về LA/EDM. Hạn chế này bắt nguồn từ các yếu tố khách quan, cụ thể là: (1) mức độ phổ biến của các hệ thống LMS và môi trường học tập ảo tại các CSGD ĐH ở Việt Nam; và (2) các thách thức về tính khả thi của hệ thống. Đối với các hệ thống Business Intelligence (BI) khi xử lý dữ liệu học có khối lượng lớn, tính động và thường xuyên thay đổi theo thời gian đòi hỏi dữ liệu phải được cập nhật liên tục với tần suất dày đặc hoặc hệ thống BI phải có khả năng xử lý dữ liệu theo thời gian thực do đó sẽ yêu cầu công nghệ xử lý phức tạp và chi phí để quản trị một kho dữ liệu lớn có thể rất cao.
Hạn chế về thử nghiệm: Việc xây dựng, phát triển hệ thống thông tin là một quá trình phức tạp, đòi hỏi nhiều nỗ lực về thời gian và chi phí. Luận án về cơ bản đã thử nghiệm được hệ thống BI dự báo dựa trên dữ liệu người học với các tính năng lõi. Những
167
kết quả thử nghiệm này cho thấy tính khả thi của mô hình hệ thống đã đề xuất. Tuy nhiên, vì khả năng tài chính và thời gian giới hạn, còn nhiều khía cạnh dự báo vẫn đang được tiếp tục nghiên cứu, nhiều tính năng vẫn đang được hoàn thiện và phát triển để khai thác tối đa năng lực của hệ thống.
Hạn chế về đánh giá hệ thống: Việc đề xuất giải pháp cho hệ thống không thể thiếu hoạt động đánh giá. Thực hiện đánh giá hệ thống một cách có hệ thống và liên tục sẽ giúp tổ chức tối ưu hóa hiệu quả vận hành, đảm bảo an ninh và nâng cao trải nghiệm người dùng. Đánh giá hệ thống sẽ bao gồm nhiều bước và theo nhiều tiêu chí khác nhau như đã được nêu trong khuyến nghị. Hiệu quả của hệ thống là tiêu chí rất quan trọng để đo lường mức độ mà sản phẩm hoạt động đúng như mong đợi, giúp người dùng thành công trong việc thực hiện nhiệm vụ của mình. Tuy nhiên, để biết được mức độ mà hệ thống BI dự báo dựa trên dữ liệu người học có thể giúp được các nhà quản lý trong việc thực hiện hoạt động ra quyết định, đáp ứng mục tiêu và chiến lược của tổ chức cần phải có khoảng thời gian vận hành đủ lâu. Do vậy mặc dù đã có những đánh giá tích cực từ phía người dùng là lãnh đạo của CSGD ĐH tuy nhiên hoạt động đánh giá sẽ phải được lặp lại nhiều lần trong tương lại với đầy đủ tiêu chí đánh giá để đánh giá được toàn diện, thực hiện các cải tiến nếu có và theo dõi tiến trình để đảm bảo rằng các thay đổi mang lại hiệu quả mong muốn và mang lại sự thành công của hệ thống.
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
1. (2022), 'A Proposed Business Intelligence Framework for Autonomous and Non– public Higher Education Institutions in Vietnam', In Intelligent Systems and Networks: Selected Articles from ICISN 2022, Vietnam (pp. 168–177). Singapore: Springer Nature Singapore.
2. (2023), March, 'Predicting Student Study Performance in a Business Intelligence System', The International Conference on Intelligent Systems & Networks (pp. 346– 355). Singapore: Springer Nature Singapore.
3. (2024) “Automation Process for Learning Outcome Predictions”, International Journal of Advanced Computer Science and Applications (IJACSA), 15(2), 2024. http://dx.doi.org/10.14569/IJACSA.2024.0150291.
4. (2022), 'Nghiên cứu giải pháp hệ thống BI cho cơ sở giáo dục đại học trong bối cảnh chuyển đổi số, thử nghiệm tại đại học Greenwich Việt Nam', Hội thảo quốc gia: Giải pháp phát triển kinh tế số và thương mại điện tử bền vững cho Việt Nam.
168
TÀI LIỆU THAM KHẢO
1.
Abduldaem, A. & Gravell, A. M. (2021), 'Success Factors of Business Intelligence and Performance Dashboards to Improve Performance in Higher Education', ICEIS (2).
2.
Abosamra, G. & Faloudah, A. (2019), 'Machine learning based marks prediction to support recommendation of optimum specialization and study track', International Journal of Computer Applications, 975, 8887.
3.
Adekitan, A. I. & Noma–Osaghae, E. (2019), 'Data mining approach to predicting the
performance of first year student in a university using the admission requirements', Education and Information Technologies, 24, 1527–1543.
4.
Adekitan, A. I. & Salau, O. (2019), 'The impact of engineering students' performance in the first three years on their graduation result using educational data mining', Heliyon, 5(2).
5.
Adnan, M., Habib, A., Ashraf, J., Mussadiq, S., Raza, A. A., Abid, M., Bashir, M. & Khan, S. U. (2021), 'Predicting at–risk students at different percentages of course length for early intervention using machine learning models', Ieee Access, 9, 7519–7539.
6.
Agustiono, W. (2019), 'Academic business intelligence: can a small and medium–sized University Afford to build and deploy it within limited resources', J. Inf. Syst. Eng. Bus. Intell, 5(1), 1–12.
7.
Al Ahmar, M. A. (2012), 'A prototype rule–based expert system with an object–oriented database for university undergraduate major selection', Proceeding of International Journal of Applied Information Systems (IJAIS), 1–5.
8.
Al Breiki, B., Zaki, N. & Mohamed, E. A. (2019), 'Using educational data mining techniques to predict student performance', 2019 International Conference on Electrical and Computing Technologies and Applications (ICECTA).
9.
Al Farsi, B. A. & Saini, D. K. (2015), 'Business intelligence design model (BIDM) for university', International Journal of Computer Applications, 111(14).
10. Al Rashdi, S. S. & Nair, S. S. K. (2017), 'A business intelligence framework for Sultan Qaboos University: A case study in the Middle East', Journal of Intelligence Studies in Business, 7(3).
11. Al–Shalabi, L. (2019), 'A Data Mining Model for Students’ Choice of College Major
Based on Rough Set Theory', J. Comput. Sci, 15, 1150–1160.
12. Alam, T. M., Mushtaq, M., Shaukat, K., Hameed, I. A., Umer Sarwar, M. & Luo, S. (2021), 'A novel method for performance measurement of public educational institutions using machine learning models', Applied Sciences, 11(19), 9296.
169
13. Alangari, N. & Alturki, R. (2020), 'Predicting students final GPA using 15 classification algorithms', Romanian Journal of Information Science and Technology, 23(3), 238–249.
14. Albert, B. & Tullis, T. (2013), Measuring the user experience: collecting, analyzing,
and presenting usability metrics, Newnes.
15. Aldowah, H., Al–Samarraie, H. & Fauzy, W. M. (2019), 'Educational data mining and learning analytics for 21st century higher education: A review and synthesis', Telematics and Informatics, 37, 13–49.
16. Alghamdi, S., Alzhrani, N. & Algethami, H. (2019), 'Fuzzy–Based Recommendation
System for University Major Selection', IJCCI.
17. Alsayed, A. O., Rahim, M. S. M., AlBidewi, I., Hussain, M., Jabeen, S. H., Alromema, N., Hussain, S. & Jibril, M. L. (2021), 'Selection of the right undergraduate major by students using supervised learning techniques', Applied Sciences, 11(22), 10639.
18. Altujjar, Y., Altamimi, W., Al–Turaiki, I. & Al–Razgan, M. (2016), 'Predicting critical courses affecting students performance: a case study', Procedia Computer Science, 82, 65–71.
19. Alwarthan, S. A., Aslam, N. & Khan, I. U. (2022), 'Predicting student academic performance at higher education using data mining: a systematic review', Applied Computational Intelligence and Soft Computing, 2022.
20. Alyahyan, E. & Düşteaör, D. (2020), 'Decision Trees for Very Early Prediction of Student's Achievement', 2020 2nd International Conference on Computer and Information Sciences (ICCIS).
21. Anardani, S., Stt, L. S. & Maghfur, A. (2019), 'Analysis of business intelligence system
design for student performance monitoring', Journal of Physics: Conference Series,
22. Apraxine, D. & Stylianou, E. (2017), 'Business intelligence in a higher educational institution: The case of University of Nicosia', 2017 IEEE Global Engineering Education Conference (EDUCON).
23. Arizmendi, C. J., Bernacki, M. L., Raković, M., Plumley, R. D., Urban, C. J., Panter, A., Greene, J. A. & Gates, K. M. (2023), 'Predicting student outcomes using digital logs of learning behaviors: Review, current standards, and suggestions for future work', Behavior research methods, 55(6), 3026–3054.
24. Arteaga, I. H., Puin, M. E. U., Garrido, F. B., Paez, J. P., Méndez, J. C. & Alvarez, A. (2020), 'Model for the collection and analysis of data from teachers and students supported by Academic Analytics', Procedia Computer Science, 177, 284–291.
170
25. Avella, J. T., Kebritchi, M., Nunn, S. G. & Kanai, T. (2016), 'Learning analytics methods, benefits, and challenges in higher education: A systematic literature review', Online Learning, 20(2), 13–29.
26. Aziz, A. A., Idris, W., Hassan, H. & Jusoh, J. A. (2012), 'Intelligent System for Personalizing Students’ Academic Behaviors–A Conceptual Framework', International Journal on New Computer Architectures and Their Applications, 2(1), 138–153.
27. Aziz, A. A., Jusoh, J. A., Hassan, H., Wan Idris, W. M. R., Md Zulkifli, A. P. & Mohamed Yusof, S. A. (2014), 'A framework for educational data warehouse (edw) architecture using business intelligence (bi) technologies', Journal of Theoretical & Applied Information Technology, 69(1).
28.
Baepler, P. & Murdoch, C. J. (2010), 'Academic analytics and data mining in higher education', International Journal for the Scholarship of Teaching and Learning, 4(2), 17.
29. Bakhshinategh, B., Zaiane, O. R., ElAtia, S. & Ipperciel, D. (2018), 'Educational data mining applications and tasks: A survey of the last 10 years', Education and Information Technologies, 23, 537–553.
30. Baradwaj, B. K. & Pal, S. (2012), 'Mining educational data to analyze students'
performance', arXiv preprint arXiv:1201.3417.
31. Bautista, R. M., Dumlao, M., Ballera, M. A. & City, V.–Q. (2016), 'Recommendation system for engineering students’ specialization selection using predictive modeling', The Third International Conference on Computer Science, Computer Engineering, and Social Media (CSCESM2016).
32. Bello, F. A., Kóhler, J., Hinrechsen, K., Araya, V., Hidalgo, L. & Jara, J. L. (2020), 'Using machine learning methods to identify significant variables for the prediction of first–year Informatics Engineering students dropout', 2020 39th International Conference of the Chilean Computer Science Society (SCCC).
33. Bentley, D. (2017), 'Business intelligence and Analytics', Internet, link: https://www.
pdfdrive. com/business–intelligence–and–analytics–e56416503. html.
34. Bessa, J., Branco, F., Costa, A., Martins, J. & Gonçalves, R. (2016), 'A multidimensional information system architecture proposal for management support in Portuguese Higher Education: The university of Tras–os–Montes and Alto Douro case study', 2016 11th Iberian conference on information systems and technologies (CISTI).
35. Blackmon, S. J. & Moore, R. L. (2020), 'A framework to support interdisciplinary engagement with learning analytics', Adoption of data analytics in higher education learning and teaching, 39–52.
171
36. Boulila, W., Al–Kmali, M., Farid, M. & Mugahed, H. (2023), 'A business intelligence based solution to support academic affairs: case of Taibah University', Wireless Networks, 1–8.
37. Bressane, A., Spalding, M., Zwirn, D., Loureiro, A. I. S., Bankole, A. O., Negri, R. G., de Brito Junior, I., Formiga, J. K. S., Medeiros, L. C. d. C. & Pampuch Bortolozo, L. A. (2022), 'Fuzzy artificial intelligence—Based model proposal to forecast student
performance and retention risk in engineering education: An alternative for handling with small data', Sustainability, 14(21), 14071.
38. Caraiani, C. & Dumitrana, M. (2005), 'Contabilitate de gestiune & control de gestiune',
Ed. InfoMega, Bucharest.
39. Chen, M. (2012), 'Applying business intelligence in higher education sector: conceptual
models and users acceptance'.
40. Colbran, S. & Al–Ghreimil, N. (2013), The role of information technology in supporting quality teaching and learning, In Higher education in Saudi Arabia: Achievements, challenges and opportunities, Springer, 73–82.
41. Daniel, B. (2015), 'B ig D ata and analytics in higher education: Opportunities and
challenges', British journal of educational technology, 46(5), 904–920.
42.
de Sá Mussa, M., de Souza, S. C., da Silva Freire, E. F., Cordeiro, R. G. & da Hora, H.
R. M. (2018), 'Business intelligence in education: an application of Pentaho software', Revista Produção e Desenvolvimento, 4(3), 29–41.
43. DeLone, W. H. & McLean, E. R. (2003), 'The DeLone and McLean model of information systems success: a ten–year update', Journal of management information systems, 19(4), 9–30.
44. Devasia, T., Vinushree, T. & Hegde, V. (2016), 'Prediction of students performance using Educational Data Mining', 2016 international conference on data mining and advanced computing (SAPIENCE).
45. Dhar, J. & Jodder, A. K. (2020), 'An Effective Recommendation System to Forecast the Best Educational Program Using Machine Learning Classification Algorithms', Ingénierie des Systèmes d Inf., 25(5), 559–568.
46. Đinh, C. D., (2018), Nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập, Đại học Quốc Gia Hà Nội.
47. Dresner, H. (2009), Profiles in performance: Business intelligence journeys and the
roadmap for change, John Wiley & Sons.
172
48.
Ezz, M. & Elshenawy, A. (2020), 'Adaptive recommendation system using machine learning algorithms for predicting student’s best academic program', Education and Information Technologies, 25(4), 2733–2746.
49.
Falakmasir, M. H., Moaven, S., Abolhassani, H. & Habibi, J. (2010), 'Business
intelligence in e–learning:(case study on the Iran university of science and technology dataset)', The 2nd international conference on software engineering and data mining.
50.
Few, S. (2006), Information dashboard design: The effective visual communication of data, O'Reilly Media, Inc.
51.
Francis, B. K. & Babu, S. S. (2019), 'Predicting academic performance of students using a hybrid data mining approach', Journal of medical systems, 43(6), 162.
52. Guster, D. & Brown, C. G. (2012), 'The application of business intelligence to higher education: Technical and managerial perspectives', Journal of Information Technology Management, 23(2), 42–62.
53. Guzmán–Valenzuela, C., Gómez–González, C., Rojas–Murphy Tagle, A. & Lorca– Vyhmeister, A. (2021), 'Learning analytics in higher education: a preponderance of analytics but very little learning?', International Journal of Educational Technology in Higher Education, 18, 1–19.
54. Hamed, M., Mahmoud, T., Gómez, J. M. & Kfouri, G. (2017), 'Using data mining and business intelligence to develop decision support systems in Arabic higher education institutions', Modernizing Academic Teaching and Research in Business and Economics: International Conference MATRE 2016, Beirut, Lebanon.
55. Hariguna, T., Harahap, E. P. & Salsabila, S. (2019), 'Implementation of business intelligence using highlights in the yii framework based attendance assessment system', Aptisi Transactions On Technopreneurship (ATT), 1(2), 109–116.
56. Hashim, A. S., Awadh, W. A. & Hamoud, A. K. (2020), 'Student performance prediction model based on supervised machine learning algorithms', IOP conference series: materials science and engineering.
57. Hassan, S. M. & Al–Razgan, M. S. (2016), 'Pre–university exams effect on students GPA: a case study in IT department', Procedia Computer Science, 82, 127–131.
58. He, W. (2013), 'Examining students’ online interaction in a live video streaming environment using data mining and text mining', Computers in Human behavior, 29(1), 90–102.
59. Hung, J.–L. & Zhang, K. (2008), 'Revealing online learning behaviors and activity patterns and making predictions with data mining techniques in online teaching', MERLOT Journal of Online Learning and Teaching.
173
60. Hussain, M., Zhu, W., Zhang, W. & Abidi, S. M. R. (2018), 'Student Engagement Predictions in an e‐Learning System and Their Impact on Student Course Assessment Scores', Computational intelligence and neuroscience, 2018(1), 6347186.
61. Huynh–Cam, T.–T., Chen, L.–S. & Le, H. (2021), 'Using decision trees and random forest algorithms to predict and determine factors contributing to first–year university students’ learning performance', Algorithms, 14(11), 318.
62.
Ifenthaler, D. & Yau, J. Y.–K. (2020), 'Utilising learning analytics to support study success in higher education: a systematic review', Educational Technology Research and Development, 68(4), 1961–1990.
63.
Imran, M., Latif, S., Mehmood, D. & Shah, M. S. (2019), 'Student academic performance prediction using supervised learning techniques', International Journal of Emerging Technologies in Learning, 14(14).
64.
Injadat, M., Moubayed, A., Nassif, A. B. & Shami, A. (2020), 'Multi–split optimized bagging ensemble model selection for multi–class educational data mining', Applied Intelligence, 50(12), 4506–4528.
65.
Iqbal, Z., Qadir, J., Mian, A. N. & Kamiran, F. (2017), 'Machine learning based student grade prediction: A case study', arXiv preprint arXiv:1708.08744.
66.
Iyer, S. & Variawa, C. (2019), 'Using machine learning as a tool to help guide undeclared/undecided first–year engineering students towards a discipline', Proceedings of the Canadian Engineering Education Association (CEEA).
67.
Jantakun, K., Jantakun, T. & Jantakoon, T. (2022), 'The architecture of system for
predicting student performance based on data science approaches (SPPS–DSA architecture)', Int. J. Inf. Educ. Technol, 12(8), 778–785.
68.
Javier, K., (2017), Higher education meets business intelligence, Western Oregon University.
69.
Jayakody, J. & Perera, I. (2016), 'Enhancing competencies of less–able students to achieve learning outcomes: Learner aware tool support through Business intelligence', 2016 IEEE international conference on teaching, assessment, and learning for engineering (TALE).
70.
Jeong, H. & Biswas, G. (2008), 'Mining student behavior models in learning–by– teaching environments', Educational data mining 2008.
71.
Jia, P. & Maloney, T. (2015), 'Using predictive modelling to identify students at risk of poor university outcomes', Higher Education, 70, 127–149.
174
72.
Jooste, C., Van Biljon, J. & Mentz, J. (2014), 'Usability evaluation for Business Intelligence applications: A user support perspective', South African Computer Journal, 53(si–1), 32–44.
73. Kamal, N., Sarker, F. & Mamun, K. A. (2020), 'A comparative study of machine learning approaches for recommending university faculty', 2020 2nd International Conference on Sustainable Technologies for Industry 4.0 (STI).
74. Kamal, P. & Ahuja, S. (2019), 'An ensemble–based model for prediction of academic performance of students in undergrad professional course', Journal of Engineering, Design and Technology, 17(4), 769–781.
75. Kew, S. N. & Tasir, Z. (2022), 'Learning analytics in online learning environment: A systematic review on the focuses and the types of student–related analytics data', Technology, Knowledge and Learning, 27(2), 405–427.
76. Khan, A. & Ghosh, S. K. (2021), 'Student performance analysis and prediction in classroom learning: A review of educational data mining studies', Education and Information Technologies, 26(1), 205–240.
77. Khasanah, A. U. (2017), 'A comparative study to predict student’s performance using educational data mining techniques', IOP Conference Series: Materials Science and Engineering.
78. Khatibi, V., Keramati, A. & Shirazi, F. (2020), 'Deployment of a business intelligence model to evaluate Iranian national higher education', Social Sciences & Humanities Open, 2(1), 100056.
79. Kimball, R. & Ross, M. (2013), The data warehouse toolkit: The definitive guide to
dimensional modeling, John Wiley & Sons.
80. Kiss, B., Nagy, M., Molontay, R. & Csabay, B. (2019), 'Predicting dropout using high school and first–semester academic achievement measures', 2019 17th international conference on emerging eLearning technologies and applications (ICETA).
81. Kleesuwan, S., Mitatha, S., Yupapin, P. P. & Piyatamrong, B. (2010), 'Business intelligence in Thailand's higher educational resources management', Procedia–Social and Behavioral Sciences, 2(1), 84–87.
82. Kumaran, S. R., Othman, M. S. & Yusuf, L. M. (2015), 'Applying Theory of Constraints (TOC) in business intelligence of higher education: A case study of postgraduates by research program', 2015 International Conference on Science in Information Technology (ICSITech).
83.
Lang, C., Siemens, G., Wise, A. & Gasevic, D. (2017), Handbook of learning analytics, SOLAR, Society for Learning Analytics and Research New York.
175
84.
Latifah, S. N., Andreswari, R. & Hasibuan, M. A. (2019), 'Prediction analysis of Student specialization suitability using artificial neural network algorithm', 2019 International Conference on Sustainable Engineering and Creative Computing (ICSECC).
85.
Laudon, K. C. & Laudon, J. P. (2004), Management information systems: Managing the digital firm, Pearson Educación.
86.
Lê, X. L., (2020), Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên, Đại học Quốc gia Hà Nội.
87.
Linthicum, D. S. (2000), Enterprise application integration, Addison–Wesley Professional.
88.
Liu, W. (2019), 'An Improved Back–Propagation Neural Network for the Prediction of International Journal of Emerging
College Students' English Performance', Technologies in Learning, 14(16).
89.
Liyang, T., Zhiwei, N., Zhangjun, W. & Li, W. (2011), 'A conceptual framework for business intelligence as a service (saas bi)', 2011 Fourth International Conference on Intelligent Computation Technology and Automation.
90.
Luhn, H. P. (1958), 'A business intelligence system', IBM Journal of research and development, 2(4), 314–319.
91.
Lương, N. T., Phạm, N. H. N., Võ, H. Q. Đ. & Đặng, T. T. (2017), 'Hệ khuyến nghị trong dự đoán sở thích người dùng ứng dụng trong kinh doanh thông minh', CITA.
92. Maia, A., Portela, F. & Santos, M. F. (2018), 'Web intelligence in higher education: A study on the usage of business intelligence techniques in education', 2018 6th International Conference on Future Internet of Things and Cloud Workshops (FiCloudW).
93. Manjunath, T., Hegadi, R. S., Umesh, I. & Ravikumar, G. (2011), 'Design and Analysis of DWH and BI in Education Domain', International Journal of Computer Science Issues (IJCSI), 8(2), 545.
94. McCuaig, J. & Baldwin, J. (2012), 'Identifying Successful Learners from Interaction
Behaviour', International Educational Data Mining Society.
95. Meng, Y. & Fu, M. (2021), 'CMRS: Towards Intelligent Recommendation for Choosing College Majors', Proceedings of the 4th International Conference on Advances in Image Processing, Chengdu, China. https://doi.org/10.1145/3441250.3441272.
96. Mengash, H. A. (2020), 'Using data mining techniques to predict student performance to support decision making in university admission systems', Ieee Access, 8, 55462– 55470.
176
97. Menolli, A., Horita, F., Dias, J. J. L. & Coelho, R. (2020), 'BI–based methodology for analyzing higher education: A case study of dropout phenomenon in information systems courses', Proceedings of the XVI Brazilian Symposium on Information Systems.
98. Morais, P. & Lopes, F. C. (2019), 'Implementing a Business Information System to improve the quality assurance mechanisms in a Portuguese higher education institution', INTED2019 Proceedings.
99. Moscoso–Zea, O., Castro, J., Paredes–Gualtor, J. & Luján–Mora, S. (2019), 'A hybrid infrastructure of enterprise architecture and business intelligence & analytics for knowledge management in education', IEEE access, 7, 38778–38788.
100. Moss, L. T. & Atre, S. (2003), Business intelligence roadmap: the complete project
lifecycle for decision–support applications, Addison–Wesley Professional.
101. Muntean, M., Bologa, A.–R., Bologa, R. & Florea, A. (2011), 'Business intelligence systems in support of university strategy', Recent Researches in Educational Technologies, 118–123.
102. Muntean, M., Sabau, G., Bologa, A., Surcel, T. & Florea, A. (2010), 'Performance dashboards for universities', Proceedings of the 2nd international conference on manufacturing engineering, quality and production systems.
103. Muriithi, G. & Kotzé, J. (2013), 'A conceptual framework for delivering cost effective business intelligence solutions as a service', Proceedings of the South African Institute for Computer Scientists and Information Technologists Conference.
104. Nidhishree, M. & Badar, P. (2019), 'Study on Web Intelligence in Higher Education: A Review on Business Intelligence Techniques, Frameworks and Usage', Perspectives in Communication, Embedded–systems and Signal–processing–PiCES, 3(1), 9–14.
105. Niño, H. A. C., Niño, J. P. C. & Ortega, R. M. (2020), 'Business intelligence governance framework in a university: Universidad de la costa case study', International Journal of Information Management, 50, 405–412.
106. Niyogisubizo, J., Liao, L., Nziyumva, E., Murwanashyaka, E. & Nshimyumukiza, P. C. (2022), 'Predicting student's dropout in university classes using two–layer ensemble machine learning approach: A novel stacked generalization', Computers and Education: Artificial Intelligence, 3, 100066.
107. Ortiz, L. & Hallo, M. (2019), 'Analytical Data Mart for the Monitoring of University Accreditation Indicators', 2019 IEEE World Conference on Engineering Education (EDUNINE).
177
108. Patil, R., Salunke, S., Kalbhor, M. & Lomte, R. (2018), 'Prediction system for student performance using data mining classification', 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA).
109. Peffers, K., Tuunanen, T., Rothenberger, M. A. & Chatterjee, S. (2007), 'A design information systems research', Journal of
science research methodology for management information systems, 24(3), 45–77.
110. Peña–Ayala, A. (2014), 'Educational data mining: A survey and a data mining–based analysis of recent works', Expert systems with applications, 41(4), 1432–1462.
111. Phung, T. K. & Hai, D. P. (2019), 'Assessing the organizational readiness for implementing BI systems in ERP environment', Science & Technology Development Journal: Economics–Law & Management, 3(1), 58–67.
112. Phương, N. T. T. & Thành, H. T. (2020), 'Giải pháp hệ quản trị thông minh và hỗ trợ ra quyết định trong kế toán quản trị', Tạp chí khoa học đại học mở thành phố hồ chí minh– khoa học xã hội, 15(1), 165–182.
113. Piedade, M. B. & Santos, M. Y. (2010), 'Business intelligence in higher education: Enhancing the teaching–learning process with a SRM system', 5th Iberian conference on information systems and technologies.
114. Powar, V., Girase, S., Mukhopadhyay, D., Jadhav, A., Khude, S. & Mandlik, S. (2017), 'Analysing recommendation of colleges for students using data mining techniques', 2017 International Conference on Advances in Computing, Communication and Control (ICAC3).
115. Preece, J., Rogers, Y., Sharp, H., Benyon, D., Holland, S. & Carey, T. (1994), Human–
computer interaction, Addison–Wesley Longman Ltd.
116. Putpuek, N., Rojanaprasert, N., Atchariyachanvanich, K. & Thamrongthanyawong, T. (2018), 'Comparative study of prediction models for final GPA score: a case study of Rajabhat Rajanagarindra University', 2018 IEEE/ACIS 17th international conference on computer and information science (ICIS).
117. Ranjan, J. & Malik, K. (2007), 'Effective educational process: a data‐mining approach',
Vine, 37(4), 502–515.
118. Redman, T. C. (2001), Data quality: the field guide, Digital press.
119. Retalis, S., Papasalouros, A., Psaromiligkos, Y., Siscos, S. & Kargidis, T. (2006), 'Towards networked learning analytics–A concept and a tool', Proceedings of the fifth international conference on networked learning.
120. Romero, C. & Ventura, S. (2007), 'Educational data mining: A survey from 1995 to
2005', Expert systems with applications, 33(1), 135–146.
178
121. Romero, C. & Ventura, S. (2010), 'Educational data mining: a review of the state of the art', IEEE Transactions on Systems, Man, and Cybernetics, Part C (applications and reviews), 40(6), 601–618.
122. Romero, C. & Ventura, S. (2013), 'Data mining in education', Wiley Interdisciplinary
Reviews: Data mining and knowledge discovery, 3(1), 12–27.
123. Rubin, J. & Chisnell, D. (2008), Handbook of usability testing: How to plan, design, and
conduct effective tests, John Wiley & Sons.
124. Şahin, M. & Yurdugül, H. (2020), 'The framework of learning analytics for prevention, intervention, and postvention in E–learning environments', Adoption of data analytics in higher education learning and teaching, 53–69.
125. Saini, P. & Jain, A. K. (2013), 'Prediction using classification technique for the students' enrollment process in higher educational institutions', International Journal of Computer Applications, 84(14).
126. Salaki, R. J., Kawet, C. R., Manoppo, R. & Tumimomor, F. (2015), 'Decision support systems major selection vocational high school in using fuzzy logic android–based', Int. Conf. Electr. Eng. Informatics, Its Educ.
127. Sang, L. H., Hải, N. T., Điện, T. T. & Nghe, N. T. (2020), 'Dự báo kết quả học tập bằng kỹ thuật học sâu với mạng nơ-ron đa tầng', Tạp chí Khoa học Đại học cần Thơ, 56(3), 20–28.
128. Santi, R. P. & Putra, H. (2018), 'A systematic literature review of business intelligence technology, contribution and application for higher education', 2018 International Conference on Information Technology Systems and Innovation (ICITSI).
129. Santos, G., Belloze, K. T., Tarrataca, L., Haddad, D. B., Bordignon, A. L. & Brandão, D. N. (2020), 'EvolveDTree: Analyzing student dropout in universities', 2020 International Conference on Systems, Signals and Image Processing (IWSSIP).
130. Santoso, J. T., Ginantra, N. L. W. S. R., Arifin, M., Riinawati, R., Sudrajat, D. & Rahim, R. (2021), 'Comparison of classification data mining C4. 5 and Naïve Bayes algorithms of EDM dataset', TEM Journal, 10(4), 1738–1744.
131. Sarra, A., Fontanella, L. & Di Zio, S. (2019), 'Identifying students at risk of academic failure within the educational data mining framework', Social Indicators Research, 146, 41–60.
132. Scholtz, B., Calitz, A. & Haupt, R. (2018), 'A business intelligence framework for sustainability information management in higher education', International Journal of Sustainability in Higher Education, 19(2), 266–290.
179
133. Sembiring, S., Zarlis, M., Hartama, D., Ramliana, S. & Wani, E. (2011), 'Prediction of student academic performance by an application of data mining techniques', International Conference on Management and Artificial Intelligence IPEDR.
134. Sequeira, R., Reis, A., Alves, P. & Branco, F. (2024), 'Roadmap for Implementing Business Intelligence Systems in Higher Education Institutions: Systematic Literature Review', Information, 15(4), 208.
135. Sethi, K., Jaiswal, V. & Ansari, M. D. (2020), 'Machine learning based support system for students to select stream (subject)', Recent advances in computer science and communications (Formerly: Recent patents on computer science), 13(3), 336–344.
136. Shaweta (2014), 'Critical Need of the Data Warehouse for an Educational Institution and Its Challenges', International Journal of Computer Science and Information Technologies, Vol. 5 (3) , 2014, 4556–4559.
137. Siddiqui, I. F. & Arain, Q. A. (2019), 'ANALYZING STUDENTS'ACADEMIC
PERFORMANCE THROUGH EDUCATIONAL DATA MINING', 3C Tecnologia.
138. Siemens, G. (2013), 'Learning analytics: The emergence of a discipline', American
Behavioral Scientist, 57(10), 1380–1400.
139. Slim, A., Hush, D., Ojah, T. & Babbitt, T. (2018), 'Predicting Student Enrollment Based on Student and College Characteristics', International Educational Data Mining Society.
140. Sorour, A., Atkins, A. S., Stanier, C. F. & Alharbi, F. D. (2020), 'The role of business intelligence and analytics in higher education quality: A proposed architecture', 2019 International Conference on Advances in the Emerging Computing Technologies (AECT).
141. Stallings, W. & Brown, L. (2015), Computer security: principles and practice, Pearson.
142. Stein, S. A., M. Weiss, G., Chen, Y. & Leeds, D. D. (2020), 'A College Major Recommendation System', Proceedings of the 14th ACM Conference on Recommender Systems.
143. Tanner, T. & Toivonen, H. (2010), 'Predicting and preventing student failure–using the k–nearest neighbour method to predict student performance in an online course environment', International Journal of Learning Technology, 5(4), 356–377.
144. Thanh–Nhan, H.–L., Nguyen, H.–H. & Thai–Nghe, N. (2016), 'Methods for building course recommendation systems', 2016 Eighth international conference on knowledge and systems engineering (KSE).
145. Tomasevic, N., Gvozdenovic, N. & Vranes, S. (2020), 'An overview and comparison of supervised data mining techniques for student exam performance prediction', Computers & education, 143, 103676.
180
146. Trisnawarman, D. & Imam, M. C. (2020), 'Business Intelligence Framework for Performance Measurement in Higher Education Study Programs', Jurnal Muara Sains, Teknologi, Kedokteran Dan Ilmu Kesehatan, 4(2), 249–256.
147. Tsiakmaki, M., Kostopoulos, G., Koutsonikos, G., Pierrakeas, C., Kotsiantis, S. & Ragos, O. (2018), 'Predicting university students' grades based on previous academic achievements', 2018 9th international conference on information, Intelligence, Systems and Applications (IISA).
148. Tsinidou, M., Gerogiannis, V. & Fitsilis, P. (2010), 'Evaluation of the factors that determine quality in higher education: an empirical study', Quality assurance in Education, 18(3), 227–244.
149. Tuấn, T. Q., (2017), Tìm hiểu business intelligence và áp dụng trong bài toán quản lý
kho dược phẩm, Trường Đại học Bách khoa Hà Nội.
150. Tùng, V. S. & Phong, T. T. (2022), 'Dự báo khả năng bỏ học của sinh viên: Áp dụng mô hình hồi quy binary logistic', Tạp chí Nghiên cứu Tài chính–Marketing, 117–125.
151. Ülker, G. & Coşkun, E. (2021), 'A Research on the Use of Business Intelligence and
Analytics Applications at Turkish Universities', Proceedings.
152. Uyên, N. T. & Tâm, N. M. (2019), 'Dự đoán kết quả học tập của sinh viên bằng kỹ thuật
khai phá dữ liệu', Tạp chí khoa học Đại học Vinh, vol. 48, 3A, 2019.
153. Valdiviezo–Díaz, P., Cordero, J., Reátegui, R. & Aguilar, J. (2015), 'A business intelligence model for online tutoring process', 2015 IEEE Frontiers in Education Conference (FIE).
154. van Dyk, L. (2008), 'A Data Warehouse Model for Micro‑Level Decision Making in Higher Education', Electronic Journal of e–learning, 6(3), pp235‑244–pp235‑244.
155. Van Dyk, L. & Conradie, P. (2007), 'Creating business intelligence from course
management systems', Campus–Wide Information Systems, 24(2), 120–133.
156. Vatrapu, R., Teplovs, C., Fujita, N. & Bull, S. (2011), 'Towards visual analytics for teachers' dynamic diagnostic pedagogical decision–making', Proceedings of the 1st international conference on learning analytics and knowledge.
157. Veerasamy, A. K., D’Souza, D., Apiola, M.–V., Laakso, M.–J. & Salakoski, T. (2020), 'Using early assessment performance as early warning signs to identify at–risk students in programming courses', 2020 IEEE frontiers in education conference (FIE).
158. Vercellis, C. (2011), Business intelligence: data mining and optimization for decision
making, John Wiley & Sons.
181
159. Villegas–Ch, W., Luján–Mora, S. & Buenaño–Fernandez, D. (2018), 'Towards the integration of business intelligence tools applied to educational data mining', 2018 IEEE World Engineering Education Conference (EDUNINE).
160. Villegas–Ch, W., Palacios–Pacheco, X. & Luján–Mora, S. (2020), 'A business
intelligence framework for analyzing educational data', Sustainability, 12(14), 5745.
161. Vo, T. N. C. & Nguyen, H. P. (2012), 'A knowledge–driven educational decision support system', 2012 IEEE RIVF International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future.
162. Vom Brocke, J., Hevner, A. & Maedche, A. (2020), 'Introduction to design science
research', Design science research. Cases, 1–13.
163. Wei, Y., Ni, N., Liu, D., Chen, H., Wang, M., Li, Q., Cui, X. & Ye, H. (2017), 'An improved grey wolf optimization strategy enhanced SVM and its application in predicting the second major', Mathematical Problems in Engineering, 2017(1), 9316713.
164. Welzant, H., Schindler, L., Puls–Elvidge, S. & Crawford, L. (2011), 'Definitions of quality in higher education: A synthesis of the literature', Higher learning research communications, 5(3), 2.
165. Wong, J., Baars, M., de Koning, B. B., van der Zee, T., Davis, D., Khalil, M., Houben, G.–J. & Paas, F. (2019), 'Educational theories and learning analytics: From data to knowledge: The whole is greater than the sum of its parts', Utilizing learning analytics to support study success, 3–25.
166. Xiao, M. & Yi, H. (2021), 'Building an efficient artificial intelligence model for personalized training in colleges and universities', Computer Applications in Engineering Education, 29(2), 350–358.
167. Xiao, W., Ji, P. & Hu, J. (2022), 'A survey on educational data mining methods used for
predicting students' performance', Engineering Reports, 4(5), e12482.
168. Yağcı, M. (2022), 'Educational data mining: prediction of students' academic performance
using machine learning algorithms', Smart Learning Environments, 9(1), 11.
169. Zhang, N. (2016), 'A campus big–data platform architecture for data mining and business intelligence in education institutes', 2016 6th International Conference on Machinery, Materials, Environment, Biotechnology and Computer.
170. Zohair, A. & Mahmoud, L. (2019), 'Prediction of Student’s performance by modelling small dataset size', International Journal of Educational Technology in Higher Education, 16(1), 1–18.
182
171. Zubaedah, R., Lintang, M. & Putra, N. P. (2021), 'Decision support system for departemen selection for prospective students using the naïve bayes method and analytical hierarchy process model at faculty of engineering Universitas Musamus', IOP Conference Series: Materials Science and Engineering.
172. Zulkefli, N. A., Miskon, S., Hashim, H., Alias, R. A., Abdullah, N. S., Ahmad, N., Ali, N. M. & Maarof, M. A. (2015), 'A business intelligence framework for Higher Education Institutions', ARPN J. Eng. Appl. Sci, 10(23), 18070–18077.
183
PHỤ LỤC
Phụ lục 1
Bảng phụ lục 1: Tổng hợp khuyến nghị liên quan tới hệ thống công nghệ
1
Cần xây dựng hướng dẫn chi tiết, các biểu mẫu thống kê, phân tích số liệu, các công cụ đối sánh để hỗ trợ hiệu quả quá trình tự đánh giá các chương trình đào tạo. Cần có kế hoạch phát triển hệ thống thông tin đảm bảo chất lượng bên trong, xây dựng quy trình và công cụ phân tích kết quả, dự báo xu hướng để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp.Triển khai xây dựng phần mềm quản trị tích hợp, đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin thống nhất trong liên kết dữ liệu, chú trọng việc phân tích dữ liệu thông tin để chuyển hóa một cách có hệ thống thành kiến thức, tri thức giúp đạt được các mục tiêu chiến lược của Trường.
2
Cần xây dựng các tài liệu hướng dẫn chi tiết, các biểu mẫu thống kê, phân tích số liệu, các công cụ đối sánh để hỗ trợ hiệu quả quá trình tự đánh giá. Cần rà soát và có kế hoạch phát triển hệ thống thông tin quản lý nội bộ và hệ thống thông tin công chúng để trở thành bộ não của nhà trường, xây dựng quy trình và công cụ công nghệ thông tin để phân tích xu hướng, dự báo, so sánh, phân tích nguyên nhân và kết quả, phân tích tương quan, để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp.
3
Cần rà soát và có kế hoạch phát triển hệ thống thông tin quản lý nội bộ và khai thác hiệu quả hệ thống thông tin truyền thông ra bên ngoài. Xây dựng quy trình và công cụ để phân tích xu hướng, dự báo, so sánh, phân tích, nguyên nhân và kết quả, phân tích tương quan, ... để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp.
4
Cần rà soát và có kế hoạch phát triển hệ thống thông tin quản lý nội bộ và khai thác hiệu quả hệ thống thông tin truyền thông ra bên ngoài. Xây dựng quy trình và công cụ để phân tích xu hướng, dự báo, so sánh, phân tích, nguyên nhân và kết quả, phân tích tương quan, ... để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp.
5
Cần xây dựng các quy định, tài liệu hướng dẫn chi tiết, các biểu mẫu thống kê, phân tích số liệu, các công cụ đối sánh để hỗ trợ hiệu quả quá trình tự đánh giá.
6
Cần ra soát và kế hoạch phát triển hệ thống thông thông tin đảm bảo chất lượng bên trong gồm cả hệ thống thông tin quản lý nội bộ và hệ thống thông tin công chúng. Xây dựng phần mềm tích hợp để đảm bảo sự thống nhất trong liên kết dữ liệu quản lý đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin. Khai thác tối đa ứng dụng công nghệ thông tin để xây dựng quy trình và công cụ phân tích dữ liệu (phân tích nguyên nhân và kết quả, phân tích tương quan, dự báo, so sánh, xu hướng) để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp, giúp Nhà trường đạt được các mục tiêu chiến lược.
STT Nội dung khuyến nghị
184
7
Xác định mô hình đại học số/thông minh để đầu tư công nghệ thông tin trong giai đoạn mới. Tiếp tục rà soát và có kế hoạch phát triển hệ thống thông tin đảm bảo chất lượng bên trong gồm cả hệ thống thông tin quản lý nội bộ và hệ thống thông tin công chúng/thông tin truyền thông ra bên ngoài. Hoàn thiện cơ sở dữ liệu và hệ thống chỉ số tài chính tích hợp theo yêu cầu của các hoạt động đào tạo, NCKH và phục vụ cộng đồng theo các quy định tài chính của nhà nước. Chú trọng đối sánh để cải tiến các hoạt động, các chỉ số và nâng cao ảnh hưởng thị trường. Quan tâm công tác dự báo và quản trị rủi ro.
8
Tiếp tục hoàn thiện phần mềm quản trị tích hợp để đảm bảo sự thống nhất trong liên kết dữ liệu, đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin.
9
Tích cực ứng dụng công nghệ thông tin, số hóa hệ thống thông tin đảm bảo chất lượng gắn với các chỉ số thực hiện để phát triển trường theo định hướng đại học thông minh. Hoàn thiện phần mềm quản lý đào tạo.
10
Nghiên cứu áp dụng “Thẻ điểm cân bằng” và phương pháp “Hoshin Kanri” trong xây dựng và thực hiện chiến lược.
11
Có kế hoạch phát triển hệ thống thông tin quản lý nội bộ và đối ngoại. Có các quy định, quy trình thu thập, phân tích, báo cáo và sử dụng thông tin phục vụ việc giám sát thực hiện bộ chỉ số KPI trong các lĩnh vực hoạt động. Xây dựng hệ thống quản lý tích hợp dưới dạng trang quản trị tổng hợp để đảm bảo sự thống nhất trong liên kết dữ liệu. Xây dựng quy trình và công cụ để hỗ trợ phân tích dữ liệu theo các chỉ số KPIsnhằm hỗ trợ các cấp lãnh đạo, quản lý ra quyết định kịp thời và phù hợp. Phân tích chuyên sâu các dữ liệu khảo sát để đưa ra được các khuyến cáo chất lượng.
12
Xây dựng các chỉ số đánh giá KPI về mức độ cải tiến chất lượng các mặt hoạt động cốt lõi. Quy định cụ thể các lĩnh vực đối sánh và thực hiện đối sánh, phân tích kết quả để có các thông tin hữu ích cải tiến chất lượng các hoạt động. Phân tích, nghiên cứu kết quả đối sánh để xây dựng các giải pháp và kế hoạch thúc đẩy, khuyến khích đổi mới sáng tạo.
13
Tăng cường ứng dụng công nghệ thông tin trong quản lý, quản trị. Rà soát, hoàn thiện các quy định về quản lý thông tin đảm bảo chất lượng bên trong, về an toàn, bảo mật dữ liệu.
14
15
Cải tiến hệ thống thu thập các thông tin đảm bảo chất lượng bên trong, chuẩn hoá bộ công cụ để đảm bảo độ giá trị và hướng dẫn các đơn vị liên quan phân tích, đánh giá xu hướng, dự báo để hỗ trợ ra quyết định. Định kỳ xây dựng các báo cáo tổng kết về việc thực hiện kế hoạch rà soát.
STT Nội dung khuyến nghị
185
16
Lập đề án chuyển đổi số, tăng cường ứng dụng công nghệ thông tin vào các hoạt động theo mô hình đại học thông minh. Phát triển đầy đủ hệ thống quản lý thông tin bảo đảm chất lượng bên trong để hỗ trợ các cấp ra quyết định phù hợp. Định kỳ rà soát quy trình lựa chọn, sử dụng các thông tin so chuẩn, đối sánh trong quá trình thực hiện để cải tiến chất lượng.
17
Ứng dụng mạnh mẽ công nghệ thông tin và sử dụng hiệu quả kết quả để cải tiến, nâng cao chất lượng. Sớm triển khai thực hiện tự đánh giá các chương trình đào tạo theo kế hoạch, giám sát, đối sánh đầy đủ các chỉ số đảm bảo chất lượng cho các hoạt động sau tự đánh giá. Chú trọng đảm bảo an toàn cho dữ liệu thông tin trên các phần mềm quản lý nội bộ.
18
19
Nâng cấp và bổ sung phần mềm phục vụ quản lý, đào tạo, nghiên cứu khoa học. Có biện pháp đẩy nhanh và đúng tiến độ đề án chuyển đổi số để sớm có được hệ thống thông tin quản lý thông tin đảm bảo chất lượng bên trong đầy đủ và đồng bộ, kết nối tất cả các đơn vị, bộ phận trong trường về thông tin đảm bảo chất lượng. Cần đánh giá độ tin cậy của các phương pháp và công cụ khảo sát sự hài lòng của sinh viên về hoạt động giảng dạy của giảng viên để có những điều chỉnh cải tiến nâng cao hiệu quả của hoạt động này. Nghiên cứu đổi mới “hệ thống giám sát người học” thành “hệ thống giám sát phục vụ và hỗ trợ” để giám sát quá trình, kết quả, hiệu quả phục vụ và hỗ trợ đối với người học.
20
Ban hành kế hoạch tổng thể triển khai các hoạt động phục vụ, hỗ trợ và hệ thống giám sát người học. Xây dựng hệ thống tiêu chí giám sát, đánh giá khách quan, chính xác, kịp thời đối với hoạt động phục vụ và hỗ trợ người học. Nghiên cứu xây dựng hệ thống kết nối trực tuyến trong thời gian học tập tại trường và sau khi tốt nghiệp để cải thiện năng lực phục vụ, hỗ trợ người học. Thiết lập và rà soát, đối sánh thường xuyên hơn các chỉ số thị trường ở từng mảng hoạt động nhằm cải tiến và thực hiện tốt các mục tiêu chiến lược.
21
Áp dụng sâu rộng quản trị đại học tiên tiến phù hợp với cách mạng công nghiệp 4.0, chuyển đổi số, công nghệ số, đổi mới sáng tạo. Rà soát và có kế hoạch phát triển hệ thống thông tin đảm bảo chất lượng bên trong và hệ thống thông tin truyền thông ra bên ngoài để có tính đồng bộ và đảm bảo được việc thu thập, phân tích và sử dụng những thông tin cần thiết phục vụ việc quản lý có hiệu quả những hoạt động cốt lõi.
22
STT Nội dung khuyến nghị
186
23
Tổ chức xây dựng các chỉ số, lượng hóa và đánh giá kết quả và hiệu quả tác động của các giá trị cốt lõi. Rà soát và có kế hoạch phát triển hệ thống thông tin đảm bảo chất lượng bên trong và hệ thống thông tin truyền thông ra bên ngoài, đảm bảo được việc thu thập, phân tích và sử dụng những thông tin cần thiết phục vụ việc quản lý có hiệu quả những hoạt động cốt lõi trực quan hóa bằng hình ảnh, biểu đồ ... cơ sở dữ liệu đảm bảo chất lượng, đặc biệt giám sát chỉ số thực hiện kế hoạch chiến lược để hỗ trợ hiệu quả hơn trong việc phân tích, đánh giá xu hướng tạo điều kiện dễ dàng cho việc nhận định, đưa ra quyết định. Có hệ thống giám sát, theo dõi, hỗ trợ cán bộ, giảng viên thực hiện công tác hỗ trợ người học xuyên suốt, đặc biệt các điều kiện, phương tiện thực hiện công tác.
24
Tăng cường trang thiết bị và hạ tầng công nghệ thông tin, đẩy nhanh tiến độ công tác chuyển đổi số nâng cao chất lượng đào tạo, giảng dạy và nghiên cứu nhằm nâng cao năng lực công nghệ thông tin, đồng bộ hóa các phần mềm, theo mô hình đại học thông minh, đại học số hóa. Cập nhật hệ thống thu thập thông tin đảm bảo chất lượng bên trong, phân tích kết quả để có các thông tin hữu ích phục vụ cải tiến chất lượng, bao gồm cách thức thu thập dữ liệu, xử lý và trích xuất dữ liệu. Nghiên cứu đổi mới “hệ thống giám sát người học” thành “hệ thống giám sát phục vụ và hỗ trợ” để KHÔNG giám sát người học mà giám sát quá trình, kết quả, hiệu quả phục vụ và hỗ trợ đối với người học.
25
26
Cập nhật hệ thống thu thập thông tin đảm bảo chất lượng bên trong, phân tích kết quả để có các thông tin hữu ích phục vụ cải tiến chất lượng, bao gồm cách thức thu thập dữ liệu, xử lý và trích xuất dữ liệu; nghiên cứu ứng dụng hiệu quả hơn nữa công nghệ thông tin trong quản lý, quản trị đại học để hỗ trợ hiệu quả hơn nữa cho quá trình tự đánh giá và đánh giá ngoài, cải tiến chất lượng. Đẩy mạnh ứng dụng công nghệ thông tin hiệu quả trong hoạt động đảm bảo chất lượng để quản lý thống nhất các cơ sở dữ liệu đảm bảo chất lượng bên trong bao gồm các kết quả khảo sát, kết quả phân tích thông tin, số liệu để đảm bảo sẵn có, bao gồm các chỉ số thị trường để phục vụ kịp thời yêu cầu quản trị, quản lý
27
Cập nhật hệ thống thu thập thông tin đảm bảo chất lượng bên trong, phân tích kết quả để có các thông tin hữu ích phục vụ cải tiến chất lượng, bao gồm cách thức thu thập dữ liệu, xử lý và trích xuất dữ liệu. Các chỉ số chiến lược của hoạt động đảm bảo chất lượng cần đi sâu vào các chỉ số thực hiện đáp ứng yêu cầu đảm bảo chất lượng cấp cơ sở giáo dục, cấp chương trình đào tạo, trong đó, việc xác lập các chỉ số thực hiện bám sát yêu cầu của đánh giá chương trình đào tạo, cơ sở giáo dục.
STT Nội dung khuyến nghị
187
28
Xây dựng các chỉ số, lượng hóa và đánh giá kết quả và hiệu quả tác động của các giá trị cốt lõi. Quan tâm xây dựng đại học thông minh và áp dụng chuyển đổi số để tăng cường khả năng quản trị dựa theo dữ liệu và quản trị thông tin.
29
Xây dựng hệ thống quản trị khách hàng để quản lý sinh viên từ đầu vào đến khi trở thành cựu sinh viên. Có cơ chế và quy trình giám sát, kiểm tra trước, trong và sau khi tuyển sinh đến khi người học tốt nghiệp.
30
Làm rõ hệ thống giám sát người học (phần mềm quản lý; cơ sở dữ liệu đánh giá tiến trình học tập, kết quả học tập và nghiên cứu của người học).
31
Chú trọng các hoạt động khảo sát lấy ý kiến của người học làm căn cứ điều chỉnh, bổ sung các hoạt động hỗ trợ người học.
STT Nội dung khuyến nghị
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html
188
Phụ lục 2
Bảng phụ lục 2: Tổng hợp khuyến nghị liên quan tới tích hợp dữ liệu
STT
Nội dung khuyến nghị
1
Triển khai xây dựng phần mềm quản trị tích hợp, đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin thống nhất trong liên kết dữ liệu, chú trọng việc phân tích dữ liệu thông tin để chuyển hóa một cách có hệ thống thành kiến thức, tri thức giúp đạt được các mục tiêu chiến lược của Trường.
2
Đầu tư tích hợp hệ thống cơ sở dữ liệu và phần mềm phục vụ quản lý. Hoàn thiện phần mềm quản trị tích hợp để đảm bảo sự thống nhất trong liên kết dữ liệu và đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin.
3
Nghiên cứu xây dựng phần mềm quản trị tích hợp đảm bảo sự thống nhất trong liên kết và khai thác cơ sở dữ liệu để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp. Thường xuyên rà soát, đánh giá để đảm bảo chính sách, thủ tục bảo mật và an toàn cho hệ thống dữ liệu thông tin đảm bảo chất lượng bên trong.
4
5
Nghiên cứu xây dựng phần mềm quản trị tích hợp đảm bảo sự thống nhất trong liên kết và khai thác cơ sở dữ liệu để hỗ trợ các cấp lãnh đạo, quản lý ra quyết định phù hợp, thường xuyên rà soát, đánh giá để đảm bảo chính sách, thủ tục bảo mật và an toàn cho hệ thống dữ liệu thông tin đảm bảo chất lượng bên trong.
6
Đầu tư tích hợp hệ thống cơ sở dữ liệu và phần mềm phục vụ quản lý.
7
Tiếp tục hoàn thiện phần mềm quản trị tích hợp để đảm bảo sự thống nhất trong liên kết dữ liệu, đảm bảo chính sách, thủ tục bảo mật và an toàn thông tin. Việc phân tích dữ liệu tốt sẽ giúp chuyển hóa có tính hệ thống thông tin thành kiến thức, tri thức. Việc quản lý tri thức hiệu quả sẽ giúp Nhà trường đạt được các mục tiêu chiến lược của mình.
Đầu tư tích hợp hệ thống cơ sở dữ liệu và phần mềm phục vụ quản lý.
8
9
10
Xây dựng cơ sở dữ liệu tích hợp để hỗ trợ công tác lãnh đạo, quản lý và cải thiện hiệu quả công tác cố vấn học tập, hỗ trợ người học sau tốt nghiệp, nâng cao hiệu quả hoạt động kết nối cựu người học.
11
Đảm bảo sự thống nhất trong liên kết dữ liệu. Xây dựng quy trình và công cụ để hỗ trợ phân tích dữ liệu theo các chỉ số KPI nhằm hỗ trợ các cấp lãnh đạo, quản lý ra quyết định kịp thời và phù hợp. Phân tích chuyên sâu các dữ liệu khảo sát để đưa ra được các khuyến cáo chất lượng.
189
12
13
Hoàn thiện phần mềm quản lý thông tin đảm bảo chất lượng có các tính năng quản lý theo lĩnh vực/liên thông dữ liệu đảm bảo sẵn sàng trích xuất phục vụ công tác quản lý.
Đầu tư xây dựng cơ sở dữ liệu tích hợp hỗ trợ công tác lãnh đạo, quản lý.
14
Xây dựng cơ sở dữ liệu tích hợp hỗ trợ công tác lãnh đạo, quản lý.
15
16
17
Xây dựng cơ sở dữ liệu về thông tin và kết quả so chuẩn và đối sánh để phục vụ hiệu quả cho công tác quản lý, điều hành các lĩnh vực hoạt động.
18
Xây dựng cơ sở dữ liệu về thông tin và kết quả so chuẩn và đối sánh để phục vụ hiệu quả cho công tác quản lý, điều hành các lĩnh vực hoạt động. định kỳ rà soát về số lượng, chất lượng, sự thống nhất, bảo mật, an toàn của dữ liệu và thông tin.
19
Đẩy nhanh việc thực hiện đề án số hóa để xây dựng cơ sở dữ liệu đảm bảo chất lượng tích hợp, thống nhất trong toàn Trường.
20
Nghiên cứu thiết kế lựa chọn phần mềm quản lý liên thông dữ liệu để sẵn sàng trích xuất các dữ liệu/thông tin đảm bảo chất lượng bên phục vụ công tác quản lý, quản trị Nhà trường; rà soát, hoàn thiện các quy định, hướng dẫn và biện pháp đảm bảo tính bảo mật, độ an toàn của dữ liệu và thông tin.
21
22
23
24
Đẩy nhanh tiến độ hoàn thành Dự án xây dựng Hệ thống quản lý thông tin, sớm đưa vào sử dụng các phân hệ (phần mềm) có các tính năng phục vụ các hoạt động khảo sát, quản lý, liên thông dữ liệu để sẵn sàng trích xuất các dữ liệu/thông tin đảm bảo chất lượng bên trong phục vụ công tác quản lý, quản trị Nhà Trường. Ngoài ra, nên có quy định cụ thể về bảo mật, an toàn thông tin, dữ liệu, sao lưu dữ liệu và cung cấp thông tin.
25
26
27
28
29
190
30
Xây dựng cơ sở dữ liệu về thông tin và kết quả so chuẩn và đối sánh để phục vụ hiệu quả cho công tác quản lý, điều hành các lĩnh vực hoạt động.
31
32
Hoàn thiện hệ thống quản lý dữ liệu đảm bảo chất lượng bên trong, ứng dụng chuyển đổi số trong công tác đảm bảo chất lượng và kiểm định chất lượng. Rà soát và cập nhật hệ thống thu thập thông tin đảm bảo chất lượng bên trong, phân tích kết quả để có các thông tin hữu ích phục vụ cải tiến chất lượng, bao gồm cách thức thu thập dữ liệu, xử lý và trích xuất dữ liệu.
33
Hoàn thiện hệ thống quản lý dữ liệu, ra soát và cập nhật hệ thống thu thập thông tin đảm bảo chất lượng bên trong, phân tích kết quản để có thông tin hữu ích phục vụ cải tiến chất lượng.
34
Có biện pháp quản trị tích hợp cơ sở dữ liệu đảm bảo chất lượng. Phân tích được xu hướng, dự báo kết quả để hỗ trợ hiệu quả cho các cấp liên quan ra quyết định phù hợp.
35
Quản lý thống nhất các cơ sở dữ liệu đảm bảo chất lượng bên trong để phục vụ kịp thời yêu cầu quản trị, quản lý và có các đầu tư tương xứng về các điều kiện đảm bảo chất lượng, nhất là trong bối cảnh quy mô đào tạo tăng nhanh. Xây dựng hệ thống quản lý dữ liệu người học tích hợp và thông minh.
36
Có biện pháp quản trị tích hợp cơ sở dữ liệu đảm bảo chất lượng, giám sát các chỉ số thực hiện kế hoạch chiến lược.
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html
191
Phụ lục 3
Bảng phụ lục 3: Tổng hợp khuyến nghị liên quan tới tuyển sinh
STT Nội dung khuyến nghị
1
2
Tổ chức phân tích đối sánh kết quả tuyển sinh với kết quả học tập của người học để đánh giá mức độ tin cậy của các phương thức xét tuyển đã thực hiện, làm cơ sở lựa chọn phương thức xét tuyển phù hợp, đảm bảo đủ chỉ tiêu, đảm bảo yêu cầu nâng cao chất lượng đầu vào.
3
Tổng kết, đánh giá hiệu quả công tác truyền thông tuyển sinh kết hợp kết quả khảo sát việc làm của người học tốt nghiệp để cải tiến chất lượng. Hằng năm tổ chức tổng kết đánh giá toàn diện về hoạt động tuyển sinh và nhập học để đề xuất các biện pháp cải tiến.
4
Ứng dụng một cách hệ thống và triệt để hơn các nền tảng, công cụ CNTT vào hoạt động quản lý để có cải tiến kịp thời, triệt để, đồng thời có giải pháp tổng thể cho công tác tuyển sinh, hoạt động đào tạo.
5
6
Cần phân tích đầy đủ các dữ liệu tuyển sinh để có những điều chỉnh phù hợp về tiêu chí tuyển chọn và phương thức xét tuyển người học, đồng thời triển khai đánh giá toàn diện dựa trên phân tích dữ liệu có liên quan để phục vụ thổng kết tuyển sinh hàng năm.
7
8
Phân tích đa chiều kết quả tuyển sinh để xác định các nguyên nhân chủ quan và khách quan.
9
Phân tích đa chiều kết quả tuyển sinh, các dữ liệu về sự phân bố thí sinh trúng tuyển nhập học theo địa phương, theo phương thức xét tuyển, theo tổ hợp xét tuyển… để có những điều chỉnh phù hợp, nâng dần chất lượng tuyển sinh đầu vào.
10
Điều tra số liệu và dự báo nguồn nhân lực về các ngành nghề đang đào tạo để xác định và điều chỉnh chỉ tiêu.
11
Điều tra số liệu và dự báo nguồn nhân lực về các ngành nghề đang đào tạo để xác định và điều chỉnh chỉ tiêu.
12
13
192
STT Nội dung khuyến nghị
14
Tăng cường phân tích, đánh giá các kế hoạch, chính sách tuyển sinh và nhập học hằng năm theo từng chương trình đào tạo làm cơ sở cải tiến phương án tuyển sinh phù hợp hơn đối với các ngành/chuyên ngành nhiều năm chưa đạt chỉ tiêu tuyển sinh theo kế hoạch.
15
16
Tăng cường lấy ý kiến của cựu người học, nhà sử dụng lao động ... về các hình thức tuyển sinh, tiêu chí tuyển sinh, về quy trình nhập học; xem xét trong kế hoạch chiến lược xây dựng một mô hình tuyển sinh đáng tin cậy và phổ quát để lựa chọn thí sinh tiềm năng, có chất lượng đầu vào cao, phù hợp với đặc thù và thế mạnh đào tạo của nhà trường. Nghiên cứu đánh giá một cách hệ thống mối quan hệ giữa chất lượng tuyển sinh đầu vào, đánh giá quá trình và kết quả đầu ra của chương trình đào tạo.
17
18
Thực hiện đánh giá, phân tích kết quả giám sát công tác tuyển sinh và nhập học để cải tiến chất lượng.
19
Phân tích đa chiều kết quả tuyển sinh để thay đổi chính sách tuyển sinh, đảm bảo tuyển đủ số lượng theo chỉ tiêu và từng bước nâng dần chất lượng đầu vào; phân tích kỹ và đầy đủ các dữ liệu như sự phân bố thí sinh trúng tuyển nhập học theo địa phương, theo phương thức xét tuyển, theo tổ hợp xét tuyển… để có những điều chỉnh phù hợp về các nội dung có liên quan đến tiêu chí tuyển chọn và phương thức xét tuyển.
20
Phân tích kết quả giám sát công tác tuyển sinh và nhập học để cải tiến chất lượng.
21
Phân tích đánh giá đầy đủ và khai thác hiệu quả dữ liệu tuyển sinh, kết quả tuyển sinh đối với mỗi phương thức xét tuyển và tổ hợp xét tuyển, số lượng người học nhập học ở các tỉnh thành phố để có các biện pháp phù hợp nâng cao chất lượng tuyển sinh.
22
23
24
Đánh giá sự tương quan giữa kết quả tuyển sinh và kết quả học tập, kết quả đầu ra để có thể cải tiến các phương thức, tiêu chí chọn lựa người học phù hợp hơn.
25
Ngoài ra, cũng nên tổ chức khảo sát mức độ hài lòng của người học và phụ huynh về công tác tuyển sinh, nhập học để có những cải tiến theo hướng chất lượng, chính quy, nhanh gọn, chính xác và hiệu quả.
26
193
STT Nội dung khuyến nghị
27
Phân tích sâu các dữ liệu tuyển sinh để có những điều chỉnh phù hợp về các nội dung có liên quan đến tiêu chí tuyển chọn và phương thức xét tuyển.
28
Có hội nghị tổng kết chuyên đề hàng năm về công tác tuyển sinh để có phân tích đánh giá làm căn cứ cải tiến, nâng cao chất lượng đầu vào và đảm bảo thực hiện đầy đủ các quy định về công tác tuyển sinh.
29
30
Cần phân tích đa chiều kết quả tuyển sinh để thay đổi chính sách tuyển sinh và từng bước nâng cao chất lượng đầu vào.
31
32
33
Phân tích tương quan giữa kết quả tuyển sinh theo từng phương thức, tiêu chí tuyển sinh để điều chỉnh phù hợp, nâng cao hơn nữa hiệu quả tuyển sinh và chất lượng đầu vào cho các chương trình đào tạo.
34
Phân tích đa chiều kết quả tuyển sinh để có những chính sách tuyển sinh hiệu quả, nâng cao chất lượng người học.
35
Phân tích đa chiều kết quả tuyển sinh theo địa phương, theo phương thức và tổ hợp xét tuyển để có các điều chỉnh phù hợp.
36
Đổi mới nội dung tư vấn và phương thức định hướng ngành học. sử dụng hiệu quả phần mềm tuyển sinh trong công tác đánh giá, phân tích kết quả, dự báo xu hướng.
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html
194
Phụ lục 4
Bảng phụ lục 4: Tổng hợp khuyến nghị liên quan tới theo dõi giám sát hỗ trợ người học
STT Nội dung khuyến nghị
1
Cần rà soát, phân định rõ chức năng, nhiệm vụ và hỗ trợ người học của các đơn vị để tránh chồng chéo và tăng hiệu quả hoạt động, định kỳ khảo sát đánh giá tính hiệu quả các hoạt động phục vụ, hỗ trợ người học theo các tiêu chí cụ thể, có đối sánh hiệu quả với các năm trước làm căn cứ xây dựng kế hoạch cải tiến chất lượng.
Tăng cường hoạt động hỗ trợ, các hình thức giao lưu giữa các sinh viên. 2
Tăng cường các hoạt động hỗ trợ, đổi mới và đa dạng các hình thức tư vấn. 3
4
Chú trọng đầu tư có chiều sâu vào hạ tầng công nghệ thông tin để thực hiện việc giám sát tiến độ học tập của người học trong suốt quá trình học tập cũng như trong mỗi học kỳ, với mỗi học phần để bắt kịp xu hướng đào tạo cá thể hóa.
5
Cần rà soát, hoàn thiện các quy định về hoạt động hỗ trợ, giám sát người học, trong đó quy định rõ nhiệm vụ của các bộ phận, cá nhân để quản lý và triển khai thống nhất trong toàn trường, xây dựng cơ sở dữ liệu về kết quả rèn luyện và kết quả hỗ trợ người học.
6 Thiết lập hệ thống tổng thể, đa dạng hình thức và công cụ để rà soát đánh giá hiệu quả công tác phục vụ hỗ trợ và giám sát một cách bài bản hơn.
7
8
9 Tăng cường hiệu quả và vai trò của các cố vấn học tập, quan tâm, hỗ trợ tư vấn tâm lý.
10 Quản lý và cải thiện hiệu quả công tác cố vấn học tập.
11
12 Tiếp cận quan điểm cá thể hóa người học.
13 Nghiên cứu đổi mới hệ thống giám sát phục vụ và hỗ trợ người học. Xây dựng bộ tiêu chí giám sát, đánh giá phù hợp. Đầu tư phát triển hệ thống kết nối trực
195
STT Nội dung khuyến nghị
tuyến để có thể hỗ trợ người học hiệu quả cả trong quá trình học tập và sau khi tốt nghiệp.
14
15 Chú trọng hiệu quả công tác cố vấn học tập, có phương án tư vấn tâm lý và tăng cường hỗ trợ của cố vấn học tập.
16 Tăng cường công tác cố vấn học tập, hướng nghiệp và tư vấn việc làm.
17 Có phương án tư vấn tâm lý và tăng cường hỗ trợ của đội ngũ cố vấn học tập.
18
Tăng cường hiệu quả của hệ thống giám sát người học đồng bộ từ phần mềm quản lý đến cơ sở dữ liệu đánh giá tiến trình học tập, kết quả học tập và nghiên cứu của người học. Cải tiến các hoạt động hỗ trợ người học, nhất là trong tư vấn, cố vấn học tập và nghiên cứu khoa học.
19
Nghiên cứu đổi mới “hệ thống giám sát người học” thành “hệ thống giám sát phục vụ và hỗ trợ” để giám sát quá trình, kết quả, hiệu quả phục vụ và hỗ trợ đối với người học; xây dựng bộ tiêu chí giám sát, đánh giá khách quan, chính xác, kịp thời đối với hoạt động phục vụ và hỗ trợ người học, quan tâm nghiên cứu xây dựng hệ thống kết nối trực tuyến với người học trong thời gian học tập tại trường và sau khi tốt nghiệp để phục vụ, hỗ trợ trong quá trình học tập và sau khi tốt nghiệp. Tổ chức bồi dưỡng chuyên môn nghiệp vụ phục vụ và hỗ trợ cho đội ngũ cán bộ, nhân viên trong toàn trường, nhất là đội ngũ nhân lực trực tiếp liên quan đến người học. Ngoài ra, cần tăng đầu tư kinh phí cho các hoạt động phục vụ, hỗ trợ người học, kể cả người học là các học viên cao học.
20
Ban hành kế hoạch tổng thể triển khai các hoạt động phục vụ, hỗ trợ và hệ thống giám sát người học. Xây dựng hệ thống tiêu chí giám sát, đánh giá khách quan, chính xác, kịp thời đối với hoạt động phục vụ và hỗ trợ người học. Nghiên cứu xây dựng hệ thống kết nối trực tuyến trong thời gian học tập tại trường và sau khi tốt nghiệp để cải thiện năng lực phục vụ, hỗ trợ người học.
21
Có phương án tư vấn tâm lý và tăng cường hỗ trợ, giám sát người học. Nâng cấp phần mềm quản lý người học có đầy đủ các tính năng giúp trích xuất dữ liệu thuận lợi.
196
STT Nội dung khuyến nghị
22
Quan tâm việc xây dựng cơ sở dữ liệu tích hợp hỗ trợ công tác lãnh đạo quản lý trong hoạt động hỗ trợ. Cải thiện hoạt động giám sát, phục vụ, hỗ trợ học viên sau đại học.
23
Có hệ thống giám sát, theo dõi, hỗ trợ cán bộ, giảng viên thực hiện công tác hỗ trợ người học xuyên suốt, đặc biệt các điều kiện, phương tiện thực hiện công tác.
24
Nghiên cứu đổi mới “hệ thống giám sát người học” thành “hệ thống giám sát phục vụ và hỗ trợ” để KHÔNG giám sát người học mà giám sát quá trình, kết quả, hiệu quả phục vụ và hỗ trợ đối với người học, quan tâm nghiên cứu xây dựng hệ thống kết nối trực tuyến với người học trong thời gian học tập tại Trường và sau khi tốt nghiệp để phục vụ, hỗ trợ trong quá trình học tập và sau khi tốt nghiệp.
25
26
Làm rõ những nội dung về việc giám sát tiến trình, hiệu quả học tập và sự tiến bộ của người học, đánh giá hiệu quả của các hoạt động phục vụ và hỗ trợ người học, của hệ thống giám sát người học.
27 Nên có hệ thống giám sát, theo dõi, hỗ trợ giảng viên thực hiện công tác hỗ trợ xuyên suốt người học.
28 Xác định rõ, xuyên suốt mục tiêu và kế hoạch, hành động để hỗ trợ hiệu quả cho người học nhằm đạt được mục tiêu và chuẩn đầu ra
29
Xây dựng hệ thống tổng thể theo dõi, hỗ trợ xuyên suốt người học ở các mảng khác nhau từ đào tạo, tham gia nghiên cứu khoa học, rèn luyện, các câu lạc bộ, có hệ thống giám sát, theo dõi, hỗ trợ cán bộ, giảng viên thực hiện công tác hỗ trợ xuyên suốt người học.
30 Làm rõ hệ thống giám sát người học (phần mềm quản lý; cơ sở dữ liệu đánh giá tiến trình học tập, kết quả học tập và nghiên cứu của người học).
31 Chủ động xác lập, giám sát tỷ lệ người học tốt nghiệp đúng hạn, thôi học, v.v.để có các giải pháp hỗ trợ cụ thể, phù hợp.
197
STT Nội dung khuyến nghị
32
Nghiên cứu điều chỉnh tiêu chí, thang đo khảo sát đánh giá năng lực của đội ngũ cán bộ hỗ trợ, giáo viên chủ nhiệm và cố vấn học tập, nâng cao hiệu quả các hoạt động hỗ trợ.
33
Có các hoạt động chuyên sâu dành riêng hỗ trợ cho các học viên, nghiên cứu sinh. nâng cao năng lực cho giảng viên về phương thức đo lường mức độ đạt được chuẩn đầu ra của người học.
34 Xây dựng quy định, hướng dẫn giảng viên xác định, lựa chọn các hoạt động dạy và học phù hợp với triết lý giáo dục và đạt được chuẩn đầu ra.
35
36
Đánh giá hiệu quả của các hoạt động phục vụ, hỗ trợ và giám sát của Nhà trường và hiệu quả của hệ thống cơ sở dữ liệu, phần mềm quản lý đánh giá, giám sát tiến trình, hiệu quả học tập, rèn luyện và sự tiến bộ của người học trước và sau khi được hỗ trợ, phục vụ. Xây dựng công cụ theo dõi, đo lường, đánh giá năng lực của người học tích lũy trong từng học phần để đạt được chuẩn đầu ra. Tăng cường các phương pháp rèn luyện kỹ năng tự học, năng lực đổi mới sáng tạo thông qua các hình thức học tập trải nghiệm, học theo dự án, tình huống, học tập có tương tác và cá thể hoá người học, khởi nghiệp, ứng dụng chuyển đổi số và đa dạng hơn các chương trình ngoại khóa, học thuật.
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html
198
Phụ lục 5
Bảng phụ lục 5: Tổng hợp khuyến nghị liên quan tới tác động tỷ lệ tốt nghiệp
STT Nội dung khuyến nghị
1
Phân tích kết quả khảo sát làm căn cứ xác định các biện pháp cải thiện tỷ lệ tốt nghiệp đúng hạn, thời gian tốt nghiệp trung bình.
2
Cần phân tích, đối sánh kết quả học tập hàng năm giữa các ngành đào tạo để có biện pháp cải tiến nâng cao chất lượng và giảm tỷ lệ bỏ học, chậm tốt nghiệp.
3
4 Xác định các tỷ lệ thôi học, tốt nghiệp, tỷ lệ có việc làm.
5
Cần giám sát chặt chẽ số người học thôi học của tất cả các nghành, lựa chọn những CSGD ĐH tương đồng để thực hiện đối sánh về các tỷ lệ tốt nghiệp đúng hạn, tỷ lệ thôi học, thời gian tốt nghiệp trung bình để có đánh giá tổng quan về chất lượng đào tạo, hỗ trợ người học của Nhà trường và có biện pháp cải tiến kịp thời.
6
Thực hiện đối sánh tỷ lệ tốt nghiệp, tỷ lệ thôi học, thời gian tốt nghiệp trung bình của người học với các CSGD ĐH khác, phân tích tỷ lệ người học thôi học, thi lại, học lại.
7
Phân tích, đối sánh kết quả học tập hằng năm của người học các ngành đào tạo để có biện pháp cải tiến nâng cao chất lượng, giảm số người học thôi học và số người học tốt nghiệp chậm.
8
Có hướng dẫn giám sát, thống kê tình hình người học thôi học, tốt nghiệp đúng hạn, thời gian tốt nghiệp trung bình của các chương trình đào tạo làm căn cứ điều chỉnh chiến lược đào tạo phù hợp.
9
Có hướng dẫn giám sát, thống kê tình hình người học thôi học, tốt nghiệp đúng hạn, thời gian tốt nghiệp trung bình của các chương trình đào tạo làm căn cứ điều chỉnh chiến lược đào tạo phù hợp.
10
Nghiên cứu, có các giải pháp hạn chế tỷ lệ người học bị cảnh báo học tập và buộc thôi học.
11
Có giải pháp hiệu quả để tăng tỷ lệ người học tốt nghiệp đúng hạn, giảm thời gian tốt nghiệp trung bình.
12
Thực hiện đối sánh về tỷ lệ người học đạt yêu cầu, tỷ lệ thôi học để tiếp tục cải tiến và có các giải pháp tăng tỷ lệ người học tốt nghiệp đúng hạn và trước hạn trong điều kiện nhu cầu cạnh tranh nguồn nhân lực chất lượng cao.
199
STT Nội dung khuyến nghị
13
Phân tích xu hướng tỷ lệ người học tốt nghiệp, tỷ lệ thôi học, thời gian tốt nghiệp trung bình của các khối ngành/nhóm ngành khác nhau qua từng năm để có các giải pháp phù hợp tăng tỷ lệ tốt nghiệp, tốt nghiệp sớm.
14
Tiếp tục phân tích nguyên nhân để có thêm các giải pháp hạn chế tỷ lệ người học thôi học ở các lĩnh vực đặc thù.
15
Có biện pháp khích lệ động cơ học tập và hướng nghiệp sớm, hiệu quả cho sinh viên; nghiên cứu kỹ, phân tích sâu dữ liệu về tình hình chậm tốt nghiệp.
16
17
Tiếp tục phân tích nguyên nhân để có thêm các giải pháp hạn chế tỷ lệ người học thôi học ở một số ngành đào tạo đặc thù.
18
19
Tiếp tục tích cực thực hiện các biện pháp hỗ trợ giúp tăng tỷ lệ tốt nghiệp đúng hạn giảm tỷ lệ thôi học và thời gian tốt nghiệp trung bình.
20
Nghiên cứu có các biện pháp đa dạng và hiệu quả nhằm giảm tỷ lệ thôi học/bỏ học, giảm thời gian tốt nghiệp trung bình.
21
Tiếp tục có các giải pháp hạn chế thấp nhất tỷ lệ người học bị cảnh báo học tập và buộc thôi học.
22
Khai thác dữ liệu đối sánh về tỷ lệ thôi học, tốt nghiệp, việc làm với các cơ sở giáo dục dại học khác. Có chiến lược 5–10 năm tăng được tỷ lệ người học tốt nghiệp tự tạo việc làm, khởi nghiệp bằng việc hỗ trợ ươm tạo.
23
Tiếp tục tìm các giải pháp tối ưu để hạn chế thấp nhất tỷ lệ người học bị cảnh báo học tập và buộc thôi học.
24
Tiếp tục tìm các giải pháp tối ưu để hạn chế thấp nhất tỷ lệ người học bị cảnh báo học tập và buộc thôi học, đặc biệt các ngành khối kỹ thuật, công nghệ. Có phương án tư vấn tâm lý và tăng cường hỗ trợ, giám sát của giáo viên chủ nhiệm, cố vấn học tập, kết hợp thông tin liên lạc giữa Nhà trường và gia đình của các người học có nguy cơ hoặc bị cảnh báo lần thứ nhất. Đối sánh tỷ lệ tốt nghiệp trung bình, tỷ lệ thôi học, với các trường trong và ngoài nước.
25
Gia tăng đối sánh tỷ lệ tốt nghiệp, thôi học, thời gian tốt nghiệp trung bình, số lượng người học tốt nghiệp, khả năng có việc làm của người học tại các trường có cùng định hướng chiến lược hoặc cùng các ngành đào tạo tương ứng bên ngoài Trường.
200
STT Nội dung khuyến nghị
26
Hoàn thiện quy định về công tác giám sát thống kê, cập nhật tỷ lệ người học thôi học, tốt nghiệp và tính thời gian trung bình của người học thuộc các chương trình đào tạo đại học và sau đại học.
27
Phân tích sâu các nguyên nhân người học tốt nghiệp muộn để có các giải pháp phù hợp để đưa thời gian tốt nghiệp về sát gần vời thời gian tốt nghiệp đã xác lập trong các đề án tuyển sinh.
28
29
Xây dựng các giải pháp mạnh về chuẩn ngoại ngữ (điều kiện tốt nghiệp) để tăng tỷ lệ người tốt nghiệp.
30
Giám sát chặt chẽ số người học thôi học của tất cả các chương trình đào tạo trong quá trình học.
31
Chủ động xác lập, giám sát tỷ lệ người học tốt nghiệp đúng hạn, thôi học, v.v. để có các giải pháp hỗ trợ cụ thể, phù hợp. Tích cực thực hiện các biện pháp hỗ trợ giúp tăng tỷ lệ tốt nghiệp đúng hạn, giảm tỷ lệ thôi học và thời gian tốt nghiệp trung bình, lập kế hoạch và triển khai thực hiện đối sánh tỷ lệ tốt nghiệp trung bình, tỷ lệ thôi học.
32
Chủ động phân tích nguyên nhân người học chậm tốt nghiệp để có các biện pháp tư vấn, hỗ trợ kịp thời.
33
Thực hiện đối sánh đầy đủ các tỷ lệ tốt nghiệp, thôi học, có việc làm, thời gian tốt nghiệp trung bình, mức độ hài lòng với các trường đại học khác trong nước; phân tích sâu sắc các nguyên nhân và có các giải pháp cải thiện.
34
Có các giải pháp quyết liệt hơn giảm tỷ lệ thôi học, bỏ học và chậm bảo vệ. Tăng tỷ lệ người học tốt nghiệp đúng hạn và giảm thời gian tốt nghiệp của học viên sau đại học.
35
Phân tích nguyên nhân, thời gian thôi học; tích cực thực hiện các biện pháp hỗ trợ giúp tăng tỷ lệ tốt nghiệp đúng hạn, giảm tỷ lệ thôi học và thời gian tốt nghiệp trung bình của các ngành đào tạo.
36
Có các biện pháp hỗ trợ hiệu quả để tăng tỷ lệ tốt nghiệp đúng hạn, giảm tỷ lệ thôi học và thời gian tốt nghiệp trung bình.
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html
201
Phụ lục 6
Tiêu chuẩn 5 (Dự thảo Thông tư quy định Chuẩn cơ sở giáo dục đại học)
Số nhập học so với chỉ tiêu theo kế hoạch tuyển sinh và hệ số biến động nhập học trung bình của 3 năm gần nhất
Tỷ lệ nhập học:
§ÅÆÇÈ((cid:8))
§ÉÊÊÅ (Ë)
–ÂÃ§Ä =
= Số lượng nhập học đại học và sau đại học của năm thống kê (n)
(cid:1)ÌͧÄ( )
= Tổng chỉ tiêu cần tuyển đại học và sau đại học theo kế hoạch của năm (n)
(cid:1)rÂÂÌ( ) Tổng chỉ tiêu cần tuyển và số lượng nhập học tính tổng của các trình độ và các hình thức đào tạo
Hệ số biến động nhập học (trung bình 3 năm) là trung bình 3 năm gần nhất của tăng trưởng số lượng nhập học. Hệ số biến động nhập học trung bình của 3 năm gần nhất:
§ÅÆÇÈ((cid:8)W(cid:16)) §ÅÆÇÈ((cid:8)WX) Ð ×
§ÅÆÇÈ((cid:8)) §ÅÆÇÈ((cid:8)W(cid:7)) +
(cid:1)ÎĐ§Ä = Ï
(cid:7) X − 1
§ÅÆÇÈ((cid:8)W(cid:7)) §ÅÆÇÈ((cid:8)W(cid:16)) + Tỷ lệ sinh viên thôi học toàn trường và tỷ lệ sinh viên thôi học năm thứ nhất
= Số SV thôi học trong năm/Tổng số
Tỷ lệ sinh viên thôi học toàn trường hằng năm: sinh viên có mặt tại thời điểm cuối năm trước (A)
–ÌÍÂÄÂÂ
Số SV thôi học trong năm = A – B – C
B = Số SV (nằm trong A) đã tốt nghiệp trong năm
= Số SV thôi học sau năm thứ 1/Tổng số SV khóa mới
Tỷ lệ thôi học sau năm thứ 1: có mặt tại thời điểm cuối năm trước (A1)
–ÌÍÂħ(cid:7)
C = Số SV (nằm trong A) đã trở lại học và có mặt tại thời điểm thống kê cuối năm.
Số SV thôi học sau năm thứ 1 = A1 – B1 – C1
B1 = Số SV (nằm trong A1) đã tốt nghiệp trong năm thống kê
C1 = Số SV (nằm trong A1) đã trở lại học và có mặt tại thời điểm thống kê cuối năm.
Tỷ lệ sinh viên tốt nghiệp trong khung thời gian không vượt quá 1,5 thời gian theo kế hoạch học tập chuẩn và tỷ lệ sinh viên tốt nghiệp đúng hạn
= Tỷ lệ sinh viên tốt nghiệp trong khung thời gian không vượt quá 1,5 thời gian
theo kế hoạch học tập chuẩn = Số sinh viên tốt nghiệp trong thời gian không vượt quá –Ìͧ 1,5 lần thời gian đào tạo tiêu chuẩn/Tổng số sinh viên nhập học năm thứ 1.
Tỷ lệ tốt sinh viên nghiệp đúng hạn = Số sinh viên tốt nghiệp trong thời
gian đào tạo tiêu chuẩn/Tổng số sinh viên nhập học năm thứ 1 –ÌͧĐÄ =
202
Tỷ lệ có việc làm, được xác định bằng tỷ lệ sinh viên tốt nghiệp đại học có việc làm, tự tạo việc làm phù hợp với trình độ đào tạo hoặc học tiếp trình độ cao hơn trong thời gian 12 tháng (18 tháng đối với ngành Y khoa)
= Tổng số SV tốt nghiệp tất cả các đợt trong năm trước liền kề (đối với ngành Y
khoa tính lùi về trước thêm 6 tháng) (cid:1)Ìͧ
= Số SV tốt nghiệp nằm trong , tại thời điểm 12 tháng sau khi tốt nghiệp
(cid:1)Ìͧ
(18 tháng đối với ngành Y khoa) đang có việc làm toàn thời gian phù hợp với trình độ (cid:1)ÌÍrÍÃ chuyên môn hoặc tự tạo việc làm hoặc đang đi học trình độ cao hơn
§ÅÆÉÆÒ
§ÅÆÊÇ
Tỷ lệ có việc làm
–ÍÃÌÍ =
Tỷ lệ sinh viên tốt nghiệp hài lòng với tổng thể quá trình học tập và trải nghiệm tại trường
§ÅÆÓÈÊÉ
§ÅÆÓÈ
Tỉ lệ SV hài lòng về tổng thể quá trình đào tạo và trải nghiệm tại trường:
–ÌÍÄÃÂÂ = = Số (lượt) SV phản hồi tích cực, đánh giá từ mức hài lòng trở lên.
(cid:1)ÌÍpÄÂr = Tổng số (lượt) SV phản hồi khảo sát mức độ hài lòng về tổng thể quá trình đào
tạo và trải nghiệm tại trường đối với sự phát triển về kiến thức, năng lực và phẩm chất (cid:1)ÌÍpÄ của bản thân
Tỷ lệ sinh viên hài lòng với giảng viên về chất lượng và hiệu quả giảng dạy
Tỉ lệ SV hài lòng với giảng viên về chất lượng giảng dạy và hiệu quả mang lại cho tiến
§ÅÆÓÈÊÉ
§ÅÆÓÈ
bộ học tập của bản thân:
–ÌÍÄÃÔÍ = = Số (lượt) SV phản hồi tích cực, đánh giá từ mức hài lòng trở lên.
(cid:1)ÌÍpÄÂr = Tổng số (lượt) SV phản hồi khảo sát mức độ hài lòng về chất lượng, hiệu quả
giảng dạy, hướng dẫn của đội ngũ giảng viên đối với tiến bộ học tập của bản thân (cid:1)ÌÍpÄ
Phụ lục 7
Kết quả chạy SPSS
Bài toán 1: Dự báo việc trượt hay đỗ của sinh viên đối với một lần học bất kỳ của một môn học. Việc dự báo này dựa trên các môn học liên quan mà sinh viên đã học trước đó trong lộ trình và phương pháp cũng như thái độ của sinh viên đối với lần học đó.
203
a. Kết quả chạy lần 1:
Iteration Historya,b,c,d
Iteration
–2 Log likelihood Coefficients
Constant
Avg1633
Avg1644
Avg1649
absPercent
.102
1
529.795
–1.663
.115
.210
–2.658
.136
2
515.069
–2.346
.168
.263
–4.638
.145
Step 1
3
514.216
–2.663
.185
.279
–5.276
.146
4
514.212
–2.692
.186
.280
–5.320
.146
5
514.212
–2.692
.186
.280
–5.320
Iteration Historya,b,c,d
Iteration
Coefficients
TimesToLearn
AvgAnswer
.084
1
–.030
.190
2
–.032
.230
Step 1
3
–.009
.233
4
–.006
.233
5
–.006
a. Method: Enter
b. Constant is included in the model.
c. Initial –2 Log Likelihood: 695.920
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Omnibus Tests of Model Coefficients
Chi–square
df
Sig.
Step
181.707
6
.000
Step 1
Block
181.707
6
.000
Model
181.707
6
.000
204
Model Summary
Step
–2 Log likelihood Cox & Snell R
R
Square
Nagelkerke Square
1
514.212a
.304
.405
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
Step
Chi–square
df
Sig.
1
5.385
8
.716
Contingency Table for Hosmer and Lemeshow Test
ispass = 0
ispass = 1
Total
Observed
Expected
Observed
Expected
1
49
48.317
1
1.683
50
2
42
44.624
8
5.376
50
3
37
37.666
13
12.334
50
4
29
30.230
21
19.770
50
5
27
25.200
23
24.800
50
Step 1
6
23
19.374
26
29.626
49
7
16
15.846
34
34.154
50
8
13
13.646
42
41.354
55
9
13
11.381
46
47.619
59
10
2
4.716
37
34.284
39
Classification Tablea
Observed
Predicted
ispass
Percentage Correct
205
0
1
0
175
76
69.7
ispass
1
55
196
78.1
Step 1
Overall Percentage
73.9
a. The cut value is .500
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Avg1633
.186
.061
9.240
1.205
1.068
1.359
.002
1
Avg1644
.280
.054
26.604
1.324
1.190
1.473
.000
1
Avg1649
.146
.047
9.822
1.157
1.056
1.268
.002
1
absPercent
–5.320
1.280
17.283
.005
.000
.060
.000
1
Step 1a
AvgAnswer
–.006
.488
.000
.994
.382
2.584
.990
1
TimesToLearn
.233
.163
2.041
1.262
.917
1.737
.153
1
Constant
–2.692
2.061
1.706
.192
.068
1
a. Variable(s) entered on step 1: Avg1633, Avg1644, Avg1649, absPercent, AvgAnswer, TimesToLearn.
b. Kết quả chạy lần 2 sau khi loại bỏ các biến có .Sig >0.05
Iteration Historya,b,c,d
Iteration
–2 Log likelihood Coefficients
Constant
Avg1633
Avg1644
Avg1649
absPercent
1
530.586
–1.663
.112
.208
.105
–2.564
2
516.940
–2.179
.160
.255
.143
–4.379
Step 1
3
516.261
–2.323
.173
.268
.153
–4.926
4
516.259
–2.333
.174
.269
.154
–4.958
5
516.259
–2.333
.174
.269
.154
–4.958
a. Method: Enter
b. Constant is included in the model.
206
c. Initial –2 Log Likelihood: 695.920
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Omnibus Tests of Model Coefficients
Chi–square
df
Sig.
Step
179.661
4
.000
Step 1
Block
179.661
4
.000
Model
179.661
4
.000
Model Summary
Step
–2 Log likelihood Cox & Snell R
R
Square
Nagelkerke Square
1
516.259a
.301
.401
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
Step
Chi–square
df
Sig.
1
6.259
8
.618
Classification Tablea
Observed
Predicted
ispass
Percentage Correct
0
1
0
175
76
69.7
ispass
1
57
194
77.3
Step 1
Overall Percentage
73.5
207
a. The cut value is .500
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
Avg1633
.174
.060
8.384
1.190
1.058
1.340
.004
1
Avg1644
.269
.053
25.769
1.308
1.179
1.451
.000
1
Avg1649
.154
.046
11.156
1.166
1.066
1.276
.001
1
Step 1a
.000
1
absPercent
–4.958
1.236
16.080
.007
.001
.079
1
Constant
–2.333
.423
30.378
.000
.097
a. Variable(s) entered on step 1: Avg1633, Avg1644, Avg1649, absPercent.
Bài toán 2: Dự báo việc trượt hay đỗ của một sinh viên đối với một môn học
Việc dự báo này dựa trên các môn học liên quan mà sinh viên đã học trước đó
trong lộ trình
a. Kết quả chạy lần thứ 1
Omnibus Tests of Model Coefficients
Chi–square
df
Sig.
Step
201.944
5
.000
Step 1
Block
201.944
5
.000
Model
201.944
5
.000
Model Summary
Step
–2 Log likelihood Cox & Snell R
R
Square
Nagelkerke Square
1
366.009a
.335
.491
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
Step
Chi–square
df
Sig.
208
1
22.082
8
.005
Classification Tablea
Predicted
Observed
Pass1651
Percentage Correct
0
1
79
50
61.2
0
Pass1651
21
345
94.3
1
Step 1
85.7
Overall Percentage
a. The cut value is .500
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
95% C.I.for EXP(B)
Lower
Upper
Avg1633
.230
.065
12.568
.000
1.259
1.429
1
1.429
Avg1649
.278
.052
28.856
.000
1.321
1.462
1
1.462
Avg1644
.295
.055
28.273
.000
1.343
1.497
1
1.497
Step 1a
Avg1618
.089
.069
1.660
.198
1.093
1.251
1
1.251
Avg1622
.071
.067
1.125
.289
1.074
1.225
1
1.225
1
Constant
–3.603
.525
47.088
.000
.027
a. Variable(s) entered on step 1: Avg1633, Avg1649, Avg1644, Avg1618, Avg1622.
b. Kết quả chạy lần thứ 2 sau khi loại bỏ các biến có .Sig (P–value ) >0.05 của kiểm định Wald, kiểm tra tác động chéo giữa các biến còn lại.
Iteration Historya,b,c,d
Iteration
–2 Log likelihood Coefficients
Constant
Avg1633
Avg1649
Avg1644
by
Avg1633 Avg1649
209
.256
.196
.288
–.006
–2.170
1
394.557
.325
.216
.315
–.005
–2.858
2
369.321
.315
.186
.292
.000
–2.870
Step 1
3
367.146
.309
.179
.286
.002
–2.847
4
367.109
.309
.179
.285
.002
–2.847
5
367.109
Iteration Historya,b,c,d
Iteration
Coefficients
Avg1644 by Avg1649
Avg1633 by Avg1644
–.021
.004
1
–.021
.018
2
–.017
.025
Step 1
3
–.016
.026
4
–.016
.026
5
a. Method: Enter
b. Constant is included in the model.
c. Initial –2 Log Likelihood: 567.953
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Omnibus Tests of Model Coefficients
Chi–square
df
Sig.
Step
200.844
6
.000
Step 1
Block
200.844
6
.000
Model
200.844
6
.000
Model Summary
Step
–2 Log likelihood Cox & Snell R
Nagelkerke
R
Square
Square
1
367.109a
.334
.489
210
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
Step
Chi–square
df
Sig.
1
12.540
6
.051
Contingency Table for Hosmer and Lemeshow Test
Pass1651 = 0
Pass1651 = 1
Total
Observed
Expected
Observed
Expected
1
46
44.433
4
5.567
50
2
34
31.848
16
18.152
50
3
16
19.613
35
31.387
51
4
6
11.701
48
42.299
54
Step 1
5
8
7.999
46
46.001
54
6
0
.213
3
2.787
3
7
19
11.566
160
167.434
179
8
0
1.627
54
52.373
54
Classification Tablea
Observed
Predicted
Pass1651
Percentage Correct
0
1
0
78
51
60.5
Pass1651
1
20
346
94.5
Step 1
Overall Percentage
85.7
a. The cut value is .500
211
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
.126
6.008
1
Avg1633
.309
.014
1.363
1.064
1.745
.130
1.896
1
Avg1649
.179
.168
1.195
.927
1.541
.129
4.872
1
Avg1644
.285
.027
1.330
1.032
1.714
.022
.005
1
Avg1633 by Avg1649
.002
.942
1.002
.959
1.046
Step 1a
.019
1.893
1
Avg1644 by Avg1649
.026
.169
1.026
.989
1.065
.022
.512
1
Avg1633 by Avg1644
–.016
.474
.984
.942
1.028
1
Constant
–2.847
.679
17.558
.000
.058
a. Variable(s) entered on step 1: Avg1633, Avg1649, Avg1644, Avg1633 * Avg1649, Avg1644 * Avg1649, Avg1633 * Avg1644 .
c. Kết quả chạy lần 3 sau khi loại bỏ các trường tương tác
Iteration Historya,b,c,d
Iteration
–2 Log likelihood Coefficients
Constant
Avg1649
Avg1644
Avg1633
1
396.340
–1.794
.175
.208
.149
2
371.124
–2.668
.255
.283
.233
Step 1
3
369.482
–2.984
.283
.308
.263
4
369.469
–3.016
.286
.311
.266
5
369.469
–3.016
.286
.311
.266
a. Method: Enter
b. Constant is included in the model.
c. Initial –2 Log Likelihood: 567.953
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Omnibus Tests of Model Coefficients
Chi–square
df
Sig.
Step
198.484
3
.000
Step 1
Block
198.484
3
.000
Model
198.484
3
.000
212
Model Summary
Step
–2 Log likelihood Cox & Snell R
R
Square
Nagelkerke Square
1
369.469a
.330
.484
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
Step
Chi–square
df
Sig.
1
9.204
6
.162
Contingency Table for Hosmer and Lemeshow Test
Pass1651 = 0
Pass1651 = 1
Total
Observed
Expected
Observed
Expected
1
46
45.412
5
5.588
51
2
34
31.918
16
18.082
50
3
16
17.371
34
32.629
50
4
8
9.953
37
35.047
45
Step 1
5
5
9.371
55
50.629
60
6
1
.648
5
5.352
6
7
19
12.522
160
166.478
179
8
0
1.805
54
52.195
54
Classification Tablea
Observed
Predicted
Pass1651
Percentage Correct
0
1
0
80
49
62.0
Pass1651
1
20
346
94.5
Step 1
Overall Percentage
86.1
213
a. The cut value is .500
Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B)
Lower
Upper
1
Avg1649
.286
.051
30.832
.000
1.331
1.203
1.472
1
Avg1644
.311
.055
31.783
.000
1.365
1.225
1.520
Step 1a
1
Avg1633
.266
.063
18.028
.000
1.304
1.154
1.474
1
Constant
–3.016
.401
56.699
.000
.049
a. Variable(s) entered on step 1: Avg1649, Avg1644, Avg1633.
214
Phụ lục 8
Bảng phụ lục 6: Danh sách các CSGD ĐH thực hiện khảo sát
STT Trường Đại học
Trường Đại học Thủy lợi 1
Trường Đại học Phan Thiết 2
Trường Đại học Nội vụ Hà Nội 3
4 Học viện Ngoại giao
Trường Đại học Phenikaa 5
6 Trường Đại học Sư phạm Thể dục Thể thao Hà Nội
7 Trường Đại học Thành Đô
8 Trường Đại học Tài chính – Quản trị kinh doanh
9 Trường Đại học Sư phạm, Đại học Đà Nẵng
10 Trường Đại học Kinh tế, Đại học Đà Nẵng
11 Trường Đại học Giao thông Vận tải
12 Trường Đại học Ngoại thương
13 Trường Đại học Hồng Đức
14 Trường Đại học Y – Dược, Đại học Huế
15 Trường Đại học Ngoại ngữ, Đại học Đà Nẵng
16 Học viện Ngân hàng
17 Trường Đại học Công nghệ Đông Á
18 Trường Đại học Đồng Tháp
19 Trường Đại học Khoa học xã hội và Nhân văn, Đại học Quốc gia Thành phố Hồ Chí Minh
20 Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
21 Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh
22 Trường Đại học Công nghiệp Hà Nội
23 Học viện Nông nghiệp Việt Nam
215
STT Trường Đại học
24 Trường Đại học Vinh
25 Trường Đại học Kinh tế – Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
26 Trường Đại học Tây Đô
27 Trường Đại học Sư phạm, Đại học Thái Nguyên
28 Trường Đại học Dược Hà Nội
29 Trường Đại học Thương mại
30 Trường Đại học Sư phạm Hà Nội 2
31 Trường Đại học Kỹ thuật Công nghiệp, Đại học Thái Nguyên
32 Trường Đại học Tài nguyên và Môi trường Hà Nội
33 Trường Đại học Hà Nội
34 Trường Đại học Sư phạm Hà Nội
35 Trường Đại học Nam Cần Thơ
36 Trường Đại học Kinh tế và Quản trị kinh doanh, Đại học Thái Nguyên
Nguồn: Tác giả tổng hợp từ https://cea.vnu.edu.vn/article–KET–QUA–KIEM–DINH– CHAT–LUONG–TRUONG–DAI–HOC–15954–1249.html