intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến theo từng giai đoạn bằng khoa học dữ liệu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:83

19
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn hướng đến việc áp dụng máy học và kỹ thuật khai phá dữ liệu từ dữ liệu hành vi sử dụng của học viên từ đó dự báo học viên có khả năng nghỉ học. Nội dung thực hiện dự kiến gồm có: Giới thiệu tổng quan và các vấn đề liên quan; Học máy, Khai phá dữ liệu; Giải pháp phát hiện học viên có khả năng nghỉ học.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến theo từng giai đoạn bằng khoa học dữ liệu

  1. ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN MINH TUẤN DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8 48 01 04 BÌNH DƯƠNG – 2023
  2. ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN MINH TUẤN DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8 48 01 04 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS MAI HOÀNG BẢO ÂN BÌNH DƯƠNG - 2023
  3. LỜI CAM ĐOAN Luận văn này là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của TS. Mai Hoàng Bảo Ân. Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này hoàn toàn trung thực. Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan này. i
  4. LỜI CẢM ƠN Trong quá trình học tập, nghiên cứu và thực hiện luận văn “Dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến theo từng giai đoạn bằng khoa học dữ liệu”, tôi đã nhận được nhiều sự hỗ trợ, giúp đỡ từ phía thầy cô, các cá nhân và tổ chức sau: Trước hết, tôi xin chân thành cảm ơn và tri ân sâu sắc đến PGS.TS Lê Tuấn Anh đã luôn dõi theo động viên, dẫn dắt tôi và các bạn đồng môn khai phá tầm nhìn, hướng cho chúng tôi tiếp cận các lĩnh vực nghiên cứu mới vừa khoa học, vừa gần gũi thực tiễn cuộc sống. Đặc biệt, để hoàn thành luận văn này, tôi xin chân thành cảm ơn sâu sắc đến TS. Mai Hoàng Bảo Ân - Viện John Von Neumann đã tận tâm dìu dắt, hướng dẫn, góp ý, chỉnh sửa để tôi hoàn thành luận văn này. Tôi cũng xin được gửi lời cảm ơn đến Ban Giám hiệu nhà trường, Phòng đào tạo Sau Đại học, các Thầy, Cô trong Khoa Kỹ thuật - Công nghệ, Trường Đại học Thủ Dầu Một đã tạo mọi điều kiện và môi trường học tập, nghiên cứu thuận lợi nhất. Xin cảm ơn tất cả Thầy, Cô là giảng viên thỉnh giảng đã tâm huyết không ngại đường xa để truyền đạt cho chúng tôi những kiến thức và kinh nghiệm vô cùng quý giá trong học tập và nghiên cứu khoa học. Một lần nữa xin tri ân và trân trọng cảm ơn tất cả mọi người đã giúp đỡ, hỗ trợ tôi hoàn thành luận văn này. Thủ Dầu Một, ngày 26 tháng 12 năm 2022 TÁC GIẢ Nguyễn Minh Tuấn ii
  5. MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i LỜI CẢM ƠN ............................................................................................................. ii MỤC LỤC ................................................................................................................. iii BẢNG KÝ HIỆU, CHỮ VIẾT TẮT ...........................................................................v DANH MỤC CÁC BẢNG ..........................................................................................vi DANH MỤC CÁC SƠ ĐỒ, BIỂU ĐỒ ..................................................................... vii DANH MỤC CÁC HÌNH ........................................................................................ viii MỞ ĐẦU ...................................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN VỀ DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN HỌC TRỰC TUYẾN ........................................................................................ 3 1. HỌC TRỰC TUYẾN VÀ QUẢN LÝ QUAN HỆ HỌC VIÊN TRONG HỌC TRỰC TUYẾN .......3 1.1. HỌC TRỰC TUYẾN LA GI? ................................................................................................. 3 1.2. MỐI QUAN HỆ VỚI HỌC VIÊN TRONG HỌC TRỰC TUYẾN .................................................... 4 2. VẤN ĐỀ BỎ HỌC ......................................................................................................5 3. KỸ THUẬT MÁY HỌC VÀ KHAI PHÁP DỮ LIỆU TRONG DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN ............................................................................................................... 6 4. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ............................................................. 7 CHƯƠNG 2: CÁC KỸ THUẬT TRONG PHÂN TÍCH DỰ BÁO TRONG BÀI TOÁN DỰ BÁO HỌC VIÊN NGHỈ HỌC. .............................................................. 10 1. TIỀN XỬ LÝ DỮ LIỆU ............................................................................................. 10 1.1. LÀM SẠCH, CHUẨN HÓA VÀ CHUYỂN ĐỔI DỮ LIỆU .......................................................... 10 1.2. XỬ LÝ DỮ LIỆU THIẾU .................................................................................................... 11 1.3. LẤY MẪU....................................................................................................................... 11 1.4. LỰA CHỌN ĐẶC TRƯNG VÀ BIẾN .................................................................................... 12 2. MÔ HÌNH DỰ ĐOÁN KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN ÁP DỤNG KỸ THUẬT HỌC MÁY VÀ KHAI PHÁ DỮ LIỆU.......................................................................................... 13 2.1. MẠNG THẦN KINH NHÂN TẠO (ANN)............................................................................. 13 2.2. MÔ HÌNH TĂNG ĐỘ DỐC (GB) ........................................................................................ 14 iii
  6. 2.3. RỪNG NGẪU NHIÊN (RANDOM FOREST).......................................................................... 15 2.4. TĂNG CƯỜNG ĐỘ DỐC CỰC CAO (XGBOOST) ................................................................. 17 CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ ĐOÁN KHẢ NĂNG HỌC VIÊN NGHỈ HỌC ........................................................................................................................... 19 1. PHƯƠNG PHÁP XÂY DỰNG ..................................................................................... 19 1.1. CÁC BƯỚC XÂY DỰNG MÔ HÌNH ..................................................................................... 19 1.2. CÁC CÔNG CỤ VÀ THƯ VIỆN SỬ DỤNG ............................................................................ 20 2. XÂY DỰNG DỮ LIỆU............................................................................................... 21 2.1. THÔNG TIN TẬP DỮ LIỆU ................................................................................................ 21 2.2. TIỀN XỬ LÝ VÀ BIẾN ĐỔI DỮ LIỆU .................................................................................. 27 2.3. PHÂN TÍCH DỮ LIỆU, LỰA CHỌN CÁC ĐẶC TRƯNG ........................................................... 30 2.4. XÁC ĐỊNH THUỘC TÍNH QUAN TRỌNG............................................................................. 43 3. XÂY DỰNG MÔ HÌNH ............................................................................................. 46 4. ĐÁNH GIÁ HIỆU NĂNG ........................................................................................... 46 4.1. ĐỘ CHÍNH XÁC (ACCURACY) ......................................................................................... 47 4.2. TỶ LỆ TRÚNG (PRECISION) ............................................................................................. 47 4.3. ĐỘ NHẠY (RECALL)....................................................................................................... 47 4.4. F1-SCORE ...................................................................................................................... 48 4.5. DIỆN TÍCH DƯỚI ĐƯỜNG CONG (AUC ROC) ................................................................... 48 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ................................... 49 1. THỰC NGHIỆM ...................................................................................................... 49 1.1. MÔI TRƯỜNG ................................................................................................................. 49 1.2. ĐÀO TẠO MÔ HÌNH VÀ ĐIỀU CHỈNH SIÊU THAM SỐ .......................................................... 50 2. ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM ....................................................................... 50 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................... 57 1. KẾT LUẬN ............................................................................................................. 57 2. HƯỚNG PHÁT TRIỂN ............................................................................................. 58 DANH MỤC TÀI LIỆU THAM KHẢO .................................................................. 60 iv
  7. BẢNG KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu, Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt viết tắt ANN Artificial Neural Network Mạng thần kinh nhân tạo CPU Central Processing Unit Chip xử lý trung tâm CV Cross Validation Kiểm tra chéo DM Data mining Khai phá dữ liệu Feed-forward Neural Mạng thần kinh chuyển tiếp FNN Networks nguồn cấp dữ liệu GB Gradient Boosting Tăng cường độ dốc HSSV Students Học sinh, sinh viên HV Learner Học viên KNN K-nearest neighbor Hàng xóm thứ K gần nhất ML Machine learning Học máy NN Neural Networks Mạng thần kinh OOB Out of bag RAM random-access memory Bộ nhớ truy xuất ngẫu nhiên RF Random forest Rừng ngẫu nhiên SVM Support Vector Machine Máy vectơ hỗ trợ XGBoost Extreme Gradient Boosting Tăng cường độ dốc cực cao v
  8. DANH MỤC CÁC BẢNG Bảng 3.1 Danh mục thuộc tính của tập dữ liệu................................................... 27 Bảng 3.2. Ma trận nhầm lẫn (Confusion Matrix)................................................ 46 Bảng 4.1. Kết quả độ chính xác của các phương pháp. ...................................... 51 Bảng 4.2. Kết quả dự báo chung về học viên bỏ học và không bỏ học. .............. 52 vi
  9. DANH MỤC CÁC SƠ ĐỒ, BIỂU ĐỒ Biểu đồ 3.1 Tỷ lệ bỏ học trong dữ liệu ............................................................... 30 Biểu đồ 3.2 Số lượng bỏ học theo độ tuổi .......................................................... 31 Biểu đồ 3.3 Số lượng bỏ học theo trạng thái bắt đầu .......................................... 31 Biểu đồ 3.4 Số lượng bỏ học theo loại khóa học ................................................ 32 Biểu đồ 3.5 Số lượng bỏ học theo cấp độ loại khóa học ..................................... 32 Biểu đồ 3.6 Số lượng bỏ học theo độ dài khóa học ............................................ 33 Biểu đồ 3.7 Số lượng bỏ học theo trạng thái khóa học bất thường...................... 33 Biểu đồ 3.8 Số lượng bỏ học theo số lượng bài giảng của khóa học ................... 34 Biểu đồ 3.9 Số bỏ học theo tổng số học viên trong khóa .................................... 34 Biểu đồ 3.10 Số lượng học viên bỏ học theo tổng số giờ học tại EF................... 35 Biểu đồ 3.11 Số lượng học viên bỏ học theo số giờ học trong tuần, bài học ....... 35 Biểu đồ 3.12 Số lượng học viên bỏ học theo bài giảng trong tuần ...................... 36 Biểu đồ 3.13 Số lượng học viên bỏ học sắp xếp buổi học trong tuần.................. 36 Biểu đồ 3.14 Số lượng học viên bỏ học theo các thuộc tính của giảng viên........ 37 Biểu đồ 3.15 Số lượng học viên bỏ học theo tình trạng đăng nhập ..................... 37 Biểu đồ 3.16 Số lượng học viên bỏ học theo trạng thái upload dữ liệu ............... 38 Biểu đồ 3.17 Số lượng học viên bỏ học theo kinh nghiệm của giảng viên .......... 38 Biểu đồ 3.18 Số lượng học viên bỏ học theo tình trạng điểm số ......................... 39 Biểu đồ 3.19 Số lượng học viên bỏ học theo tỷ lệ không hoàn thành bài tập ...... 39 Biểu đồ 3.20 Số lượng học viên bỏ học theo tỷ lệ vắng...................................... 40 Biểu đồ 3.21 Số lượng học viên bỏ học theo số buổi vắng ................................. 40 Biểu đồ 3.22 Số lượng học viên bỏ học theo tỷ lệ NIReport .............................. 41 Biểu đồ 3.23 Số lượng học viên bỏ học theo tỷ lệ EXReport ............................. 41 Biểu đồ 3.24 Tỷ lệ học viên bỏ học theo NumGradeNI, EX, GD ....................... 41 Biểu đồ 3.25 Mức độ tương quan với thuộc tính mục tiêu “Churn_3m”............. 42 Biểu đồ 4.1. Độ chính xác train và test với tất cả các phương pháp. ................... 51 Biểu đồ 4.2. Kết quả dự báo chung về học viên bỏ học và không bỏ học. .......... 53 Biểu đồ 4.3 Biểu đồ ROC về kết quả của từng phương pháp ............................. 54 vii
  10. DANH MỤC CÁC HÌNH Hình 2.1 Cấu trúc đơn giản hóa của FNN [26] ................................................... 14 Hình 2.2. Cấu trúc của Random Forest. [29] ...................................................... 16 Hình 3.1. Mô hình kết hợp được đề xuất............................................................ 19 Hình 3.2 Kết quả đánh giá Feature importance của 71 thuộc tính bằng KNN..... 43 Hình 3.3 Kết quả đánh giá Feature importance của 9 thuộc tính bằng KNN....... 44 Hình 3.4 Kết quả đánh giá Feature importance của 8 thuộc tính bằng KNN....... 44 Hình 3.5 Kết quả đánh giá Feature Importance bằng Logistic Regression .......... 45 Hình 3.6 Kết quả đánh giá Feature Importance bằng Linear Regression ............ 45 Hình 3.7 Kết quả đánh giá Feature Importance bằng Decision Tree ................... 45 Hình 3.8: Minh họa Đường cong AUC và ROC................................................. 48 Hình 4.1 Kết quả Cross Validation bằng K-Fold................................................ 55 viii
  11. MỞ ĐẦU Học viên bỏ học luôn là vấn đề nan giải, đau đầu với ngành giáo dục nói chung và những người làm giáo dục, các thầy cô nói riêng. Bởi lẽ điều này ảnh hưởng rất lớn đến việc duy trì và phát triển cơ sở đào tạo, thu hút được học viên mới. Để phòng ngừa điều này, ngành giáo dục đã có rất nhiều biện pháp để giảm thiểu tối đa tình trạng học viên bỏ ngang các khóa học, môn học, chương trình học…v.v. Theo các nghiên cứu và thực tế triển khai của các cơ sở giáo dục cho thấy, chi phí để thu hút học viên mới cao hơn nhiều so với việc duy trì các học viên hiện hữu. Trước thực trạng tỷ lệ học viên học trực tuyến bộ môn tiếng Anh bỏ học ngày càng tăng, phân tích thói quen và nhu cầu học viên để có những biện pháp, giáo trình phù hợp tạo sự hứng thú trong học tập, cải thiện được chất lượng học viên và giữ chân học viên là vấn đề cấp thiết của các cơ sở đào tạo tiếng Anh. Chính vì lý do trên, các cơ sở đào tạo không ngừng tìm kiếm các giải pháp và nghiên cứu phát triển các ứng dụng để xác định, dự đoán sớm học viên có khả năng nghỉ học để có biện pháp kịp thời tác động. Trước khi có các chương trình phân tích dự đoán, các cơ sở đào tạo thường phụ thuộc hoàn toàn vào khả năng dự đoán dựa theo các con số được trích xuất chủ quan, số lượng lớn, chọn ngẫu nhiên, cục bộ rời rạc, đánh giá thiếu toàn diện, khách quan. Ngày nay, việc bùng nổ về dữ liệu và khái nhiệm Dữ liệu lớn (Big Data) thì việc kết hợp giữa học máy và Khai phái dữ liệu sẽ mang lại cho các cơ sở đào tạo trực tuyến một lượng thông tin cụ thể, chính xác với nhu cầu, qua đó thực hiện được thu thập dữ liệu, phân tích dự đoán được hành vi học viên để có thể đưa ra được các biện pháp mang lại trải nghiệm tốt hơn cho học viên, giúp học viên cải thiện tốt hơn và cảm thấy được giá trị của khá học, qua đó ngăn chặn sớm ý định nghỉ học hoặc đưa ra các biện pháp phù hợp thuyết phục học viên ở lại khi có ý định nghỉ. Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tôi đã thực hiện đề tài luận văn “DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH 1
  12. TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU”. Luận văn hướng đến việc áp dụng máy học và kỹ thuật khai phá dữ liệu từ dữ liệu hành vi sử dụng của học viên từ đó dự báo học viên có khả năng nghỉ học. Nội dung thực hiện dự kiến gồm có: Phần mở đầu, kết luận và 04 chương, như sau: Chương 1: Giới thiệu tổng quan và các vấn đề liên quan: tổng quan về học trực tuyến. Phát biểu bài toán và các nghiên cứu liên quan. Chương 2: Học máy, Khai phá dữ liệu: các kỹ thuật trong phân tích dự báo trong bài toán dự báo học viên nghỉ học. Tìm hiểu các kỹ thuật học máy, khai phá dữ liệu sử dụng trong bài toán phân lớp, dự báo. Chương 3: Giải pháp phát hiện học viên có khả năng nghỉ học: Các phương pháp để phát hiện khả năng học viên nghỉ học bao gồm các kỹ thuật dựa vào các đặc trưng, thói quen, phương pháp ứng dụng kỹ thuật khai phá dữ liệu. Chương 4: Thực nghiệm và đánh giá kết quả: áp dụng các nội dung của Chương 3 vào việc dự báo học viên nghỉ học. Tiến hành so sánh với một số kỹ thuật khác như: Pytorch, TensorFlow… để tiến hành đánh giá kết quả dự báo và đưa ra mô hình dự báo khuyến nghị để áp dụng vào bài toán thực tế. 2
  13. CHƯƠNG 1: TỔNG QUAN VỀ DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN HỌC TRỰC TUYẾN 1. Học trực tuyến và quản lý quan hệ học viên trong học trực tuyến 1.1. Học trực tuyến là gì? Hiện nay có rất nhiều các quan điểm khác nhau về đào online hay đào tạo trực tuyến, nhưng cách hiểu cơ bản đó là một phương thức phân phối các tài liệu, nội dung học tập dựa trên các công cụ điện tử hiện đại như: điện thoại, máy tính thông qua mạng internet. Trong đó, nội dung tài liệu học tập có thể được cập nhật từ các website trường học trực tuyến và các ứng dụng di động khác. Đặc điểm vượt trội của đào tạo qua mạng đó chính là tính tương tác cao và đa dạng giữa giảng viên và người học. Theo tính năng đó, giảng viên và người học có thể trao đổi trực tiếp với nhau thông qua các ứng dụng: chat, email, diễn đàn, hội thảo trực tuyến,… Thật ra, học trực tuyến đã có từ lâu. Khóa học qua mạng đầu tiên được đưa ra vào năm 1986 bởi trường Đại học John F. Kennedy ở California – Hoa Kỳ. Cho đến ngày nay, tại Mỹ đã có tổng số 21 triệu đăng ký học tập qua website học online. Theo một nghiên cứu của tổ chức Babson Survey Research Group cho thấy vào năm 2013 tại Mỹ đã có trên 7 triệu học viên đăng ký tham gia lớp học online. Về kết quả, học trực tuyến cũng không thua kém các lớp học truyến thống. Các chuyên gia về đào tạo giáo dục đã có hơn 30 năm nguyên cứu cho thấy kết quả học tập tại các website học trực tuyến không hề thua kém so với các lớp học truyền thống. Dựa vào ưu điểm về sự tiên ích của học online nên nhiều người cho rằng nó dễ dàng hơn đào tạo truyền thống. Tuy nhiên, khóa học trực tuyến qua mạng có nghiêm ngặt và khó khăn hay không cũng tùy thuộc vào giảng viên và sự đánh giá của web elearning. Việc học trực tuyến đang ngày một phổ biến, hiện nay hầu hết các tổ chức và trường đại học cung cấp và thiết kế website trường học trực tuyến. Các tổ chức và cá nhân thiết kế web Elearning luôn có nhiều định dạng và phương thức cho quá trình học tập như: đào tạo bằng các văn bản thuần túy thông qua thư điện tử, đào tạo bằng phương pháp đặc trưng tương tác ở mức độ cao thông qua các dịch 3
  14. vụ phương tiện phong phú. Ngoài ra, học trực tuyến qua mạng còn có thể cho phép học viên truy cập các liên kết bên ngoài, những mô phỏng chất lượng cao và các hiệu ứng sinh động. Chính vì thế, tùy thuộc vào mức độ học tập của học viên và quy mô của website học tập trực tuyến mà có nội dung cũng như phương pháp đào tạo thích hợp nhất. Việc thiết kế web đào tạo online giúp giảm bớt được nhiều chi phí xây dựng trường học, cắt giảm được các khâu như: trang bị cơ sở vật chất cho lớp học. Bên cạnh đó, với thiết kế website thanh toán online còn hỗ trợ nhanh chóng và hiệu quả trong việc đóng học phí của học viên. Tuy nhiên, dù là lớp học ảo nhưng cũng cần phải thiết kế web quản lý cho học viên đăng ký khóa học cũng như để giảng viên theo dõi quá trình học tập của học viên. Hoặc hơn thế nữa các trường học kết hợp cả phương thức đào tạo trực tiếp lần đào tạo trực tuyến cũng có thể thiết kế web quản lý ký túc xá để quản lý học viên thuận tiện hơn 1.2. Mối quan hệ với học viên trong học trực tuyến Đối với bất kỳ mô hình kinh doanh nào, mà đặc biệt là với các doanh nghiệp dịch vụ, khách hàng luôn là những người quan trọng nhất, ảnh hưởng trực tiếp đến sự thành công của doanh nghiệp. Kinh doanh ngành giáo dục, đào tạo yêu cầu mối quan hệ tương tác cao với khách hàng bởi vậy, xây dựng hệ thống dữ liệu khách hàng là một điều tối quan trọng. Không chỉ quản lý, phân loại học viên của mình mà còn phải nắm bắt được thói quen, nhu cầu, sở thích, … của nhóm khách hàng mục tiêu đến với doanh nghiệp mình. Bên cạnh đó, xây dựng và phát triển quan hệ khách hàng cũng là một nhiệm vụ bất cứ Doanh nghiệp giáo dục, đào tạo nào cũng cần chú tâm đến. Bởi vậy, quản trị các hệ thống tương tác với khách hàng, xây dựng mối quan hệ tốt và chăm sóc một nhóm khách hàng thân thiết sẽ là một phương thức hiệu quả và cần thiết với nhiều cơ sở kinh doanh. Với ngành giáo dục, đào tạo thì việc chăm sóc học viên giúp tạo sự tương tác gần gũi khiến học viên nhớ đến thương hiệu lâu hơn, đồng thời khảo sát được những ý kiến đánh giá từ họ về cảm nhận và chất lượng kiến thức có được mà họ 4
  15. đã trải qua. Từ đó giúp học viên cảm thấy được quan tâm một cách chân thành, tạo cơ hội để mở đường cho những lần đăng ký các khóa học tiếp theo hoặc giới thiệu người thân tham gia. Bên cạnh đó, nhà trường, doanh nghiệp cũng có thể tiếp thu những đánh giá của học viên để cải thiện và phát huy nội dung, hình thức tổ chức bài giảng của mình. 2. Vấn đề bỏ học Việc học sinh, sinh viên (HSSV) bỏ học được coi là vấn đề phức tạp và quan trọng nhất trong hệ thống giáo dục. Vấn đề này gây thiệt hại về kinh tế, xã hội, học thuật, chính trị và tài chính cho các tác nhân chính của giáo dục, tức là từ HSSV đến chính phủ. Các cơ quan vẫn luôn khuyến khích đưa ra các chiến lược hiệu quả để giảm thiểu chỉ số bỏ học, kể từ khi các biện pháp được áp dụng cho đến nay vẫn chưa có tác động tích cực để giải quyết vấn đề này. Các nghiên cứu trước đây đã đưa ra nhiều định nghĩa khác nhau về việc HSSV bỏ học. Định nghĩa phổ biến nhất tập trung vào việc HSSV sẽ tiếp tục hoạt động học tập cho đến cuối tuần hay tuần hiện tại là tuần cuối cùng mà HSSV hoạt động. Việc xác định sớm những HSSV có nguy cơ bỏ học là rất quan trọng. Do đó, yếu tố thời gian rất quan trọng đối với vấn đề bỏ học. Một số nghiên cứu đã phát hiện ra rằng 75% trường hợp bỏ học xảy ra trong vài tuần đầu tiên. Dự đoán bỏ học thường được coi là vấn đề dự đoán chuỗi thời gian hoặc vấn đề ghi nhãn chuỗi. Những điều này có thể tương ứng với biểu hiện cuối cùng của HSSV trước khi bỏ học. Mặt khác, chiều thời gian có thể được đưa vào một cách gián tiếp trong dự đoán tỷ lệ bỏ học bằng cách sử dụng các thuộc tính đầu vào có sẵn trong một khoảng thời gian cụ thể, cho phép lựa chọn hình thức can thiệp phù hợp. Cụ thể, việc HSSV bỏ học gây ra những thiếu hụt giáo dục có thể ảnh hưởng nghiêm trọng đến các vấn đề về kinh tế và xã hội của các thế hệ hiện tại và tương lai. Bên cạnh đó, một số thiệt hại cho xã hội có thể gặp phải do năng lực sản xuất của một quốc gia có thể bị thách thức do thiếu lực lượng lao động lành nghề, và vấn đề bỏ học có thể dẫn đến mức sống thấp, vấn đề thất nghiệp và các hành vi gây rối trong xã hội. Vì vậy, đây được xem là một trở ngại rất lớn đối với sự phát 5
  16. triển giáo dục. Để giải quyết vấn đề này, cảnh báo việc bỏ học có thể giúp các cơ sở giáo dục xác định các hành vi có thể đẩy nhanh nguy cơ bỏ học và thực hiện các biện pháp chủ động phòng ngừa để giải quyết vấn đề trước khi xảy ra. Khi HSSV có ý định bỏ học, họ áp dụng quyết định của mình mà không cân nhắc kỹ lưỡng những nguy cơ có thể phát sinh, hoặc xin ý kiến hướng dẫn của cha mẹ, người thân. Sự can thiệp kịp thời theo sau hệ thống cảnh báo sớm việc bỏ học có thể giúp HSSV có nguy cơ bỏ học tiếp tục tập trung vào việc học cho đến khi họ hoàn thành khóa học và chuẩn bị cho một tương lai tốt đẹp hơn. 3. Kỹ thuật máy học và khai pháp dữ liệu trong dự báo khả năng nghỉ học của học viên Học máy là một công cụ đầy hứa hẹn để xây dựng mô hình dự đoán tình trạng học viên bỏ học và đưa ra cảnh báo sớm cho các các trường để thực hiện các biện pháp thay thế đối với những học viên có nguy cơ bỏ học. Gần đây, một số nghiên cứu nhấn mạnh việc dự đoán thành tích của học viên bằng cách sử dụng mô hình khai thác dữ liệu (DM)/học máy (ML). Ví dụ: học viên bỏ học ở bậc đại học đã được dự đoán bằng cách sử dụng bộ dữ liệu lớn nhất đã biết về tình trạng tiêu hao ở bậc đại học, theo dõi hơn 32.500 nhân khẩu học và hồ sơ bảng điểm của học viên tại một trong những trường đại học công lập lớn nhất quốc gia và kết quả tổng thể đã chứng minh rằng các mô hình ML có tác động đáng kể về khả năng duy trì và thành công của học viên đồng thời chỉ ra một số hướng đi đầy hứa hẹn cho công việc trong tương lai [1]. Tương tự như vậy, các phương pháp DM được sử dụng để phân tích tình trạng học viên bỏ học trong những năm cuối cấp. Mặc dù các thuật toán DM/ML khác nhau đã được sử dụng để dự đoán tình trạng bỏ học, nhưng chúng vẫn có một số hạn chế nhất định. Trong một số trường hợp, sự mất cân bằng trong lớp học có thể là một trong những khó khăn tiềm tàng trong việc triển khai dự đoán học viên bỏ học bằng ML. Trong kết quả nhị phân đại diện cho học viên bỏ học, tỷ lệ của hai lớp (học viên bỏ học và không bỏ học) có xu hướng mất cân bằng (ví dụ: 1,4% học viên bỏ học so với 98,6% học viên không bỏ học ở trường trung học phổ thông Hàn Quốc năm 2016) [2]. Bên cạnh 6
  17. đó, các phương pháp tiếp cận ML bị chỉ trích vì chúng sử dụng chiến thuật “hộp đen” để dự đoán tình trạng bỏ học và thiếu cách giải thích đúng về mô hình cho con người [3]. Để giải quyết các vấn đề đã được nêu ra cũng như chủ đề của luận văn này sẽ đi sâu vào vấn đề dự đoán khả năng nghỉ học của học viên học tiếng anh trực tuyến, nghiên cứu này sẽ dựa trên sự kết hợp của các thuật toán: Rừng ngẫu nhiên (RF), Tăng cường độ dốc cực cao (XGBoost), Tăng cường độ dốc (GB) và Mạng thần kinh chuyển tiếp nguồn cấp dữ liệu (FNN) để dự đoán khả năng học viên bỏ học trực tuyến. 4. Các công trình nghiên cứu liên quan Một trong những chủ đề được nghiên cứu thường xuyên nhất trong lĩnh vực khai thác dữ liệu giáo dục và phân tích học tập là dự đoán thành công hay thất bại trong học tập của học viên [4]. Khai thác dữ liệu giáo dục liên quan đến việc phân tích dữ liệu liên quan đến nghiên cứu để hiểu hành vi của học viên. Những kỹ thuật này thường được sử dụng để cung cấp môi trường học tập hiệu quả hơn bằng cách tiết lộ thông tin hữu ích để sửa đổi cấu trúc khóa học hoặc hỗ trợ dự đoán thành tích và hành vi của học viên [5]. Mặt khác, phân tích học tập quan tâm đến việc đo lường, thu thập, phân tích và báo cáo dữ liệu và nền tảng của học viên để hiểu và cải thiện việc học tập cũng như môi trường mà nó diễn ra [6]. Các phương pháp khai thác dữ liệu giáo dục và phân tích học tập thường là trung tâm của các phương pháp dự đoán hiện tại. Dự đoán khả năng học viên hoàn thành hoặc trượt một khóa học, đặc biệt là trong những tuần đầu tiên [7], là một trong những chủ đề nghiên cứu nóng nhất trong phân tích học tập, cũng như khai thác dữ liệu giáo dục [8]. Sau khi có dự đoán hiệu suất đáng tin cậy, nó có thể được sử dụng để xác định học viên yếu kém và cung cấp phản hồi cho học viên, cũng như dự đoán sự thất bại của học viên [9]. Hơn nữa, các kỹ thuật ML được nhấn mạnh để ngăn học viên bỏ học khi học từ xa. Dựa trên dữ liệu được cung cấp bởi khóa tin học của Đại học Mở Hellenic, thuật toán Naïve Bayes được coi là mô hình tốt nhất để dự đoán tình 7
  18. trạng bỏ học của học viên [10]. Hơn nữa, các kỹ thuật DM đã được phát triển để dự đoán tình trạng thất học và bỏ học. Sử dụng dữ liệu thực được thu thập trên 670 học viên trung học cơ sở từ Zacatecas, Mexico, các phương pháp phân loại hộp trắng như quy tắc cảm ứng và cây quyết định đã được sử dụng để thực hiện các nhiệm vụ được đề xuất và độ chính xác của phân loại được so sánh để tìm ra mô hình hoạt động tốt nhất. Các kết quả tổng thể chứng minh rằng cây quyết định vượt trội so với các mô hình chuẩn được xây dựng bằng các quy tắc quy nạp [11]. Mặt khác, cây quyết định và bộ phân loại dựa trên quy tắc là các mô hình hộp trắng dễ hiểu hơn và dễ hiểu hơn vì phơi bày quá trình lý luận làm cơ sở cho các dự đoán. Thuật toán phân cụm hoặc khai thác quy tắc kết hợp là các tùy chọn khác. Phân tích tương quan giữa điểm khóa học và các thuộc tính xác định tín chỉ mà học viên đạt được và điểm trung bình của họ cũng có thể hữu ích [12]. Theo đó, các phương pháp phân loại và hồi quy, mạng thần kinh, mạng Bayes, máy vectơ hỗ trợ, hồi quy logistic và hồi quy tuyến tính có thể được sử dụng để giải bài toán dự đoán kết quả học tập của học viên. Những mô hình này thường được gọi là mô hình hộp đen vì chúng khó hiểu và diễn giải. Tất cả chúng đều phụ thuộc rất nhiều vào trích xuất tính năng. Trích xuất tính năng, còn được gọi là lựa chọn thuộc tính, là quá trình tổng hợp một tập hợp con các tính năng dự đoán duy nhất cho vấn đề dự đoán trong mô hình hóa. Quy trình hỗ trợ xác định các thuộc tính có liên quan trong tập dữ liệu góp phần vào độ chính xác của mô hình dự đoán, chẳng hạn như hoạt động gần đây nhất của học viên trong khóa học tương ứng để dự đoán học viên bỏ học [13]. Các chiến lược hoạt động tốt cho một loại tập dữ liệu có thể không hoạt động tốt cho một loại tập dữ liệu khác. Trong trường hợp này, thường cần phải phát triển các chiến lược trích xuất tính năng mới theo cách thủ công [14]. Ngoài ra, các thuật toán phân loại có giám sát đã được phát triển để dự đoán tình trạng bỏ học của học viên trong giáo dục đại học [15] Trên bộ dữ liệu do Đại học Bari Aldo Moro cung cấp, trong giai đoạn 2013–16 và được cung cấp bởi Osservatorio Studenti-Didattica của Miur-Cineca, những học viên có nguy cơ rời trường đại học cao đã được xác định [15]. Các thuật toán ML được giám sát như 8
  19. máy vectơ hỗ trợ, hồi quy logistic và bộ phân loại Gaussian Naïve Bayes đã được so sánh và máy vectơ hỗ trợ vượt trội so với các mô hình ML thông thường [15]. Bên cạnh đó, mạng lưới thần kinh nhân tạo được sử dụng như một hệ thống thông minh để dự đoán các nhóm nguy cơ bỏ học trong các lớp học giáo dục đại học [16]. cụ thể là Mạng thần kinh Fuzzy-ARTMAP. 9
  20. CHƯƠNG 2: CÁC KỸ THUẬT TRONG PHÂN TÍCH DỰ BÁO TRONG BÀI TOÁN DỰ BÁO HỌC VIÊN NGHỈ HỌC. 1. Tiền xử lý dữ liệu Dữ liệu được sử dụng trong học máy hầu như đều là những dữ liệu thô, cần được xử lý, làm sạch và biến đổi để các thuật toán học máy có thể sử dụng để huấn luyện một cách tối ưu trên bộ dữ liệu được đưa ra. Việc tiền xử lý dữ liệu là việc xử lý từ dữ liệu thô thành dữ liệu có khả năng phân tích được, dữ liệu đầy đủ và có sự phân hóa rõ ràng các đặc điểm. Các kỹ thuật tiền xử lý dữ liệu có thể sử dụng như: xử lý dữ liệu bị khuyết (missing data), mã hóa các biến nhóm (encoding categorical variables), co giãn dữ liệu (scaling data),… Tuy nhiên để sử dụng các kỹ thuật này trên bộ dữ liệu thực tế cần phải kết hợp nhiều bước và cần căn cứ vào các đặc trưng của bộ dữ liệu. Với bài toán được đặt ra ở luận văn này, các kỹ thuật tiền xử lý sẽ được sử dụng gồm: làm sạch, chuẩn hóa, chuyển đổi dữ liệu, xử lý dữ liệu thiếu, lấy mẫu, lựa chọn các thuộc tính đặc trưng và cuối cùng là tối ưu hóa siêu tham số. 1.1. Làm sạch, chuẩn hóa và chuyển đổi dữ liệu Bước đầu tiên trước khi tiền xử lý dữ liệu là việc kiểm tra xem dữ liệu như thế nào và có những đặc tính gì, điều này cho phép nắm rõ tập dữ liệu sẽ sử dụng và đưa ra được phương pháp xử lý tối ưu nhất. Trong bước làm sạch dữ liệu, có 2 cách tiếp cận là: lọc và gói. Đối với cách lọc, dữ liệu sẽ được xử lý loại bỏ các phần không có ý nghĩa sử dụng trong bài toán, các dữ liệu 1 màu (1 giá trị duy nhất), các dữ liệu trùng lặp về giá trị và về ý nghĩa sử dụng và các giá trị phi thực tế. Đối với cách gói, dữ liệu sẽ được tối ưu hơn về chất lượng khi được kiểm tra và loại bỏ các dữ liệu sai nhãn. Việc chuẩn hóa là thực hiện "thu nhỏ" các đặc trưng bằng cách san bằng các giá trị tuyệt đối cho cùng một tỷ lệ. Các thuật toán như ANN hay KNN coi trọng việc ngăn chặn sự thiên vị đối với các giá trị ở các tỷ lệ khác nhau. Chuẩn hóa có thể được thực hiện bằng nhiều phương pháp, ví dụ, phương pháp min-max, 10
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1