Ứng dụng thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu nhằm tăng độ chính xác kết quả dự đoán xếp loại thi

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

24
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Ứng dụng thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu nhằm tăng độ chính xác kết quả dự đoán xếp loại thi" muốn tìm hiểu xem liệu việc ứng dụng thuật toán kết hợp Stacking có đem lại kết quả dự đoán cao hơn hay không. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Ứng dụng thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu nhằm tăng độ chính xác kết quả dự đoán xếp loại thi

ỨNG DỤNG THUẬT TOÁN KẾT HỢP STACKING TRONG QUY TRÌNH XỬ LÝ DỮ LIỆU NHẰM TĂNG ĐỘ CHÍNH XÁC KẾT QUẢ DỰ ĐOÁN XẾP LOẠI THI Đặng Minh Quân, Cao Thị Thu Hương Trường Đại học Kinh tế Quốc dân Tóm tắt: Việc dự đoán chính xác kết quả thi có thể đem lại lợi ích to lớn cho người dạy và người học. Các ý tưởng về việc dự đoán kết quả thi chủ yếu xuất hiện cách đây hơn chục năm. Các kỹ thuật xử lý dữ liệu và dự đoán sử dụng trong các nghiên cứu đó chủ yếu sử dụng các thuật toán dự đoán riêng lẻ. Trong nghiên cứu này, chúng tôi muốn tìm hiểu xem liệu việc ứng dụng thuật toán kết hợp Stacking có đem lại kết quả dự đoán cao hơn hay không. Từ khóa: xử lý dữ liệu, xếp loại thi, dự đoán, thuật toán kết hợp Stacking 1. Đặt vấn đề Mọi hệ thống giáo dục đều bao gồm một hệ thống kiểm tra, qua đó phẩm chất và năng lực của người học được đánh giá bằng cách cho điểm và xếp loại cho họ. Kiểm tra cung cấp một bằng chứng hữu hình về năng lực của người học cho lớp cấp cao hơn hoặc cho một khóa học chuyên nghiệp cụ thể. Nếu không có điều này, chúng ta không thể biết người học đạt được những gì từ hệ thống giáo dục của mình. Việc dự đoán chính xác kết quả thi có thể đem lại lợi ích to lớn cho người dạy và người học. Không có nhà giáo nào muốn sinh viên của mình đạt kết quả thấp trong kỳ thi. Nếu có kết quả dự đoán một cách chính xác, giáo viên có thể có kế hoạch cụ thể nhằm giúp đỡ các đối tượng có nguy cơ đạt kết quả không như mong muốn. Với người học, một kết quả dự đoán chính xác có thể như một lời cảnh tỉnh giúp họ xem xét lại quá trình học tập của mình. Kết quả của một kỳ thi có thể có các loại sau: - Điểm số cụ thể: Với nền giáo dục Việt Nam, điểm số phổ biến là từ 0 đến 10. - Xếp loại: Một sinh viên có thể được xếp thành loại giỏi, khá, trung bình, yếu, kém. - Đỗ/trượt. Trong khuôn khổ bài báo này, chúng tôi tập trung vào hình thức kết quả xếp loại. Các ý tưởng về việc dự đoán kết quả thi chủ yếu xuất hiện cách đây hơn chục năm. Do đó, các kỹ thuật xử lý dữ liệu và dự đoán sử dụng trong các nghiên cứu đó đã tương đối lạc hậu. Việc dự đoán chỉ mới dừng ở sự ứng dụng các thuật toán dự đoán riêng lẻ. Trong nghiên cứu này, chúng tôi muốn tìm hiểu xem liệu việc ứng dụng thuật toán kết hợp Stacking có đem lại kết quả dự đoán cao hơn hay không. Để làm được điều này, chúng tôi sử dụng bộ dữ liệu có sẵn đã được dùng trong công trình nghiên cứu trước đó [1]. Chúng tôi xếp loại theo năm mức: giỏi, khá, trung bình, yếu, kém. Với bộ dữ liệu này, đầu tiên, chúng tôi ứng dụng quy trình xử lý dữ liệu tiên tiến nhất hiện nay với các thuật toán dự đoán riêng lẻ. Sau đó, chúng tôi ứng dụng thuật toán kết hợp stacking. Hiệu năng của các thử nghiệm được ghi lại và so sánh. 475
Bài báo này được tổ chức như sau: mô tả các nghiên cứu có liên quan đến việc dự đoán kết quả thi; trình bày thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu tiên tiến nhằm dự đoán kết quả thi; Thực nghiệm về hiệu năng của việc ứng dụng thuật toán kết hợp Stacking; cung cấp một tóm tắt ngắn của bài báo. 2. Tổng quan các nghiên cứu có liên quan Trên thực tế, một số nghiên cứu đã đề cập đến chủ đề dự đoán kết quả thi. Ma và cộng sự (2000) đã áp dụng cách tiếp cận khai phá dữ liệu dựa trên các luật kết hợp để chọn các sinh viên yếu kém tại Singapore để tham gia các lớp học phụ đạo [2]. Đầu vào là các biến bao gồm các thuộc tính nhân khẩu học (ví dụ: giới tính, khu vực) và thành tích học tập tại trường trong những năm vừa qua. Giải pháp được đề xuất có hiệu năng vượt trội hơn so với thủ tục phân bổ chỉ tiêu truyền thống. Năm 2003, theo Minaei-Bidgoli và cộng sự [3], điểm số của học sinh học trực tuyến tại trường đại học Michigan State được mô hình hóa bằng cách sử dụng ba cách tiếp cận phân loại (nhị phân: đạt / không đạt; 3 cấp: thấp, trung bình, cao; và 9 cấp: từ 1 - điểm thấp nhất đến 9 - điểm cao nhất) [3]. Các cơ sở dữ liệu bao gồm 227 mẫu với các tính năng trực tuyến (ví dụ: số bài tập về nhà đã làm và làm đúng). Kết quả tốt nhất thu được bằng cách áp dụng nhóm phân loại (ví dụ: Cây quyết định và Mạng neuron) với tỷ lệ chính xác là 94% (nhị phân), 72% (3 lớp) và 62% (9 lớp). Kotsiantis và cộng sự [4] đã áp dụng một số thuật toán khai phá dữ liệu để dự đoán kết quả thi của sinh viên khoa học máy tính từ một chương trình đào tạo từ xa của trường đại học. Đối với mỗi sinh viên, các thuộc tính nhân khẩu học (ví dụ: giới tính, tuổi, tình trạng hôn nhân) và các thuộc tính hiệu năng (ví dụ: điểm của các bài tập về nhà) được sử dụng làm đầu vào của một bộ phân loại nhị phân đạt/không đạt. Kết quả tốt nhất đã thu được bằng cách sử dụng thuật toán Naive Bayes với độ chính xác 74%. Ngoài ra, các tác giả cũng nhận thấy rằng các biến hiệu năng có tác động cao hơn nhiều hơn các biến nhân khẩu học. Gần đây hơn, Pardos và cộng sự đã thu thập dữ liệu từ các bài kiểm tra toán lớp 8 liên quan đến hệ thống dạy kèm trực tuyến tại Hoa Kỳ [5]. Các tác giả đã áp dụng một cách tiếp cận hồi quy với mục tiêu là dự đoán điểm kiểm tra toán dựa trên các kỹ năng cá nhân. Các tác giả đã sử dụng Bayesian Networks và kết quả tốt nhất là một sai số dự đoán khoảng 15%. Trong nghiên cứu này, chúng tôi xuất phát từ dữ liệu được mô tả trong [6]. Bộ dữ liệu có ba thành phần chính. - Thành phần thứ nhất là bảng điểm trong quá khứ, cụ thể hơn là các điểm kiểm tra lần 1 và lần 2. - Thành phần thứ hai là tập hợp một số thuộc tính nhân khẩu học, xã hội và trường học được thống kê lại (ví dụ: tuổi học sinh, mức độ tiêu thụ rượu, trình độ học vấn của người mẹ). - Thành phần thứ ba là kết quả thi được phân loại theo năm cấp độ: giỏi, khá, trung bình, yếu, kém. Để dự đoán kết quả thi, chúng tôi đã sử dụng quy trình xử lý dữ liệu tiên tiến với các thuật toán dự đoán riêng lẻ như sau [1]: 476
Thám Chuẩn Chuyển đổi Tóm tắt Data hiểm hóa dữ liệu dữ liệu phân loại dữ liệu dữ liệu Dự Huấn Giảm kích Kết Phân chia thước đầu quả đoán luyện dữ liệu vào dữ liệu Hình 1: Quy trình xử lý dữ liệu với các thuật toán riêng lẻ Tóm tắt dữ liệu giúp chúng ta có cái nhìn toàn cảnh về dữ liệu. Khám phá dữ liệu sử dụng các kỹ thuật thống kê và trực quan hóa dữ liệu để mô tả các đặc điểm của tập dữ liệu, chẳng hạn như: kích thước, số lượng và độ chính xác, nhằm hiểu rõ hơn về bản chất của dữ liệu. Làm sạch và chuyển đổi dữ liệu xử lý các dữ liệu thừa, thiếu và đưa chúng về dạng chuẩn. Giảm kích thước đầu vào sẽ chọn ra các trường dữ liệu quan trọng nhất. Mô tả cụ thể các bước của quy trình xử lý dữ liệu này có thể được xem trong [1]. Trong nghiên cứu này, chúng tôi vẫn tiếp tục sử dụng quy trình xử lý dữ liệu trên. Tuy nhiên, ở bước huấn luyện và dự đoán, thay vì dùng các thuật toán đơn lẻ, chúng tôi dùng phương pháp kết hợp stacking. 3. Quy trình xử lý dữ liệu dự đoán xếp hạng thi sử dụng thuật toán kết hợp stacking Tổng quan quy trình dự đoán xếp hạng thi sử dụng thuật toán kết hợp Stacking được mô tả trong Hình 2. Tóm tắt Thám hiểm Chuẩn hóa Chuyển đổi Data dữ liệu dữ liệu dữ liệu dữ liệu phân loại Phân chia Giảm kích Kết Thuật toán kết hợp stacking thước đầu quả dữ liệu vào dữ liệu Hình 2: Quy trình xử lý dữ liệu dùng thuật toán kết hợp stacking Thuật toán kết hợp Stacking được mô tả cụ thể hơn trong Hình 3. Trong thuật toán này, chúng ta sử dụng nhiều mô hình dự đoán riêng lẻ để tạo ra tập dữ liệu huấn luyện/dự đoán mới. Sau đó, tập dữ liệu mới này được dùng để huấn luyện một mô hình dự đoán khác và thực hiện dự đoán. Tạo tập dữ Tạo các Huấn Dữ liệu huấn Kết mô hình dự luyện và liệu luyện/dự quả đoán cơ sở dự đoán đoán mới Hình 3: Thuật toán kết hợp stacking 477
Quy trình huấn luyện các mô hình Từ Hình 3, chúng ta có thể thấy việc huấn luyện một mô hình dự đoán trong thuật toán kết hợp Stacking được thực hiện khá nhiều lần. Quá trình huấn luyện được mô tả theo Hình 4. Tiến trình Thuật Mô hình Dữ liệu Tiến trình toán dự đoán Tiến trình Tập các tham số Hình 4: Cơ chế huấn luyện mô hình dự đoán Để huấn luyện mô hình dự đoán, bên cạnh việc sử dụng dữ liệu đã được chuẩn hóa, chúng tôi còn cần tập các tham số. Quá trình huấn luyện sẽ sử dụng các tập tham số khác nhau để luyện, xác thực nhằm tìm ra tập tham số tối ưu. Do có nhiều tập tham số nên quá trình huấn luyện có thể sẽ kéo dài. Để hạn chế tình trạng này, chúng tôi cài đặt để việc huấn luyện có thể được thực hiện song song trên các lõi của bộ vi xử lý. Tạo các mô hình dự đoán cơ sở Thuật Thuật Thuật toán toán toán Các mô Dữ liệu … cơ sở cơ sở cơ sở hình dự huấn 1 2 n đoán cơ luyện sở Hình 5: Tạo các mô hình dự đoán cơ sở Với cùng một bộ dữ liệu huấn luyện đầu vào, chúng ta dùng nhiều thuật toán cơ sở khác nhau để huấn luyện nhằm tạo ra các mô hình dự đoán cơ sở. Điều này có thể khả thi do hiện nay các thuật toán dự đoán riêng lẻ cho mỗi lớp bài toán đã xuất hiện khá nhiều. Ví dụ với bài toán phân loại đa nhóm trong bài báo này, chúng ta có thể có các thuật toán riêng lẻ như RF [7], RPART [8], XGB [9], SDA [10], KNN [11],… 478
Tạo tập dữ liệu huấn luyện/dự đoán mới Các mô hình dự đoán cơ sở Các mô Dữ liệu hình dự huấn luyện đoán cơ sở Thực hiện dự đoán Dữ liệu dự Dữ liệu dự đoán mới đoán Hình 6: Tạo tập dữ liệu huấn luyện/dự đoán mới Ở bước này, các mô hình dự đoán cơ sở được áp dụng với bộ dữ liệu huấn luyện và bộ dữ liệu dự đoán nhằm tạo ra bộ dữ liệu huấn luyện mới và bộ dữ liệu dự đoán mới. Lưu ý rằng, kết quả dự đoán của các mô hình dự đoán cơ sở là các giá trị phân loại. Vì vậy, sau bước này, bộ dữ liệu huấn luyện mới và bộ dữ liệu dự đoán mới chỉ bao gồm các giá trị phân loại. Huấn luyện và dự đoán với bộ dữ liệu mới Dữ liệu huấn Luyện thuật Mô hình Dự đoán Kết quả luyện toán cơ sở dự đoán mới Tập các Dữ liệu dự tham số đoán mới Hình 7: Quy trình huấn luyện/dự đoán với tập dữ liệu mới Ở bước này, chúng ta lại sử dụng một thuật toán cơ sở để thực hiện huấn luyện và dự đoán trên tập dữ liệu mới. Như vậy chúng ta thấy tư tưởng chủ đạo của thuật toán kết hợp Stacking là sử dụng nhiều thuật toán cơ sở và sử dụng lặp lại các thuật toán cơ sở với các bộ dữ liệu được biến đổi từ dữ liệu gốc. 479
4. Kiểm tra hiệu năng Bảng 1: Kết quả kiểm tra hiệu năng Tên thuật toán Hiệu năng Hiệu năng thuật Tên thuật toán đầy đủ rút gọn (%) toán Stacking (%) Shrinkage Discriminant Analysis SDA 80,26 Random forest RF 84,21 Recursive Partitioning and RPART 86,80 88,15 Regression Trees Extreme gradient boosting XGB 86,80 K nearest neighbors KNN 81,58 Việc kiểm tra hiệu năng nhằm đánh giá xem liệu việc sử dụng thuật toán kết hợp Stacking có đem lại kết quả dự đoán tốt hơn các thuật toán riêng lẻ hay không. Để thực hiện việc này, chúng tôi sử dụng bộ dữ liệu có sẵn đã được dùng trong tài liệu tham khảo số [6]. Chúng tôi chia dữ liệu ra năm phần. Bốn phần dùng để huấn luyện. Một phần dùng để dự đoán và kiểm tra kết quả. Ở bước thứ sáu, với quy trình sử dụng các thuật toán riêng lẻ chúng tôi sử dụng một số thuật toán dự đoán phổ biến hiện nay cho mục đích phân loại nhiều lớp như RF [7], RPART [8], XGB [9], SDA [10], KNN [11]. Với thuật toán kết hợp stacking, các thuật toán cơ sở bao gồm RPART [8], SDA [10], thuật toán kết hợp là RPART [8]. Kết quả được mô tả trong Bảng 1. Từ kết quả mô tả trong Bảng 1, chúng ta có thể thấy với quy trình xử lý dữ liệu dùng thuật toán kết hợp stacking, chúng ta có thể đạt được hiệu năng cao hơn so với việc sử dụng các thuật toán dự đoán đơn lẻ trong tất cả các trường hợp. Tuy nhiên, sự khác nhau về hiệu năng là không đồng nhất. Một số thuật toán riêng lẻ có hiệu năng tiếp cận với thuật toán kết hợp như XGB, RPART. 5. Kết luận Dự đoán chính xác kết quả thi rất quan trọng cho công tác cố vấn học tập trong các cơ sở giáo dục và đào tạo. Bài báo này của chúng tôi nằm trong chuỗi các nỗ lực nhằm tăng độ chính xác kết quả dự đoán xếp hạng thi. Cụ thể hơn, chúng tôi đã ứng dụng thuật toán kết hợp Stacking vào quy trình xử lý dữ liệu tiên tiến. Quy trình xử lý dữ liệu tiên tiến tạo ra bộ dữ liệu đầu vào hiệu quả cho các thuật toán dự đoán. Thuật toán Stacking đi xa hơn bằng cách tạo ra một bộ dữ liệu đầu vào hoàn toàn mới. Bộ dữ liệu mới này giúp các thuật toán dự đoán cho ra kết quả tốt hơn. Để kiểm tra hiệu năng chúng tôi đã dùng một bộ dữ liệu của nghiên cứu trong quá khứ để dễ kiểm tra. Kết quả thực nghiệm cho thấy với quy trình xử lý dữ liệu dùng thuật toán kết hợp Stacking, chúng ta có thể đạt được hiệu năng cao hơn so với việc sử dụng các thuật toán dự đoán đơn lẻ trong tất cả các trường hợp. Đây là kết quả rất đáng khích lệ để ứng dụng, cập nhật quy trình xử lý dữ liệu cho các hệ thống hiện có hoặc chuẩn bị được xây dựng. Quy trình xử lý dữ liệu này cũng là tiền để để phát triển các kỹ thuật xử lý dữ liệu tốt hơn nhằm đem lại hiệu năng cao hơn của chúng tôi trong tương lai. 480
Tài liệu tham khảo 1. Quân, Đ.M. (2021), Ứng dụng quy trình xử lý dữ liệu tiên tiến nhằm tăng độ chính xác kết quả dự đoán xếp loại thi, in Ứng dụng công nghệ thông tin trong đổi mới phương pháp giảng dạy theo hướng Blended Learning. p. 114-121. 2. Ma, Y., et al. (2000), Targeting the right students using data mining. In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining. 2000. 3. Minaei-Bidgoli, B., et al., (2003), Predicting student performance: an application of data mining methods with an educational web-based system. in 33rd Annual Frontiers in Education, 2003. FIE 2003. 2003. IEEE. 4. Kotsiantis, S., C. Pierrakeas, and P. J. A. A. I. Pintelas (2004), Predicting students' performance in distance learning using machine learning techniques. 18(5): p. 411-426. 5. Pardos, Z.A., et al. (2006), Using fine-grained skill models to fit student performance with Bayesian networks. in Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems. Taiwan. 6. Cortez, P. and A.M.G. Silva (2008), Using data mining to predict secondary school student performance. 7. Hastie, T., R. Tibshirani, and J. Friedman (2009), Boosting and additive trees, in The elements of statistical learning, Springer. p. 337-387. 8. Breiman, L., et al. (2017), Classification and regression trees. 2017: Routledge. 9. Chen, T. and C. Guestrin (2016). Xgboost: A scalable tree boosting system. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 10. Hilpisch, Y. (2018), Python for finance: Mastering data-driven finance. 2018: O'Reilly Media. 11. Venables, W.N. and B.D. Ripley (2013), Modern applied statistics with S-PLUS. 2013: Springer Science & Business Media. 481