Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên
lượt xem 5
download
Mục đích của đề tài này là đi sâu tìm hiểu việc phân tích dữ liệu thông tin cá nhân của sinh viên, kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn môn học phù hợp, đạt được kết quả cao nhất. Mời các bạn tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ XUÂN LÂM NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP CHO SINH VIÊN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2020
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ XUÂN LÂM NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP CHO SINH VIÊN Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý Hệ thống Thông tin Mã số: 8480205.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM Hà Nội – 2020
- LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn. Tôi xin gửi lời cảm ơn chân thành tới các thầy, cô ở khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN đã trang bị những kiến thức và tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập tại trường. Tôi cũng xin bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu. Tôi xin cảm ơn gia đình, người thân, bạn bè luôn động viên và tạo mọi điều kiện tốt nhất cho tôi. Tôi xin chân thành cảm ơn! Hà Nội, tháng 9 năm 2020 Học viên Lê Xuân Lâm 1
- LỜI CAM ĐOAN Tôi xin cam kết công trình nghiên cứu này là của tôi, được thực hiện dưới sự hướng dẫn của PGS.TS. Nguyễn Hà Nam. Các số liệu, kết quả được nêu trong luận văn là trung thực và chưa được ai công bố ở bất cứ công trình nào khác. Hà Nội, tháng 9 năm 2020 Học viên Lê Xuân Lâm ii
- MỤC LỤC LỜI CẢM ƠN ........................................................................................................ i LỜI CAM ĐOAN ................................................................................................. ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... v LỜI MỞ ĐẦU ....................................................................................................... 1 Chương 1. Giới thiệu............................................................................................. 3 1.1.Quy trình quản lý đào tạo tại trường CĐ.ANND I ..................................... 3 1.2.Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I ....................................................................................................... 6 1.3.Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục ................ 8 1.4.Hướng tiếp cận của luận văn ....................................................................... 9 1.5.Kết luận chương 1 ..................................................................................... 10 Chương 2. Cơ sở lý thuyết .................................................................................. 11 2.1.Khai phá dữ liệu ........................................................................................ 11 2.1.1. Khái niệm .......................................................................................... 11 2.1.2. Những hướng tiếp cận trong KPDL .................................................. 12 2.1.3. Các bước xây dựng một giải pháp về KPDL .................................... 13 2.1.4. Các lĩnh vực ứng dụng của KPDL .................................................... 13 2.2.Một số kỹ thuật KPDL trong phân lớp, dự đoán ...................................... 15 2.2.1. Cây quyết định .................................................................................. 15 2.2.2. Phân lớp Naïve Bayes ....................................................................... 16 2.2.3. Luật kết hợp ...................................................................................... 17 2.2.4 Hồi quy tuyến tính.............................................................................. 19 2.2.5 Mạng nơ-ron nhân tạo ........................................................................ 21 2.3.KPDL với MS SQL Server ....................................................................... 23 2.3.1. Giới thiệu chung ................................................................................ 23 2.3.2. Data Mining eXtensions.................................................................... 25 2.3.3. Bộ công cụ SQL Server Data Tool – Business Intelligence ............. 29 2.3.4. Lập trình KPDL với ADODE.NET .................................................. 30 iii
- 2.3.5. Đánh giá tính hiệu quả các mô hình KPDL trong SSDT-BI ............ 31 2.4.Kết luận chương 2 ..................................................................................... 32 Chương 3. Giải quyết bài toán ............................................................................ 33 3.1.Phát biểu bài toán ...................................................................................... 33 3.2.Mô tả một số giải thuật sử dụng trong bài toán 1 và bài toán 2 ................ 33 3.2.1. Thuật toán Apriori ............................................................................. 33 3.2.2. Thuật toán C4.5 ................................................................................. 35 3.2.3. Thuật toán hồi quy tuyến tính của Microsoft .................................... 36 3.2.4. Thuật toán Back propagation ............................................................ 38 3.3.Xây dựng CSDL ........................................................................................ 39 3.4.Xây dựng mô hình KPDL ......................................................................... 43 3.5.Lập trình KPDL với ADOMD.NET ......................................................... 55 3.6.Đánh giá mô hình ...................................................................................... 57 3.6.1 Đánh giá mô hình với Lift Chart ........................................................ 57 3.6.2 Đánh giá mô hình với Classification Matrix...................................... 63 3.7.Xây dựng ứng dụng hỗ trợ tư vấn học tập ................................................ 64 3.8.Kết luận chương 3 ..................................................................................... 69 KẾT LUẬN ......................................................................................................... 70 HƯỚNG PHÁT TRIỂN ...................................................................................... 70 TÀI LIỆU THAM KHẢO ................................................................................... 71 iv
- DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa CĐ.ANND I Cao đẳng An ninh nhân dân I CSDL Cơ sở dữ liệu DMX Data Mining eXtensions DMM Data Mining Model KPDL Khai phá dữ liệu MS Microsoft SSDT-BI SQL Server Data Tool - Bussiness Intelligence QLĐT Quản lý Đào tạo v
- DANH MỤC CÁC BẢNG Bảng 2.1: Lựa chọn các thuật toán KPDL theo mục đích .................................. 24 Bảng 2.2: Bảng danh sách thư viên API Analysis Services................................ 30 Bảng 3.1: Bảng quy đổi thang điểm .................................................................... 40 Bảng 3.2: Thông tin dữ liệu cho bài toán 1 ......................................................... 41 Bảng 3.3: Bảng giá trị Mining Legend................................................................ 59 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình của khai thác tri thức........................................................... 11 Hình 2.1: Cấu trúc của cây quyết định ................................................................ 15 Hình 2.2: Cây quyết định dự báo khả năng khách hàng ..................................... 16 Hình 2.3: Biểu đồ hồi quy tuyến tính đơn ........................................................... 20 Hình 2.4: Mô hình nơ-ron đơn lẻ ........................................................................ 21 Hình 2.5: Mô hình mạng nơ-ron đa tầng............................................................. 21 Hình 2.6: Mạng nơ-ron trong MS Neural Network ............................................ 22 Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server ................................ 23 Hình 2.8: Biểu đồ đánh giá Lift Chart................................................................. 31 Hình 2.9: Đánh giá mô hình với Classification Matrix....................................... 32 Hình 3.1: Danh sách kết quả các luật .................................................................. 34 Hình 3.2: Kết quả mô hình cây quyết định ......................................................... 36 Hình 3.3: Kết quả mô hình hồi quy tuyến tính.................................................... 37 Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp .................. 38 Hình 3.5: Lược đồ CSDL quan hệ ...................................................................... 41 Hình 3.6: Bộ dữ liệu sử dụng cho bài toán số 1 .................................................. 42 Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm ....................................................... 43 Hình 3.8: Danh sách điểm của các học viên ....................................................... 43 Hình 3.9: Tạo một dự án Data mining ................................................................ 44 Hình 3.10: Tạo Data Source ................................................................................ 44 Hình 3.11: Tạo Data Source View ...................................................................... 45 Hình 3.12: Lựa chọn Mining model structure..................................................... 45 Hình 3.13: Thiết lập thuộc tính cho dự báo ........................................................ 46 Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo .............................. 46 Hình 3.15: Thiết lập dataset với training và testing ............................................ 47 Hình 3.16: Một Mining Structure và Mining Model được tạo ........................... 47 Hình 3.17: Thêm mới một Mining Model .......................................................... 48 Hình 3.18: Tạo 04 mô hình cho một Mining Structure....................................... 49 vi
- Hình 3.19: Kết quả viewer mô hình Cây quyết định .......................................... 49 Hình 3.20: Kết quả viewer mô hình Luật kết hợp............................................... 50 Hình 3.21: Kết quả viewer mô hình Naïve Bayes............................................... 50 Hình 3.22: Kết quả viewer mô hình mạng nơ-ron nhân tạo ............................... 51 Hình 3.23: Biểu đồ Lift Chart cho 04 mô hình ................................................... 51 Hình 3.24: Kết quả Classification Matrix của 04 mô hình ................................. 52 Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mô hình ..................... 53 Hình 3.26: Kết quả truy vấn Singleton Query với mô hình ................................ 53 Hình 3.27: Tạo 3 mô hình cho bài toán 2............................................................ 54 Hình 3.28: Biểu đồ Lift chart cho 3 mô hình ...................................................... 54 Hình 3.29: Sử dụng ADMOD.NET trong C# ..................................................... 55 Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định ........................ 57 Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mô hình ................. 58 Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đoán ........... 60 Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đoán ........... 60 Hình 3.34: Mạng phụ thuộc mô hình CayQĐ ..................................................... 61 Hình 3.35: Mạng phụ thuộc mô hình CayQĐ ..................................................... 62 Hình 3.36: Biểu đồ phân tán đánh giá 3 mô hình ............................................... 62 Hình 3.37: Đánh giá 3 mô hình với Classifications Matrix ................................ 64 Hình 3.38: Sơ đồ hoạt động hệ thống.................................................................. 65 Hình 3.39: Giao diện chính của hệ thống............................................................ 66 Hình 3.40: Kết quả Ví dụ 1 ................................................................................. 67 Hình 3.41: Kết quả Ví dụ 2 ................................................................................. 67 Hình 3.42: Kết quả ví dụ 3 .................................................................................. 68 vii
- LỜI MỞ ĐẦU Trong những năm gần đây, việc ứng dụng các kỹ thuật khai phá dữ liệu và phát hiện tri thức trong các lĩnh vực giáo dục, tài chính, ngân hàng, xây dựng…rất được quan tâm nghiên cứu. Đối với giáo dục, đào tạo sinh viên trong các trường Đại học, Cao đẳng theo hình thức đào tạo tín chỉ đòi hỏi học viên phải có sự chủ động cao. Sinh viên trong quá trình học tập phải tự mình lựa chọn, phân bổ các môn học cho từng kỳ sao cho tích lũy đủ số tín chỉ theo quy chế đào tạo, Sinh viên hoàn toàn có thể ra trường sớm hoặc đúng hạn. Qua quá trình dạy học tại trường Cao đẳng An ninh nhân dân I, tôi nhận thấy tỉ lệ học viên học tập tại trường đạt kết quả chưa cao. Nguyên nhân là do các em mới bước chân từ môi trường giáo dục THPT vào môi trường Đại học, Cao đẳng còn nhiều bỡ ngỡ, khó khăn trong việc định hướng học tập, làm ảnh hưởng tới kết quả học tập của bản thân cũng như đối với nhà trường. Chúng ta có thể áp dụng lĩnh vực khai phá dữ liệu và phát hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên có những định hướng trong việc lựa chọn, xây dựng thời khóa biểu phù hợp bản thân mang lại đạt kết quả cao trong quá trình học tập tại trường. Từ cơ sở thực tiễn đó, tôi đã chọn đề tài: “Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên”. Mục đích của đề tài này là đi sâu tìm hiểu việc phân tích dữ liệu thông tin cá nhân của sinh viên, kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn môn học phù hợp, đạt được kết quả cao nhất. Nội dung trình bày luận văn “Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho học viên” được bố cục gồm 3 chương: Chương 1: Giới thiệu Chương này trình bày về hiện trạng công tác quản lý đào tạo của trường CĐ.ANND I, các đối tượng, phạm vi và hướng nghiên cứu của luận văn. Chương 2: Cơ sở lý thuyết Chương này trình bày cơ sở về khai phá dữ liệu và phát hiện tri thức, các kỹ thuật khai phá dữ liệu Cây quyết định, Luật kết hợp, Hồi quy tuyến tính, Neural Networks và Naïve Bayes, Công cụ SSDT-BI của SQL Server 2012. Chương 3: Giải quyết bài toán Mô tả, xây dựng bài toán dự đoán kết quả học tập cuối kỳ cho học viên, bài toán dự đoán kết quả của một môn học sắp tới. Tổng hợp và xử lý các dữ liệu liên 1
- quan dùng cho phát triển hệ thống. Xây dựng một số mô hình: Hồi quy tuyến tính, Luật kết hợp, Neural Networks, Cây quyết định, Naïve Bayes và đưa ra đánh giá các mô hình tương ứng Xây dựng cơ sở dữ liệu quản lý học viên và chuyển cơ sở dữ liệu thành kho dữ liệu. Sau đó tiến hành phân tích báo cáo và xây dựng mô hình dựa trên công cụ Business Intelligence của SQL Server 2012, đánh giá các mô hình. Xây dựng ứng dụng thực nghiệm tư vấn cho học viên, dựa trên mô hình đánh giá cho kết quả tốt nhất. 2
- Chương 1. Giới thiệu 1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng 5 năm 2014 của Bộ trưởng Bộ giáo dục và Đào tạo ban hành Quy chế đào tạo đại học và cao đẳng hệ chính quy theo hệ thống tín chỉ; Hướng dẫn số 11792/HD- X11-X14 của Tổng cục Chính trị Công an nhân dân hướng dẫn thực hiện quy chế đào tạo đại học, cao đẳng theo tín chỉ; Quyết định số 499/QĐ-T33(P5), ngày 27 tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I ban hành Quy định đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ. Lưu đồ sau được xây dựng quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc giảng dạy của Phòng Quản lý Đào tạo, các Khoa, Bộ môn và các Phòng chức năng khác liên quan. Bước Công đoạn Hồ sơ Kết quả tuyển sinh Quyết định và danh sách thí sinh 1 trúng tuyển các khóa. Quyết định thành lập khoá học. Thành lập khoá học 2 Đề cương môn học 3 Lập khung thời gian khoá học Lịch giảng dạy 4 Xem xét/ điều chỉnh C ó Lịch giảng dạy chi tiết 5 Lập Thời khoá K biểu chi tiết hông Thực hiện công tác giảng dạy 6 Phiếu báo giảng dạy Quản lý Quản lý tổ Quản lý 7 nội dung chức tiến độ Sổ đầu bài giảng dạy giảng dạy khoá học 3
- Quản lý đánh giá kết quả giảng dạy Đề thi 8 Bài thi Kết quả thi Bảng điểm Quản lý kết quả học tập 9 Mạng nội bộ Xét tốt nghiệp Quy chế xét và cấp bằng tốt nghiệp 10 Báo cáo tổng hợp tình hình giảng 11 Cập nhật & lưu giữ hồ sơ dạy Mô tả lưu đồ: - Bước 1: Hàng năm, căn cứ vào chỉ tiêu tuyển sinh do Bộ Công an phê quyệt, nhà trường thực hiện công tác tuyển sinh, họp xét điểm chuẩn, lập quyết định và danh sách thí sinh trúng tuyển; - Bước 2: Căn cứ danh sách thí sinh trúng tuyển, phòng QLĐT tiến hành phân lớp, phân công cán bộ quản lý đào tạo theo Quyết định thành lập từng khóa học; - Bước 3: Hàng năm, căn cứ vào chương trình đào tạo và tiến độ đào tạo của các khóa học, phòng QLĐT lập kế hoạch giảng dạy dự kiến của cả năm học; - Bước 4: Kế hoạch giảng dạy dự kiến được cán bộ phòng QLĐT bố trí lịch giảng cụ thể cho từng môn học. Sau đó chuyển đến các khoa đào tạo để phân công giảng viên và đề nghị điều chỉnh lịch (nếu có); - Bước 5: Căn cứ kế hoạch lịch giảng của năm học, cán bộ quản lý tiến hành lập lịch giảng chi tiết cho các khóa (thực hiện cho cả năm học) kèm với phiếu báo lịch giảng cho từng môn học; - Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết; - Bước 7: Quản lí quá trình giảng dạy Phân cấp trách nhiệm quản lí quá trình giảng dạy + Trưởng Khoa, Bộ môn ✓ Phân công giảng viên phụ trách các học phần và báo về phòng QLĐT; 4
- ✓ Kiểm tra giáo trình, giáo án của các giảng viên, tổ chức kiểm tra việc thực hiện lịch trình giảng dạy, chất lượng giảng dạy và công tác phục vụ giảng dạy; ✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của sinh viên thông qua Giáo vụ khoa, bộ môn. ✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ môn; ✓ Tổ chức sinh hoạt bộ môn theo đúng quy chế của Trường; + Giáo vụ khoa, bộ môn ✓ Cập nhật thời khoá biểu, lịch trình, lịch thi; ✓ Theo dõi việc thực hiện công tác giảng dạy và học tập của giảng viên và sinh viên trong Khoa; ✓ Quản lý điểm; + Chuyên viên Phòng QLĐT ✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của năm học; ✓ Kiểm tra tiến độ giảng dạy theo lịch trình giảng dạy và quản lý sổ theo dõi giảng dạy. Căn cứ vào việc thực hiện giờ lên lớp, thống kê số giờ còn thiếu và yêu cầu dạy bù đủ số tiết; ✓ Tổng hợp (1 tháng /1lần) các trường hợp sai phạm và các trường hợp phát sinh: vắng tiết, quên giờ, bỏ giờ,.... lập báo cáo gửi về phòng Quản lý học viên. + Chuyên viên Phòng thanh tra: Có trách nhiệm kiểm tra: ✓ Việc thực hiện giờ lên lớp theo quy định chung; ✓ Tiến độ giảng dạy theo lịch trình giảng dạy; ✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng. + Ban Giám hiệu ✓ Là cấp có thẩm quyền quyết định hình thức kỷ luật khi có các giảng viên vi phạm. Trong trường hợp nghiêm trọng, Hiệu trưởng - Chủ tịch Hội đồng khen thưởng, kỷ luật Trường sẽ triệu tập họp để xét khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan. Quản lí nội dung giảng dạy Căn cứ vào phân công trách nhiệm, quản lý nội dung giảng dạy gồm: + Quản lý khung chương trình. 5
- + Quản lý đề cương chi tiết của các học phần. + Quản lý giáo trình, giáo án. + Đảm bảo số giáo trình, tài liệu tham khảo của các môn học. + Bổ sung, cập nhật các thay đổi về chương trình giảng dạy sau khi đã có sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường Quản lý tiến độ giảng dạy Căn cứ vào phân công trách nhiệm, nội dung quản lý tiến độ gồm: + Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng môn học được ghi chép vào Sổ theo dõi giảng dạy và học tập. + Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện dạy bù. + Phòng QLĐT căn cứ vào theo dõi thực hiện thời khoá biểu sẽ thống kê số giờ còn thiếu và yêu cầu giảng viên dạy bù đủ số tiết. - Bước 8: Phòng Khảo thí đảm bảo chất lượng thực hiện việc tổ chức thi hết học phần cho các khóa, thực hiện việc chuyển đề thi và nhận bài thi (theo quy trình phối hợp), tổ chức chấm thi và chuyển điểm về phòng QLĐT theo thời gian quy định; - Bước 9: Khi nhận bảng điểm từ phòng Khảo thí đảm bảo chất lượng, phòng QLĐT photo 2 bản: 1 bản chuyển các khoa, bộ môn, 1 bản chuyển công bố cho SV. Tổ điểm gốc tiến hành nhập điểm vào hệ thống mạng nội bộ; - Bước 10: Căn cứ tiến độ đào tạo của từng khóa học và quy chế đào tạo, phòng QLĐT tiến hành xét chuyển giai đoạn, xét điều kiện dự thi tốt nghiệp và xét tốt nghiệp cho học viên. Sau khi được Hội đồng họp xét thông qua, kết quả xét được công bố cho học viên và phòng QLĐT thực hiện các bước tiếp theo của khóa học; - Bước 11: Cập nhật và lưu trữ hồ sơ. 1.2.Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I Trường Cao đẳng An ninh nhân dân I là trường thuộc Bộ Công an có nhiệm vụ đào tạo, huấn luyện chiến sĩ có trình độ cao, phẩm chất chính trị vững vàng, đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Công an nhân dân Việt Nam. Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà 6
- trường đã xây dựng và đào tạo 3 chuyên ngành đào tạo cao đẳng chính quy, 4 chuyên ngành đạo tạo Trung cấp chuyên nghiệp và nhiều chương trình đào tạo ngắn hạn khác. Các lĩnh vực đào tạo: An ninh, Ngoại tuyến, Cảnh vệ Nhiệm vụ đặt ra đối với trường CĐ.ANND I hiện nay là làm sao nâng cao được chất lượng học tập của học viên trong trường, đáp ứng được nhu cầu đào tạo trước tình hình mới là điểm trọng tâm hàng đầu được nhà trường quan tâm. Trường CĐ.ANND I đã triển khai đào tạo tín chỉ từ năm 2013-2018. Qua thực hiện triển khai mô hình giảng dạy theo tín chỉ tại Trường có rất nhiều vấn đề bất cập cần sửa đổi theo đúng nghĩa của mô hình đào tạo theo tín chỉ, cụ thể như: - Chưa đáp ứng được yêu cầu đăng ký học tập của học viên (như phần mềm hỗ trợ đăng ký, theo dõi lịch học…) - Quản lý dữ liệu về học viên chủ yếu còn thủ công bằng Excel gặp nhiều khó khăn. - Chưa tổ chức cho học viên đăng ký theo khối lượng học tập, rút bớt học phần đăng ký mà học viên được học theo các học phần Nhà trường bố trí và lựa chọn. - Việc tổ chức cho học viên học cùng lúc hai chương trình chưa được thực hiện do quy định của ngành Công an hiện nay. Chính vì vậy nhu cầu tư vấn học tập của học viên thực sự không nhiều, ít thường xuyên, chủ yếu tập trung trong thời điểm đầu khóa mới nhập học. Vai trò của đội ngũ cố vấn học tập cũng chưa thể hiện nhiều trong suốt quá trình đạo tạo. Thực tế tại các trường Đại học, Cao đẳng ở Việt Nam hiện nay, việc học viên tự chủ động đăng ký lựa chọn môn học phù cho bản thân còn chưa hiệu quả, chưa tận dụng được ưu điểm của việc học theo tín chỉ, chưa xây dựng được lộ trình học tập phù hợp với từng sinh viên. Nhằm giúp phần hỗ trợ cho học viên lựa chọn được những môn học phù hợp với năng lực, đảm bảo hoàn thành khóa học sớm hoặc đúng hạn thì rất cần tới sự trợ giúp của giáo viên cố vấn. Tuy nhiên, ngoài những kinh nghiệm của bản thân mình thì giáo viên cố vấn sẽ phải tra kết quả học tập của mỗi học viên để trợ giúp tùy theo năng lực cá nhân của mỗi em, điều đó khá tốn thời gian và mất nhiều công sức. Việc dự đoán kết quả môn học sắp tới của học viên dựa trên các thông tin về những môn học đã học và kết quả của môn đó sẽ giúp cho học viên có thể đánh giá được năng lực của mình để có 7
- kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới các học viên đạt kết quả thấp là một việc làm hết sức thiết thực. Xuất phát từ những điểm nêu trên tác giả đề xuất 2 bài toán dự đoán kết quả học tập của học viên như sau: Bài toán 1: Dựa vào các thông tin nhân khẩu học: Giới tính, điểm thi đầu vào…và điểm trung bình của học kỳ trước đó nhằm dự đoán điểm trung bình kỳ tới của học viên. Bài toán 2: Dựa vào kết quả các môn học đã học của học viên, dự đoán kết quả đạt được của môn học sắp tới. 1.3.Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục Khai phá dữ liệu cho giáo dục ngày càng được các nhà nghiên cứu trên toàn thế giới quan tâm. Sự quan tâm đến việc phát triển các kỹ thuật để phân tích dữ liệu được tạo ra trong môi trường giáo dục được thể hiện bằng hàng loạt các hội thảo Education Data Mining. Năm 2008, một nhóm các nhà nghiên cứu đã thành lập hội nghị nghiên cứu quốc tế thường niên về Education Data Mining, hội nghị đầu tiên diễn ra tại Montreal, Quebec, Canada. Rất nhiều các công trình, bài báo về Education Data Mining được xuất bản tại hội nghị International Conference on Educational Data Mining được tổ chức diễn ra hàng năm. Có thể liệt kê ra một số công trình, bài báo về Educational Data Mining như: Trong "Conceptual Framework of Data Mining Process in Management Education in India: An Institutional Perspective" (Ranjan & Khalil, 2008) các tác giả Ranjan J. và Khalil S. đã sử dụng cây quyết định và mạng Bayes để hỗ trợ quá trình nhập học, phân tích chất lượng của quá trình giáo dục và kết quả học tập của học sinh ở Ấn Độ. "Data mining for adaptive learning sequence in English language instruction" (Y. H. Wang, Tseng, & Liao, 2009) được phát triển bởi Wang Y., Tseng M. và Liao H., đã sử dụng cây quyết định để đề xuất trình tự học tối ưu nhằm tạo điều kiện cho quá trình học tập của học sinh và để tối đa hóa kết quả học tập của họ. "Recommender system for predicting student performance" (Thai-Nghe, Drumond, Krohn-Grimberghe, & Schmidt-Thieme, 2010) một bài báo của các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A. và Schmidt-Thieme L., đã đề xuất một cách tiếp cận để sử dụng các kỹ thuật khai thác dữ liệu, đặc biệt là những kỹ thuật dự đoán kết quả hoạt động của học sinh. "Mining log data for the analysis of learners' Behavior in web-based learning management systems" (Psaromiligkos, Orfanidou, Kytagias, & Zafiri, 2011) trong đó Psaromiligkos Y., Orfanidou., Kytagias C. và Zafiri E., đã sử dụng các quy tắc 8
- kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục. "Application of data mining in academic educational databases for predicting trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S. Merchant và Zahid F. Z. đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của sinh viên. "Improving the Student's Performance Using Educational Data Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học sinh trong các khóa học. "Data Mining: A prediction for Student's Performance Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A. và Elaraby I. phát triển, trong đó cây quyết định được sử dụng để dự đoán điểm của học sinh cuối cấp. "Educational Data Mining: Performance Evaluation of Decision Tree and Clustering Techniques using WEKA Platform" (Saxena, 2015) được phát triển bởi Saxena R., bài báo này sử dụng công cụ WEKA để so sánh hiệu suất của cây quyết định và kỹ thuật phân cụm trong dữ liệu từ lĩnh vực giáo dục. Có nhiều nghiên cứu điển hình trong đó các kỹ thuật khai thác dữ liệu được áp dụng cho giáo dục, mỗi nghiên cứu sẽ tìm kiếm câu trả lời cho một tình huống cụ thể trong Educational Data Mining. Việc tri thức được khai phá không chỉ nhằm mục đích cho người khai phá sử dụng mà còn nhắm tới cả người sử hữu cũng có thể sử dụng. Do dó, việc ứng dụng khai phá dữ liệu trong giáo dục có thể hướng tới nhiều tác nhân khác nhau dưới các góc nhìn như: Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học, chọn môn học, chọn lộ trình học… Hướng tới giáo viên: tư vấn, đề xuất cho giáo viên các phương pháp dạy học thích hợp dựa trên việc phân lớp các học viên thành những nhóm theo tùy mức độ, đưa ra các điểm mâu thuẫn, bất thường trong lộ trình học của học viên, liệt kê ra các hoạt động hiệu quả giúp giáo viên cải thiện, xây dựng lại nội dung bài giảng của mình một cách hợp lý, đạt kết quả tốt hơn. Hướng tới nhà quản lý: giúp nhà quản lý đưa ra các phân tích, đánh giá chính xác về kết quả học tập của học viên qua đó đề ra các định hướng, hoạch định trong: đầu tư bồi dưỡng giáo viên hàng năm, phát hiện các học viên giỏi để bồi dưỡng, hoặc các học viên yếu trong diện cần nhắc nhở, có kế hoạch tăng giờ, tăng số tiết v.v… 1.4. Hướng tiếp cận của luận văn Luận văn trú trọng tới việc nghiên cứu về lý thuyết khai phá dữ liệu bằng việc sử dụng công cụ khai phá dữ liệu SSDT-BI do Microsoft phát triển. Dữ liệu 9
- được sử dụng để khai phá dữ liệu là điểm thực tế của học viên trường Cao đẳng ANND I. Để giải quyết bài toán về dự báo, dự đoán kết quả học tập của học viên luận văn sử dụng một số thuật toán KDPL được hỗ trợ trong SQL Server. Từ các mô hình dự đoán, tác giả sẽ lựa chọn ra mô hình dự đoán tốt nhất và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên. 1.5.Kết luận chương 1 Chương này giới thiệu về bài toán thực tế tại Trường Cao đẳng ANND I, những vấn đề đặt ra cần giải quyết đối với bài toán, một số hướng nghiên cứu của KDPL trong giáo dục hiện nay và hướng tiếp cận của luận văn. 10
- Chương 2. Cơ sở lý thuyết 2.1.Khai phá dữ liệu 2.1.1. Khái niệm Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó [1]. Hình 1.1 cho thấy khai phá dữ liệu là một bước trong quá trình KDD (Knowledge Discovery in Database) và KDD được tiến hành qua 6 giai đoạn [3]. Hình 1.1: Quá trình của khai thác tri thức 1. Gom dữ liệu: là bước đầu tiên trong quá trình KPDL bằng việc thu thập dữ liệu từ CSDL, kho dữ liệu hay là từ các Website. 2. Trích lọc dữ liệu: Dữ liệu được tuyển chọn hoặc phân chia theo một tiêu chí nhất định dùng cho việc khai tác. Ví dụ: chọn ra cá học viên có điểm trung bình học kỳ lớn hơn 7.0 và là người dân tộc thiểu số. 3. Làm sạch, tiền xử lý dữ liệu: Là việc xử lý loại bỏ những dữ liệu dư thừa, thiếu logic dẫn tới kết quả bị sai lệch. Ví dụ: Điểm Trung bình = 11.5. 4. Chuyển đổi dữ liệu: Là đưa dữ liệu về dạng phù hợp, thuận tiện cho khai phá bằng cách nhóm hoặc tập hợp. Ví dụ: Điểm TB học kỳ của học viên là biến số, biến định lượng, nếu muốn đánh giá học lực của các học viên chúng ta phải tạo cột dữ liệu mới với biến định danh có giá trị “Giỏi”, “Khá”, “Trung bình”, “ Kém”, “Yếu” được đặt ra bằng cách phân theo điều kiện của mức điểm trung bình. 11
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ công nghệ thông tin: Ứng dụng mạng Nơron trong bài toán xác định lộ trình cho Robot
88 p | 702 | 147
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu mối quan hệ di truyền của một số giống ngô (Zea maysL.) bằng chỉ thị RAPD
89 p | 294 | 73
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu ảnh hưởng bổ sung tế bào và hormone lên sự phát triển của phôi lợn thụ tinh ống nghiệm
67 p | 277 | 50
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
72 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và đề xuất giải pháp xây dựng cơ sở tri thức liên quan thông tin thư viện số
118 p | 42 | 7
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu mô hình kiểm soát truy xuất cho dữ liệu lớn
106 p | 42 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng Gis phục vụ công tác quản lý cầu tại TP. Hồ Chí Minh
96 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
69 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng bộ lọc Kalman xử lý nhiễu tín hiệu cảm biến lực trong thiết bị kéo cột sống tự động
90 p | 20 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác tập mục lợi ích cao bảo toàn tính riêng tư
65 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu được cập nhật
60 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác mẫu tuần tự nén
59 p | 30 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
70 p | 40 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Theo dõi đối tượng chuyển động bằng phương pháp lọc tích hợp
69 p | 21 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác Top-rank K cho tập đánh trọng trên cơ sở dữ liệu có trọng số
64 p | 48 | 4
-
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Tự động phân tích các nội dung giống nhau trong hệ thống tổng hợp ý kiến góp ý trong hội nghị
26 p | 71 | 3
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và ứng dụng Hadoop để khai thác tập phổ biến
114 p | 46 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn