Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam
lượt xem 53
download
Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam nhằm dự đoán kết quả học tập của sinh viên. Các bạn tìm được nhiều kiến thức bổ ích trong luận văn trên.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam
- -1- -2- B GIÁO D C VÀ ĐÀO T O M Đ U Đ I H C ĐÀ N NG 1. Lý do ch n lu n văn Trong nh ng năm g n ñây, công ngh thông tin phát tri n m nh m và vi c ng d ng công ngh thông tin trong nhi u lĩnh v c ñ i s ng, kinh t xã h i ñã làm lư ng d li u ñư c thu th p và lưu tr PH M C M VÂN các h th ng thông tin tăng lên m t cách nhanh chóng. Trư c tình hình ñó, vi c khai thác và ch n l c nh ng d li u có ích t lư ng d li u kh ng l ñó là vi c c n thi t, ñóng vai trò quy t ñ nh thành công NG D NG KHAI PHÁ D LI U trong m i ho t ñ ng. Các d li u ch t l c ñó s giúp c i thi n ho t Đ TƯ V N H C T P T I TRƯ NG ñ ng trong hi n t i hay ñưa ra nh ng d ñoán giúp vi c ñưa ra quy t CAO Đ NG KINH T - K THU T ñ nh trong tương lai s chính xác hơn. V i nh ng lý do ñó, nhu c u phát tri n các k thu t thu th p, lưu QU NG NAM tr , phân tích d li u, … ñư c ñ t ra và nó ñòi h i ph i ñư c x lý thông minh và hi u qu hơn. T ñó ñã làm phát tri n k thu t m i và Chuyên ngành: Khoa h c máy tính v i k thu t này cho phép ta khai thác ñư c tri th c h u d ng t cơ Mã s : 60.48.01 s d li u l n ñư c g i là các k thu t khai phá d li u (Data Mining - DM). Các k thu t khai phá d li u ñư c ng d ng trong nhi u lĩnh v c như: kinh t , tài chính, y t , giáo d c… TÓM T T LU N VĂN TH C SĨ K THU T Trong vi c ng d ng khai phá d li u vào nhi u lĩnh v c khác nhau c a ñ i s ng, khai phá d li u trong lĩnh v c giáo d c ñang d n có ñư c s quan tâm ñúng m c. Chúng ta c n ph i nhìn nh n r ng Ngư i hư ng d n khoa h c:TS. NGUY N TR N QU C VINH giáo d c là nhân t quy t ñ nh s phát tri n c a ñ t nư c v nhi u m t. M c tiêu phát tri n xã h i m t cách b n v ng ñang ñ t ra cho giáo d c nh ng yêu c u m i. Giáo d c ñào t o có nhi m v ñ nh hư ng và ho ch ñ nh chính sách cho ñ i tư ng chính c a giáo d c là Đà N ng – Năm 2012 th h tr , là l c lư ng k th a c a vi c xây d ng, b o v và phát tri n ñ t nư c trong tương lai m t cách ñúng ñ n và k p th i. Chính
- -3- -4- vì v y, vi c ñ nh hư ng và xây d ng chính sách trong giáo d c ñào 2. M c ñích c a lu n văn t o c n ph i ñư c h tr b i các công c khoa h c ñ tránh nh ng sai - Nghiên c u phương pháp khai phá tìm lu t k t h p và cây l m ñáng ti c. Trong s nh ng công c ñó, khai phá d li u là m t quy t ñ nh d a trên d li u giáo d c. công c h u ích và có tính khoa h c cao, giúp các nhà qu n lý giáo - ng d ng th c hi n nghiên c u ñ xây d ng mô hình khai phá d c có ñư c nh ng tri th c quý giá ph c v cho công tác qu n lý và d li u d a vào thông tin tuy n sinh ñ u vào và k t qu h c t p ñã sinh viên cũng có th s d ng nh ng k t qu h u ích t quá trình thu th p ñư c c a sinh viên trư ng Cao Đ ng Kinh T K Thu t ch t l c d li u trong khai phá d li u. Qu ng Nam. T ñó, tri n khai xây d ng h th ng ng d ng t mô Ngày nay, các trư ng ñ i h c và cao ñ ng ña s ñã chuy n sang hình ñã ñư c xây d ng nh m d ñoán k t qu h c t p c a sinh viên ñào t o theo h c ch tín ch . Vi c tư v n h c t p, ch y u liên quan qua vi c k t h p gi a thông tin tuy n sinh ñ u vào và l trình h c, t ñ n l a ch n l trình h c phù h p nh m ñ t ñư c k t qu h c t p cao ñó giúp cho sinh viên có th ch n l a ñư c m t l trình h c ñ t k t nh t cho m i sinh viên ñư c ñ c bi t quan tâm. Đó cũng là khó khăn qu t i ưu nh t phù h p v i ñi u ki n và năng l c c a mình. Bên chung không ch c a m i sinh viên, mà còn c a các bên tham gia tư c nh ñó, h th ng cho phép hi n th các mô hình khai phá d li u ñã v n, t các t ch c qu n lý trong trư ng ñ i h c cho ñ n các cán b xây d ng nh m h tr cho ngư i dùng cu i. H th ng không ch h ñư c phân công chuyên trách như gi ng viên ch nhi m. Các gi ng tr cho sinh viên mà còn h tr cho phòng ñào t o, các khoa chuyên viên chuyên trách không th ti p c n toàn b d li u v ñi m c a ngành, các giáo viên ch nhi m có th tư v n cho sinh viên. sinh viên. Ngay c v i các c p qu n lý, b ng c m tính ho c suy lu n - T o ti n ñ ñ phát tri n các ng d ng khác. th công t kh i d li u kh ng l ñ ñưa ra nh ng tư v n t t trong 3. Đ i tư ng và ph m vi nghiên c u vi c ch n l trình h c cho m i sinh viên không ph i là kh thi. - Đ i tư ng nghiên c u c a lu n văn Trư c th c t ñó và ñư c s ñ ng ý c a TS. Nguy n Tr n Qu c + K thu t khai phá d li u. Vinh, tôi ch n lu n văn “ ng d ng khai phá d li u ñ tư v n h c + D li u ñào t o. t p t i Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam”. Lu n văn + H th ng tư v n th c hi n vi c khai phá d li u t thông tin tuy n sinh ñ u vào k t - Ph m vi nghiên c u: h p v i l trình h c nh m ñ d ñoán k t qu h c t p c a sinh viên. + Các k thu t phân l p: cây quy t ñ nh (Deccision tree – D a vào k t qu d ñoán ñó, h th ng – k t qu chính c a lu n văn, DT) và lu t k t h p (Association rules – AR). s giúp sinh viên l a ch n cho mình m t l trình h c phù h p v i + Công c h tr khai phá Business Intelligence ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu t i ưu. Development Studio (BIDS) 2008 R2 và các mô-ñun h tr . + D li u th c t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam g m: K t qu h c t p và thông tin cá nhân c a kho ng 2000
- -5- -6- sinh viên v i các ngành h c như sau: K toán, Qu n tr , Qu n lý ñ t 6. Phương pháp nghiên c u ñai, Nuôi tr ng th y s n, Lâm nghi p. - Phương pháp nghiên c u lý lu n: Thu th p, ñ c hi u, phân + Xây d ng ng d ng d ñoán k t qu h c t p ñ tư v n ñào tích thông tin, d li u t các tài li u, giáo trình, sách liên quan ñ n t o t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam. khai phá d li u. 4. Nhi m v nghiên c u - Phương pháp nghiên c u th c ti n: Ti n hành nghiên c u các 1. Nghiên c u lý thuy t v khai phá d li u, c th là k thu t k thu t cho phép phân l p trong khai phá d li u, ng d ng các k lu t k t h p và cây quy t ñ nh. thu t ñó ñ xây d ng mô hình d ñoán k t qu h c t p c a sinh viên 2. Xác ñ nh bài toán c th là xây d ng công c li t kê t t c các d a vào các thông tin ñ u vào. Đ tài ti n hành so sánh k t qu c a l trình h c cho m i ngành h c và g n l trình h c v i m i sinh viên, các k thu t ñ l a ch n k thu t cho k t qu chính xác nh t. T ñó, chu n b ngu n d li u ñ xây d ng chương trình. xây d ng chương trình d báo k t qu h c t p cho m i sinh viên ñ 3. Xây d ng mô hình d báo k t qu h c t p c a sinh viên theo tư v n cho sinh viên ch n l trình h c phù h p nh t ñ ñ t ñư c k t các k thu t khác nhau như cây quy t ñ nh, lu t k t h p, ng d ng qu h c t p cao nh t. Vi c xây d ng mô hình ñư c ti n hành theo các công c Business Intelligence Development Studio ñ xây d ng và bư c: ki m tra các mô hình. - Làm s ch và tích h p d li u 4. Đánh giá k t qu d báo c a các mô hình ñó và l a ch n mô - L a ch n d li u và chuy n ñ i d li u hình t t nh t ñ th c hi n d báo. - Khai thác d li u 5. Nghiên c u các thư vi n liên quan và Data Mining Extension - Đánh giá mô hình (DMX) ñ Xây d ng chương trình ng d ng mô hình ñư c l a ch n - S tr c quan hóa ñ d báo k t qu h c t p c a sinh viên d a vào các thông tin ñ u D li u ñ u vào cho các k thu t phân l p có th là s n có như vào, t ñó th c hi n tư v n cho sinh viên trong vi c l a ch n l trình các thông tin cá nhân (khu v c, gi i tính, dân t c, ñi m ưu tiên…), h c nh m ñ t k t qu h c t p cao nh t. ñi m tuy n sinh, chuyên ngành ñào t o và cũng có th là l trình h c 5. Ý nghĩa khoa h c và th c ti n c a lu n văn là k t qu th c hi n c a m t công c là m t ph n c a k t qu c a ñ - Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam ñang th c tài. hi n vi c ng d ng công ngh thông tin vào công tác d y và h c r t - Phương pháp nghiên c u tài li u: Tìm hi u ngôn ng l p t t. Vi c xây d ng ng d ng d ñoán k t qu h c t p s h tr cho trình, h qu n tr Cơ s d li u (CSDL); Xây d ng ng d ng. sinh viên trong vi c l a ch n phương pháp h c và môn h c (n u 7. B c c c a lu n văn trư ng h c theo hình th c tín ch ) ñ ñ t k t qu t t trong các h c kỳ Ngoài ph n m ñ u và k t lu n, lu n văn g m ba chương: k ti p.
- -7- -8- Chương 1: Nghiên c u t ng quan, chương này gi i thi u t ng 1.3. Lu t k t h p và cây quy t ñ nh trong khai phá d li u quan v quá trình khai phá d li u, các k thu t khai phá d li u, gi i 1.3.1. Cây quy t ñ nh (Decision Trees) thi u thu t toán xây d ng mô hình khai phá d li u. Gi i thi u công 1.3.1.1 Gi i thi u c xây d ng mô hình khai phá d li u và các công c phát tri n h 1.3.1.2 Ho t ñ ng c a thu t toán th ng. 1.3.1.3.D li u ñư c yêu c u cho vi c xây d ng mô hình cây quy t Chương 2: Nghiên c u xây d ng ng d ng, trong chương này ñ nh các n i dung ñ c p ñ n ñó là: Mô t ng d ng, xây d ng bài toán 1.3.1.4 Nh ng tham s ñư c h tr trong thu t toán cây quy t ñ nh li t kê l trình h c cho t ng ngành h c, phân tích thi t k h th ng, 1.3.1.5. Xây d ng cây quy t ñ nh s d ng thu t toán C4.5 trình bày các bư c thu th p, x lý d li u. Thu t toán C4.5 ñư c phát tri n và công b b i Quinlan vào năm Chương 3: Phát tri n và Demo ng d ng, chương này trình bày 1996. Thu t toán C4.5 là m t thu t toán ñư c c i ti n t thu t toán giao di n hi n th hai mô hình khai phá d li u ñã ñư c xây d ng và ID3 v i vi c cho phép x lý trên t p d li u có các thu c tính s ñ ng th i chương trình có th th c hi n ch c năng d ñoán k t qu (numeric attributes) và làm vi c ñư c v i t p d li u b thi u và b h c t p c a sinh viên k t h p gi a thông tin tuy n sinh ñ u vào và l nhi u. trình h c, t ñó sinh viên có th ch n cho mình m t l trình h c phù Mã gi thu t toán C4.5: h p v i ñi u ki n và năng l c ñ ñ t k t qu ñ u ra t t nh t. Ví d minh h a cho thu t toán C4.5 CHƯƠNG 1. NGHIÊN C U T NG QUAN Đ minh ho , tác gi xin trích d li u c a 10 sinh viên t d li u 1.1. Khai phá d li u s ñư c s d ng ñ nghiên c u. 1.1.1. Khái ni m Khai phá d li u ñư c dùng ñ mô t quá trình phát hi n ra tri th c trong CSDL. Quá trình này k t xu t ra các tri th c ti m n t d li u giúp cho vi c d báo trong kinh doanh, các ho t ñ ng s n xu t, ... Khai phá d li u làm gi m chi phí v th i gian so v i phương pháp truy n th ng trư c kia (ví d như phương pháp th ng kê). Đ gi i quy t bài toán d ñoán k t qu h c t p, ngư i ta ñưa ra 1.1.2. Mô hình khai phá d li u t ng quát 1.1.3. ng d ng c a khai phá d li u mô hình cây quy t ñ nh: Theo cây quy t ñ nh trên, các lu t (Series of Rules) ñư c sinh ra 1.2. D báo d a vào khai phá d li u t cây quy t ñ nh dùng ñ d ñoán như sau: 1.2.1. Khái ni m 1.2.2. Các phương pháp d báo
- -9- - 10 - Rule 1: N u Đi m thi ñ u vào
- - 11 - - 12 - 1.4.1.2. Môi trư ng phát tri n ng d ng 1.4.1.3.Các thu t toán khai phá d li u trong Microsoft SQL Server 2008 R2 1.4.2. ADOMD.NET 1.4.3.Tìm hi u ngôn ng truy v n mô hình (DMX) 1.5. M t s nghiên c u v khai phá d li u trong giáo d c Khi tri th c ñã ñư c khái phá không ch ngư i khai phá có th s d ng mà c ngư i s h u (sinh viên) cũng có th dùng. Vì v y, ng d ng c a khai phá d li u trong h th ng giáo d c có th hư ng ñ n các tác nhân khác nhau v i các góc nhìn ñ c trưng: Hư ng ñ n sinh viên: Đ xu t kinh nghi m h c t p, tư v n tuy n sinh…. Hư ng ñ n giáo viên: Đ xu t nh ng phương pháp d y thích h p như phân l p các sinh viên thành các nhóm tùy theo m c h c, tìm ra V i min_sup=50%; min_conf=70% các m u thư ng và b t thư ng c a l trình h c t p c a sinh viên, tìm ra các l i thư ng m c, tìm ra các ho t ñ ng hi u qu ñ giáo viên có th c i thi n, t ch c l i n i dung gi ng d y ñ ñ t hi u qu t t hơn. Hư ng ñ n nhà qu n lý: V i nh ng k t qu h c t p m i năm ñ u có nhi u lí do d n ñ n. Vì v y, c n ñưa ra t p luât t ñó tư v n. Có Vì support và confidence th a mãn 2 tham s min_sup = 50% và th có nh ng lí do t t và không t t như sau: sinh viên không chuyên min_conf = 70%, nên ta có lu t k t h p sau: c n, x p l p, th i khóa bi u không h p lý, … R1: DIEMTHI=16; MANGANH=KT -> KETQUA=K Lu t k t h p R1có ñ tin c y là 100%, ñi u này có nghĩa là : 100% sinh viên v i thông tin ñ u vào DIEMTHI=16 và MANGANH=KT thì s x p lo i h c l c Khá. 1.4. Khai phá d li u v i Microsoft SQL Server 2008 R2 1.4.1. Microsoft SQL server 2008 Analysis Services Hình 1.4. Qui trình ng d ng khai phá d li u trong h th ng giáo d c 1.4.1.1. Gi i thi u CHƯƠNG 2. NGHIÊN C U XÂY D NG NG D NG
- - 13 - - 14 - 2.1. Mô t ng d ng không nh vào ngành h c và l trình mà sinh viên ch n h c. Chính vì 2.1.1. Gi i thi u v Trư ng Cao Đ ng Kinh T K Thu t Qu ng v y, thu c tính l trình h c là m t thu c tính ñ u vào không th thi u Nam khi xây d ng mô hình d ñoán k t qu h c t p cho sinh viên. 2.1.2. Yêu c u ñ i v i h th ng V i d li u g n 2000 sinh viên thu th p ñư c cùng v i 2.1.2.1. Xác ñ nh yêu c u nh ng ngành h c và môn h c tương ng cho t ng h c kì c th c a Cho m t kho d li u lưu gi các thông tin v k t qu h c t p m i sinh viên. Lu n văn th c hi n ñư c nhi m v li t kê ra l trình c a sinh viên ñã t t nghi p. H th ng th c hi n ch c năng: tìm ra h c cho m i sinh viên, t ñó suy ra t t c l trình h c cho t ng nh ng quy lu t d a trên nh ng mô hình ñã ñư c xây d ng ñ d ngành. Trên cơ s ñó, có th d ñoán ñư c k t qu h c t p cho t ng ñoán k t qu h c t p cu i khóa cho sinh viên. Bên c nh ñó t d li u l trình h c theo t ng ngành c th mà sinh viên ch n h c. ñã thu th p c n li t kê l trình h c cho t ng sinh viên và t ñó suy ra 2.2.1.2. Công c th c hi n l trình h c cho t ng ngành. V i thu c tính l trình h c ñã ñư c li t 2.2.1.3. K t qu kê s h tr cho k t qu d ñoán t t hơn. B ng 2.1. L trình h c c a m i sinh viên (B ng LoTrinhHoc) 2.1.2.2. Ph m vi bài toán D li u bài toán là d li u v thông tin tuy n sinh ñ u vào và k t qu h c t p c a sinh viên trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. B ng 2.2. B ng Nganh_LoTrinh 2.1.2.3. Yêu c u h th ng D li u ñư c t ch c trên h qu n tr cơ s d li u Microsoft SQL Server 2008 R2. Công c khai phá d li u Business Intelligence Development 2.2.2. D ñoán k t qu h c t p Studio, s d ng b công c Analysis Services tích h p cùng 2.2.2.1. Gi i thi u bài toán Microsoft SQL Server 2008 R2. Vi c ch n cho mình m t ngôi trư ng gi ng ñư ng ñ i h c là Công c l p trình s d ng Microsoft Visual Studio 2010. m t ñi u h t s c quan tr ng. Các thí sinh luôn băn khoăn và r t mu n 2.1 . Phân tích yêu c u h th ng tìm ki m các thông tin b ích v các trư ng ñ i h c, cao ñ ng trong 2.2.1. Li t kê l trình h c c a t ng sinh viên c nư c mà mình mu n theo h c. Nhu c u thông tin ñ các thí sinh 2.2.1.1. Gi i thi u bài toán tham kh o th t s c n thi t nh m ñ m b o phù h p v i năng l c, s K t qu h c t p cu i khóa c a sinh viên không ch ph thu c thích, ñi u ki n kinh t gia ñình, ñi u ki n kho ng cách ñ a lý,... ñây vào nh ng thông tin tuy n sinh ñ u vào mà còn ph thu c m t ph n là m t nhu c u r t thi t th c.
- - 15 - - 16 - Chính vì v y, tôi quy t ñ nh ñưa ra gi i pháp xây d ng mô hình Vi c ñưa ra nh ng quy t ñ nh s ñư c xác ñ nh t nh ng d li u khai phá d li u d a trên m t lư ng d li u t các h sơ tuy n sinh ñ u vào mà nh ng ngư i s d ng ñã nh p vào. H th ng s xem xét h ng năm và k t qu h c t p ñã ñư c thu th p c a sinh viên trư ng d a trên mô hình ñã ñư c xây d ng ñ ñưa ra nh ng d ñoán chính Cao ñ ng Kinh t K thu t Qu ng Nam nh m d ñoán k t qu h c xác. Như v y, yêu c u ñ t ra ñây là mô hình ñư c phát sinh t ñâu. t p cu i khóa c a sinh viên. T vi c phát tri n mô hình khai phá d Đó chính là quá trình khai phá d li u ñ tìm ra tri th c ph c v nhu li u ñã xây d ng, h th ng cũng giúp cho sinh viên ch n ñư c l c u và m c ñích lu n văn. trình h c t i ưu nh t tương ng v i ngành h c ñã ch n. 2.2.2.3. Mô hình bài toán 2.2.2.2. Phân tích quy lu t và l a ch n gi i pháp cho bài toán T nh ng d li u ñã ñư c thu th p và lưu tr ñ áp d ng cho bài toán d ñoán k t qu h c t p mà tôi ñang xây d ng, thì c n ph i tìm ki m nh ng thông tin gì? nh ng thông tin ñó giúp ích gì cho vi c d ñoán? Hình 2.2. Mô hình bài toán ng d ng d ñoán k t qu h c t p T góc ñ xây d ng mô hình d ñoán và nhu c u th c t c a 2.3 Thi t k h th ng trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. H th ng c n ph i 2.3.1. Danh sách các actor ñáp ng các câu h i ñư c t o ra m t cách t ñ ng và gi i quy t ñư c 2.3.2. Sơ ñ use case các th c m c c a t ng thí sinh, ph huynh và nh ng ngư i quan tâm. 2.3.3. Đ c t use case Câu h i thư ng ñư c ñ t ra ñơn thu n như sau: V i nh ng thông tin ñ u vào như: Dân t c, ñi m thi ñ u vào, khu v c, ...và v i ngành h c 2.3.4. Bi u ñ tu n t c th thì tôi nên ch n l trình h c nào phù h p ñ ñ t ñư c k t qu 2.3.5. Bi u ñ ho t ñ ng h c t p t i ưu. Các câu tr l i chính xác và ñáp ng ñư c nguy n v ng c n thông tin c a các thí sinh cũng như giúp cho các nhà qu n lý ñào t o c a trư ng nh ng cái nhìn và ñánh giá chính xác, ñòi h i ta ph i xây d ng vi c phân tích d a trên d li u có s n s l y ñư c nh ng thông tin gì và có d ñoán ñư c v n ñ gì x y ra không? Đó chính là m c ñích c a vi c khai phá d li u t nh ng d li u thu th p ñư c mà tôi Hình 2.9. Mô hình bài toán ng d ng d ñoán k t qu h c t p mu n th c hi n trong lu n văn này. 2.4. Xây d ng cơ s d li u 2.4.1. Ngu n d li u
- - 17 - - 18 - 2.4.1.1. Thu th p d li u 3.1.2. Chu n b d li u cho mô hình 2.4.1.2. Đánh giá ch t lư ng d li u D li u ngu n (Data Source) ñư c chia thành 2 t p d li u dùng 2.4.1.3. X lý d li u ñ hu n luy n mô hình (Training Data) và ki m tra mô hình (Testing 2.4.1.4. N p d li u data). 2.4.2. Xây d ng cơ s d li u trong SQL Server + Data source ban ñ u g n 2000 sinh viên 2.4.2.1. Mô hình cơ s d li u quan h + Training Data: 70% + Testing Data: 30% 3.1.3. Xây d ng mô hình T o DataSource T o DataSource View T o mô hình khai phá d li u Hình 2.10. Sơ ñ CSDL quan h 2.4.2.2. Thi t k cơ s d li u v t lý CHƯƠNG 3. PHÁT TRI N H TH NG 3.1. Qui trình xây d ng mô hình khai phá d li u Hình 3.1. Các thu c tính ñ u vào 3.1.1. Mô t d li u Sau ñó, ch n Suggest ñ xem nh ng c t nào có th là nh ng c t D li u ñư c dùng ñ xây d ng mô hình là Data source g n input 2000 sinh viên c a trư ng Cao Đ ng Kinh t - K thu t Qu ng Nam, g m 12 thu c tính: B ng 3.1. D li u xây d ng mô hình khai phá d li u Hình 3.2. K t qu tính entropy D a vào k t qu tính entropy trên, ta th y ñi m s Score c a 4 thu c tính: DIEMTHI, MALOTRINH, KHOITHI, MANGANH cao hơn so v i nh ng thu c tính còn l i, t c là nh ng thu c tính này có tác ñ ng m nh ñ n thu c tính d ñoán (k t qu h c t p). Các thu c V i m c ñích xây d ng mô hình cây quy t ñ nh và lu t k t h p tính còn l i có m c ñ nh hư ng ñ n mô hình là không ñáng k . nh m d ñoán k t qu h c t p cu i khóa c a sinh viên.
- - 19 - - 20 - Chính vì v y, ñ tăng hi u qu c a quá trình hu n luy n mô hình, có K t qu như sau th lo i b các thu c tính này và ch ch n 4 thu c tính có score cao T nhi u thu c tính ñ u vào như ban ñ u, ñ ki m tra m c ñ làm thu c tính input ñ xây d ng các mô hình d ñoán k t qu h c nh hư ng gi a thu c tính input và thu c tính d ñoán, lu n văn th c t p. hi n vi c xây d ng mô hình bao g m t t c các thu c tính ñ u vào Sau ñó, ch n ki u d li u và ki u n i dung cho m i thu c tính. s n có và xây d ng mô hình ñã b ñi t t c nh ng thu c tính ít nh + Discrete: Đ i v i nh ng thu c tính có giá tr r i r c. hư ng nh t ñ n thu c tính d ñoán (t c là ngoài 4 thu c tính có ñi m + Continuous: Đ i v i nh ng thu c tính có giá tr liên s score cao nh t như trên). Qua k t qu thu ñư c t vi c xây d ng t c. nh ng mô hình như trên, ta th y có hay không có vi c lo i b nh ng + Discretized: Đ i v i nh ng thu c tính ñư c r i r c thu c tính không quan tr ng t vi c xây d ng mô hình khác nhau thì hóa. m c ñ tác ñ ng c a các thu c tính ñ u vào v i thu c tính d ñoán Ho c: ch n Detect ñ thu t toán t ñ ng ch n l a ki u t t nh t v n s không thay ñ i. cho m i thu c tính. Tab Mining Models, Hai mô hình tương ng v i hai thu t toán cho trư ng h p ch n t t c các thu c tính ñ u vào: phái, dân t c, khu v c, huy n, ñi m thi, kh i thi, ngành và l trình h c. Hai mô hình tương ng v i hai thu t toán cho trư ng h p ch n Hình 3.7. Mô hình Dependency Network t t c các thu c tính ñ u vào không bao g m l trình h c. 3.1.4. Ki m ñ nh mô hình Hai mô hình cho thu t toán Decision v i trư ng h p ch ch n Lift Chart các thu c tính ñ u vào ñi m thi, kh i thi, ngành và l trình h c, bao g m và không bao g m l trình h c. Hình 3.8. Bi u ñ Lift Chart (có ch n giá tr d ñoán) Hình 3.4. Các mô hình ñư c xây d ng V i trư ng h p không ch n giá tr d ñoán, dùng bi u ñ Lift Sau ñó, kích ph i vào Project và ch n Deploy. Chart ñ ki m tra ñ chính xác c a m i mô hình. K t qu cho th y:
- - 21 - - 22 - Sau khi th c hi n hu n luy n mô hình và ch n mô hình phù h p v i yêu c u bài toán (mô hình s d ng thu t toán cây quy t ñ nh v i t l d ñoán cao nh t), ta s dùng mô hình này ñ d ñoán k t qu h c t p cho sinh viên. Quá trình ñó ñư c th c hi n như sau: Thông tin v sinh viên c n d ñoán k t qu h c t p cu i khóa ñư c lưu vào b ng Dudoanketqua. Lúc này b ng DuDoanKetQua s Hình 3.9. Bi u ñ Lift Chart (không ch n giá tr d ñoán) có c t k t qu còn ñ tr ng vì h th ng chưa th c hi n quá trình d K t qu th ng kê t l d báo c a 6 mô hình như sau: ñoán: STT Tên mô hình T l d ñoán B ng 3.2. Thu c tính ñ u vào lưu vào b ng DuDoanKetQua (B ng 1 Lu t k t h p 62,54% DuDoanKetQua) 2 Cây quy t ñ nh 96,22% 3 Cây quy t ñ nh (không ch n Lotrinh) 95,88% 4 Lu t k t h p (Không ch n Lotrinh) 83,34% H th ng s chuy n ti p d li u v a lưu ñ n BI và BI s t ñ ng 5 Cây quy t ñ nh (ch n 4 thu c tính quan trong) 97,23% th c hi n truy v n thông qua mô hình do ngư i qu n tr ch n s Cây quy t ñ nh (ch n thu c tính quan trong lo i b 95,83% d ng. Dư i ñây là ví d truy v n cho trư ng h p mô hình Decision 6 Lotrinh) tree v i ñ y ñ các thu c tính ñ u vào. - N u k t h p v i l trình h c, vi c d ñoán k t qu h c t p c a Code sinh ra t quá trình truy v n: sinh viên s chính xác hơn. Sau khi th c hi n truy v n, d li u d ñoán ñư c sinh ra và ñư c - Mô hình cây quy t ñ nh cho t l d báo ñúng cao nh t – h th ng lưu vào c t k t qu trong b ng DuDoanKetQua. Và t ñây 97,23%, trong khi ñó mô hình lu t k t h p cho t l d báo ñúng th p h th ng s l y k t qu trong b ng DuDoanKetQua cùng c t k t qu nh t – 83,34%. m i ñư c lưu vào ñ xu t ra màn hình cho ngư i dùng. - Vi c ñưa các thu c tính: dân t c, khu v c, ưu tiên, phái, mã Result huy n vào mô hình không có ý nghĩa. Thu t toán cây quy t ñ nh lo i Sau khi th c hi n truy v n, d li u s lưu vào b ng b các thu c tính này hoàn toàn và cho k t qu hoàn toàn trùng v i DuDoanKetQua k t qu trong trư ng h p mô hình không bao g m các thu c tính này. B ng 3.3. K t qu sau khi truy v n 3.1.5. S d ng mô hình ñ d ñoán 3.2 K t qu th nghi m Tab Mining Model Prediction
- - 23 - - 24 - 3.2.1. Mô t h th ng Đ i v i bài toán d ñoán k t qu h c t p cu i khóa c a sinh viên, H th ng: lu n văn ñã ñ xu t xây d ng sáu mô hình d ñoán d a trên thu t Mô hình: toán cây quy t ñ nh, lu t k t h p, t ñó so sánh sáu mô hình v i nhau Hi n th các mô hình khai phá d li u ñã xây d ng. ñ ch n ra mô hình t i ưu. V i d li u hu n luy n ban ñ u, mô hình D ñoán k t qu : cho phép phân tích các y u t nh hư ng ñ n k t qu h c t p c a sinh viên, m c ñ tác ñ ng c a t ng y u t ñ u vào, ngoài ra còn truy Cho phép ngư i dùng nh p vào nh ng thông tin c n thi t cho v n ñư c l trình h c thông qua d li u ban ñ u, t ñó d ñoán ñư c vi c d ñoán, sau ñó h th ng th c hi n ch c năng d ñoán và tr v k t qu h c t p cu i khóa c a sinh viên qua vi c k t h p thông tin k t qu h c t p cho ngư i dùng. ñ u vào và l trình h c. Bên c nh ñó, lu n văn còn xây d ng ñư c 3.2.2. Demo h th ng chương trình demo hi n th mô hình cây quy t ñ nh, lu t k t h p ñã 3.2.2.1. Giao di n chính c a chương trình xây d ng ñ n ngư i dùng cu i. V i vi c tri n khai h th ng th nghi m cho th y kh năng ng d ng k t qu này trong vi c d ñoán k t qu h c t p c a sinh viên. H th ng giúp cho sinh viên l a ch n cho mình m t l trình h c phù h p v i ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu h c t p t i ưu. Hình 3.10. Giao di n chính c a chương trình Nhìn chung, lu n văn ñã cơ b n hoàn thành các m c tiêu ñ ra. 3.2.2.2. C a s ñăng nh p Đ ñưa mô hình d ñoán vào ng d ng m t cách hi u qu hơn thì c n 3.2.2.3. C a s ñăng ký ti p t c ñ u tư thu th p d li u sinh viên nhi u hơn n a. Tri n khai d ñoán, ki m ch ng th c t và ñánh giá k t qu m t cách thư ng 3.2.2.4. Menu mô hình xuyên. B n thân nh n th y ñây là hư ng ti p c n ñúng ñ n và có tính 3.2.2.5. Giao di n d ñoán k t qu h c t p th c ti n cao. 3.3 B o trì mô hình H n ch K T LU N Do khó khăn trong vi c ti p c n và x lý d li u nên h th ng Đánh giá k t qu lu n văn cho ra k t qu chưa th t s chính xác. V lý thuy t, lu n văn ñã trình bày ñư c cơ s lý thuy t liên quan Hư ng phát tri n ñ n hai thu t toán cây quy t ñ nh, lu t k t h p. Nghiên c u quy trình Hư ng phát tri n c a lu n văn có th nghiên c u thêm m t s mô tri n khai ng d ng khai phá d li u. Ngoài ra, lu n văn cũng tìm hình m i ñ áp d ng vào bài toán khai phá d li u giáo d c như: hi u các v n ñ cơ b n v công c Microsoft SQL Server 2008 R2 Analysis Services và các công c liên quan.
- - 25 - + S d ng cây quy t ñ nh (Decision Tree) ñ d ñoán k t qu h c t p c a sinh viên m t h c kì b t kì d a trên thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì trư c ñó. Ch ng h n: s d ng các thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì 1 ñ d ñoán xem k t qu h c kì 2 sinh viên ñ t lo i gì (xu t s c, gi i, khá, trung bình…) + S d ng lu t k t h p (Association Rule) ñ tìm ra các lu t liên quan gi a các môn h c mà sinh viên ñã h c t t ho c chưa ñ t. Ví d : N u SV h c môn CSDL trong h c kỳ 1 ñ t k t qu khá thì s h c môn PTHT trong h c kỳ 2 s ñ t k t qu t t, ho c n u SV h c môn CSDL trong h c kỳ 1 chưa ñ t thì s h c môn PTHT trong h c kỳ 2 s chưa ñ t… Nghiên c u thêm m t s thu t toán ñ áp d ng vào bài toán khai phá d li u. M r ng bài toán cho vi c d ñoán trên nhi u thu c tính khác nhau ngoài k t qu h c t p cu i khóa c a sinh viên. Nâng cao kh năng h tr c a ng d ng cùng v i vi c d ñoán k t qu h c t p không ch cho sinh viên mà còn h tr cho giáo viên ch nhi m, các khoa chuyên ngành, phòng ñào t o và nh ng ai quan tâm. + Đ i v i giáo viên ch nhi m: h tr cho giáo viên ch nhi m có th tư v n cho sinh viên trong vi c ch n m t l trình h c phù h p. + Đ i v i các khoa chuyên ngành và phòng ñào t o: h tr trong vi c ñánh giá ch t lư ng cho t ng l trình h c nh m nâng cao, c i thi n hơn n a trong vi c xây d ng các l trình h c ñ phù h p v i m i ñi u ki n và năng l c c a sinh viên.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Đề cương luận văn thạc sĩ: Ứng dụng Webgis xây dựng cơ sở dữ liệu phục vụ công tác chữa cháy khẩn cấp trên địa bàn thành phố Hà Nội
17 p | 564 | 139
-
Tóm tắt luận văn thạc sĩ khoa học: Bài toán màu và ứng dụng giải toán sơ cấp
25 p | 370 | 74
-
Tóm tắt luận văn thạc sĩ: Ứng dụng hệ thống thẻ điểm cân bằng trong triển khai thực thi chiến lược tại ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh Đà Nẵng
13 p | 176 | 46
-
Tóm tắt luận văn thạc sĩ: Ứng dụng E-CRM tại Ngân hàng Thương mại Cổ phần An Bình - Triển khai thí điểm tại chi nhánh Đà Nẵng
26 p | 204 | 34
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Nghiên cứu dao động của nhà cao tầng dưới tác động của tải trọng động đất
26 p | 142 | 23
-
Tóm tắt luận văn thạc sĩ kỹ thuật: Nghiên cứu xây dựng giải pháp phòng vệ nguy cơ trên ứng dụng web
13 p | 145 | 14
-
Tóm tắt luận văn thạc sĩ: Ứng dụng hoạt động marketing trong hoạt động thông tin – thư viện tại trường Đại học Ngân hàng Tp. Hồ Chí Minh
33 p | 109 | 12
-
Tóm tắt Luận văn Thạc sĩ: Ứng dụng Blockchain trong bảo mật IoT
33 p | 57 | 11
-
Luận văn Thạc sĩ: Ứng dụng công nghệ Trạm biến áp không người trực trên lưới Truyền Tải Điện Quốc Gia
32 p | 90 | 10
-
Tóm tắt Luận văn Thạc sĩ: Ứng dụng công nghệ thông tin trong quản lý, điều hành tại Ban Quản lý Lăng Chủ tịch Hồ Chí Minh
18 p | 63 | 9
-
Luận văn Thạc sĩ: Ứng dụng camera nhận dạng khuôn mặt và phân tích thói quen của người dùng
52 p | 58 | 9
-
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Nghiên cứu xây dựng ứng dụng cho máy tính bảng UD Smartbook
26 p | 114 | 6
-
Luận văn Thạc sĩ Máy tính: Nghiên cứu một số phương pháp mã hóa có thể chối từ và xây dựng ứng dụng phục vụ công tác cơ yếu
72 p | 7 | 3
-
Tóm tắt Luận văn Thạc sĩ: Ứng dụng thuật toán One-class SVM trong phát hiện botnet trên các thiết bị IoT
26 p | 43 | 3
-
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng công cụ hỗ trợ lập dự án ứng dụng công nghệ thông tin theo nghị định 102/2009/NĐ-CP
21 p | 84 | 3
-
Tóm tắt luận văn Thạc sĩ: Ứng dụng mô hình SWAT khảo sát biến đổi dòng chảy do biến đổi khí hậu và sử dụng đất cho lưu vực sông Thạch Hãn
22 p | 67 | 2
-
Luận văn Thạc sĩ Quản trị kinh doanh: Ứng dụng mô hình IDIC nhằm hoàn thiện công tác quản trị quan hệ khách hàng cá nhân tại BIDV chi nhánh Đà Nẵng
105 p | 5 | 2
-
Luận văn Thạc sĩ Quản lý giáo dục: Quản lý ứng dụng công nghệ thông tin trong dạy học tại Trường Đại học Công nghệ thành phố Hồ Chí Minh
130 p | 2 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn