intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam

Chia sẻ: Sdfas Vfdtg | Ngày: | Loại File: PDF | Số trang:13

190
lượt xem
53
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam nhằm dự đoán kết quả học tập của sinh viên. Các bạn tìm được nhiều kiến thức bổ ích trong luận văn trên.

Chủ đề:
Lưu

Nội dung Text: Luận văn thạc sĩ: Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế - kỹ thuật Quảng Nam

  1. -1- -2- B GIÁO D C VÀ ĐÀO T O M Đ U Đ I H C ĐÀ N NG 1. Lý do ch n lu n văn Trong nh ng năm g n ñây, công ngh thông tin phát tri n m nh m và vi c ng d ng công ngh thông tin trong nhi u lĩnh v c ñ i s ng, kinh t xã h i ñã làm lư ng d li u ñư c thu th p và lưu tr PH M C M VÂN các h th ng thông tin tăng lên m t cách nhanh chóng. Trư c tình hình ñó, vi c khai thác và ch n l c nh ng d li u có ích t lư ng d li u kh ng l ñó là vi c c n thi t, ñóng vai trò quy t ñ nh thành công NG D NG KHAI PHÁ D LI U trong m i ho t ñ ng. Các d li u ch t l c ñó s giúp c i thi n ho t Đ TƯ V N H C T P T I TRƯ NG ñ ng trong hi n t i hay ñưa ra nh ng d ñoán giúp vi c ñưa ra quy t CAO Đ NG KINH T - K THU T ñ nh trong tương lai s chính xác hơn. V i nh ng lý do ñó, nhu c u phát tri n các k thu t thu th p, lưu QU NG NAM tr , phân tích d li u, … ñư c ñ t ra và nó ñòi h i ph i ñư c x lý thông minh và hi u qu hơn. T ñó ñã làm phát tri n k thu t m i và Chuyên ngành: Khoa h c máy tính v i k thu t này cho phép ta khai thác ñư c tri th c h u d ng t cơ Mã s : 60.48.01 s d li u l n ñư c g i là các k thu t khai phá d li u (Data Mining - DM). Các k thu t khai phá d li u ñư c ng d ng trong nhi u lĩnh v c như: kinh t , tài chính, y t , giáo d c… TÓM T T LU N VĂN TH C SĨ K THU T Trong vi c ng d ng khai phá d li u vào nhi u lĩnh v c khác nhau c a ñ i s ng, khai phá d li u trong lĩnh v c giáo d c ñang d n có ñư c s quan tâm ñúng m c. Chúng ta c n ph i nhìn nh n r ng Ngư i hư ng d n khoa h c:TS. NGUY N TR N QU C VINH giáo d c là nhân t quy t ñ nh s phát tri n c a ñ t nư c v nhi u m t. M c tiêu phát tri n xã h i m t cách b n v ng ñang ñ t ra cho giáo d c nh ng yêu c u m i. Giáo d c ñào t o có nhi m v ñ nh hư ng và ho ch ñ nh chính sách cho ñ i tư ng chính c a giáo d c là Đà N ng – Năm 2012 th h tr , là l c lư ng k th a c a vi c xây d ng, b o v và phát tri n ñ t nư c trong tương lai m t cách ñúng ñ n và k p th i. Chính
  2. -3- -4- vì v y, vi c ñ nh hư ng và xây d ng chính sách trong giáo d c ñào 2. M c ñích c a lu n văn t o c n ph i ñư c h tr b i các công c khoa h c ñ tránh nh ng sai - Nghiên c u phương pháp khai phá tìm lu t k t h p và cây l m ñáng ti c. Trong s nh ng công c ñó, khai phá d li u là m t quy t ñ nh d a trên d li u giáo d c. công c h u ích và có tính khoa h c cao, giúp các nhà qu n lý giáo - ng d ng th c hi n nghiên c u ñ xây d ng mô hình khai phá d c có ñư c nh ng tri th c quý giá ph c v cho công tác qu n lý và d li u d a vào thông tin tuy n sinh ñ u vào và k t qu h c t p ñã sinh viên cũng có th s d ng nh ng k t qu h u ích t quá trình thu th p ñư c c a sinh viên trư ng Cao Đ ng Kinh T K Thu t ch t l c d li u trong khai phá d li u. Qu ng Nam. T ñó, tri n khai xây d ng h th ng ng d ng t mô Ngày nay, các trư ng ñ i h c và cao ñ ng ña s ñã chuy n sang hình ñã ñư c xây d ng nh m d ñoán k t qu h c t p c a sinh viên ñào t o theo h c ch tín ch . Vi c tư v n h c t p, ch y u liên quan qua vi c k t h p gi a thông tin tuy n sinh ñ u vào và l trình h c, t ñ n l a ch n l trình h c phù h p nh m ñ t ñư c k t qu h c t p cao ñó giúp cho sinh viên có th ch n l a ñư c m t l trình h c ñ t k t nh t cho m i sinh viên ñư c ñ c bi t quan tâm. Đó cũng là khó khăn qu t i ưu nh t phù h p v i ñi u ki n và năng l c c a mình. Bên chung không ch c a m i sinh viên, mà còn c a các bên tham gia tư c nh ñó, h th ng cho phép hi n th các mô hình khai phá d li u ñã v n, t các t ch c qu n lý trong trư ng ñ i h c cho ñ n các cán b xây d ng nh m h tr cho ngư i dùng cu i. H th ng không ch h ñư c phân công chuyên trách như gi ng viên ch nhi m. Các gi ng tr cho sinh viên mà còn h tr cho phòng ñào t o, các khoa chuyên viên chuyên trách không th ti p c n toàn b d li u v ñi m c a ngành, các giáo viên ch nhi m có th tư v n cho sinh viên. sinh viên. Ngay c v i các c p qu n lý, b ng c m tính ho c suy lu n - T o ti n ñ ñ phát tri n các ng d ng khác. th công t kh i d li u kh ng l ñ ñưa ra nh ng tư v n t t trong 3. Đ i tư ng và ph m vi nghiên c u vi c ch n l trình h c cho m i sinh viên không ph i là kh thi. - Đ i tư ng nghiên c u c a lu n văn Trư c th c t ñó và ñư c s ñ ng ý c a TS. Nguy n Tr n Qu c + K thu t khai phá d li u. Vinh, tôi ch n lu n văn “ ng d ng khai phá d li u ñ tư v n h c + D li u ñào t o. t p t i Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam”. Lu n văn + H th ng tư v n th c hi n vi c khai phá d li u t thông tin tuy n sinh ñ u vào k t - Ph m vi nghiên c u: h p v i l trình h c nh m ñ d ñoán k t qu h c t p c a sinh viên. + Các k thu t phân l p: cây quy t ñ nh (Deccision tree – D a vào k t qu d ñoán ñó, h th ng – k t qu chính c a lu n văn, DT) và lu t k t h p (Association rules – AR). s giúp sinh viên l a ch n cho mình m t l trình h c phù h p v i + Công c h tr khai phá Business Intelligence ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu t i ưu. Development Studio (BIDS) 2008 R2 và các mô-ñun h tr . + D li u th c t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam g m: K t qu h c t p và thông tin cá nhân c a kho ng 2000
  3. -5- -6- sinh viên v i các ngành h c như sau: K toán, Qu n tr , Qu n lý ñ t 6. Phương pháp nghiên c u ñai, Nuôi tr ng th y s n, Lâm nghi p. - Phương pháp nghiên c u lý lu n: Thu th p, ñ c hi u, phân + Xây d ng ng d ng d ñoán k t qu h c t p ñ tư v n ñào tích thông tin, d li u t các tài li u, giáo trình, sách liên quan ñ n t o t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam. khai phá d li u. 4. Nhi m v nghiên c u - Phương pháp nghiên c u th c ti n: Ti n hành nghiên c u các 1. Nghiên c u lý thuy t v khai phá d li u, c th là k thu t k thu t cho phép phân l p trong khai phá d li u, ng d ng các k lu t k t h p và cây quy t ñ nh. thu t ñó ñ xây d ng mô hình d ñoán k t qu h c t p c a sinh viên 2. Xác ñ nh bài toán c th là xây d ng công c li t kê t t c các d a vào các thông tin ñ u vào. Đ tài ti n hành so sánh k t qu c a l trình h c cho m i ngành h c và g n l trình h c v i m i sinh viên, các k thu t ñ l a ch n k thu t cho k t qu chính xác nh t. T ñó, chu n b ngu n d li u ñ xây d ng chương trình. xây d ng chương trình d báo k t qu h c t p cho m i sinh viên ñ 3. Xây d ng mô hình d báo k t qu h c t p c a sinh viên theo tư v n cho sinh viên ch n l trình h c phù h p nh t ñ ñ t ñư c k t các k thu t khác nhau như cây quy t ñ nh, lu t k t h p, ng d ng qu h c t p cao nh t. Vi c xây d ng mô hình ñư c ti n hành theo các công c Business Intelligence Development Studio ñ xây d ng và bư c: ki m tra các mô hình. - Làm s ch và tích h p d li u 4. Đánh giá k t qu d báo c a các mô hình ñó và l a ch n mô - L a ch n d li u và chuy n ñ i d li u hình t t nh t ñ th c hi n d báo. - Khai thác d li u 5. Nghiên c u các thư vi n liên quan và Data Mining Extension - Đánh giá mô hình (DMX) ñ Xây d ng chương trình ng d ng mô hình ñư c l a ch n - S tr c quan hóa ñ d báo k t qu h c t p c a sinh viên d a vào các thông tin ñ u D li u ñ u vào cho các k thu t phân l p có th là s n có như vào, t ñó th c hi n tư v n cho sinh viên trong vi c l a ch n l trình các thông tin cá nhân (khu v c, gi i tính, dân t c, ñi m ưu tiên…), h c nh m ñ t k t qu h c t p cao nh t. ñi m tuy n sinh, chuyên ngành ñào t o và cũng có th là l trình h c 5. Ý nghĩa khoa h c và th c ti n c a lu n văn là k t qu th c hi n c a m t công c là m t ph n c a k t qu c a ñ - Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam ñang th c tài. hi n vi c ng d ng công ngh thông tin vào công tác d y và h c r t - Phương pháp nghiên c u tài li u: Tìm hi u ngôn ng l p t t. Vi c xây d ng ng d ng d ñoán k t qu h c t p s h tr cho trình, h qu n tr Cơ s d li u (CSDL); Xây d ng ng d ng. sinh viên trong vi c l a ch n phương pháp h c và môn h c (n u 7. B c c c a lu n văn trư ng h c theo hình th c tín ch ) ñ ñ t k t qu t t trong các h c kỳ Ngoài ph n m ñ u và k t lu n, lu n văn g m ba chương: k ti p.
  4. -7- -8- Chương 1: Nghiên c u t ng quan, chương này gi i thi u t ng 1.3. Lu t k t h p và cây quy t ñ nh trong khai phá d li u quan v quá trình khai phá d li u, các k thu t khai phá d li u, gi i 1.3.1. Cây quy t ñ nh (Decision Trees) thi u thu t toán xây d ng mô hình khai phá d li u. Gi i thi u công 1.3.1.1 Gi i thi u c xây d ng mô hình khai phá d li u và các công c phát tri n h 1.3.1.2 Ho t ñ ng c a thu t toán th ng. 1.3.1.3.D li u ñư c yêu c u cho vi c xây d ng mô hình cây quy t Chương 2: Nghiên c u xây d ng ng d ng, trong chương này ñ nh các n i dung ñ c p ñ n ñó là: Mô t ng d ng, xây d ng bài toán 1.3.1.4 Nh ng tham s ñư c h tr trong thu t toán cây quy t ñ nh li t kê l trình h c cho t ng ngành h c, phân tích thi t k h th ng, 1.3.1.5. Xây d ng cây quy t ñ nh s d ng thu t toán C4.5 trình bày các bư c thu th p, x lý d li u. Thu t toán C4.5 ñư c phát tri n và công b b i Quinlan vào năm Chương 3: Phát tri n và Demo ng d ng, chương này trình bày 1996. Thu t toán C4.5 là m t thu t toán ñư c c i ti n t thu t toán giao di n hi n th hai mô hình khai phá d li u ñã ñư c xây d ng và ID3 v i vi c cho phép x lý trên t p d li u có các thu c tính s ñ ng th i chương trình có th th c hi n ch c năng d ñoán k t qu (numeric attributes) và làm vi c ñư c v i t p d li u b thi u và b h c t p c a sinh viên k t h p gi a thông tin tuy n sinh ñ u vào và l nhi u. trình h c, t ñó sinh viên có th ch n cho mình m t l trình h c phù Mã gi thu t toán C4.5: h p v i ñi u ki n và năng l c ñ ñ t k t qu ñ u ra t t nh t. Ví d minh h a cho thu t toán C4.5 CHƯƠNG 1. NGHIÊN C U T NG QUAN Đ minh ho , tác gi xin trích d li u c a 10 sinh viên t d li u 1.1. Khai phá d li u s ñư c s d ng ñ nghiên c u. 1.1.1. Khái ni m Khai phá d li u ñư c dùng ñ mô t quá trình phát hi n ra tri th c trong CSDL. Quá trình này k t xu t ra các tri th c ti m n t d li u giúp cho vi c d báo trong kinh doanh, các ho t ñ ng s n xu t, ... Khai phá d li u làm gi m chi phí v th i gian so v i phương pháp truy n th ng trư c kia (ví d như phương pháp th ng kê). Đ gi i quy t bài toán d ñoán k t qu h c t p, ngư i ta ñưa ra 1.1.2. Mô hình khai phá d li u t ng quát 1.1.3. ng d ng c a khai phá d li u mô hình cây quy t ñ nh: Theo cây quy t ñ nh trên, các lu t (Series of Rules) ñư c sinh ra 1.2. D báo d a vào khai phá d li u t cây quy t ñ nh dùng ñ d ñoán như sau: 1.2.1. Khái ni m 1.2.2. Các phương pháp d báo
  5. -9- - 10 - Rule 1: N u Đi m thi ñ u vào
  6. - 11 - - 12 - 1.4.1.2. Môi trư ng phát tri n ng d ng 1.4.1.3.Các thu t toán khai phá d li u trong Microsoft SQL Server 2008 R2 1.4.2. ADOMD.NET 1.4.3.Tìm hi u ngôn ng truy v n mô hình (DMX) 1.5. M t s nghiên c u v khai phá d li u trong giáo d c Khi tri th c ñã ñư c khái phá không ch ngư i khai phá có th s d ng mà c ngư i s h u (sinh viên) cũng có th dùng. Vì v y, ng d ng c a khai phá d li u trong h th ng giáo d c có th hư ng ñ n các tác nhân khác nhau v i các góc nhìn ñ c trưng: Hư ng ñ n sinh viên: Đ xu t kinh nghi m h c t p, tư v n tuy n sinh…. Hư ng ñ n giáo viên: Đ xu t nh ng phương pháp d y thích h p như phân l p các sinh viên thành các nhóm tùy theo m c h c, tìm ra V i min_sup=50%; min_conf=70% các m u thư ng và b t thư ng c a l trình h c t p c a sinh viên, tìm ra các l i thư ng m c, tìm ra các ho t ñ ng hi u qu ñ giáo viên có th c i thi n, t ch c l i n i dung gi ng d y ñ ñ t hi u qu t t hơn. Hư ng ñ n nhà qu n lý: V i nh ng k t qu h c t p m i năm ñ u có nhi u lí do d n ñ n. Vì v y, c n ñưa ra t p luât t ñó tư v n. Có Vì support và confidence th a mãn 2 tham s min_sup = 50% và th có nh ng lí do t t và không t t như sau: sinh viên không chuyên min_conf = 70%, nên ta có lu t k t h p sau: c n, x p l p, th i khóa bi u không h p lý, … R1: DIEMTHI=16; MANGANH=KT -> KETQUA=K Lu t k t h p R1có ñ tin c y là 100%, ñi u này có nghĩa là : 100% sinh viên v i thông tin ñ u vào DIEMTHI=16 và MANGANH=KT thì s x p lo i h c l c Khá. 1.4. Khai phá d li u v i Microsoft SQL Server 2008 R2 1.4.1. Microsoft SQL server 2008 Analysis Services Hình 1.4. Qui trình ng d ng khai phá d li u trong h th ng giáo d c 1.4.1.1. Gi i thi u CHƯƠNG 2. NGHIÊN C U XÂY D NG NG D NG
  7. - 13 - - 14 - 2.1. Mô t ng d ng không nh vào ngành h c và l trình mà sinh viên ch n h c. Chính vì 2.1.1. Gi i thi u v Trư ng Cao Đ ng Kinh T K Thu t Qu ng v y, thu c tính l trình h c là m t thu c tính ñ u vào không th thi u Nam khi xây d ng mô hình d ñoán k t qu h c t p cho sinh viên. 2.1.2. Yêu c u ñ i v i h th ng V i d li u g n 2000 sinh viên thu th p ñư c cùng v i 2.1.2.1. Xác ñ nh yêu c u nh ng ngành h c và môn h c tương ng cho t ng h c kì c th c a Cho m t kho d li u lưu gi các thông tin v k t qu h c t p m i sinh viên. Lu n văn th c hi n ñư c nhi m v li t kê ra l trình c a sinh viên ñã t t nghi p. H th ng th c hi n ch c năng: tìm ra h c cho m i sinh viên, t ñó suy ra t t c l trình h c cho t ng nh ng quy lu t d a trên nh ng mô hình ñã ñư c xây d ng ñ d ngành. Trên cơ s ñó, có th d ñoán ñư c k t qu h c t p cho t ng ñoán k t qu h c t p cu i khóa cho sinh viên. Bên c nh ñó t d li u l trình h c theo t ng ngành c th mà sinh viên ch n h c. ñã thu th p c n li t kê l trình h c cho t ng sinh viên và t ñó suy ra 2.2.1.2. Công c th c hi n l trình h c cho t ng ngành. V i thu c tính l trình h c ñã ñư c li t 2.2.1.3. K t qu kê s h tr cho k t qu d ñoán t t hơn. B ng 2.1. L trình h c c a m i sinh viên (B ng LoTrinhHoc) 2.1.2.2. Ph m vi bài toán D li u bài toán là d li u v thông tin tuy n sinh ñ u vào và k t qu h c t p c a sinh viên trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. B ng 2.2. B ng Nganh_LoTrinh 2.1.2.3. Yêu c u h th ng D li u ñư c t ch c trên h qu n tr cơ s d li u Microsoft SQL Server 2008 R2. Công c khai phá d li u Business Intelligence Development 2.2.2. D ñoán k t qu h c t p Studio, s d ng b công c Analysis Services tích h p cùng 2.2.2.1. Gi i thi u bài toán Microsoft SQL Server 2008 R2. Vi c ch n cho mình m t ngôi trư ng gi ng ñư ng ñ i h c là Công c l p trình s d ng Microsoft Visual Studio 2010. m t ñi u h t s c quan tr ng. Các thí sinh luôn băn khoăn và r t mu n 2.1 . Phân tích yêu c u h th ng tìm ki m các thông tin b ích v các trư ng ñ i h c, cao ñ ng trong 2.2.1. Li t kê l trình h c c a t ng sinh viên c nư c mà mình mu n theo h c. Nhu c u thông tin ñ các thí sinh 2.2.1.1. Gi i thi u bài toán tham kh o th t s c n thi t nh m ñ m b o phù h p v i năng l c, s K t qu h c t p cu i khóa c a sinh viên không ch ph thu c thích, ñi u ki n kinh t gia ñình, ñi u ki n kho ng cách ñ a lý,... ñây vào nh ng thông tin tuy n sinh ñ u vào mà còn ph thu c m t ph n là m t nhu c u r t thi t th c.
  8. - 15 - - 16 - Chính vì v y, tôi quy t ñ nh ñưa ra gi i pháp xây d ng mô hình Vi c ñưa ra nh ng quy t ñ nh s ñư c xác ñ nh t nh ng d li u khai phá d li u d a trên m t lư ng d li u t các h sơ tuy n sinh ñ u vào mà nh ng ngư i s d ng ñã nh p vào. H th ng s xem xét h ng năm và k t qu h c t p ñã ñư c thu th p c a sinh viên trư ng d a trên mô hình ñã ñư c xây d ng ñ ñưa ra nh ng d ñoán chính Cao ñ ng Kinh t K thu t Qu ng Nam nh m d ñoán k t qu h c xác. Như v y, yêu c u ñ t ra ñây là mô hình ñư c phát sinh t ñâu. t p cu i khóa c a sinh viên. T vi c phát tri n mô hình khai phá d Đó chính là quá trình khai phá d li u ñ tìm ra tri th c ph c v nhu li u ñã xây d ng, h th ng cũng giúp cho sinh viên ch n ñư c l c u và m c ñích lu n văn. trình h c t i ưu nh t tương ng v i ngành h c ñã ch n. 2.2.2.3. Mô hình bài toán 2.2.2.2. Phân tích quy lu t và l a ch n gi i pháp cho bài toán T nh ng d li u ñã ñư c thu th p và lưu tr ñ áp d ng cho bài toán d ñoán k t qu h c t p mà tôi ñang xây d ng, thì c n ph i tìm ki m nh ng thông tin gì? nh ng thông tin ñó giúp ích gì cho vi c d ñoán? Hình 2.2. Mô hình bài toán ng d ng d ñoán k t qu h c t p T góc ñ xây d ng mô hình d ñoán và nhu c u th c t c a 2.3 Thi t k h th ng trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. H th ng c n ph i 2.3.1. Danh sách các actor ñáp ng các câu h i ñư c t o ra m t cách t ñ ng và gi i quy t ñư c 2.3.2. Sơ ñ use case các th c m c c a t ng thí sinh, ph huynh và nh ng ngư i quan tâm. 2.3.3. Đ c t use case Câu h i thư ng ñư c ñ t ra ñơn thu n như sau: V i nh ng thông tin ñ u vào như: Dân t c, ñi m thi ñ u vào, khu v c, ...và v i ngành h c 2.3.4. Bi u ñ tu n t c th thì tôi nên ch n l trình h c nào phù h p ñ ñ t ñư c k t qu 2.3.5. Bi u ñ ho t ñ ng h c t p t i ưu. Các câu tr l i chính xác và ñáp ng ñư c nguy n v ng c n thông tin c a các thí sinh cũng như giúp cho các nhà qu n lý ñào t o c a trư ng nh ng cái nhìn và ñánh giá chính xác, ñòi h i ta ph i xây d ng vi c phân tích d a trên d li u có s n s l y ñư c nh ng thông tin gì và có d ñoán ñư c v n ñ gì x y ra không? Đó chính là m c ñích c a vi c khai phá d li u t nh ng d li u thu th p ñư c mà tôi Hình 2.9. Mô hình bài toán ng d ng d ñoán k t qu h c t p mu n th c hi n trong lu n văn này. 2.4. Xây d ng cơ s d li u 2.4.1. Ngu n d li u
  9. - 17 - - 18 - 2.4.1.1. Thu th p d li u 3.1.2. Chu n b d li u cho mô hình 2.4.1.2. Đánh giá ch t lư ng d li u D li u ngu n (Data Source) ñư c chia thành 2 t p d li u dùng 2.4.1.3. X lý d li u ñ hu n luy n mô hình (Training Data) và ki m tra mô hình (Testing 2.4.1.4. N p d li u data). 2.4.2. Xây d ng cơ s d li u trong SQL Server + Data source ban ñ u g n 2000 sinh viên 2.4.2.1. Mô hình cơ s d li u quan h + Training Data: 70% + Testing Data: 30% 3.1.3. Xây d ng mô hình T o DataSource T o DataSource View T o mô hình khai phá d li u Hình 2.10. Sơ ñ CSDL quan h 2.4.2.2. Thi t k cơ s d li u v t lý CHƯƠNG 3. PHÁT TRI N H TH NG 3.1. Qui trình xây d ng mô hình khai phá d li u Hình 3.1. Các thu c tính ñ u vào 3.1.1. Mô t d li u Sau ñó, ch n Suggest ñ xem nh ng c t nào có th là nh ng c t D li u ñư c dùng ñ xây d ng mô hình là Data source g n input 2000 sinh viên c a trư ng Cao Đ ng Kinh t - K thu t Qu ng Nam, g m 12 thu c tính: B ng 3.1. D li u xây d ng mô hình khai phá d li u Hình 3.2. K t qu tính entropy D a vào k t qu tính entropy trên, ta th y ñi m s Score c a 4 thu c tính: DIEMTHI, MALOTRINH, KHOITHI, MANGANH cao hơn so v i nh ng thu c tính còn l i, t c là nh ng thu c tính này có tác ñ ng m nh ñ n thu c tính d ñoán (k t qu h c t p). Các thu c V i m c ñích xây d ng mô hình cây quy t ñ nh và lu t k t h p tính còn l i có m c ñ nh hư ng ñ n mô hình là không ñáng k . nh m d ñoán k t qu h c t p cu i khóa c a sinh viên.
  10. - 19 - - 20 - Chính vì v y, ñ tăng hi u qu c a quá trình hu n luy n mô hình, có K t qu như sau th lo i b các thu c tính này và ch ch n 4 thu c tính có score cao T nhi u thu c tính ñ u vào như ban ñ u, ñ ki m tra m c ñ làm thu c tính input ñ xây d ng các mô hình d ñoán k t qu h c nh hư ng gi a thu c tính input và thu c tính d ñoán, lu n văn th c t p. hi n vi c xây d ng mô hình bao g m t t c các thu c tính ñ u vào Sau ñó, ch n ki u d li u và ki u n i dung cho m i thu c tính. s n có và xây d ng mô hình ñã b ñi t t c nh ng thu c tính ít nh + Discrete: Đ i v i nh ng thu c tính có giá tr r i r c. hư ng nh t ñ n thu c tính d ñoán (t c là ngoài 4 thu c tính có ñi m + Continuous: Đ i v i nh ng thu c tính có giá tr liên s score cao nh t như trên). Qua k t qu thu ñư c t vi c xây d ng t c. nh ng mô hình như trên, ta th y có hay không có vi c lo i b nh ng + Discretized: Đ i v i nh ng thu c tính ñư c r i r c thu c tính không quan tr ng t vi c xây d ng mô hình khác nhau thì hóa. m c ñ tác ñ ng c a các thu c tính ñ u vào v i thu c tính d ñoán Ho c: ch n Detect ñ thu t toán t ñ ng ch n l a ki u t t nh t v n s không thay ñ i. cho m i thu c tính. Tab Mining Models, Hai mô hình tương ng v i hai thu t toán cho trư ng h p ch n t t c các thu c tính ñ u vào: phái, dân t c, khu v c, huy n, ñi m thi, kh i thi, ngành và l trình h c. Hai mô hình tương ng v i hai thu t toán cho trư ng h p ch n Hình 3.7. Mô hình Dependency Network t t c các thu c tính ñ u vào không bao g m l trình h c. 3.1.4. Ki m ñ nh mô hình Hai mô hình cho thu t toán Decision v i trư ng h p ch ch n Lift Chart các thu c tính ñ u vào ñi m thi, kh i thi, ngành và l trình h c, bao g m và không bao g m l trình h c. Hình 3.8. Bi u ñ Lift Chart (có ch n giá tr d ñoán) Hình 3.4. Các mô hình ñư c xây d ng V i trư ng h p không ch n giá tr d ñoán, dùng bi u ñ Lift Sau ñó, kích ph i vào Project và ch n Deploy. Chart ñ ki m tra ñ chính xác c a m i mô hình. K t qu cho th y:
  11. - 21 - - 22 - Sau khi th c hi n hu n luy n mô hình và ch n mô hình phù h p v i yêu c u bài toán (mô hình s d ng thu t toán cây quy t ñ nh v i t l d ñoán cao nh t), ta s dùng mô hình này ñ d ñoán k t qu h c t p cho sinh viên. Quá trình ñó ñư c th c hi n như sau: Thông tin v sinh viên c n d ñoán k t qu h c t p cu i khóa ñư c lưu vào b ng Dudoanketqua. Lúc này b ng DuDoanKetQua s Hình 3.9. Bi u ñ Lift Chart (không ch n giá tr d ñoán) có c t k t qu còn ñ tr ng vì h th ng chưa th c hi n quá trình d K t qu th ng kê t l d báo c a 6 mô hình như sau: ñoán: STT Tên mô hình T l d ñoán B ng 3.2. Thu c tính ñ u vào lưu vào b ng DuDoanKetQua (B ng 1 Lu t k t h p 62,54% DuDoanKetQua) 2 Cây quy t ñ nh 96,22% 3 Cây quy t ñ nh (không ch n Lotrinh) 95,88% 4 Lu t k t h p (Không ch n Lotrinh) 83,34% H th ng s chuy n ti p d li u v a lưu ñ n BI và BI s t ñ ng 5 Cây quy t ñ nh (ch n 4 thu c tính quan trong) 97,23% th c hi n truy v n thông qua mô hình do ngư i qu n tr ch n s Cây quy t ñ nh (ch n thu c tính quan trong lo i b 95,83% d ng. Dư i ñây là ví d truy v n cho trư ng h p mô hình Decision 6 Lotrinh) tree v i ñ y ñ các thu c tính ñ u vào. - N u k t h p v i l trình h c, vi c d ñoán k t qu h c t p c a Code sinh ra t quá trình truy v n: sinh viên s chính xác hơn. Sau khi th c hi n truy v n, d li u d ñoán ñư c sinh ra và ñư c - Mô hình cây quy t ñ nh cho t l d báo ñúng cao nh t – h th ng lưu vào c t k t qu trong b ng DuDoanKetQua. Và t ñây 97,23%, trong khi ñó mô hình lu t k t h p cho t l d báo ñúng th p h th ng s l y k t qu trong b ng DuDoanKetQua cùng c t k t qu nh t – 83,34%. m i ñư c lưu vào ñ xu t ra màn hình cho ngư i dùng. - Vi c ñưa các thu c tính: dân t c, khu v c, ưu tiên, phái, mã Result huy n vào mô hình không có ý nghĩa. Thu t toán cây quy t ñ nh lo i Sau khi th c hi n truy v n, d li u s lưu vào b ng b các thu c tính này hoàn toàn và cho k t qu hoàn toàn trùng v i DuDoanKetQua k t qu trong trư ng h p mô hình không bao g m các thu c tính này. B ng 3.3. K t qu sau khi truy v n 3.1.5. S d ng mô hình ñ d ñoán 3.2 K t qu th nghi m Tab Mining Model Prediction
  12. - 23 - - 24 - 3.2.1. Mô t h th ng Đ i v i bài toán d ñoán k t qu h c t p cu i khóa c a sinh viên, H th ng: lu n văn ñã ñ xu t xây d ng sáu mô hình d ñoán d a trên thu t Mô hình: toán cây quy t ñ nh, lu t k t h p, t ñó so sánh sáu mô hình v i nhau Hi n th các mô hình khai phá d li u ñã xây d ng. ñ ch n ra mô hình t i ưu. V i d li u hu n luy n ban ñ u, mô hình D ñoán k t qu : cho phép phân tích các y u t nh hư ng ñ n k t qu h c t p c a sinh viên, m c ñ tác ñ ng c a t ng y u t ñ u vào, ngoài ra còn truy Cho phép ngư i dùng nh p vào nh ng thông tin c n thi t cho v n ñư c l trình h c thông qua d li u ban ñ u, t ñó d ñoán ñư c vi c d ñoán, sau ñó h th ng th c hi n ch c năng d ñoán và tr v k t qu h c t p cu i khóa c a sinh viên qua vi c k t h p thông tin k t qu h c t p cho ngư i dùng. ñ u vào và l trình h c. Bên c nh ñó, lu n văn còn xây d ng ñư c 3.2.2. Demo h th ng chương trình demo hi n th mô hình cây quy t ñ nh, lu t k t h p ñã 3.2.2.1. Giao di n chính c a chương trình xây d ng ñ n ngư i dùng cu i. V i vi c tri n khai h th ng th nghi m cho th y kh năng ng d ng k t qu này trong vi c d ñoán k t qu h c t p c a sinh viên. H th ng giúp cho sinh viên l a ch n cho mình m t l trình h c phù h p v i ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu h c t p t i ưu. Hình 3.10. Giao di n chính c a chương trình Nhìn chung, lu n văn ñã cơ b n hoàn thành các m c tiêu ñ ra. 3.2.2.2. C a s ñăng nh p Đ ñưa mô hình d ñoán vào ng d ng m t cách hi u qu hơn thì c n 3.2.2.3. C a s ñăng ký ti p t c ñ u tư thu th p d li u sinh viên nhi u hơn n a. Tri n khai d ñoán, ki m ch ng th c t và ñánh giá k t qu m t cách thư ng 3.2.2.4. Menu mô hình xuyên. B n thân nh n th y ñây là hư ng ti p c n ñúng ñ n và có tính 3.2.2.5. Giao di n d ñoán k t qu h c t p th c ti n cao. 3.3 B o trì mô hình H n ch K T LU N Do khó khăn trong vi c ti p c n và x lý d li u nên h th ng Đánh giá k t qu lu n văn cho ra k t qu chưa th t s chính xác. V lý thuy t, lu n văn ñã trình bày ñư c cơ s lý thuy t liên quan Hư ng phát tri n ñ n hai thu t toán cây quy t ñ nh, lu t k t h p. Nghiên c u quy trình Hư ng phát tri n c a lu n văn có th nghiên c u thêm m t s mô tri n khai ng d ng khai phá d li u. Ngoài ra, lu n văn cũng tìm hình m i ñ áp d ng vào bài toán khai phá d li u giáo d c như: hi u các v n ñ cơ b n v công c Microsoft SQL Server 2008 R2 Analysis Services và các công c liên quan.
  13. - 25 - + S d ng cây quy t ñ nh (Decision Tree) ñ d ñoán k t qu h c t p c a sinh viên m t h c kì b t kì d a trên thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì trư c ñó. Ch ng h n: s d ng các thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì 1 ñ d ñoán xem k t qu h c kì 2 sinh viên ñ t lo i gì (xu t s c, gi i, khá, trung bình…) + S d ng lu t k t h p (Association Rule) ñ tìm ra các lu t liên quan gi a các môn h c mà sinh viên ñã h c t t ho c chưa ñ t. Ví d : N u SV h c môn CSDL trong h c kỳ 1 ñ t k t qu khá thì s h c môn PTHT trong h c kỳ 2 s ñ t k t qu t t, ho c n u SV h c môn CSDL trong h c kỳ 1 chưa ñ t thì s h c môn PTHT trong h c kỳ 2 s chưa ñ t… Nghiên c u thêm m t s thu t toán ñ áp d ng vào bài toán khai phá d li u. M r ng bài toán cho vi c d ñoán trên nhi u thu c tính khác nhau ngoài k t qu h c t p cu i khóa c a sinh viên. Nâng cao kh năng h tr c a ng d ng cùng v i vi c d ñoán k t qu h c t p không ch cho sinh viên mà còn h tr cho giáo viên ch nhi m, các khoa chuyên ngành, phòng ñào t o và nh ng ai quan tâm. + Đ i v i giáo viên ch nhi m: h tr cho giáo viên ch nhi m có th tư v n cho sinh viên trong vi c ch n m t l trình h c phù h p. + Đ i v i các khoa chuyên ngành và phòng ñào t o: h tr trong vi c ñánh giá ch t lư ng cho t ng l trình h c nh m nâng cao, c i thi n hơn n a trong vi c xây d ng các l trình h c ñ phù h p v i m i ñi u ki n và năng l c c a sinh viên.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2