UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HC TH DU MT
H VÀ TÊN: TRÀ NHT LAN
LUẬN VĂN TỐT NGHIP
H THNG TƯ VẤN VÀ PHÂN LOI HC SINH S DNG K
THUT HC MÁY
CHUYÊN NGÀNH: H THNG THÔNG TIN
MÃ NGÀNH: 8480104
LUẬN VĂN THẠC S
NGƯỜI HƯỚNG DN KHOA HC:
PGS.TS QUẢN THÀNH THƠ
BÌNH DƯƠNG, năm 2019
Trang: i
LỜI CAM ĐOAN
Đề tài “Xây dựng h thng vấn phân loi hc sinh s dng k thut hc
máy” là công trình nghiên cu do tôi thc hin. Các s liu, kết qu nêu trong luận văn
là trung thực và chưa từng được ai công b trong bt k công trình nào khác.
Tác gi xin cam đoan những lời nêu trên là hoàn toàn đúng s tht.
Bình Dương, ngày 28 tháng 2 năm 2019
Hc viên
TRÀ NHT LAN
Trang: ii
LI CM ƠN
Em xin được gi li cảm ơn chân thành đến quý Thy Trường Đi hc Th
Du Mt đã trang b cho em nhng kiến thc, k năng cần thiết trong sut khóa hc đ
em có th hoàn thành được nội dung chương trình học của trường.
Em chân thành cm ơn Thầy PGS.TS. Quản Thành Thơ đã khuyến khích, đng
viên và tận tình hướng dn em trong quá trình thc hin luận văn thạc s. Chúng tôi rt
mong nhận được s góp ý ca quý thy cô để lun vặn đạt đưc kết qu tt nht.
Cui cùng, em xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn động viên, giúp
đỡ em trong sut quá trình hc và hoàn thành luận văn này.
Tôi xin chúc quý thy cô, các bn tht nhiu sc khe, nhiu nim vui trong cuc
sng, thành công trong công vic.
Trang: iii
MC LC
DANH MC T VIT TT ......................................................................................... v
DANH MC CÁC BNG ............................................................................................. v
DANH MC BIU ĐỒ, ĐỒ THÌ, HÌNH ẢNH, SƠ ĐỒ .............................................. v
TÓM TT LUẬN VĂN ................................................................................................ vi
M ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. GIỚI THIU ............................................................................................ 2
1.1. Phân lp d liu ................................................................................................. 2
1.2. Tình hình nghiên cu ......................................................................................... 2
1.3. Mc tiêu ca đ tài ............................................................................................. 2
1.4. Nội dung và phương pháp nghiên cứu ............................................................... 2
CHƯƠNG 2. MÔ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU .................................. 4
2.1. TNG QUAN V KHAI PHÁ D LIU ........................................................ 4
2.1.1. Khái nim .................................................................................................. 4
2.2. MỘT PHƯƠNG PHÁP HỌC MÁY PH BIN .............................................. 5
2.2.1. Khái nim hc máy .................................................................................... 5
2.2.2. Mt s phương pháp học máy ................................................................... 5
2.2.2.1. Hc có giám sát ...................................................................................... 5
2.2.2.2. Hc không có giám sát ........................................................................... 6
2.2.2.3. Hc bán giám sát .................................................................................... 6
2.2.3. Mt s thut toán hc máy ........................................................................ 6
2.2.3.1. Hi quy tuyến tính (Linear regression) .................................................. 6
2.2.3.2. Thut toán cây quyết đnh (Decision trees) ............................................ 7
2.2.3.3. Thut toán K_means ............................................................................... 7
2.2.3.4. Thut toán K láng ging gn nht (K-nearest neighbors) ...................... 7
2.3. PHƯƠNG PHÁP RANDOM FOREST ............................................................. 7
2.3.1. Cây quyết đnh ........................................................................................... 7
2.3.2. Rng ngu nhiên (Random Forest) ........................................................... 8
2.4. Mt s công trình nghiên cu liên quan ............................................................ 8
CHƯƠNG 3. XÂY DỰNG MÔ HÌNH D ĐOÁN ĐIM CA HC SINH
DÙNG RANDOM FOREST ........................................................................................ 10
3.1. MÔ T D LIU BÀI TOÁN ........................................................................ 10
3.2. MÔ HÌNH HUN LUYN ............................................................................. 13
Trang: iv
3.2.1. MÔ HÌNH DÙNG TRONG RANDOM FOREST ................................. 13
3.2.2. Xây dng Cây quyết đnh dùng CART ................................................... 13
3.2.3. Xây dng Rng ngu nhiên (Random Forest) ........................................ 14
3.2.4. Áp dng Rng ngu nhiên ....................................................................... 15
3.3. GIAO DIN ..................................................................................................... 15
3.4. Chức năng dự đoán: ......................................................................................... 15
3.4.1. Chức năng dự đoán các môn khi t nhiên ............................................. 18
3.4.2. Chức năng dự đoán các môn khi xã hi: ............................................... 19
3.5. Chức năng phân loại và tư vấn hc sinh .......................................................... 19
3.6. Các bước tin x lý d liu .............................................................................. 20
CHƯƠNG 4. THC NGHIM .................................................................................... 23
4.1. Mô t d liu hun luyn ................................................................................. 23
4.2. D liu hun luyn ........................................................................................... 23
4.3. Tính độ tương quan .......................................................................................... 24
4.4. So sánh vi các thut toán hc máy khác ........................................................ 25
4.5. So sánh độ tương khối xã hi ........................................................................... 26
4.6. So sánh độ tương quan khối t nhiên............................................................... 27
CHƯƠNG 5. GIAO DIỆN H THNG ...................................................................... 28
5.1. Ngôn ng lp trình: .......................................................................................... 28
5.1.1. Ngôn ng lp trình Python 3.6 ................................................................ 28
5.2. Công c h tr .................................................................................................. 28
5.2.1. Phn mm Jupyter Notebook .................................................................. 28
5.2.2. Visual Studio Code .................................................................................. 28
5.3. Thư viện h tr ................................................................................................. 28
5.3.1. Thư viện numpy ...................................................................................... 28
5.3.2. Thư viện Pandas ...................................................................................... 29
CHƯƠNG 6. KẾT QU ĐẠT ĐƯC VÀ HN CH ............................................... 30
6.1. Kết qu đạt được đã làm được ......................................................................... 30
6.2. Hn chế: ........................................................................................................... 30
6.3. Khuyến ngh ..................................................................................................... 30
TÀI LIU THAM KHO ............................................................................................ 31