i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cu ca riêng tôi.
Các s liu, kết qu u trong luận văn trung thc chưa từng đưc ai
công b trong bt k công trình o khác. Nếu không đúng như đ nêu trên, tôi xin
hoàn toàn chu trách nhim v đ tài ca mình.
Tp. HCM, ngày 25 tháng 01 năm 2022
Hc viên thc hin lun văn
Huỳnh Vũ Trưng Giang
ii
LI CẢM ƠN
Trong thi gian thc hin luận văn tốt nghip, được s hướng dn tn tình
của giáo viên hướng dẫn được phía nhà trường to điu kin thun lợi, tôi đ
mt quá trình nghiên cu, tìm hiu hc tp nghiêm túc để hoàn thành đ tài. Kết
qu thu đưc không ch do n lc ca cá nhân tôi mà còn có s giúp đỡ ca quý thy
cô, gia đình và các bạn.
Tôi xin chân thành cảm ơn PGS. TS. Trn Mnh . Thy đ hướng dn,
h tr tôi hoàn thành tt luận văn v phương pháp, lý luận và ni dung luận văn.
Cám ơn Bán Giám hiu, Khoa Công Ngh Thông Tin Hc Vin Công Ngh
Bưu Chính Viễn Thông cơ sở tại Tp. HCM đ quan tâm, to điu kin giúp tôi hoàn
thành luận văn tốt nghip.
Cám ơn Ban giám đốc các đồng nghip ti Vin thông y Ninh đ hỗ
trợ, giúp đỡ tôi trong sut quá trình thc hin luận văn.
Trong quá trình thc hin và trình bày không th tránh khi nhng sai sót
hn chế, do vy tôi rt mong nhận đưc s góp ý, nhn xét phê bình ca quý thy
và các bạn để hoàn thin kiến thc và bn thân.
Tp. HCM, ngày 25 tháng 01 năm 2022
Hc viên thc hin lun văn
Huỳnh Vũ Trường Giang
iii
MC LC
LỜI CAM ĐOAN ............................................................................................. i
LI CẢM ƠN .................................................................................................. ii
MC LC ....................................................................................................... iii
DANH MC CÁC THUT NG, CH VIT TT ................................. vi
DANH SÁCH HÌNH V ............................................................................... vii
DANH SÁCH BNG ................................................................................... viii
M ĐẦU .......................................................................................................... 1
Lý do chọn đ tài ........................................................................................... 1
Mục đích nghiên cứu ..................................................................................... 2
Đối tượng nghiên cu .................................................................................... 3
Phm vi nghiên cu ....................................................................................... 3
Phương pháp nghiên cứu ............................................................................... 3
Chương 1 - NGHIÊN CU TNG QUAN................................................... 5
1.1. Bài toán phân lp d liu ....................................................................... 5
1.1.1. Khái nim v phân lp d liu và bài toán phân lp d liu .......... 5
1.1.2. Các bước gii quyết bài toán phân lp d liu ............................... 7
1.1.3. Các độ đo để đánh giá mô hình phân lớp d liu ........................... 8
1.2. Tng quan v hc máy ........................................................................... 9
1.2.1. Khái nim ...................................................................................... 11
1.2.2. Phân loi các k thut hc máy ..................................................... 12
1.3. Thut toán Cây quyết định ................................................................... 13
1.3.1. Gii thiệu phương pháp ................................................................ 13
1.3.2. Thut toán Rng ngu nhiên ......................................................... 17
1.4. Bug Tracking System ........................................................................... 19
1.5. Thư viện Scikit-learn ............................................................................ 20
1.6. Các công trình nghiên cứu trong nước ................................................. 21
iv
1.6.1. Two-Phase Defect Detection Using Clustering and Classification
Methods ................................................................................................... 21
1.6.2. An automated fault detection system for communication networks
and distributed systems ........................................................................... 22
1.6.3. Áp dng thut toán phân loại Random Forest để xây dng bản đ
s dng đất/thm ph tỉnh Đắk Lk da vào nh v tinh Landsat 8 OLI
................................................................................................................. 22
1.6.4. Nghiên cu mt s thut toán học máy đ phân lp d liu và th
nghim ..................................................................................................... 23
1.7. Các công trình nghiên cứu ngoài nước ................................................ 23
1.7.1. VAX/VMS Event monitoring and analysis .................................. 23
1.7.2. Using Secondary Knowledge to Support Decision Tree
Classification of Retrospective Clinical Data ......................................... 23
1.7.3. Designing a hierarchical neural network based on fuzzy clustering
for fault diagnosis of the TennesseeEastman process ........................... 24
1.7.4 Fault Detection and Diagnosis for Solar-Powered Wireless Mesh
Networks Using Machine Learning ........................................................ 24
1.7.5 Fault Detection for Cloud Computing Systems with Correlation
Analysis ................................................................................................... 25
Chương 2 – PHƯƠNG PHÁP PHÂN LOẠI LI MNG ........................ 26
2.1. Mô hình Two-Phase Defect Detection ................................................. 26
2.2. Mô hình d liu li ............................................................................... 27
2.3. S dụng phương pháp tf x idf để lc ni dung quan trng t ni dung
mô t li ....................................................................................................... 30
2.4. S dng thut toán phân lp Rng ngu nhiên thông qua b thư viện
Scikit-learn .................................................................................................. 31
2.5. S dụng tf x idf trong thư viện Scikit-learn ......................................... 34
Chương 3 - XÂY DNG MÔ HÌNH PHÂN LOI LI MNG ............. 35
3.1. Tp d liu li thu thp t các BTS ..................................................... 36
3.2. Trích xut thuc tính quan trng ca li .............................................. 37
3.3. Xây dng rng ngu nhiên ................................................................... 40
3.3.1. Chun hóa d liu sang dng s .................................................... 40
v
3.3.2. Ly mu d liu cho vic xây dng cây quyết định ..................... 42
3.3.3 Xây dng cây quyết định ............................................................... 44
1.3.4. Xây dng rng ngu nhiên ............................................................ 46
Chương 4 – PHÂN TÍCH VÀ ĐÁNH GIÁ ................................................. 48
4.1. Phân tích độ chính xác ca mô hình .................................................... 48
4.2. Xác định mức đ quan trng ca các thuc tính .................................. 51
Chương 5 - KT LUN ................................................................................ 54
5.1. Kết qu đạt được .................................................................................. 54
5.1.1. V mt lý thuyết ............................................................................ 54
5.1.2. V mt thc tin ............................................................................ 54
5.2. Hn chế ................................................................................................. 55
5.3. Hướng phát trin .................................................................................. 55
DANH MC TÀI LIU THAM KHO ..................................................... 57