
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
SENGTHONG XAYAVONG
PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN
NAIVE BAYES, RANDOMFOREST VÀ KNN
(K - NEAREST NEIGHBORS)
LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH
Thái Nguyên – 2020

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
SENGTHONG XAYAVONG
PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN
NAIVE BAYES, RANDOMFOREST VÀ KNN
(K - NEAREST NEIGHBORS)
LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 84 8 01 01
Người hướng dẫn khoa học: TS. Nguyễn Văn Núi
Thái Nguyên – 2020

I
LỜI CAM ĐOAN
Họ và tên học viên: Sengthong Xayavong
Lớp cao học: CK17A Trường Đại học Công nghệ thông tin và Truyền thông – Đại
học Thái Nguyên.
Chuyên ngành: Khoa học máy tính
Tên đề tài luận văn: PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN
NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS).
Học viên xin cam đoan đây là công trình nghiên cứu của bản than học viện.
Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép
từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Trong quá trình làm học viên
có tham khảo các tài liệu liên quan nhằm khẳng định thêm sự tin cậy và cấp thiết của
đề tài. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn
tài liệu tham khảo đúng quy định.
Thái Nguyên, ngày 08 tháng 10 năm 2020
Tác giả luận văn
Sengthong xayavong

II
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới TS. Nguyễn Văn Núi, Trường Đại học Công
nghệ Thông tin và Truyền thông, người thầy đã dành nhiều thời gian tận tình chỉ bảo,
hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định
hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn.
Tôi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – trường
Đại học Công nghệ Thông tin và Truyền thông đã cung cấp cho tôi những kiến thức
và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường.
Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp
đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu. Tôi xin cảm ơn gia
đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và
tạo mọi điều kiện tốt nhất cho tôi.
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày 08 tháng 10 năm 2020
Tác giả luận văn
Sengthong Xayavong

III
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... I
LỜI CẢM ƠN .......................................................................................................... II
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... VI
DANH MỤC CÁC BẢNG ....................................................................................VII
DANH MỤC HÌNH ............................................................................................. VIII
MỞ ĐẦU .................................................................................................................... 1
Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức ......................... 3
1.1 Giới thiệu tổng quan ........................................................................................ 3
1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ........................ 3
1.1.2 Quá trình khám phá tri thức ........................................................................ 3
1.1.3 Khai phá dữ liệu .......................................................................................... 5
1.1.4 Quá trình của khai phá dữ liệu .................................................................... 6
1.1.5 Ứng dụng của khai phá dữ liệu ................................................................... 7
1.2 Một số kỹ thuật khai phá dữ liệu cơ bản ....................................................... 7
1.2.1 Luật kết hợp (Association Rules)................................................................. 7
1.2.2 Khai thác mẫu tuần tự (Sequential / Temporal patterns) ............................ 7
1.2.3 Phân cụm dữ liệu (Clustering) .................................................................... 8
1.2.4 Phân nhóm- đoạn (Clustering / Segmentation) ........................................... 8
1.2.5 Hồi quy (Regression) .................................................................................. 9
1.2.6 Tổng hợp hóa (Summarization) ................................................................... 9
1.2.7 Mô hình hóa sự phụ thuộc (dependency modeling) .................................... 9
1.2.8 Phát hiện sự biến đổi và độ lệch (Change and deviation detection) ......... 10
1.3. Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác 10
1.3.1. So sánh với phương pháp hệ chuyên gia .................................................. 10
1.3.2. So sánh với phương pháp phân loại thống kê .......................................... 11
1.3.3. So sánh với phương pháp học máy .......................................................... 12
1.3.4 So sánh với phương pháp học sâu ............................................................. 14
Chương 2: Một số kỹ thuật phân lớp dữ liệu ....................................................... 16
2.1 Tổng quan về phân lớp dữ liệu .................................................................... 16
2.2. Phân lớp dữ liệu Naive Bayes ..................................................................... 19

