PGS.TS NGUYN THANH TÙNG
Đồng Nai, năm 2023
B GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HC LC HNG
ĐỖ SĨ TRƯỜNG
PHƯƠNG PHÁP LỰA CHN THUC TÍNH VÀ K
THUT GOM CM D LIU PHÂN LOI S
DNG TP THÔ
LUN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa hc máy tính
Mã s ngành: 9480101
NGƯỜI HƯỚNG DN KHOA HC
Công trình được hoàn thành tại: Trường Đại hc Lc Hng
Người hướng dn khoa hc:
PGS.TS. Nguyn Thanh Tng
Phn bin 1: .................................................................................................
Phn bin 2: .................................................................................................
Phn bin 3: ..................................................................................................
Lun án s được bo v trước Hội đồng chm lun án cấp Trường hp ti
......................................................................................................................
......................................................................................................................
Vào hi gi ngày tháng năm
Có th tìm hiu lun án tại thư vin:
- Thư viện trường Đại hc Lc Hng
- Thư viện Quc Gia
MC LC
CHƯƠNG 1. M ĐẦU ........................................................................ 1
CHƯƠNG 2. KHÁI QUÁT V THUYT TP THÔ VÀ NG
DNG TRONG KHAI PHÁ D LIU ................................................. 3
2.1 Các khái niệm cơ bản ca lý thuyết tp thô ................................... 3
2.1.1 H thông tin ................................................................................ 3
2.1.2 Quan h không phân biệt được và các xp x ca mt tp hp ........ 4
2.1.3 Bảng quyết định .......................................................................... 4
2.1.4 Các khái nim lý thuyết thông tin liên quan ................................... 5
2.2 Khám phá tri thc t cơ sở d liu ................................................ 7
2.2.1 Các k thut khai phá d liu ....................................................... 7
2.3 ng dng ca lý thuyết tp thô trong khai phá d liu ................... 7
2.4 Kết luận chương 2 ....................................................................... 8
CHƯƠNG 3. LA CHN THUC TÍNH S DNG LÝ THUYT TP
THÔ ...................................................................................... 8
3.1 Khái quát v bài toán la chn thuc tính ...................................... 8
3.1.1 Phương pháp tạo lp các tp con .................................................. 8
3.1.2 Tiêu chuẩn đánh giá .................................................................... 9
3.2 Các phương pháp lựa chn thuc tính s dng lý thuyết tp thô .... 10
3.2.1 Đề xut thut toán rút gn thuc tính da vào gom cm ACBRC .. 11
3.3 Kết luận chương 3 ..................................................................... 16
CHƯƠNG 4. GOM CM D LIU S DNG LÝ THUYT TP THÔ
.................................................................................... 16
4.1 Thut toán MMNVI .................................................................. 18
4.1.1 Ý tưởng và những định nghĩa cơ bản .......................................... 18
4.1.2 Thut toán MMNVI .................................................................. 19
4.1.3 Độ phc tp ca thut toán MMNVI .......... Error! Bookmark not
defined.
4.1.4 Nhn xét thut toán MMNVI ...... Error! Bookmark not defined.
4.1.5 Kết qu thc nghim thut toán MMNVI .................................... 21
4.1.6 B d liệu đánh g ................................................................... 21
4.1.7 Phương pháp đánh giá hiệu sut ................................................. 21
4.1.8 Kết qu gom cm ...................................................................... 21
4.2 Kết luận chương 4 ..................................................................... 22
CHƯƠNG 5. KT LUẬN VÀ HƯỚNG PHÁT TRIN ....................... 23
5.1 Nhng kết qu và đóng góp chính của lun án ............................. 23
5.2 ng phát trin ca lun án ..................................................... 24
1
CHƯƠNG 1. M ĐẦU
Khám phá tri thc t CSDL là một lĩnh vực khoa hc nhm nghiên cu
để to ra nhng công c khai phá nhng thông tin, tri thc hu ích, tim n
mang tính d đoán trong các CSDL lớn [1, 2].
Các kết qu nghiên cu cùng vi nhng ng dng thành công thi gian
qua cho thy, khám phá tri thc t CSDL là một lĩnh vực khoa hc tiềm năng,
mang li nhiu lợi ích, đng thời ưu thế hơn hẳn so vi các công c phân
tích d liu truyn thng. Tuy nhiên, vi tốc độ tăng trưng ca d liu hin
nay cng vi vic xut hin các dng d liu phc tp, vic nghiên cu và ng
dng các k thut khai phá d liệu cũng đang gặp nhiều khó khăn, thách thức,
đòi hỏi các nhà nghiên cu phi không ngng n lc nhm tìm ra nhng công
c để gii quyết các khó khăn, thách thức này.
Lý thuyết tp thô - do Zdzisaw Pawlak [3] đề đưc xem là công c hu
hiệu để gii quyết các bài toán x thông tin cha d liệu hồ, không
chc chắn. Do tư duy mới lạ, phương pháp độc đáo và d cài đặt, trong hơn ba
mươi năm qua, thuyết tập thô đã được nghiên cu, ng dng tr thành
mt công c quan trọng trong lĩnh vực x thông tin thông minh [2, 4, 5, 6,
7, 8].
Trong xu thế đó, nhiều nhóm nhà khoa học, trong đó có cả các nhà khoa
hc Việt nam, đã đang quan tâm đến nghiên cu vấn đề rút gn thuc tính
trong bng quyết định và gom cm d liu. Tuy nhiên, lĩnh vực nghiên cu này
vn còn mt s vấn đề ln cần được tiếp tc tho lun và ci tiến. Vi là lý do
đó, nghiên cu sinh chọn đ tài nghiên cứu: “Phương pháp lựa chn thuc tính
và k thut gom cm d liu phân loi s dng lý thuyết tập thô”.
Mc tiêu nghiên cu ca lun án tp trung vào hai vấn đề của đề tài: (1)
nghiên cứu phương pháp mi tìm tp rút gn trong mt bng quyết định; (2) k
thut gom cm d liu phân loi s dng tp thô.
Đối tượng nghiên cu ca lun án là các h thông tin, bng quyết định
có th cha d liệu mơ hồ, không chc chn.
Phm vi nghiên cu ca lun án bao gm vic nghiên cứu các phương
pháp khai phá d liệu theo hướng tiếp cn tp thô, tp trung vào hai vấn đề
chính nêu trong mc tiêu ca lun án.