ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thùy Linh
NGHIÊN CU CÁC THUT TOÁN PHÂN LP D LIU
DA TRÊN CÂY QUYT ĐỊNH
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
HÀ NI - 2005
Ngành: Công ngh thông tin
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Thùy Linh
NGHIÊN CU CÁC THUT TOÁN PHÂN LP D LIU
DA TRÊN CÂY QUYT ĐỊNH
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
HÀ NI - 2005
Ngành: Công ngh thông tin
Cán b hướng dn: TS. Nguyn Hi Châu
-
i-
TÓM TT NI DUNG
Phân lp d liu là mt trong nhng hướng nghiên cu chính ca khai phá d
liu. Công ngh này đã, đang và s có nhiu ng dng trong các lĩnh vc thương mi,
ngân hàng, y tế, giáo dc…Trong các mô hình phân lp đã được đề xut, cây quyết
định được coi là công c mnh, ph biến và đặc bit thích hp vi các ng dng khai
phá d liu. Thut toán phân lp là nhân t trung tâm trong mt mô hình phân lp.
Khóa lun đã nghiên cu vn đề phân lp d liu da trên cây quyết định. T
đó tp trung vào phân tích, đánh giá, so sánh hai thut toán tiêu biu cho hai phm vi
ng dng khác nhau là C4.5 và SPRINT. Vi các chiến lược riêng v la chn thuc
tính phát trin, cách thc lưu tr phân chia d liu, và mt s đặc đim khác, C4.5 là
thut toán ph biến nht khi phân lp tp d liu va và nh, SPRINT là thut toán
tiêu biu áp dng cho nhng tp d liu có kích thước cc ln. Khóa lun đã chy th
nghim mô hình phân lp C4.5 vi tp d liu thc và thu được mt s kết qu phân
lp có ý nghĩa thc tin cao, đồng thi đánh giá đưc hiu năng ca mô hình phân lp
C4.5. Trên cơ s nghiên cu lý thuyết và quá trình thc nghim, khóa lun đã đề xut
mt s ci tiến mô hình phân lp C4.5 và tiến ti cài đặt SPRINT.
-
ii-
LI CM ƠN
Trong sut thi gian hc tp, hoàn thành khóa lun em đã may mn được các
thy cô ch bo, dìu dt và được gia đình, bn bè quan tâm, động viên.
Em xin được bày t lòng biết ơn chân thành ti các thy cô trường Đại hc
Công Ngh đã truyn đạt cho em ngun kiến thc vô cùng quý báu cũng như cách hc
tp và nghiên cu khoa hc.
Cho phép em được gi li cm ơn sâu sc nht ti TS. Nguyn Hi Châu,
người thy đã rt nhit tình ch bo và hướng dn em trong sut quá trình thc hin
khóa lun.
Vi tt c tm lòng mình, em xin bày t lòng biết ơn sâu sc đến TS.
Quang Thy đã to điu kin thun li và cho em nhng định hướng nghiên cu. Em
xin li cm ơn ti Nghiên cu sinh Đoàn Sơn (JAIST) đã cung cp tài liu và cho em
nhng li khuyên quý báu. Em cũng xin gi li cm ơn ti các thy cô trong B môn
Các h thng thông tin, Khoa Công ngh thông tin đã giúp em có được môi thc
nghim thun li.
Em cũng xin gi ti các bn trong nhóm Seminar “Khai phá d liu và Tính
toán song song” li cm ơn chân thành vì nhng đóng góp và nhng kiến thc quý báu
em đã tiếp thu được trong sut thi gian tham gia nghiên cu khoa hc.
Cui cùng, em xin cm ơn gia đình, bn bè và tp th lp K46CA, nhng
người đã luôn bên khích l động viên em rt nhiu.
Hà Ni, tháng 6 năm 2005
Sinh viên
Nguyn Th Thùy Linh
-
iii-
MC LC
TÓM TT NI DUNG..................................................................................................i
LI CM ƠN ............................................................................................................... ii
MC LC .................................................................................................................... iii
DANH MC BIU ĐỒ HÌNH V...............................................................................v
DANH MC THUT NG...................................................................................... vii
ĐẶT VN ĐỀ.................................................................................................................1
Chương 1. TNG QUAN V PHÂN LP D LIU DA TRÊN CÂY QUYT
ĐỊNH...............................................................................................................................3
1.1. Tng quan v phân lp d liu trong data mining................................................3
1.1.1. Phân lp d liu........................................................................................................3
1.1.2. Các vn đề liên quan đến phân lp d liu...............................................................6
1.1.3. Các phương pháp đánh giá độ chính xác ca mô hình phân lp..............................8
1.2. Cây quyết định ng dng trong phân lp d liu .................................................9
1.2.1. Định nghĩa ................................................................................................................9
1.2.2. Các vn đề trong khai phá d liu s dng cây quyết định....................................10
1.2.3. Đánh giá cây quyết định trong lĩnh vc khai phá d liu.......................................11
1.2.4. Xây dng cây quyết định........................................................................................13
1.3. Thut toán xây dng cây quyết định...................................................................14
1.3.1. Tư tưởng chung ......................................................................................................14
1.3.2. Tình hình nghiên cu các thut toán hin nay........................................................15
1.3.3. Song song hóa thut toán phân lp da trên cây quyết định tun t......................17
Chương 2. C4.5 VÀ SPRINT......................................................................................21
2.1. Gii thiu chung .................................................................................................21
2.2. Thut toán C4.5...................................................................................................21
2.2.1. C4.5 dùng Gain-entropy làm độ đo la chn thuc tính “tt nht”........................22
2.2.2. C4.5 có cơ chế riêng trong x lý nhng giá tr thiếu..............................................25
2.2.3. Tránh “quá va” d liu .........................................................................................26
2.2.4. Chuyn đổi t cây quyết định sang lut .................................................................26
2.2.5. C4.5 là mt thut toán hiu qu cho nhng tp d liu va và nh.......................27
2.3. Thut toán SPRINT ............................................................................................28
2.3.1. Cu trúc d liu trong SPRINT..............................................................................29
2.3.2. SPRINT s dng Gini-index làm độ đo tìm đim phân chia tp d liu “tt nht”
..........................................................................................................................................31
2.3.3. Thc thi s phân chia .............................................................................................34
2.3.4. SPRINT là thut toán hiu qu vi nhng tp d liu quá ln so vi các thut toán
khác...................................................................................................................................35