TRƢỜNG ĐẠI HC CÔNG NGHIP HÀ NI
KHOA CÔNG NGH THÔNG TIN
------------
BÁO CÁO THC TP
TT NGHIP
ĐỀ TÀI: KHAI PHÁ D LIU BNG CÂY QUYẾT ĐỊNH VÀ
NG DNG
Giảng viên hƣớng dn: Ths. Trần Hùng Cƣờng
Sinh viên thc hin: Nguyn Bá Nguyn
Lp: Khoa hc máy tính 3
Khóa: 4
Hà Nội, Tháng 3 năm 2013
LI M ĐẦU
Trong thi đi ngày nay, yếu t quyết định thành công trong mọi lĩnh vực luôn gn
lin vi vic nm bt, thng khai thác thông tin hiu qu. D liu ngày càng ln
nên vic tìm ra nhng thông tin tim ẩn trong chúng càng khó khăn hơn.
Khai phá tri thc một lĩnh vực nghiên cu mi, m ra mt thi k trong vic
tìm ra thông tin hu ích. Nhim v bản ca lĩnh vực y khai phá tri thc trong
sở d liu, khai phá d liệu trong sở d liu không phi mt h thng phân
tích t động một quá trình tƣơng tác thƣng xuyên giữa con ngƣời với sở d
liệu đƣợc s tr giúp ca nhiều phƣơng pháp và công cụ tin hc.
Em xin bày t s biết ơn sâu sắc ca mình ti Ths Trần Hùng Cƣờng ngƣời đã trc
tiếp hƣớng dn, ch bo tn tình, cung cp tài liệu phƣơng pháp nghiên cứu khoa
học để em hoàn thành bn luận văn y. Em xin gi li cảm ơn tới các thy giáo đã
dy d trong quá trình em theo hc ti Trƣng.
Trong sut quá trình nghiên cu, mặc đã hết sc c gắng nhƣng chắc chn i
lun không tránh khi nhng thiếu sót, rt mong quý thy góp ý đ luận văn đƣợc
hoàn chỉnh hơn.
Em xin chân thành cảm ơn!
Ký tên
Nguyn
Nguyn Bá Nguyn
TÓM TT NI DUNG
Ni dung luận văn em xin trình bày bao gm ba chƣơng:
Chƣơng một: gii thiu chung v công ngh khai phá trí thc, các khái nim bản, ý
nghĩa và tầm quan trng ca vic khai phá tri thc.
Chƣơng hai: trình bày các phƣơng pháp khai phá dữ liu bng y quyết định, khái
niệm bản v cây quyết định, các thut toán y dng y quyết định: CLS, ID3,
C4.5, rút gn các lut quyết đnh và đánh giá các thuật toán xây dng cây quyết đnh.
Chƣơng ba: cài đặt chƣơng trình hỗ tr ra quyết đinh bằng cây quyết đinh da trên
thut toán C4.5.
MC LC
LI M ĐẦU .............................................................................................................. 2
TÓM TT NI DUNG ............................................................................................... 3
MC LC ................................................................................................................... 4
DANH SÁCH HÌNH V ............................................................................................. 6
PHN M ĐẦU ......................................................................................................... 7
CHƢƠNG 1: GII THIU CHUNG V KHAI PHÁ TRI THC ......................... 8
1.1 Phát hiện tri thức và khai phá dữ liệu........................................................................... 8
1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu ................................................................ 8
1.2.1. Hình thành và định nghĩa bài toán. ...................................................... 9
1.2.2. Thu thp và x lý d liu. ..................................................................... 9
1.2.3. Khai thác d liu và rút ra tri thc ..................................................... 10
1.2.4. Phân tích và đánh giá tri thc ............................................................ 10
1.2.5. S dng tri thc phát hiện đưc ......................................................... 10
1.3. Khai phá dữ liệu ......................................................................................................... 11
1.3.1. Các quan nim v khai phá d liu. .................................................... 11
1.3.2. Quá trình khái phá d liu. ................................................................. 12
1.3.3. Kiến trúc ca h thng khai phá d liu. ............................................ 14
1.4. Các kỹ thuật khai phá dữ liệu ..................................................................................... 15
1.4.1. Phân lp d liu .................................................................................. 15
1.4.2. Phân cm d liu ................................................................................ 16
1.4.3. Cây quyết đnh .................................................................................... 16
1.4.4. Lut kết hp ......................................................................................... 16
1.4.5. Hi quy ................................................................................................ 16
1.4.6. Mạng Nơron ........................................................................................ 16
1.4.7. Gii thut di truyn ............................................................................. 17
CHƢƠNG 2: CÁC PHƢƠNG PHÁP KHAI PHÁ D LIU BNG CÂY
QUYT ĐNH ......................................................................................................... 18
2.1 Cây quyết định ........................................................................................................... 18
2.1.1 Gii thiu ............................................................................................ 18
2.1.2 Các kiu cây quyết đnh ...................................................................... 18
2.1.3 Ưu điểm ca cây quyết đnh ............................................................... 19
2.1.4 Phân lp d liu bng cây quyết định ................................................ 19
2.1.5 Xây dng cây quyết đnh. .................................................................... 21
2.1.6 Rút ra lut t cây quyết đnh .............................................................. 22
2.2 Các thuật toán xây dựng cây quyết định .................................................................... 22
2.2.1 Thut toán CLS ................................................................................... 22
2.2.2 Thut toán ID3 .................................................................................... 23
2.2.3 Thut toán C4.5 ................................................................................... 25
2.2.4 Ct ta cây quyết đnh .......................................................................... 31
2.2.5 Đánh giá và kết lun vc thut toán xây dng cây quyết định ....... 33
CHƢƠNG 3: CT ĐẶT CHƢƠNG TRÌNH KHAI PHÁ D LIU S DNG
CÂY QUYT ĐNH ................................................................................................. 36
3.1 Bài toán thực tế .......................................................................................................... 36
3.2 Cài đặt thuật toán....................................................................................................... 36
3.3 Hình ảnh demo ........................................................................................................... 40
KT LUN ................................................................................................................ 44
TÀI LIU THAM KHO ......................................................................................... 45