ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Phƣơng Nhung
ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC
TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ
PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Phƣơng Nhung
ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC
TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ
PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
n bộ hƣớng dẫn: TS. Nguyễn Hà Nam
HÀ NỘI - 2009
Li cảm ơn
“Đ hoàn thành khóa lun này, tôi xin gi li cảm ơn chân thành tới quý thy
trong trường Đại hc Công Ngh - ĐHQGHN đã tận tình ch bo tôi trong sut bốn năm
học đại học. Tôi cũng xin cảm ơn sự ng dn nhit tình ca thy Nguyn Nam,
cùng s giúp đỡ của anh Đặng Tất Đạt sinh viên cao hc khoa Toán Tin trường Đại
hc T Nhiên, ĐHQGHN.
Tôi cũng thầm biết ơn sự ng h của gia đình, bn những người thân yêu luôn
luôn là ch da tinh thn vng chắc cho tôi.”
Hà Nội, tháng 05 năm 2009.
Sinh viên
Trần Phương Nhung
1
Tóm tt khóa lun
Trong khóa lun này tôi áp dng thut toán di truyền (Genetic Algorithm) đ bước
đầu ci tiến hiu qu phân lp của phương pháp minimax probability machine (MPM).
Phần đầu tôi xin gii thiu tng quan v khái nim khai phá d liu. Tiếp đó, tôi s trình
bày v sở thuyết ca thut toán di truyền và phương pháp phân lp minimax
probability machine. Cui cùng, tôi s t chi tiết v quá trình xây dng h thng
ng dng thut toán di truyn trong phân lớp minimax probability machine để chuẩn đoán
bệnh ung thư. nh phân lp mi này s đưc chy th trên mt s sở d liu ln
đưa ra nhng s liu thống để th thấy được hiu qu ca h thng so vi
phương pháp phân lớp ch s dng minimax probability machine.
2
Mc lc
Gii thiu ......................................................................................................................... 8
Chương 1: Gii thiu v khai phá d liu .................................................................... 10
1.1. Khai phá d liu là gì? ...................................................................................... 10
1.2. Ti sao phi tiến hành khai phá d liu? ........................................................... 10
1.3. Quá trình khai phá d liu ................................................................................ 11
1.4. Kiến trúc đin hình ca mt h khai phá d liu ............................................... 12
1.5. Các bài toán khai phá d liệu điển hình ............................................................ 13
1.6. Các lĩnh vực liên quan đến khai phá d liu ..................................................... 15
1.7. Các ng dụng điển hình ca khai phá d liu ................................................... 15
1.8. Các thách thc vi khai phá d liu .................................................................. 16
1.9. Kết lun ............................................................................................................ 16
Chương 2: Trích chn thuc tính phù hp .................................................................. 17
2.1. Gii thiu ......................................................................................................... 17
2.2. Mô hình trong bài toán trích chn ..................................................................... 18
2.2.1. Các mô hình trong trích chn .................................................................... 18
2.2.2. Đánh giá hai mô hình Filter và Wrapper ................................................... 19
2.2.2.1. Mô hình Filter .................................................................................... 19
2.2.2.2. Mô hình Wrapper ............................................................................... 19
2.3. Mt s k thut x ........................................................................................ 20
2.3.1. B sinh tp con (Feature Subset Generator) .............................................. 20
2.3.2. B đánh giá tập con đặc trưng (Feature Subset Evaluator) ....................... 21
2.3.3. Thut toán học điều khin (Central machine learning algorithm) .............. 22
2.4. Kết lun ............................................................................................................ 22