
GVHD: Nguy n M nh C ngễ ạ ườ
TR NG ĐI H C CÔNG NGHI P HÀ N IƯỜ Ạ Ọ Ệ Ộ
KHOA CÔNG NGH THÔNG TINỆ
BÁO CÁO BÀI T P L NẬ Ớ
Môn Khai phá d li uữ ệ
Phân l p d li u s b ng gi i thu t K-NNớ ữ ệ ố ằ ả ậ
Giáo viên h ng d n: Nguy n M nh C ngướ ẫ ễ ạ ườ
Nhóm 5
L p K thu t ph n m m 1 – K7ớ ỹ ậ ầ ề
Thành viên:
Nguy n Hà Anh Dũngễ
Nguy n Quang Longễ
Nguy n Th Th oễ ị ả
Nhóm 5 1

GVHD: Nguy n M nh C ngễ ạ ườ
Hà N i, tháng 5 năm 2016ộ
L i nói đuờ ầ
Trong th i bu i hi n đi ngày nay, công ngh thông tin cũng nh nh ngờ ổ ệ ạ ệ ư ữ
ng d ng c a nó không ng ng phát tri n, l ng thông tin và c s d li u đcứ ụ ủ ừ ể ượ ơ ở ữ ệ ượ
thu th p và l u tr cũng tích lũy ngày m t nhi u lên. Con ng i cũng vì th màậ ư ữ ộ ề ườ ế
c n có thông tin v i t c đ nhanh nh t đ đa ra quy t đnh d a trên l ng dầ ớ ố ộ ấ ể ư ế ị ự ượ ữ
li u kh ng l đã có. Các ph ng pháp qu n tr và khai thác c s d li u truy nệ ổ ồ ươ ả ị ơ ở ữ ệ ề
th ng ngày càng không đáp ng đc th c t , vì th , m t khuynh h ng kố ứ ượ ự ế ế ộ ướ ỹ
thu t m i là K thu t phát hi n tri th c và khai phá d li u nhanh chóng đcậ ớ ỹ ậ ệ ứ ữ ệ ượ
phát tri n.ể
Khai phá d li u đã và đang đc nghiên c u, ng d ng trong nhi u lĩnhữ ệ ượ ứ ứ ụ ề
v c khác nhau các n c trên th gi i. Vi t Nam, k thu t này đang đcự ở ướ ế ớ Ở ệ ỹ ậ ượ
nghiên c u và d n đa vào ng d ng. Khai phá d li u là m t b c trong quyứ ầ ư ứ ụ ữ ệ ộ ướ
trình ph t hi n tri th c. Hi n nay, m i ng i không ng ng tìm tòi các k thu tấ ệ ứ ệ ọ ườ ừ ỹ ậ
đ th c hi n khai phá d li u m t cách nhanh nh t và có đc k t qu t t nh t.ể ự ệ ữ ệ ộ ấ ượ ế ả ố ấ
Trong bài t p l n này, chúng em tìm hi u và trình bày v m t k thu t trong khaiậ ớ ể ề ộ ỹ ậ
phá d li u đ phân l p d li u cũng nh t ng quan v khai phá d li u, v i đữ ệ ể ớ ữ ệ ư ổ ề ữ ệ ớ ề
tài “ Phân l p d li u s b ng gi i thu t K-NNớ ữ ệ ố ằ ả ậ ”.
Trong quá trình làm bài t p l n này, chúng em xin g i l i c m n đnậ ớ ử ờ ả ơ ế
th y giáoầ Nguy n M nh C ng. ễ ạ ườ Th y đã r t t n tình h ng d n chi ti t choầ ấ ậ ướ ẫ ế
chúng em, nh ng ki n th c th y cung c p r t h u ích. Chúng em r t mong nh nữ ế ứ ầ ấ ấ ữ ấ ậ
đc nh ng góp ý t th y.ượ ữ ừ ầ
Chúng em xin chân thành c m n!ả ơ
Sinh viên nhóm 5.
Nhóm 5 2

GVHD: Nguy n M nh C ngễ ạ ườ
Ch ng 1: T ng quan v Khai phá d li uươ ổ ề ữ ệ
1.1. Khái ni m c b nệ ơ ả
-Khai phá d li u là gì ?ữ ệ
Khai phá d li u là m t quá trình xác đnh các m u ti m n có tính h p l ,ữ ệ ộ ị ẫ ề ẩ ợ ệ
m i l , có ích và có th hi u đc trong m t kh i d li u r t l n.ớ ạ ể ể ượ ộ ố ữ ệ ấ ớ
-Khai phá tri th c t CSDL ( Knowledge Discovery in Database)ứ ừ
Khai phá tri th c t CSDL g m 5 b cứ ừ ồ ướ
B1: L a ch n CSDLự ọ
B2: Ti n x lýề ử
B3: Chuy n điể ổ
B4: Khai phá d li uữ ệ
B5: Di n gi i và đánh giáễ ả
Khai phá d li u là 1 b c trong quá trình khai phá tri th c t CSDLữ ệ ướ ứ ừ
-Các ng d ng c a khai phá d li uứ ụ ủ ữ ệ
Nhóm 5 3

GVHD: Nguy n M nh C ngễ ạ ườ
Phát hi n tri th c và khai phá d li u liên quan đn nhi u ngành, nhi u lĩnhệ ứ ữ ệ ế ề ề
v c: th ng kê, trí tu nhân t o, c s d li u, thu t toán, tính toán song song vàự ố ệ ạ ơ ở ữ ệ ậ
t c đ cao, thu th p tri th c cho các h chuyên gia, quan sát d li u... Đc bi tố ộ ậ ứ ệ ữ ệ ặ ệ
phát hi n tri th c và khai phá d li u r t g n gũi v i lĩnh v c th ng kê, s d ngệ ứ ữ ệ ấ ầ ớ ự ố ử ụ
các ph ng pháp th ng kê đ mô hình d li u và phát hi n các m u, lu t ... Ngânươ ố ể ữ ệ ệ ẫ ậ
hàng d li u (Data Warehousing) và các công c phân tích tr c tuy n (OLAP- Onữ ệ ụ ự ế
Line Analytical Processing) cũng liên quan r t ch t ch v i phát hi n tri th c vàấ ặ ẽ ớ ệ ứ
khai phá d li u. ữ ệ
Khai phá d li u có nhi u ng d ng trong th c t , ví d nh :ữ ệ ề ứ ụ ự ế ụ ư
B o hi m, tài chính và th tr ng ch ng khoán: phân tích tình hình tàiả ể ị ườ ứ
chính và d báo giá c a các lo i c phi u trong th tr ng ch ng khoán.ự ủ ạ ổ ế ị ườ ứ
Danh m c v n và giá, lãi su t, d li u th tín d ng, phát hi n gian l n, ...ụ ố ấ ữ ệ ẻ ụ ệ ậ
Th ng kê, phân tích d li u và h tr ra quy t đnh.ố ữ ệ ỗ ợ ế ị
Đi u tr y h c và chăm sóc y t : m t s thông tin v chu n đoán b nh l uề ị ọ ế ộ ố ề ẩ ệ ư
trong các h th ng qu n lý b nh vi n. Phân tích m i liên h gi a các tri uệ ố ả ệ ệ ố ệ ữ ệ
ch ng b nh, chu n đoán và ph ng pháp đi u tr (ch đ dinh d ng,ứ ệ ẩ ươ ề ị ế ộ ưỡ
thu c, ...)ố
S n xu t và ch bi n: Quy trình, ph ng pháp ch bi n và x lý s c .ả ấ ế ế ươ ế ế ử ự ố
Text mining và Web mining: Phân l p văn b n và các trang Web, tóm t tớ ả ắ
văn b n,...ả
Lĩnh v c khoa h c: Quan sát thiên văn, d li u gene, d li u sinh v t h c,ự ọ ữ ệ ữ ệ ậ ọ
tìm ki m, so sánh các h gene và thông tin di truy n, m i liên h gene vàế ệ ề ố ệ
m t s b nh di truy n, ...ộ ố ệ ề
M ng vi n thông: Phân tích các cu c g i đi n tho i và h th ng giám sátạ ễ ộ ọ ệ ạ ệ ố
l i, s c , ch t l ng d ch v , ...ỗ ự ố ấ ượ ị ụ
-Các b c c a quá trình khai phá d li uướ ủ ữ ệ
Quy trình phát hi n tri th c th ng tuân theo các b c sau:ệ ứ ườ ướ
Nhóm 5 4

GVHD: Nguy n M nh C ngễ ạ ườ
B c th nh t:ướ ứ ấ Hình thành, xác đnh và đnh nghĩa bài toán. Là tìm hi u ị ị ể
lĩnh v c ng d ng t đó hình thành bài toán, xác đnh các nhi m v c n ph i ự ứ ụ ừ ị ệ ụ ầ ả
hoàn thành. B c này s quy t đnh cho vi c rút ra đc các tri th c h u ích và ướ ẽ ế ị ệ ượ ứ ữ
cho phép ch n các ph ng pháp khai phá d li u thích h p v i m c đích ng ọ ươ ữ ệ ợ ớ ụ ứ
d ng và b n ch t c a d li u.ụ ả ấ ủ ữ ệ
B c th hai:ướ ứ Thu th p và ti n x lý d li u. Là thu th p và x lý thô, cònậ ề ử ữ ệ ậ ử
đc g i là ti n x lý d li u nh m lo i b nhi u (làm s ch d li u), x lý vi cượ ọ ề ử ữ ệ ằ ạ ỏ ễ ạ ữ ệ ử ệ
thi u d li u (làm giàu d li u), bi n đi d li u và rút g n d li u n u c n ế ữ ệ ữ ệ ế ổ ữ ệ ọ ữ ệ ế ầ
thi t, b c này th ng chi m nhi u th i gian nh t trong toàn b qui trình phát ế ướ ườ ế ề ờ ấ ộ
hi n tri th c. Do d li u đc l y t nhi u ngu n khác nhau, không đng nh t, ệ ứ ữ ệ ượ ấ ừ ề ồ ồ ấ
… có th gây ra các nh m l n. Sau b c này, d li u s nh t quán, đy đ, ể ầ ẫ ướ ữ ệ ẽ ấ ầ ủ
đc rút g n và r i r c hoá.ượ ọ ờ ạ
B c th ba:ướ ứ Khai phá d li u, rút ra các tri th c. Là khai phá d li u, hay ữ ệ ứ ữ ệ
nói cách khác là trích ra các m u ho c/và các mô hình n d i các d li u. Giai ẫ ặ ẩ ướ ữ ệ
đo n này r t quan tr ng, bao g m các công đo n nh : ch c năng, nhi m v và ạ ấ ọ ồ ạ ư ứ ệ ụ
m c đích c a khai phá d li u, dùng ph ng pháp khai phá nào? Thông th ng, ụ ủ ữ ệ ươ ườ
các bài toán khai phá d li u bao g m: các bài toán mang tính mô t - đa ra tính ữ ệ ồ ả ư
ch t chung nh t c a d li u, các bài toán d báo - bao g m c vi c phát hi n cácấ ấ ủ ữ ệ ự ồ ả ệ ệ
suy di n d a trên d li u hi n có. Tu theo bài toán xác đnh đc mà ta l a ễ ự ữ ệ ệ ỳ ị ượ ự
ch n các ph ng pháp khai phá d li u cho phù h p.ọ ươ ữ ệ ợ
B c th t :ướ ứ ư S d ng các tri th c phát hi n đc. Là hi u tri th c đã tìm ử ụ ứ ệ ượ ể ứ
đc, đc bi t là làm sáng t các mô t và d đoán. Các b c trên có th l p đi ượ ặ ệ ỏ ả ự ướ ể ặ
l p l i m t s l n, k t qu thu đc có th đc l y trung bình trên t t c các ặ ạ ộ ố ầ ế ả ượ ể ượ ấ ấ ả
Nhóm 5 5