GVHD: Nguy n M nh C ng ườ
TR NG ĐI H C CÔNG NGHI P HÀ N IƯỜ
KHOA CÔNG NGH THÔNG TIN
BÁO CÁO BÀI T P L N
Môn Khai phá d li u
Phân l p d li u s b ng gi i thu t K-NN
Giáo viên h ng d n: Nguy n M nh C ngướ ườ
Nhóm 5
L p K thu t ph n m m 1 – K7
Thành viên:
Nguy n Hà Anh Dũng
Nguy n Quang Long
Nguy n Th Th o
Nhóm 5 1
GVHD: Nguy n M nh C ng ườ
Hà N i, tháng 5 năm 2016
L i nói đu
Trong th i bu i hi n đi ngày nay, công ngh thông tin cũng nh nh ng ư
ng d ng c a nó không ng ng phát tri n, l ng thông tin và c s d li u đc ượ ơ ượ
thu th p và l u tr cũng tích lũy ngày m t nhi u lên. Con ng i cũng vì th mà ư ườ ế
c n có thông tin v i t c đ nhanh nh t đ đa ra quy t đnh d a trên l ng d ư ế ượ
li u kh ng l đã có. Các ph ng pháp qu n tr và khai thác c s d li u truy n ươ ơ
th ng ngày càng không đáp ng đc th c t , vì th , m t khuynh h ng k ượ ế ế ướ
thu t m i là K thu t phát hi n tri th c và khai phá d li u nhanh chóng đc ượ
phát tri n.
Khai phá d li u đã và đang đc nghiên c u, ng d ng trong nhi u lĩnh ượ
v c khác nhau các n c trên th gi i. Vi t Nam, k thu t này đang đc ướ ế ượ
nghiên c u và d n đa vào ng d ng. Khai phá d li u là m t b c trong quy ư ướ
trình ph t hi n tri th c. Hi n nay, m i ng i không ng ng tìm tòi các k thu t ườ
đ th c hi n khai phá d li u m t cách nhanh nh t và có đc k t qu t t nh t. ượ ế
Trong bài t p l n này, chúng em tìm hi u và trình bày v m t k thu t trong khai
phá d li u đ phân l p d li u cũng nh t ng quan v khai phá d li u, v i đ ư
tài “ Phân l p d li u s b ng gi i thu t K-NN ”.
Trong quá trình làm bài t p l n này, chúng em xin g i l i c m n đn ơ ế
th y giáo Nguy n M nh C ng. ườ Th y đã r t t n tình h ng d n chi ti t cho ướ ế
chúng em, nh ng ki n th c th y cung c p r t h u ích. Chúng em r t mong nh n ế
đc nh ng góp ý t th y.ượ
Chúng em xin chân thành c m n! ơ
Sinh viên nhóm 5.
Nhóm 5 2
GVHD: Nguy n M nh C ng ườ
Ch ng 1: T ng quan v Khai phá d li uươ
1.1. Khái ni m c b n ơ
-Khai phá d li u là gì ?
Khai phá d li u là m t quá trình xác đnh các m u ti m n có tính h p l ,
m i l , có ích và có th hi u đc trong m t kh i d li u r t l n. ượ
-Khai phá tri th c t CSDL ( Knowledge Discovery in Database)
Khai phá tri th c t CSDL g m 5 b c ướ
B1: L a ch n CSDL
B2: Ti n x lý
B3: Chuy n đi
B4: Khai phá d li u
B5: Di n gi i và đánh giá
Khai phá d li u là 1 b c trong quá trình khai phá tri th c t CSDL ướ
-Các ng d ng c a khai phá d li u
Nhóm 5 3
GVHD: Nguy n M nh C ng ườ
Phát hi n tri th c và khai phá d li u liên quan đn nhi u ngành, nhi u lĩnh ế
v c: th ng kê, trí tu nhân t o, c s d li u, thu t toán, tính toán song song và ơ
t c đ cao, thu th p tri th c cho các h chuyên gia, quan sát d li u... Đc bi t
phát hi n tri th c và khai phá d li u r t g n gũi v i lĩnh v c th ng kê, s d ng
các ph ng pháp th ng kê đ mô hình d li u và phát hi n các m u, lu t ... Ngânươ
hàng d li u (Data Warehousing) và các công c phân tích tr c tuy n (OLAP- On ế
Line Analytical Processing) cũng liên quan r t ch t ch v i phát hi n tri th c và
khai phá d li u.
Khai phá d li u có nhi u ng d ng trong th c t , ví d nh : ế ư
B o hi m, tài chính và th tr ng ch ng khoán: phân tích tình hình tài ườ
chính và d báo giá c a các lo i c phi u trong th tr ng ch ng khoán. ế ườ
Danh m c v n và giá, lãi su t, d li u th tín d ng, phát hi n gian l n, ...
Th ng kê, phân tích d li u và h tr ra quy t đnh. ế
Đi u tr y h c và chăm sóc y t : m t s thông tin v chu n đoán b nh l u ế ư
trong các h th ng qu n lý b nh vi n. Phân tích m i liên h gi a các tri u
ch ng b nh, chu n đoán và ph ng pháp đi u tr (ch đ dinh d ng, ươ ế ưỡ
thu c, ...)
S n xu t và ch bi n: Quy trình, ph ng pháp ch bi n và x lý s c . ế ế ươ ế ế
Text mining và Web mining: Phân l p văn b n và các trang Web, tóm t t
văn b n,...
Lĩnh v c khoa h c: Quan sát thiên văn, d li u gene, d li u sinh v t h c,
tìm ki m, so sánh các h gene và thông tin di truy n, m i liên h gene vàế
m t s b nh di truy n, ...
M ng vi n thông: Phân tích các cu c g i đi n tho i và h th ng giám sát
l i, s c , ch t l ng d ch v , ... ượ
-Các b c c a quá trình khai phá d li uướ
Quy trình phát hi n tri th c th ng tuân theo các b c sau: ườ ướ
Nhóm 5 4
GVHD: Nguy n M nh C ng ườ
B c th nh t:ướ Hình thành, xác đnh và đnh nghĩa bài toán. Là tìm hi u
lĩnh v c ng d ng t đó hình thành bài toán, xác đnh các nhi m v c n ph i
hoàn thành. B c này s quy t đnh cho vi c rút ra đc các tri th c h u ích và ướ ế ượ
cho phép ch n các ph ng pháp khai phá d li u thích h p v i m c đích ng ươ
d ng và b n ch t c a d li u.
B c th hai:ướ Thu th p và ti n x lý d li u. Là thu th p và x lý thô, còn
đc g i là ti n x lý d li u nh m lo i b nhi u (làm s ch d li u), x lý vi cượ
thi u d li u (làm giàu d li u), bi n đi d li u và rút g n d li u n u c n ế ế ế
thi t, b c này th ng chi m nhi u th i gian nh t trong toàn b qui trình phát ế ướ ườ ế
hi n tri th c. Do d li u đc l y t nhi u ngu n khác nhau, không đng nh t, ượ
… có th gây ra các nh m l n. Sau b c này, d li u s nh t quán, đy đ, ướ
đc rút g n và r i r c hoá.ượ
B c th ba:ướ Khai phá d li u, rút ra các tri th c. Là khai phá d li u, hay
nói cách khác là trích ra các m u ho c/và các mô hình n d i các d li u. Giai ướ
đo n này r t quan tr ng, bao g m các công đo n nh : ch c năng, nhi m v và ư
m c đích c a khai phá d li u, dùng ph ng pháp khai phá nào? Thông th ng, ươ ườ
các bài toán khai phá d li u bao g m: các bài toán mang tính mô t - đa ra tính ư
ch t chung nh t c a d li u, các bài toán d báo - bao g m c vi c phát hi n các
suy di n d a trên d li u hi n có. Tu theo bài toán xác đnh đc mà ta l a ượ
ch n các ph ng pháp khai phá d li u cho phù h p. ươ
B c th t :ướ ư S d ng các tri th c phát hi n đc. Là hi u tri th c đã tìm ượ
đc, đc bi t là làm sáng t các mô t và d đoán. Các b c trên có th l p đi ượ ướ
l p l i m t s l n, k t qu thu đc có th đc l y trung bình trên t t c các ế ượ ượ
Nhóm 5 5