Nghiên c u và cài đt các thu t toán phân l p d li u v i Maple
TR NG ĐI H C CÔNG NGH THÔNG TINƯỜ
CAO H C CÔNG NGH THÔNG TIN QUA
M NG
L P TRÌNH SYMBOLIC VÀ NG D NG
BÀI THU HO CH:
NGHIÊN C U VÀ CÀI ĐT CÁC THU T
TOÁN PHÂN L P D LI U V I MAPLE
Gi ng viên:
PGS. TS. Đ Văn Nh n ơ
H c viên th c hi n:
Hu nh Tu n Anh
CH1101004
Khóa 6
GV: PGS. TS. Đ Văn Nh n ơ HVTH: Hu nh Tu n Anh
Nghiên c u và cài đt các thu t toán phân l p d li u v i Maple
TpHCM, 02/2013
L i cám n. ơ
Em xin chân thành cám n PGS. TS. Đ Văn Nh n đã t n tình h ng d n, ch b oơ ơ ướ
chúng em trong su t th i gian h c chuyên đ này.
Xin chân thành cám n quý th y cô trong Tr ng Đi H c Công Ngh Thông Tin,ơ ườ
Đi H c Qu c Gia Tp.HCM đã t n tình gi ng d y, trang b cho em nh ng ki n th c quý ế
báu, t o m i đi u ki n t t cho chúng em h c t p và nghiên c u.
Xin chân thành cám n gia đình và b n bè đã ng h , giúp đ và đng viên em trongơ
th i gian h c t p và nghiên c u.
M c dù đã c g ng hoàn thành bài lu n nh ng ch c ch n không tránh kh i thi u sót. ư ế
Em kính mong nh n đc s thông c m và t n tình ch b o c a quý th y cô. ượ
H c viên th c hi n
Hu nh Tu n Anh
TpHCM, 02/2013
GV: PGS. TS. Đ Văn Nh n ơ HVTH: Hu nh Tu n Anh
Nghiên c u và cài đt các thu t toán phân l p d li u v i Maple
M c L c
GV: PGS. TS. Đ Văn Nh n ơ HVTH: Hu nh Tu n Anh
Nghiên c u và cài đt các thu t toán phân l p d li u v i Maple
Ch ng 1: THU T TOÁN FIND-Sươ
1. H C KHÁI NI M VÀ BÀI TOÁN C TH
Theo Tom M.Mitchell: “Nhi u v n đ h c đòi h i các khái ni m t ng quát thu đc ượ
t các ví d hu n luy n. … V n đ t đng k t lu n v s xác đnh t ng quát nh t c a ế
m t vài khái ni m, các ví d cho tr c đc ghi nhãn có ph i là b ph n c a khái ni m ướ ượ
hay không, nhi m v đó th ng đc xem nh là ườ ượ ư h c khái ni m.
1.1. H c khái ni m
-Cho tr c các ví d hu n luy n. m i ví d hu n luy n cho bi t có thu c khái ướ ế
ni m hay không? (thu c: positive; không: negative)
-Đa ra khái ni m t ng quát phân lo i t p hu n luy n. Khái ni m t ng quát là ư
hàm boolean đc đnh nghĩa trên t p cá th .ượ
-“H c khái ni m là đa ra m t hàm boolean t t p input và putput c a các ví d ư
hu n luy n” (Tom M.Mitchell – Machine Learning)
Ví d :
o(Input) Các ví d hu n luy n:
T p các animal cùng thu c tính c a nó.
o(Output) Khái ni m đc trích ra: ượ
Bird
Cat
1.2. Bài toán c th
-(Input) T p ví d hu n luy n g m 4 cá th sau:
oT p này nói v nh ng ngày (nh th nào đó) mà Aldo thích ch i ư ế ơ
môn th thao d i n c c a anh ta ướ ướ (Table 2.1 – Positive and
negative training examples gor thw target concept EnjoySport, Machine
Learning – Tom M.Mitchell, 2003).
Exampl
e
Sky
AirTem
p
Humidity Wind Water Forecast EnjoySport
1 Sunny Warm Normal Strong Warm Same Positive
2 Sunny Warm High Strong Warm Same Positive
3 Rainy Cold High Strong Warm Change Negative
GV: PGS. TS. Đ Văn Nh n ơ 4HVTH: Hu nh Tu n Anh
Nghiên c u và cài đt các thu t toán phân l p d li u v i Maple
4 Sunny Warm High Strong Cool Change Positive
B ng 1.1 – Các ví d hu n luy n thu c và không thu c khái ni m đích EnjoySport
-(Output) Khái ni m đc h c: “ ượ EnjoySport”
1.3. Gi thi t ế
-Cũng đc hi u là khái ni m. Là h i c a các ràng bu c trên thu c tính c a cá ượ
th .
-X là cá th , và X tho mãn t t c các ràng bu c trên gi thi t h thì h [hân lo i ế
X là positive (h(X) = 1)
-Ví d : Gi thi t là Aldo thích môn th thao d i n c vào nag “cold days ế ướ ướ
with high humidity”, gi thi t đc ghi là: ế ượ
o<?, Clod, High, ?, ?, ?>
-Gi thi t t ng quát nh t: ế
o<?, ?, ?, ?, ?, ?>
-Gi thi t c th nh t: ế
o<Ø, Ø, Ø, Ø, Ø, Ø>
1.4. Ký hi u
-T p cá th (set of instances)
oT p đc dùng đ trích khái ni m t đó ượ
oKý hi u: X
oVí d trên: t p cá th = t p ngày, m i ngày có 6 thu c tính.
-Khái ni m đích (target concep)
oKhái ni m (hàm) đc h c. ượ
oKý hi u: c
c: X {0,1}
Ví d trên: c(X) = 1 n u EnjoySport = Yes ế
Ví d trên: c(X) = 0 n u EnjoySport = No ế
-Các ví d hu n luy n, g m có:
oM t cá th thu c X.
oKhái ni m đích c(X).
Vi t là: <X, x(X)>ế
GV: PGS. TS. Đ Văn Nh n ơ 5HVTH: Hu nh Tu n Anh