ƯỜ
Ạ Ọ Ư Ạ
Ậ
Ỹ
TR
NG Đ I H C S PH M K THU T
Ệ
KHOA CÔNG NGH THÔNG TIN
Ữ Ệ
Môn: KHAI PHÁ D LI U
Ề
ươ
: Ph
ng pháp Support Vector Machines
Đ TÀI
Danh sách sinh viên :
14110192
Tr n Th Th m
ầ ơ ị
Hu nh Nh t Thành
ậ ỳ 14110178
Nguy n Quang Nh t
ễ ậ 14110137
TP.HCM, ngày 26 tháng 04 năm 2017
1.
ộ N i dung chung
2.
ề Tên đ tài:
ươ Ph ng pháp Support Vector Machines
3.
ả ướ Gi ng viên h ẫ ng d n:
Quách Đình Hoàng
ự ệ Sinh viên th c hi n:
ầ ơ ị Tr n Th Th m
ậ ỳ Hu nh Nh t Thành
ễ ậ Nguy n Quang Nh t
7.
ạ ủ Thông tin liên l c c a sinh viên
5. Tên
6. MSSV
14110192
ơ
14110178
ậ ỳ
14110137
10. 14110192 14. 14110178 18. 14110137
11. @student.hcmute.edu.vn 15. @student.hcmute.edu.vn 19. @student.hcmute.edu.vn
4. St t 8. 1 12. 2 16. 3
9. ị ầ Tr n Th Th m 13. Hu nh Nh t Thành 17. Nguy n Quang Nh tậ
ễ
20.
ươ ử ụ ứ ụ Ch ng trình, ng d ng s d ng:
Ch
ươ ử ụ ng trình s d ng: R studio
21.
Ứ ụ ng d ng:
2
24.
2
23. Th c ự hi nệ
ự ệ Phân công th c hi n
2
31.
26. Tìm
5
. C
P
ki m, ế ợ ổ t ng h p tài li uệ 27. Lên n i ộ
3
34.
2
. N
ử ỗ i
3
37.
36. Tri n ể
5
. H
3
40.
8
dung c n ầ làm cho ề đ tài, ờ th i gian th c ự hi n.ệ 28. Trình bày slide 29. S a l 30. 33. Tìm hi u,ể xây d ng ự ộ n i dung ơ ả c b n
. T
t
khai n i ộ dung chi ế ừ ti t t ng ph nầ 39. T ng ổ ế ợ h p, vi bài báo cáo.
41. M Đ U
42.
Ở Ầ
ệ ờ ạ ể ủ
ệ ự ư ệ ấ ớ ủ ư ượ
ầ ch c l u tr và truy c p thông tin sao cho hi u qu đ
ề ổ ứ ư ả ướ
ế
ữ ậ ế ượ ư i quy t đ ả ả ự ờ ố ớ ứ ạ
c đ a ra là t ườ i xung quanh thông qua s phân lo i và t ả ả ạ ớ Trong th i đ i công ngh thông tin hi n nay, s phát tri n c a công ổ ữ ng thông tin l u tr và trao đ i. Do ệ ả ượ ặ c đ t ạ ế ổ ứ ch c, tìm ki m và phân lo i ậ i trong đ i s ng cũng ti p nh n ộ ổ ứ ch c ghi nh tri th c m t cách ứ ượ ớ các l p giúp cho tri th c đ c
43.
ữ ạ ự ngh kéo theo s gia tăng r t l n c a l u l đó, yêu c u v t ầ lên hàng đ u. H ng gi ệ ộ thông tin m t cách hi u qu . B n thân con ng ế ớ th gi ệ hi u qu . Phân lo i thông qua các l p và mô t ư ị đ nh d ng và l u tr trong đó.
ươ ứ ạ
ề Có nhi u ph ươ ượ c nghiên c u và đ ộ
ế ớ ng pháp m nh và hi u qu đ gi
ng pháp phân lo i đã đ ạ ả ể ả ệ ậ ệ ớ c Vapnik và Chervonenkis gi ượ c áp ng pháp phân lo i Support Vector Machines là m t trong ế ạ i quy t các bài toán l p phi tuy n ọ i thi u vào năm 1995. Vì v y, nhóm em ch n
44.
ứ ậ ệ ụ d ng. Hi n nay, ph ươ ữ nh ng ph ượ đ ề đ tài “Nghiên c u thu t toán máy SVM”.
45.
ọ ề Lý do ch n đ tài
ề ấ ọ ọ
ớ ể ấ V n đ phân l p và d đoán là khâu r t quan tr ng trong h c máy ậ ữ ệ ỹ
ề ứ ữ ự ụ ự ế ỹ
46.
ệ ậ ự ứ và khai phá d li u, phát tri n tri th c. K thu t Support Vector Machines ệ ượ ấ ụ ạ c đánh giá là công c m nh và tinh vi nh t hi n nay cho nh ng bài (SVM) đ ượ ớ c xây d ng d a trên k toán phân l p phi tuy n. Nhi u ng d ng đã và đang đ ả ấ thu t SVM r t hi u qu .
ộ ồ ơ ả N i dung c b n bao g m
47. Ch
ươ ớ ệ ng 1: Gi i thi u Support Vector Machines
48. Ch
ươ ạ ọ ng 2: T i sao ch n Support Vector Machines
49. Ch
ươ ặ ấ ề ng 3: Đ t v n đ
50. Ch
ươ ớ ớ ng 4: Bài toán phân 2 l p v i SVM
51. Ch
ươ ả ế ng 5: So sánh và c i ti n SVM
ế ầ ậ 52. Ph n k t lu n
ầ 53. Ph n Demo
ầ ả ệ 54. Ph n tài li u tham kh o
55.
56. CH
ƯƠ Ớ Ệ NG 1: GI Ề I THI U V SUPPORT
VECTOR MACHINE
57.
1. Gi
58.
ớ ệ i thi u
Prediction) là
ụ ự t c các lĩnh v c
Bài toán phân l p ớ (Classification) và d đoán ( ề ứ ơ ả ấ ả ệ ậ ề ạ
ạ ứ ươ
59.
ng pháp Support Vector Machines (SVM), ả ệ ươ ấ ự ấ hai bài toán c b n và có r t nhi u ng d ng trong t ư ọ nh : h c máy, nh n d ng, trí tu nhân t o , . v. v. Trong đ tài này, chúng ẽ em s đi sâu nghiên c u ph ộ m t ph ệ ng pháp r t hi u qu hi n nay.
Ph ng pháp SVM đ c coi là công c m nh
ế ượ ớ
ể
ươ ụ ạ ươ ượ ữ ạ i Vapnik và Chervonenkis phát tri n m nh m ớ ự ự ệ
ủ ấ
ộ c xem là m t
ớ ượ ng pháp phân l p giám sát không tham
ươ ấ ụ ế
ủ ể ổ
ự ặ ẳ ớ c các cho nh ng bài toán phân l p phi tuy n tính đ ẽ ả tác gi ng pháp này th c hi n phân l p d a năm 1995. Ph ự ể trên nguyên lý C c ti u hóa r i ro có C u trúc SRM (Structural Risk Minimization), đ trong các ph ố s tinh vi nh t cho đ n nay. Các hàm công c đa ạ ạ d ng c a SVM cho phép t o không gian chuy n đ i ể đ xây d ng m t ph ng phân l p.
60.
61.
ử ị 2. L ch s
ậ
ử ụ ượ ẩ Thu t toán Support Vector Machines (SVM) ban đ u tìm ra ệ c ầ ề ề m m đ
ở ạ ở b i Vladimir N.Vapnik và d ng chu n hi n nay s d ng l tìm ra b i Vapnik và Corinna Cortes năm 1995.
62.
3. Đ nh nghĩa
ị
63.
ươ ề ả ự ế ố Là ph
ộ ề ả ẽ ể ả ượ ế ả ặ ọ ủ ng pháp d a trên n n t ng c a lý thuy t th ng kê nên ả ằ c là
64.
có m t n n t ng toán h c ch t ch đ đ m b o r ng k t qu tìm đ chính xác.
ọ supervied learning)
65.
ậ ượ ử ụ ớ ữ ệ Là thu t toán h c giám sát ( c s d ng cho phân l p d li u. đ
ư ử
ấ ệ ươ ng pháp th nghi m, đ a ra 1 trong ng pháp m nh và chính xác nh t trong
66.
ớ ữ ệ ề ộ Là m t ph ươ ạ ữ nh ng ph ổ ế ậ ố s các thu t toán n i ti ng v phân l p d li u.
SVM là m t ph
ổ ạ ề c áp d ng cho nhi u lo i bài toán
ươ ng pháp có tính t ng quát cao ụ ạ ậ ạ ộ ể ượ nên có th đ nh n d ng và phân lo i.
67.
4.
68.
Ứ ụ ng d ng
ữ ế ạ ậ ả ơ ơ ế Nh n d ng: ti ng nói, nh, ch vi ạ t tay (h n m ng n ron)
Phân lo i văn b n, khai m d li u văn b n
ỏ ữ ệ ả ạ ả
ờ ữ ệ Phân tích d li u theo th i gian
ữ ệ ệ ệ ế ậ ố ạ Phân tích d li u gien, nh n d ng b nh, công ngh bào ch thu c
69.
ữ ệ Phân tích d li u marketing
70.
71. CH
ƯƠ Ọ Ạ NG 2: T I SAO CH N SUPPORT
VECTOR MACHINES
73. S d ng thu t toán Support vector machines có
72.
ề ơ ử ụ nhi u l ậ i ích:
ề ớ ế ố
ể ả ệ ấ SVM r t hi u quae đ gi ễ ủ ữ ệ ế ể ả ( nh c a d li u bi u di n gien, protein, t ữ ệ i quy t bài toán d li u có s chi u l n bào)
ả ữ ệ ễ ề i quy t v n đ overfitting r t t t (d li u có nhi u và tách
ế ấ ặ ữ ệ ệ ấ ấ ố SVM gi ờ r i nhóm ho c d li u hu n luy n quá ít)
Là ph
ươ ớ ng pháp phân l p nhanh
Có hi u su t t ng h p t
ấ ổ ợ ố ệ ệ ấ t và hi u su t tính toán cao.
75.
74.
1. Ý t
ƯƠ Ấ Ề CH Ặ NG 3: Đ T V N Đ
76.
ngưở
ấ ễ ướ Cho tr
ệ ộ
ộ ẳ ể
ớ ớ
ả ọ ở
ớ ẳ ữ ệ ể ầ ẳ
ặ ế ị ỗ ớ ẳ ố ớ
77.
ủ ủ ả ệ ờ ượ ể ộ ậ c m t t p hu n luy n, đ c bi u di n trong không ươ ể ệ ỗ ng pháp này tìm ra gian vector, trong đó m i tài li u là m t đi m, ph ố ể ấ ế ị t nh t có th chia các đi m trên không m t siêu ph ng f quy t đ nh t ấ ệ ươ ứ t t gian này thành hai l p riêng bi ng ng là l p “+” và l p “”. Ch t ế ị ượ ượ c quy t đ nh b i kho ng cách (g i là l ng c a siêu ph ng này đ ế ấ ủ biên) c a đi m d li u g n nh t c a m i l p đ n m t ph ng này. Khi ồ ặ t, đ ng đó, kho ng cách biên càng l n thì m t ph ng quy t đ nh càng t ạ th i vi c phân lo i càng chính xác.
ủ ưở ế ế ặ ạ Ý t ng c a nó là ánh x (tuy n tính ho c phi tuy n) d li u
ữ ệ ể ẳ ớ ộ ữ ệ ặ ở đó c tìm ra đ tách d li u thu c hai l p khác ố ư ượ i u đ
ư vào không gian các vector đ c tr ng (space of feature vectors) mà ộ m t siêu ph ng t nhau.
78. M c đích c a ph
ủ ươ ượ ả ng pháp SVM là tìm đ c kho ng cách
ụ ấ ớ biên l n nh t.
79.
80.
ậ ể ố t nh t và các đi m đ
ườ ữ ậ Đ ng tô đ m là siêu ph ng t ữ ẳ ầ
ấ ứ ỗ ợ ườ ấ c bao ẳ ượ ọ c g i ng nét đ t mà các support
ượ ọ ề ằ ượ ể ở b i hình ch nh t là nh ng đi m g n siêu ph ng nh t, chúng đ là các vector h tr (support vector). Các đ vector n m trên đó đ (margin). c g i là l
81.
82.
ơ ở ế 2. C s lý thuy t
ộ ố ư ậ SVM th c ch t là m t bài toán t i u, m c tiêu c a thu t
ự ượ ụ ẳ ủ ế ị c m t không gian F và siêu ph ng quy t đ nh f trên
83.
ấ ấ ấ ộ ạ toán này là tìm đ ố F sao cho sai s phân lo i là th p nh t.
1, y1), (x2,y2), …, (xl, yl)} v i xớ i , thu c ộ
ậ
i (1 bi uể
ớ ươ ứ ủ ng ng c a các x
84.
ị ớ ẫ Cho t p m u D = {(x ậ ớ i {1,1} là t p nhãn l p t vào hai l p nhãn y ị ớ ể th l p I, 1 bi u th l p II).
ươ ứ ẳ Ta có, ph ng trình siêu ph ng ch a vector trong không gian:
86. .+ b = 0
85.
87.
88. Đ t f(ặ ) = sign(.+ b) ={
ớ ủ ễ ự ư ể ớ ư ậ 89. Nh v y, f( ) bi u di n s phân l p c a vào hai l p nh nêu trên.
i = 1 n u thu c l p II.
ộ ớ ộ ớ ế ế 90. Ta nói yi = +1 n u thu c l p I và y
91.
92.
93. CH
ƯƠ Ớ Ớ NG 4: BÀI TOÁN PHÂN 2 L P V I SVM
95.
94.
ặ ớ ớ ớ ị
ẫ ữ ệ ả ớ ẫ Bài toán đ t ra là: Xác đ nh hàm phân l p l p đ phân l p các ầ ớ i thì c n ph i
ươ ượ ớ ể ộ ng lai, nghĩa là v i m t m u d li u m i x ớ c phân l p +1 hay l p 1. m u trong t ị i đ xác đ nh x
ợ ố ư i u,
96. ả ượ i đ
ườ ố ư ỗ ườ ượ ợ ẽ ẳ ầ Ta xét 3 tr c bài toán t ng h p, m i tr ẽ i u đó s tìm đ ng h p s có 1 bài toán t c siêu ph ng c n tìm. gi
97.
1. Tr
ườ ợ ng h p 1
98.
99. T p D có th phân chia tuy n tính đ
ậ ượ
ễ ộ
ươ ủ ể
c mà không c gán nhãn +1 thu c t c các đi m ẳ ấ ả ủ ế ể ượ ể ấ ả t c các đi m đ ẳ ng c a siêu ph ng, t ộ ề c gán nhãn 1 thu c v phía âm c a siêu ph ng) có nhi u (t ề v phía d ượ đ
100.
101.
102. Hình 2. T p d li u đ
ậ ữ ệ ượ ế c phân chia tuy n tính
103.
ẳ ọ ớ
104. Ta s tìm siêu ph ng tách v i w là vector tr ng do, sao cho:
105. Đ t f(ặ ) = sign(.+ b) ={ D
ệ ố ự ẽ ố s , b là h s t
106. Lúc này ta c n gi
107.
ầ ả ố ư i toán t i u:
{
108.
109.
2. Tr
ườ ợ ng h p 2
110.
ế
ượ 111. T p d li u D có th phân chia tuy n tính đ ế ườ ầ
ư ể ậ ữ ệ ễ ề ượ ẳ
ể
ố ể ạ ị ộ ươ ủ ẳ ể c ợ ng h p này, h u h t các nh ng có nhi u. Trong tr ở đi m đ u đ c phân chia đúng b i siêu ph ng. Tuy ễ nhiên có 1 s đi m b nhi u, nghĩa là: đi m có nhãn d i thu c phía âm c a siêu ph ng, ư ng nh ng l
ể ư ạ ộ ươ i thu c phía d ủ ng c a
112.
đi m có nhãn âm nh ng l siêu ph ng.ẳ
ậ ữ ệ ế ư 113. Hình 3. T p d li u phân chia tuy n tính nh ng
có nhi uễ
114.
115. Trong tr
ườ ử ụ ề ế ợ ng h p này, ta s d ng 1 bi n m m sao cho: yi.(.+
b) , i=1,…,l
116. Bài toán t
117.
ố ư ở i u tr thành :
{
ướ ố
ớ
ự ầ ử ỗ ấ ị ệ ổ i và t ng ng s c a s ph n t
ầ ử ấ ị ị c, đ nh nghĩa giá tr ràng 118. Trong đó C là tham s xác đ nh tr ạ ố ớ ứ ộ ộ ỗ ữ bu c, C càng l n thì m c đ ph m vi đ i v i nh ng l i th c nghi m (là ằ ố ủ ố ươ ệ ỗ ả l i x y ra lúc hu n luy n, tính b ng th l ệ ố hu n luy n) càng cao. s ph n t
3. Tr
ườ ợ ng h p 3
119.
ể
ạ ượ ữ ệ ế ừ
ữ ệ ẽ ề ộ
ề ể
120. Ta d li u D không th phân chia tuy n tính c, ta s ánh x các vector d li u x t đ không ề gian n chi u vào m t không gian m chi u (m > n), sao cho trong không gian m chi u, D có th phân ế chia tuy n tính đ
121.
122.
ượ c.
ậ ữ ệ ế Hình 4. T p d li u không phân chia tuy n tính.
124.
123.
125.
ế ừ ọ ạ G i là ánh x phi tuy n t không gian vào không giam
126.
→
127.
ố ư Bài toán t ở i u tr thành:
{
4. Bài toán phân đa l p c a SVM
ớ ủ
ậ ớ
ẽ ế ụ ớ ể ữ ệ ỹ 128. Đ phân đa l p thì k thu t SVM s chia không ầ gian d li u thành 2 ph n và ti p t c v i không gian
ế ị ượ ữ c phân chia. Khi đó hàm quy t đ nh phân d
ứ ẽ ớ đã đ ệ li u vào l p th I s là:
129.
131.
130.
ầ ử ữ ệ ề ế ỏ Nh ng ph n t x là support vector n u th a đi u ki n:
132.
s bài toán phân lo i k l p (k ), ta s ti n hành k(k1)/2
Gi ớ ớ ẽ ế ng pháp SVM. M i l p s ti n
ị
ử ụ ớ ộ ế ượ ạ ả ử 133. ươ ỗ ớ ẽ ế ị ầ l n phân l p nh phân s d ng ph ạ ể ớ i đ xác đ nh k1 hàm phân tách hành phân tách v i k1 l p còn l ộ ố (chi n l c “m tđ im t” (oneagainstone).
134. ượ
ớ ỹ ươ ẫ K thu t phân đa l p b ng ph ệ ng pháp hi n v n đang
ế ụ ậ ứ ể đ ằ c ti p t c nghiên c u và phát tri n.
(cid:0) ƯỚ Ủ ƯƠ L U ÝƯ : CÁC B C CHÍNH C A PH NG PHÁP SVM
135.
ề ử ng pháp SVM yêu c u đ
ươ ố ự ư ế
ư ố ự ầ ượ ầ ề ạ ư ậ ể ố
ữ ệ ủ ầ ớ ữ ệ ườ ể ể ng nên co giãn d li u đ chuy n
ạ ặ ễ ả Ti n x lý d li u: Ph c di n t ả nh các vector c a các s th c. Nh v y n u đ u vào ch a ph i là s th c thì ta c n tìm cách chuy n chúng v d ng s SVM. ố Tránh các s quá l n, th đo n [1,1] ho c [0,1].
ọ ạ ợ ươ ầ ọ ng
ụ ể ể ạ ượ ộ ng cho t ng bài toán c th đ đ t đ ạ c đ chính xác cao trong
Ch n hàm h t nhân: c n ch n hàm h t nhân phù h p t ứ quá trình h c t p.
ừ ọ ậ
Th c hi n vi c ki m tra chéo đ xác đ nh các tham s cho ứ
ể ể ệ ệ ố ị
ự ụ ng d ng.
S d ng các tham s cho vi c hu n luy n t p m u.
ệ ậ ử ụ ệ ẫ ấ ố
Ki m th t p d li u Test.
ử ậ ữ ệ ể
136.
137. CH
ƯƠ Ộ Ố Ả Ề NG 5: SO SÁNH VÀ M T S C I TI N
138.
139. M t s ph
ộ ố ươ ư ạ ng pháp nh neuron, fuzy logic, m ng fuzzy
ế
ủ ượ ử ụ ươ ầ ị ớ ể ả i quy t bài toán phân l p. c s d ng thành công đ gi ố ủ ố ng pháp này là không c n xác đ nh mô hình đ i c a đ i
neuron,…, cũng đ Ư ể u đi m c a ph ượ ng. t
140. SVM có 2 đ c tr ng c b n:
ơ ả ư ặ
ề ặ ậ ậ
Nó luôn k t h p v i các d li u có ý nghĩa v m t v t lý, do v y ễ d dàng gi
ớ ượ ườ ả ộ ữ ệ c m t cách t ế ợ i thích đ ng minh,
ệ ấ ộ ậ ầ ấ ỏ ẫ C n m t t p các m u hu n luy n r t nh .
ộ ệ ượ ụ ạ c xem là m t công c m nh và tinh
ấ ng pháp SVM hi n nay đ ữ ế ớ
ế ươ ệ ể ư ủ ệ ấ ớ
ượ ố
141. Ph ộ ố vi nh t hi n any cho nh ng bài toán phân l p phi tuy n. Nó có m t s ươ ả ế ng bi n th nh CSVC, vSVC. C i ti n m i nh t hi n nay c a ph ậ pháp SVM đã đ c công b là thu t toán NNSRM (Nearest Neighbor ự ế ợ Structural Risk Minimization) là s k t h p gi a 2 k thu t SVM và Nearest Neighbor.
ữ ậ ỹ
142.
1.
Ậ Ế 143. K T LU N
Ư ể ượ ủ ể ươ u đi m và nh c đi m c a ph ng pháp Support Vector Machines
1.1.
144.
Ư ể u đi m
ộ ể ệ ượ ậ ớ
ệ ả ố ề c nhi u u đi m trong s đó có vi c tính toán hi u qu trên các t p d li u l n.
145. Là m t kĩ thu t phân l p khá ph bi n, SVM th hi n đ ư Có th k thêm m t s u đi m c a ph
ổ ế ệ ươ ể ể ể ộ ố ư ủ ể ậ ữ ệ ớ ư ng pháp này nh :
(cid:0) ử ề X lý trên không gian s chi u cao
ề ệ ệ ả ặ
ả
ề ụ ộ ố : SVM là m t công c t áp tính toán hi u qu trong không gian chi u cao, trong đó đ c bi ơ ể ạ ụ d ng cho các bài toán phân lo i văn b n và phân tích quan đi m n i ể ự ỳ ớ chi u có th c c k l n
(cid:0) ợ ủ ế ệ ộ ớ: Do ch có m t t p h p con c a các đi m t ki m b nh
ữ ệ Ti ượ ử ụ ể ế ị ầ ể ế ỉ ể ự ế ấ c s d ng trong quá trình hu n luy n và ra quy t đ nh th c t ớ ỉ t m i
ượ ư ữ ớ đ cho các đi m d li u m i nên ch có nh ng đi m c n thi đ ớ c l u tr trong b nh khi ra quy t d nh (cid:0) ớ ộ Tính linh ho tạ phân l p th
ườ ộ ữ ớ ả ng pháp
ộ ậ ệ ữ ế ị ng là phi tuy n tính. Kh năng ươ ấ ừ ế ế ệ ạ ớ đó khi n cho hi u su t phân lo i l n
ế ụ áp d ng Kernel m i cho phép linh đ ng gi a các ph ế tuy n tính và phi tuy n tính t h n.ơ
1.2.
146.
ượ Nh ể c đi m
(cid:0) ề ườ ợ ố ượ : Trong tr ố Bài toán s chi u cao
ng h p s l ớ ố ượ ề ộ ng thu c tính ữ ệ n) ng d li u (
ơ ấ ồ i (cid:0) ủ ậ ữ ệ ớ (p) c a t p d li u l n h n r t nhi u so v i s l ả ế thì SVM cho k t qu khá t ể ệ ệ ư ỉ Ch a th hi n rõ tính xác su t
ố ượ ư ề ấ ả ấ
ệ ố ắ ẳ ộ ả ủ ộ ể ượ ệ
ớ ượ ng vào hai l p đ ượ i thích đ ư ế ự ị c xác đ nh d a vào khái ớ ẳ ớ ế ữ ệ đi m d li u m i đ n siêu ph ng phân l p mà
ậ ở ấ : Vi c phân l p c a SVM ch ớ ủ ở c phân tách b i là vi c c g ng tách các đ i t ệ c xác su t xu t hi n siêu ph ng SVM. Đi u này ch a gi ệ ủ c a m t thành viên trong m t nhóm là nh th nào. Tuy nhiên hi u ớ qu c a vi c phân l p có th đ ừ ể ni mệ margin t chúng ta đã bàn lu n trên.
147.
ả ạ ượ ữ ế 2. Nh ng k t qu đ t đ c
148.
Nghiên c u và trình bày c s c a lý thuy t c a ph máy.
ơ ở ủ ế ủ ứ ươ ọ ng pháp h c
ươ ộ ớ ng pháp phân l p
Trình bày ph hi u qu đ
ả ượ ươ ng pháp SVM. Đây là m t ph ờ ứ ệ ề ấ c nghiên c u nhi u nh t trong th i gian qua.
ả ả ế ở ộ ể i pháp cho phép m r ng và c i ti n đ nâng
ả ứ ủ ệ ữ Phân tích nh ng gi ụ cao hi u qu ng d ng c a SVM:
(cid:0) ươ ng pháp SVM v i m t s ph
ế ợ K t h p ph ư ươ ớ ế ườ ầ ng pháp ấ nearest ộ ố ươ i láng gi ng g n nh t ( ng pháp ng khác nh ph
ơ ữ ố ộ ể
ư neighbor),… đ làm tăng h n n a t c đ tính toán, cũng nh ộ đ chính xác cho SVM.
(cid:0) ả ế
ộ ữ ệ ượ c
C i ti n SVM cho phép phân chia không gian d li u ạ ỏ ữ t h n, nh m lo i b nh ng vùng không đ ờ ậ ố ơ ằ ớ ằ m t cách t ư ỹ phân l p b ng cách đ a k thu t m vào SVM.
149.
3. H ng phát tri n c a đ tài
ể ủ ề ướ
150.
ụ
ứ ử ụ ớ ủ ươ ữ ả
ữ ứ ở ờ ự ễ ứ Thông qua các ng d ng th c ti n đã và đang nghiên c u s d ng ể ấ ượ c nh ng kh năng to l n c a nó, ph ng pháp SVM, có th th y đ ớ ụ ồ đ ng th i m ra nh ng ng d ng m i.
ữ ớ
ươ ố ượ ợ ớ ệ ng pháp khác phù h p ng pháp SVM v i nh ng ph ả ằ ng c th nh m làm tăng h n n a hi u qu phân l p,
151.
ư ộ ươ ế ợ K t h p ph ơ ữ ụ ể ớ ừ v i t ng đ i t ố ộ t c đ tính toán cũng nh đ chính xác cho SVM.
DEMO
153.
152.
Ả Ệ TÀI LI U THAM KH O
155.
154.
ạ ỹ ậ ậ ơ ọ ỹ [1] Thái S n: Lu n văn th c s khoa h c: K thu t Support Vector
ạ ọ ụ ứ ụ ộ ứ Machines và ng d ng. Ngành toán tin ng d ng: Đ i h c Bách khoa Hà N i,
156.
2006.
ộ ố ả ế ủ ễ [2] PGS.TS Vũ Thành Nguyên, Thi Minh Nguy n: M t s c i ti n c a bài
ả ử ụ ụ ế ậ ớ toán phân l p văn b n s d ng thu t toán SVM và áp d ng trong phân tích ti ng
ệ ạ ọ ệ Vi t. Đ i h c Công ngh thông tin – ĐHQG, 2011.
157.
ạ ồ ơ ố ạ ọ ệ ệ ể [3] Ph m Văn S n: Đ án t ề t nghi p đ i h c h chính quy: Tìm hi u v
ạ ọ ể ậ ả ớ Support Vector Machines cho bài toán phân l p quan đi m.Đ i h c dân l p H i
158.
Phòng,2012.
[4]Jiawei Han, Micheline Kamber, Jian Pei Data Mining. Concepts and
159.
Techniques, 3rd Edition.