ƯỜ

Ạ Ọ Ư Ạ

TR

NG Đ I H C S  PH M K  THU T

KHOA CÔNG NGH  THÔNG TIN

Ữ Ệ

Môn: KHAI PHÁ D  LI U

ươ

: Ph

ng pháp Support Vector Machines

Đ  TÀI

Danh sách sinh viên      :

14110192

­ Tr n Th  Th m

ầ ơ ị

­ Hu nh Nh t Thành

ậ ỳ 14110178

­ Nguy n Quang Nh t

ễ ậ 14110137

TP.HCM, ngày 26 tháng 04 năm 2017

1.

ộ N i dung chung

2.

ề Tên đ  tài:

ươ Ph ng pháp Support Vector Machines

3.

ả ướ Gi ng viên h ẫ ng d n:

Quách Đình Hoàng

ự ệ Sinh viên th c hi n:

­

ầ ơ ị Tr n Th  Th m

­

ậ ỳ Hu nh Nh t Thành

­

ễ ậ Nguy n Quang Nh t

7.

ạ ủ Thông tin liên l c c a sinh viên

5. Tên

6. MSSV

Email

14110192

ơ

14110178

ậ ỳ

14110137

10. 14110192 14. 14110178 18. 14110137

11. @student.hcmute.edu.vn 15. @student.hcmute.edu.vn 19. @student.hcmute.edu.vn

4. St t 8. 1 12. 2 16. 3

9. ị ầ Tr n Th  Th m  13. Hu nh Nh t Thành 17. Nguy n Quang  Nh tậ

20.

ươ ử ụ ứ ụ Ch ng trình,  ng d ng s  d ng:

­ Ch

ươ ử ụ ng trình s  d ng: R studio

­

21.

Ứ ụ ng d ng:

2

24.

2

23. Th c ự hi nệ

ự ệ Phân công th c hi n

2

31.

26. Tìm

5

. C

P

ki m, ế ợ ổ t ng h p  tài li uệ 27. Lên n i ộ

3

34.

2

. N

ử ỗ i

3

37.

36. Tri n ể

5

. H

3

40.

8

dung c n ầ làm cho  ề đ  tài,  ờ th i gian  th c ự hi n.ệ 28. Trình bày  slide 29. S a l 30. 33. Tìm hi u,ể   xây d ng ự ộ n i dung  ơ ả c  b n

. T

t

khai n i ộ dung chi  ế ừ ti t t ng  ph nầ 39. T ng ổ ế ợ h p, vi bài báo  cáo.

41. M  Đ U

42.

Ở Ầ

ệ ờ ạ ể ủ

ệ ự ư ệ ấ ớ ủ ư ượ

ầ ch c l u tr  và truy c p thông tin sao cho hi u qu  đ

ề ổ ứ ư ả ướ

ế

ữ ậ ế ượ ư i quy t đ ả ả ự ờ ố ớ ứ ạ

c đ a ra là t ườ i xung quanh thông qua s  phân lo i và t ả ả ạ ớ Trong th i đ i công ngh  thông tin hi n nay, s  phát tri n c a công  ổ ữ ng thông tin l u tr  và trao đ i. Do  ệ ả ượ ặ c đ t  ạ ế ổ ứ  ch c, tìm ki m và phân lo i  ậ i trong đ i s ng cũng ti p nh n  ộ ổ ứ  ch c ghi nh  tri th c m t cách  ứ ượ ớ  các l p giúp cho tri th c đ c

43.

ữ ạ ự ngh  kéo theo s  gia tăng r t l n c a l u l đó, yêu c u v  t ầ lên hàng đ u. H ng gi ệ ộ thông tin m t cách hi u qu . B n thân con ng ế ớ th  gi ệ hi u qu . Phân lo i thông qua các l p và mô t ư ị đ nh d ng và l u tr  trong đó.

ươ ứ ạ

ề Có nhi u ph ươ ượ c nghiên c u và đ ộ

ế ớ ng pháp m nh và hi u qu  đ  gi

ng pháp phân lo i đã đ ạ ả ể ả ệ ậ ệ ớ c Vapnik và Chervonenkis gi ượ c áp  ng pháp phân lo i Support Vector Machines là m t trong  ế ạ i quy t các bài toán l p phi tuy n  ọ i thi u vào năm 1995. Vì v y, nhóm em ch n

44.

ứ ậ ệ ụ d ng. Hi n nay, ph ươ ữ nh ng ph ượ đ ề đ  tài “Nghiên c u thu t toán máy SVM”.

45.

ọ ề Lý do ch n đ  tài

ề ấ ọ ọ

ớ ể ấ V n đ  phân l p và d  đoán là khâu r t quan tr ng trong h c máy  ậ ữ ệ ỹ

ề ứ ữ ự ụ ự ế ỹ

46.

ệ ậ ự ứ và khai phá d  li u, phát tri n tri th c. K  thu t Support Vector Machines  ệ ượ ấ ụ ạ c đánh giá là công c  m nh và tinh vi nh t hi n nay cho nh ng bài  (SVM) đ ượ ớ c xây d ng d a trên k toán phân l p phi tuy n. Nhi u  ng d ng đã và đang đ ả ấ thu t SVM r t hi u qu .

ộ ồ ơ ả N i dung c  b n bao g m

47. Ch

ươ ớ ệ ng 1: Gi i thi u Support Vector Machines

48. Ch

ươ ạ ọ ng 2: T i sao ch n Support Vector Machines

49. Ch

ươ ặ ấ ề ng 3: Đ t v n đ

50. Ch

ươ ớ ớ ng 4: Bài toán phân 2 l p v i SVM

51. Ch

ươ ả ế ng 5: So sánh và c i ti n SVM

ế ầ ậ 52. Ph n k t lu n

ầ 53. Ph n Demo

ầ ả ệ 54. Ph n tài li u tham kh o

55.

56. CH

ƯƠ Ớ Ệ NG 1: GI Ề I THI U V  SUPPORT

VECTOR MACHINE

57.

1. Gi

58.

ớ ệ i thi u

Prediction) là

ụ ự t c  các lĩnh v c

Bài toán phân l p ớ (Classification) và d  đoán ( ề ứ ơ ả ấ ả ệ ậ ề ạ

ạ ứ ươ

59.

ng pháp Support Vector Machines (SVM),  ả ệ ươ ấ ự ấ hai bài toán c  b n và có r t nhi u  ng d ng trong t ư ọ nh : h c máy, nh n d ng, trí tu  nhân t o , . v. v. Trong đ  tài này, chúng  ẽ em s  đi sâu nghiên c u ph ộ m t ph ệ ng pháp r t hi u qu  hi n nay.

Ph ng pháp SVM đ c coi là công c  m nh

ế ượ ớ

ươ ụ ạ ươ ượ ữ ạ i Vapnik và Chervonenkis phát tri n m nh m ớ ự ự ệ

ủ ấ

ộ c xem là m t

ớ ượ ng pháp phân l p giám sát không tham

ươ ấ ụ ế

ủ ể ổ

ự ặ ẳ ớ c các  cho nh ng bài toán phân l p phi tuy n tính đ ẽ  ả tác gi ng pháp này th c hi n phân l p d a  năm 1995. Ph ự ể trên nguyên lý C c ti u hóa r i ro có C u trúc SRM  (Structural Risk Minimization), đ trong các ph ố s  tinh vi nh t cho đ n nay. Các hàm công c  đa  ạ ạ d ng c a SVM cho phép t o không gian chuy n đ i  ể đ  xây d ng m t ph ng phân l p.

60.

61.

ử ị 2. L ch s

ử ụ ượ ẩ Thu t toán Support Vector Machines (SVM) ban đ u tìm ra  ệ c ầ ề ề  m m đ

ở ạ ở b i Vladimir N.Vapnik và d ng chu n hi n nay s  d ng l tìm ra b i Vapnik và Corinna Cortes năm 1995.

62.

3. Đ nh nghĩa

63.

ươ ề ả ự ế ố Là ph

ộ ề ả ẽ ể ả ượ ế ả ặ ọ ủ   ng pháp d a trên n n t ng c a lý thuy t th ng kê nên ả ằ   c là

64.

có m t n n t ng toán h c ch t ch  đ  đ m b o r ng k t qu  tìm đ chính xác.

ọ supervied learning)

65.

ậ ượ ử ụ ớ ữ ệ Là thu t toán h c giám sát ( c s  d ng cho phân l p d  li u. đ

ư ử

ấ ệ ươ ng pháp th  nghi m, đ a ra 1 trong  ng pháp m nh và chính xác nh t trong

66.

ớ ữ ệ ề ộ Là m t ph ươ ạ ữ nh ng ph ổ ế ậ ố s  các thu t toán n i ti ng v  phân l p d  li u.

SVM là m t ph

ổ ạ ề c áp d ng cho nhi u lo i bài toán

ươ ng pháp có tính t ng quát cao  ụ ạ ậ ạ ộ ể ượ nên có th  đ nh n d ng và phân lo i.

67.

4.

68.

Ứ ụ ng d ng

ữ ế ạ ậ ả ơ ơ ế ­ Nh n d ng: ti ng nói,  nh, ch  vi ạ t tay (h n m ng n ron)

­ Phân lo i văn b n, khai m  d  li u văn b n

ỏ ữ ệ ả ạ ả

ờ ữ ệ ­ Phân tích d  li u theo th i gian

ữ ệ ệ ệ ế ậ ố ạ ­ Phân tích d  li u gien, nh n d ng b nh, công ngh  bào ch  thu c

69.

ữ ệ ­ Phân tích d  li u marketing

70.

71. CH

ƯƠ Ọ Ạ NG 2: T I SAO CH N SUPPORT

VECTOR MACHINES

73. S  d ng thu t toán Support vector machines có

72.

ề ơ ử ụ nhi u l ậ i ích:

ề ớ ế ố

ể ả ệ ấ  SVM r t hi u quae đ  gi ễ ủ ữ ệ ế ể ả ( nh c a d  li u bi u di n gien, protein, t ữ ệ i quy t bài toán d  li u có s  chi u l n   bào)

ả ữ ệ ễ ề i quy t v n đ  overfitting r t t t (d  li u có nhi u và tách

ế ấ ặ ữ ệ ệ ấ ấ ố  SVM gi ờ r i nhóm ho c d  li u hu n luy n quá ít)

 Là ph

ươ ớ ng pháp phân l p nhanh

 Có hi u su t t ng h p t

ấ ổ ợ ố ệ ệ ấ t và hi u su t tính toán cao.

75.

74.

1. Ý t

ƯƠ Ấ Ề CH Ặ NG 3: Đ T V N Đ

76.

ngưở

ấ ễ ướ Cho tr

ệ ộ

ộ ẳ ể

ớ ớ

ả ọ ở

ớ ẳ ữ ệ ể ầ ẳ

ặ ế ị ỗ ớ ẳ ố ớ

77.

ủ ủ ả ệ ờ ượ ể ộ ậ c m t t p hu n luy n, đ c bi u di n trong không  ươ ể ệ ỗ ng pháp này tìm ra  gian vector, trong đó m i tài li u là m t đi m, ph ố ể ấ ế ị t nh t có th  chia các đi m trên không  m t siêu ph ng f quy t đ nh t ấ ệ ươ ứ t t gian này thành hai l p riêng bi ng  ng là l p “+” và l p “­”. Ch t  ế ị ượ ượ c quy t đ nh b i kho ng cách (g i là  l ng c a siêu ph ng này đ ế ấ ủ biên) c a đi m d  li u g n nh t c a m i l p đ n m t ph ng này. Khi  ồ   ặ t, đ ng đó, kho ng cách biên càng l n thì m t ph ng quy t đ nh càng t ạ th i vi c phân lo i càng chính xác.

ủ ưở ế ế ặ ạ Ý t ng c a nó là ánh x  (tuy n tính ho c phi tuy n) d  li u

ữ ệ ể ẳ ớ ộ ữ ệ ặ ở  đó  c tìm ra đ  tách d  li u thu c hai l p khác ố ư ượ i  u đ

ư vào không gian các vector đ c tr ng (space of feature vectors) mà  ộ m t siêu ph ng t nhau.

78. M c đích c a ph

ủ ươ ượ ả ng pháp SVM là tìm đ c kho ng cách

ụ ấ ớ biên l n nh t.

79.

80.

ậ ể ố t nh t và các đi m đ

ườ ữ ậ Đ ng tô đ m là siêu ph ng t ữ ẳ ầ

ấ ứ ỗ ợ ườ ấ c bao  ẳ ượ ọ   c g i ng nét đ t mà các support

ượ ọ ề ằ ượ ể ở b i hình ch  nh t là nh ng đi m g n siêu ph ng nh t, chúng đ là các vector h  tr  (support vector). Các đ vector n m trên đó đ (margin). c g i là l

81.

82.

ơ ở ế 2. C  s  lý thuy t

ộ ố ư ậ SVM th c ch t là m t bài toán t i  u, m c tiêu c a thu t

ự ượ ụ ẳ ủ ế ị c m t không gian F và siêu ph ng quy t đ nh f trên

83.

ấ ấ ấ ộ ạ toán này là tìm đ ố F sao cho sai s  phân lo i là th p nh t.

1, y1), (x2,y2), …, (xl, yl)} v i xớ i   , thu c ộ

i (­1 bi uể

ớ ươ ứ ủ ng  ng c a các x

84.

ị ớ ẫ Cho t p m u D = {(x ậ ớ i  {­1,1} là t p nhãn l p t vào hai l p nhãn y ị ớ ể th  l p I, 1 bi u th  l p II).

ươ ứ ẳ Ta có, ph ng trình siêu ph ng ch a vector  trong không gian:

86. .+ b = 0

85.

87.

88. Đ t f(ặ ) = sign(.+ b) ={

ớ ủ ễ ự ư ể ớ ư ậ 89. Nh  v y, f( ) bi u di n s  phân l p c a  vào hai l p nh  nêu trên.

i = ­1 n u  thu c l p II.

ộ ớ ộ ớ ế ế 90. Ta nói yi = +1 n u thu c l p I và y

91.

92.

93. CH

ƯƠ Ớ Ớ NG 4: BÀI TOÁN PHÂN 2 L P V I SVM

95.

94.

ặ ớ ớ ớ ị

ẫ ữ ệ ả ớ ẫ Bài toán đ t ra là: Xác đ nh hàm phân l p l p đ  phân l p các  ầ ớ i thì c n ph i

ươ ượ ớ ể ộ ng lai, nghĩa là v i m t m u d  li u m i x ớ c phân l p +1 hay l p ­1. m u trong t ị i đ xác đ nh x

ợ ố ư i  u,

96. ả ượ i đ

ườ ố ư ỗ ườ ượ ợ ẽ ẳ ầ Ta xét 3 tr c bài toán t ng h p, m i tr ẽ i  u đó s  tìm đ ng h p s  có 1 bài toán t c siêu ph ng c n tìm. gi

97.

1. Tr

ườ ợ ng h p 1

98.

99. T p D có th  phân chia tuy n tính đ

ậ ượ

ễ ộ

ươ ủ ể

c mà không  c gán nhãn +1 thu c  t c  các đi m  ẳ ấ ả ủ ế ể ượ ể ấ ả t c  các đi m đ ẳ ng c a siêu ph ng, t ộ ề c gán nhãn ­1 thu c v  phía âm c a siêu ph ng) có nhi u (t ề v  phía d ượ đ

100.

101.

102. Hình 2. T p d  li u đ

ậ ữ ệ ượ ế c phân chia tuy n tính

103.

ẳ ọ ớ

104. Ta s  tìm siêu ph ng tách v i w   là vector tr ng   do, sao cho:

105. Đ t f(ặ ) = sign(.+ b) ={     D

ệ ố ự ẽ ố s , b   là h  s  t

106. Lúc này ta c n gi

107.

ầ ả ố ư i toán t i  u:

{

108.

109.

2. Tr

ườ ợ ng h p 2

110.

ế

ượ 111. T p d  li u D có th  phân chia tuy n tính đ ế ườ ầ

ư ể ậ ữ ệ ễ ề ượ ẳ

ố ể ạ ị ộ ươ ủ ẳ ể c  ợ ng h p này, h u h t các  nh ng có nhi u. Trong tr ở đi m đ u đ c phân chia đúng b i siêu ph ng. Tuy  ễ nhiên có 1 s  đi m b  nhi u, nghĩa là: đi m có nhãn  d i thu c phía âm c a siêu ph ng, ư ng nh ng l

ể ư ạ ộ ươ i thu c phía d ủ ng c a

112.

đi m có nhãn âm nh ng l siêu ph ng.ẳ

ậ ữ ệ ế ư   113. Hình 3. T p d  li u phân chia tuy n tính nh ng

có nhi uễ

114.

115. Trong tr

ườ ử ụ ề ế ợ ng h p này, ta s  d ng 1 bi n m m  sao cho: yi.(.+

b) , i=1,…,l

116. Bài toán t

117.

ố ư ở i  u tr  thành :

{

ướ ố

ự ầ ử ỗ ấ ị ệ ổ   i và t ng ng s  c a s  ph n t

ầ ử ấ ị ị c, đ nh nghĩa giá tr  ràng  118. Trong đó C là tham s  xác đ nh tr ạ ố ớ ứ ộ ộ ỗ ữ bu c, C càng l n thì m c đ  ph m vi đ i v i nh ng l i th c nghi m (là  ằ ố ủ ố ươ ệ ỗ ả  l i x y ra lúc hu n luy n, tính b ng th l ệ ố  hu n luy n) càng cao. s  ph n t

3. Tr

ườ ợ ng h p 3

119.

ạ ượ ữ ệ ế ừ

ữ ệ ẽ ề ộ

ề ể

120. Ta d  li u D không th  phân chia tuy n tính  c, ta s  ánh x  các vector d  li u x t đ  không  ề gian n chi u vào m t không gian m chi u (m > n),  sao cho trong không gian m chi u, D có th  phân  ế chia tuy n tính đ

121.

122.

ượ c.

ậ ữ ệ ế Hình 4. T p d  li u không phân chia tuy n tính.

124.

123.

125.

ế ừ ọ ạ G i  là ánh x  phi tuy n t không gian  vào không giam

126.

127.

ố ư Bài toán t ở i  u tr  thành:

{

4. Bài toán phân đa l p c a SVM

ớ ủ

ậ ớ

ẽ ế ụ ớ ể ữ ệ ỹ 128. Đ  phân đa l p thì k  thu t SVM s  chia không  ầ gian d  li u thành 2 ph n và ti p t c v i không gian

ế ị ượ ữ c phân chia. Khi đó hàm quy t đ nh phân d

ứ ẽ ớ đã đ ệ li u vào l p th  I s  là:

129.

131.

130.

ầ ử ữ ệ ề ế ỏ Nh ng ph n t x là support vector n u th a đi u ki n:

132.

s  bài toán phân lo i k l p (k ), ta s  ti n hành k(k­1)/2

Gi ớ ớ ẽ ế ng pháp SVM. M i l p s  ti n

ử ụ ớ ộ ế ượ ạ ả ử 133. ươ ỗ ớ ẽ ế ị ầ l n phân l p nh  phân s  d ng ph ạ ể ớ i đ  xác đ nh k­1 hàm phân tách  hành phân tách v i k­1 l p còn l ộ ố (chi n l c “m t­đ i­m t” (one­against­one).

134. ượ

ớ ỹ ươ ẫ K  thu t phân đa l p b ng ph ệ   ng pháp hi n v n đang

ế ụ ậ ứ ể đ ằ c ti p t c nghiên c u và phát tri n.

(cid:0) ƯỚ Ủ ƯƠ L U ÝƯ :   CÁC B C CHÍNH C A PH NG PHÁP SVM

135.

ề ử ng pháp SVM yêu c u đ

ươ ố ự ư ế

ư ố ự ầ ượ ầ ề ạ ư ậ ể ố

ữ ệ ủ ầ ớ ữ ệ ườ ể ể ng nên co giãn d  li u đ  chuy n

ạ ặ ễ ả    Ti n x  lý d  li u: Ph c di n t ả nh  các vector c a các s  th c. Nh  v y n u đ u vào ch a ph i  là s  th c thì ta c n tìm cách chuy n chúng v  d ng s  SVM.  ố Tránh các s  quá l n, th đo n [­1,1] ho c [0,1].

ọ ạ ợ ươ ầ ọ ng

ụ ể ể ạ ượ ộ ng cho t ng bài toán c  th  đ  đ t đ ạ c đ  chính xác cao trong

 Ch n hàm h t nhân: c n ch n hàm h t nhân phù h p t ứ quá trình h c t p.

ừ ọ ậ

 Th c hi n vi c ki m tra chéo đ  xác đ nh các tham s  cho  ứ

ể ể ệ ệ ố ị

ự ụ ng d ng.

 S  d ng các tham s  cho vi c hu n luy n t p m u.

ệ ậ ử ụ ệ ẫ ấ ố

 Ki m th  t p d  li u Test.

ử ậ ữ ệ ể

136.

137. CH

ƯƠ Ộ Ố Ả Ề NG 5: SO SÁNH VÀ M T S  C I TI N

138.

139. M t s  ph

ộ ố ươ ư ạ ng pháp nh  neuron, fuzy logic, m ng fuzzy­

ế

ủ ượ ử ụ ươ ầ ị ớ   ể ả i quy t bài toán phân l p. c s  d ng thành công đ  gi ố ủ ố   ng pháp này là không c n xác đ nh mô hình đ i c a đ i

neuron,…, cũng đ Ư ể u đi m c a ph ượ ng. t

140. SVM có 2 đ c tr ng c  b n:

ơ ả ư ặ

ề ặ ậ ậ

­ Nó luôn k t h p v i các d  li u có ý nghĩa v  m t v t lý, do v y  ễ d  dàng gi

ớ ượ ườ ả ộ ữ ệ c m t cách t ế ợ i thích đ ng minh,

ệ ấ ộ ậ ầ ấ ỏ ẫ ­ C n m t t p các m u hu n luy n r t nh .

ộ ệ ượ ụ ạ c xem là m t công c  m nh và tinh

ấ ng pháp SVM hi n nay đ ữ ế ớ

ế ươ ệ ể ư ủ ệ ấ ớ

ượ ố

141. Ph ộ ố vi nh t hi n any cho nh ng bài toán phân l p phi tuy n. Nó có m t s   ươ ả ế ng  bi n th  nh  C­SVC, v­SVC. C i ti n m i nh t hi n nay c a ph ậ pháp SVM đã đ c công b  là thu t toán NNSRM (Nearest Neighbor  ự ế ợ Structural Risk Minimization) là s  k t h p gi a 2 k  thu t SVM và  Nearest Neighbor.

ữ ậ ỹ

142.

1.

Ậ Ế 143. K T LU N

Ư ể ượ ủ ể ươ u đi m và nh c đi m c a ph ng pháp Support Vector Machines

1.1.

144.

Ư ể u đi m

ộ ể ệ ượ ậ ớ

ệ ả ố ề c nhi u  u đi m trong s  đó có vi c tính toán hi u qu  trên các t p d  li u l n.

145. Là m t kĩ thu t phân l p khá ph  bi n, SVM th  hi n đ ư Có th  k  thêm m t s   u đi m c a ph

ổ ế ệ ươ ể ể ể ộ ố ư ủ ể ậ ữ ệ ớ ư ng pháp này nh :

(cid:0) ử ề X  lý trên không gian s  chi u cao

ề ệ ệ ả ặ

ề ụ ộ ố : SVM là m t công c   t áp  tính toán hi u qu  trong không gian chi u cao, trong đó đ c bi ơ ể ạ ụ d ng cho các bài toán phân lo i văn b n và phân tích quan đi m n i  ể ự ỳ ớ chi u có th  c c k  l n

(cid:0) ợ ủ ế ệ ộ ớ: Do ch  có m t t p h p con c a các đi m t ki m b  nh

ữ ệ Ti ượ ử ụ ể ế ị ầ ể ế ỉ ể ự ế ấ c s  d ng trong quá trình hu n luy n và ra quy t đ nh th c t ớ ỉ t m i

ượ ư ữ ớ đ cho các đi m d  li u m i nên ch  có nh ng đi m c n thi đ ớ c l u tr  trong b  nh  khi ra quy t d nh (cid:0) ớ ộ Tính linh ho tạ  ­ phân l p th

ườ ộ ữ ớ ả ng pháp

ộ ậ ệ ữ ế ị ng là phi tuy n tính. Kh  năng  ươ ấ ừ ế ế ệ ạ ớ    đó khi n cho hi u su t phân lo i l n

ế ụ áp d ng Kernel m i cho phép linh đ ng gi a các ph ế tuy n tính và phi tuy n tính t h n.ơ

1.2.

146.

ượ Nh ể c đi m

(cid:0) ề ườ ợ ố ượ : Trong tr ố Bài toán s  chi u cao

ng h p s  l ớ ố ượ ề ộ ng thu c tính ữ ệ n)  ng d  li u (

ơ ấ ồ i (cid:0) ủ ậ ữ ệ ớ (p) c a t p d  li u l n h n r t nhi u so v i s  l ả ế thì SVM cho k t qu  khá t ể ệ ệ ư ỉ Ch a th  hi n rõ tính xác su t

ố ượ ư ề ấ ả ấ

ệ ố ắ ẳ ộ ả ủ ộ ể ượ ệ

ớ ượ ng vào hai l p đ ượ i thích đ ư ế ự ị c xác đ nh d a vào khái  ớ ẳ ớ ế ữ ệ đi m d  li u m i đ n siêu ph ng phân l p mà

ậ ở ấ : Vi c phân l p c a SVM ch ớ ủ ở c phân tách b i  là vi c c  g ng tách các đ i t ệ c xác su t xu t hi n  siêu ph ng SVM. Đi u này ch a gi ệ ủ c a m t thành viên trong m t nhóm là nh  th  nào. Tuy nhiên hi u  ớ qu  c a vi c phân l p có th  đ ừ ể ni mệ  margin t chúng ta đã bàn lu n trên.

147.

ả ạ ượ ữ ế 2. Nh ng k t qu  đ t đ c

148.

­ Nghiên c u và trình bày c  s  c a lý thuy t c a ph máy.

ơ ở ủ ế ủ ứ ươ ọ ng pháp h c

ươ ộ ớ ng pháp phân l p

­ Trình bày ph hi u qu  đ

ả ượ ươ ng pháp SVM. Đây là m t ph ờ ứ ệ ề ấ c nghiên c u nhi u nh t trong th i gian qua.

ả ả ế ở ộ ể i pháp cho phép m  r ng và c i ti n đ  nâng

ả ứ ủ ệ ữ ­ Phân tích nh ng gi ụ cao hi u qu   ng d ng c a SVM:

(cid:0) ươ ng pháp SVM v i m t s  ph

ế ợ K t h p ph ư ươ ớ ế ườ ầ ng pháp  ấ nearest ộ ố ươ i láng gi ng g n nh t ( ng pháp ng khác nh  ph

ơ ữ ố ộ ể

ư neighbor),… đ  làm tăng h n n a t c đ  tính toán, cũng nh   ộ đ  chính xác cho SVM.

(cid:0) ả ế

ộ ữ ệ ượ c

C i ti n SVM cho phép phân chia không gian d  li u  ạ ỏ ữ t h n, nh m lo i b  nh ng vùng không đ ờ ậ ố ơ ằ ớ ằ m t cách t ư ỹ phân l p b ng cách đ a k  thu t m  vào SVM.

149.

3. H ng phát tri n c a đ  tài

ể ủ ề ướ

150.

ứ ử ụ ớ ủ ươ ữ ả

ữ ứ ở ờ ự ễ ứ ­ Thông qua các  ng d ng th c ti n đã và đang nghiên c u s  d ng  ể ấ ượ c nh ng kh  năng to l n c a nó,  ph ng pháp SVM, có th  th y đ ớ ụ ồ đ ng th i m  ra nh ng  ng d ng m i.

ữ ớ

ươ ố ượ ợ ớ ệ ng pháp khác phù h p  ng pháp SVM v i nh ng ph ả ằ ng c  th  nh m làm tăng h n n a hi u qu  phân l p,

151.

ư ộ ươ ế ợ ­ K t h p ph ơ ữ ụ ể ớ ừ v i t ng đ i t ố ộ t c đ  tính toán cũng nh  đ  chính xác cho SVM.

DEMO

153.

152.

Ả Ệ TÀI LI U THAM KH O

155.

154.

ạ ỹ ậ ậ ơ ọ ỹ [1] Thái S n: Lu n văn th c s  khoa h c: K  thu t Support Vector

ạ ọ ụ ứ ụ ộ ứ Machines và  ng d ng. Ngành toán tin  ng d ng: Đ i h c Bách khoa Hà N i,

156.

2006.

ộ ố ả ế ủ ễ [2] PGS.TS Vũ Thành Nguyên, Thi Minh Nguy n: M t s  c i ti n c a bài

ả ử ụ ụ ế ậ ớ toán phân l p văn b n s  d ng thu t toán SVM và áp d ng trong phân tích ti ng

ệ ạ ọ ệ Vi t. Đ i h c Công ngh  thông tin – ĐHQG, 2011.

157.

ạ ồ ơ ố ạ ọ ệ ệ ể [3] Ph m Văn S n: Đ  án t ề t nghi p đ i h c h  chính quy: Tìm hi u v

ạ ọ ể ậ ả ớ Support Vector Machines cho bài toán phân l p quan đi m.Đ i h c dân l p H i

158.

Phòng,2012.

[4]Jiawei Han, Micheline Kamber, Jian Pei Data Mining. Concepts and

159.

Techniques, 3rd Edition.