intTypePromotion=1

Luận văn:Nghiên cứu ứng dụng học bán giám sát

Chia sẻ: Nguyen Vang | Ngày: | Loại File: PDF | Số trang:13

0
70
lượt xem
14
download

Luận văn:Nghiên cứu ứng dụng học bán giám sát

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trích chọn thực thể là bài toán cơ bản nhất trong các bài toán trích chọn thông tin nhưng lại đóng vai trò khá quan trọng. Thực thể tên ngày càng được ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng. Luận văn tập trung vào tìm hiểu việc xây dựng một mô hình trích chọn thực thể tên...

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu ứng dụng học bán giám sát

  1. 1 B GIÁO D C VÀ ĐÀO T O Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG H TH NG C Ngư i hư ng d n khoa h c: PGS.TS Võ Trung Hùng NGHIÊN C U NG D NG Ph n bi n 1: TS. Nguy n Thanh Bình H C BÁN GIÁM SÁT Ph n bi n 2: PGS.TS. Đoàn Văn Ban Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60.48.01 Lu n văn ñã ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 04 tháng 03 năm 2012 TÓM T T LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: - Trung tâm Thông tin – H c li u, Đ i h c Đà N ng. - Trung tâm H c li u, Đ i h c Đà N ng. Đà N ng – Năm 2012
  2. 2 3 phương pháp h c này ñang ñư c s d ng r t ph bi n vì kh năng ti n l i c a nó. M Đ U Vì v y, lu n văn t p trung vào nghiên c u bài toán phân l p s 1. Lý do ch n ñ tài d ng quá trình h c bán giám sát, và vi c áp d ng thu t toán bán giám sát máy h tr vector (Support VectorMachine – SVM) vào bài toán Công ngh thông tin phát tri n m nh ñã ñem l i nhi u ti n ích phân l p (lo i) văn b n và trang Web. cho cu c s ng, ñư c ng d ng r ng rãi nhi u lĩnh v c, ñ c bi t là thư vi n ñi n t , tin t c ñi n t … Do ñó mà s lư ng văn b n xu t 2. M c ñích c a ñ tài hi n trên m ng Internet cũng tăng v i m t t c ñ chóng m t, và t c Đ tài t p trung nghiên c u các k thu t h c máy và nghiên ñ thay ñ i thông tin là c c kỳ nhanh chóng. c u m t s gi i thu t thư ng s d ng trong h c máy. Sau ñó ng H u h t s lư ng thông tin ñ s là chưa ñư c gán nhãn, m t d ng k thu t h c bán giám sát vào bài toán phân l p văn b n và yêu c u l n ñ t ra là làm sao t ch c và tìm ki m thông tin, d li u có trang Web. hi u qu nh t. Đ gi i quy t v n ñ trên thì bài toán phân l p là m t 3. M c tiêu và nhi m v nghiên c u trong nh ng gi i pháp h p lý. Trong th c t là s lư ng thông tin quá M c tiêu c a ñ tài là: ng d ng thành công k thu t h c máy l n, s d ng phương pháp phân l p d li u b ng th công là ñi u “bán giám sát” vào m t bài toán th c t . không th . Hư ng gi i quy t là tìm m t chương trình máy tính t Nhi m v chính c a ñ tài bao g m: Nghiên c u cơ s lý ñ ng phân l p các thông tin d li u trên. thuy t v h c bán giám sát và áp d ng k thu t h c bán giám sát vào Đ x lý các bài toán phân l p t ñ ng thì ph i xây d ng ñư c th c t trong các bài toán x lý ngôn ng t nhiên. b phân l p có ñ tin c y cao, ñòi h i ph i có m t lư ng l n các m u 4. Đ i tư ng và ph m vi nghiên c u d li u hu n luy n t c là các văn b n ñã ñư c gán nhãn l p tương ng. Tuy nhiên gi i quy t v n ñ này thư ng g p nhi u khó khăn vì Đ i tư ng nghiên c u bao g m: các v n ñ liên quan ñ n h c các d li u hu n luy n này thư ng r t hi m và ñ t vì ñòi h i ph i t n máy, liên quan ñ n h c bán giám sát và nghiên c u các gi i thu t h c nhi u th i gian và công s c c a con ngư i. Đ kh c ph c nh ng h n bán giám sát. ch trên c n ph i có m t phương pháp h c không c n nhi u d li u Ph m vi nghiên c u c a lu n văn t p trung vào k thu t h c gán nhãn và có kh năng t n d ng ñư c các ngu n d li u chưa gán bán giám sát và ng d ng k thu t này ñ gi i quy t bài toán phân nhãn r t phong phú như hi n nay, phương pháp h c ñó là h c bán lo i văn b n và trang Web. giám sát. H c bán giám sát chính là cách h c s d ng thông tin ch a trong c d li u chưa gán nhãn và t p hu n luy n ñã ñư c gán nhãn,
  3. 4 5 5. Phương pháp nghiên c u Chương 1: Nghiên c u t ng quan. Bao g m phương pháp tài li u và phương pháp th c nghi m. Chương này trình bày khái quát v bài toán phân l p d li u, Đ i v i phương pháp tài li u t p trung nghiên c u v cơ s lý thuy t phân lo i văn b n, h c máy, các k thu t h c h c máy. v h c máy, cơ s lý thuy t v k thu t h c bán giám sát và cơ s lý Chương 2: M t s thu t toán h c máy. thuy t v x lý ngôn ng t nhiên. Còn ñ i v i phương pháp th c Chương này trình bày m t s thu t toán h c máy có giám sát, nghi m t p trung vào vi c xây d ng kho d li u hu n luy n và xây bán giám sát. S d ng SVM và bán giám sát SVM vào bài toán phân d ng chương trình th nghi m. l p văn b n và trang Web. 6. Ý nghĩa khoa h c và th c ti n Chương 3: Th nghi m. Ý nghĩa khoa h c: Nghiên c u các k thu t h c máy và m t ng d ng ph n m m mã ngu n m SVMLin ñã ñư c biên d ch s gi i thu t thư ng s d ng trong h c máy. Đã ng d ng thành công ch y trên Windows vào thu t toán SVM và bán giám sát SVM ñ k thu t h c bán giám sát vào bài toán th c t ñó là “S d ng phương phân l p văn b n và trang Web. pháp SVM và bán giám sát SVM vào bài toán phân l p văn b n và trang Web”. Ý nghĩa th c ti n: H c bán giám sát là phương pháp h c t n ít th i gian và ñ m b o t i ña hi u qu công vi c. Nó là s k t h p c a “h c không có giám sát” và “h c có giám sát”, vì v y r t thích h p ñ x lý vào các bài toán th c t . Phương pháp h c này có ng d ng r t cao trong vi c truy tìm d li u, phân lo i văn b n, nh n d ng ngôn ng văn b n, nh n d ng ti ng nói và ch vi t, d ch t ñ ng, ….Đây là k thu t chưa ñư c nghiên c u ph bi n Vi t Nam ñi u ñó m ra hư ng nghiên c u, ng d ng m i trong tương lai. N i dung c a lu n văn ñư c trình bày bao g m 3 chương. T ch c c u trúc như sau:
  4. 6 7 CHƯƠNG 1 - T NG QUAN V PHÂN L P VĂN B N VÀ Quá trình h c nh m xây d ng m t mô hình phân l p d a trên H C MÁY vi c phân tích các ñ i tư ng d li u ñã ñư c gán nhãn t trư c. T p 1.1. T ng quan v phân l p d li u các m u d li u này còn ñư c g i là t p d li u hu n luy n. Trong khi s d ng m t t p d li u ki m tra (test data set) c n ph i tính ñ 1.1.1. Khái ni m chính xác c a mô hình. N u ñ chính xác ñ t m c cao có nghĩa là Phân l p d li u là quá trình phân l p m t ñ i tư ng d li u ch p nh n ñư c thì mô hình s ñư c s d ng ñ xác ñ nh nhãn l p vào m t hay nhi u l p cho trư c nh m t mô hình phân l p mà mô cho các d li u khác m i trong tương lai. hình này ñư c xây d ng d a trên m t t p h p các ñ i tư ng d li u Bư c th hai: Phân l p (classification) ñã ñư c gán nhãn t trư c g i là t p d li u h c (t p hu n luy n). Ti p theo dùng mô hình ñã xây d ng bư c trư c ñ phân l p 1.1.2. Mô t bài toán phân l p d li u d li u m i. V phân l p d li u có nhi u bài toán như: phân l p d li u nh 1.2. Phân l p văn b n phân, phân l p d li u ña l p, phân l p d li u ñơn tr , phân l p d li u ña tr ,…. 1.2.1. Khái ni m Phân l p d li u nh phân là quá trình phân l p d li u vào m t Phân l p văn b n (Text Categorization) là vi c phân l p áp trong hai l p cho trư c khác nhau. d ng ñ i v i d li u văn b n, t c là phân l p m t văn b n vào m t hay nhi u l p văn b n nh m t mô hình phân l p. Mô hình này ñư c Phân l p d li u ña l p là quá trình phân l p v i s lư ng l p xây d ng d a trên m t t p h p các văn b n ñã ñư c gán nhãn t cho trư c l n hơn hai. trư c. Phân l p d li u ñơn tr là quá trình phân l p mà m i ñ i tư ng 1.2.2. Cách bi u di n văn b n d li u trong t p d li u hu n luy n ñư c gán vào chính xác m t l p. Cách bi u di n thông thư ng nh t là b ng mô hình vector: Phân l p d li u ña tr là quá trình phân l p mà m i ñ i tư ng d li u trong t p d li u hu n luy n (training data set) sau khi ñư c Mô t : phân l p có th thu c vào t hai l p tr lên. M i văn b n ñư c bi u di n b ng m t vector tr ng s . Đ dài 1.1.3. Quá trình phân l p d li u c a vector là s các t khóa (keyword) xu t hi n trong ít nh t trong m t m u d li u hu n luy n. Bi u di n tr ng s có th là nh phân (t Quá trình phân l p d li u có th chia thành hai bư c như sau: khóa ñó có hay không xu t hi n trong văn b n tương ng) ho c Bư c th nh t: H c (learning) không nh phân (t khóa ñó xu t hi n bao nhiêu l n trong văn b n ñó).
  5. 8 9 Bi u di n trang Web 1.3.1. Đ nh nghĩa v h c máy Bi u di n trang web theo mô hình vector như sau: V i: - Cách 1: Cách này s li t kê t n s xu t hi n c a m i t khóa M t t p d li u vũ tr X trong m t trang web. - M t t p m u S, cho S là t p h p con c a X - Cách 2: S d ng ñ n ch c năng liên k t c a trang web - M t s hàm ñích (quá trình ghi nhãn) f: X → {ñúng, - Cách 3: Dùng m t vector c u trúc sai} - Cách 4: Xây d ng m t vector có c u trúc. - M t t p hu n luy n D ñư c gán, D = {(x, y) | x thu c S và y = f(x)} 1.2.3. Phương pháp phân l p văn b n - Tính toán m t hàm f’: X → {ñúng, sai} b ng cách s Dùng các thu t toán h c máy (machine learning). d ng D như là: 1.2.4. ng d ng c a phân l p văn b n f’(x) ≅ f(x) (1.4) - Tìm ki m văn b n. cho t t c các x thu c X. - L c các văn b n ho c m t ph n các văn b n ch a d li u c n 1.3.2. Các k thu t h c máy tìm. 1.3.2.1. H c không có giám sát (Unsupervised learning) - Trích l c thông tin trên. H c v i t p d li u hu n luy n ban ñ u hoàn toàn chưa ñư c 1.2.5. Các bư c trong quá trình phân l p văn b n gán nhãn. G m 4 bư c: 1.3.2.2. H c có giám sát (Supervised learning) Đánh ch s (indexing H c v i t p d li u hu n luy n ban ñ u hoàn toàn ñư c gán Xác ñ nh ñ phân l p nhãn. So sánh 1.3.2.3. H c bán giám sát (Semi-supervised learning) Ph n h i (thích nghi. Khái ni m 1.3. H c máy (Machine Learning) H c c d li u gán nhãn và chưa gán nhãn. L ch s phát tri n
  6. 10 11 1.3.3. M t s ng d ng hi n có b ng phương pháp th ng kê CHƯƠNG 2 - M T S THU T TOÁN H C MÁY 1.3.3.1. Nh n d ng ngôn ng (Language identification) 2.1. Thu t toán h c bán giám sát Self-training 1.3.3.2. D ch t ñ ng (Machine translation) 2.1.1. Gi i thi u 1.3.3.3. Phân lo i văn b n (Text categorization) N i dung chính là thu t toán h c - s d ng l p nhi u l n m t phương pháp h c giám sát. Self-training là m t trong nh ng k thu t h c bán giám sát ñư c s d ng r t ph bi n. V i m t b phân l p (classifier) ban ñ u ñư c hu n luy n b ng m t s lư ng nh các d li u gán nhãn. Ti p theo s d ng b phân l p này ñ gán nhãn các d li u chưa gán nhãn. Các d li u ñư c gán nhãn có ñ tin c y cao (vư t trên m t ngư ng nào ñó) và nhãn tương ng c a chúng ñư c ñưa vào t p hu n luy n (training set). Sau ñó, b phân l p ñư c h c l i trên t p hu n luy n m i y và th t c l p ti p t c. m i vòng l p, b h c s chuy n m t vài các m u có ñ tin c y cao nh t sang t p d li u hu n luy n cùng v i các d ñoán phân l p c a chúng. Tên g i self-training xu t phát t vi c nó s d ng d ñoán c a chính nó ñ d y chính nó. 2.1.2. Thu t toán M c ñích: M r ng t p các m u gán nhãn ban ñ u b ng cách ch c n m t b phân l p v i m t khung nhìn c a d li u. D li u vào: - L: là t p các d li u gán nhãn. - U: là t p các d li u chưa gán nhãn. D li u ra: - Gán nhãn cho t p con U’ c a U có ñ tin c y cao nh t. Gi i thu t:
  7. 12 13 Loop Cái khó c a co-training là ch : hai b phân l p ph i d ñoán - Hu n luy n b phân l p h trên t p d li u hu n luy n trùng kh p trên d li u chưa gán nhãn r ng l n cũng như d li u gán L. nhãn. 2.2.2. Thu t toán - S d ng h ñ phân l p d li u trong t p U. M c ñích: M r ng t p các m u gán nhãn ban ñ u b ng cách - Tìm t p con U’ c a U có ñ tin c y cao nh t. s d ng hai b phân l p v i hai khung nhìn c a d li u. - L + U’ -> L D li u vào: - U – U’-> U - L: là t p các m u hu n luy n ñã gán nhãn. Until (U = ∅) - U: là t p các m u chưa gán nhãn. 2.2. Thu t toán h c bán giám sát Co-training D li u ra: 2.2.1. Gi i thi u - T o m t t p d li u gán nhãn U'g m u m u ñư c ch n Thu t toán co-training d a trên gi thi t r ng các ñ c trưng ng u nhiên t U. (features) có th ñư c phân chia thành 2 t p con. M i t p con phù Gi i thu t [2]: h p ñ hu n luy n m t b phân l p t t. Hai t p con ñó ph i tho mãn tính ch t ñ c l p ñi u ki n (conditional independent) khi cho trư c For i=1 to k do l p (class). Th t c h c ñư c ti n hành như sau: - S d ng L hu n luy n b phân l p h1 trên ph n x1 c a x . - H c 2 b phân l p riêng r b ng d li u ñã ñư c gán nhãn - S d ng L hu n luy n b phân l p h2 trên ph n x2 c a x . trên hai t p thu c tính con tương ng. - Cho h1 gán nhãn p m u dương và n m u âm t t p U' . - M i b phân l p sau ñó l i phân l p các d li u chưa gán - Cho h2 gán nhãn p m u dương và n m u âm t t p U' . nhãn (unlabel data). Sau ñó, chúng l a ch n ra các d li u chưa gán - Thêm các m u t gán nhãn này vào t p L . nhãn + nhãn d ñoán c a chúng (các m u (examples) có ñ tin c y cao) ñ d y cho b phân l p kia. - Ch n ng u nhiên 2 p + 2n m u t t p U b sung vào t p U’ - Sau ñó, m i b phân l p ñư c h c l i (re-train) v i các m u hu n luy n ñư c cho b i b phân l p kia và ti n trình l p b t ñ u.
  8. 14 15 2.3. Thu t toán h c có giám sát SVM và bán giám sát SVM Hình sau minh h a cho thu t toán này 2.3.1. Gi i thi u Phương pháp phân l p s d ng t p phân l p vector h tr (máy vector h tr - Support Vector Machine – SVM) ñư c quan tâm và s d ng nhi u trong lĩnh v c nh n d ng và phân l p 2.3.2. Thu t toán SVM Ý tư ng chính c a thu t toán này là cho trư c m t t p hu n luy n ñư c bi u di n trong không gian vector trong ñó m i tài li u là m t ñi m, phương pháp này tìm ra m t siêu m t quy t ñ nh t t nh t có th chia các ñi m trên không gian này thành hai l p riêng bi t tương ng l p + và l p -. Ch t lư ng c a siêu m t này ñư c quy t ñ nh b i kho ng cách (g i là biên) c a ñi m d li u g n nh t c a m i Hình 2.4. Siêu m t t i ưu và biên l p ñ n m t ph ng này. Kho ng cách biên càng l n thì m t ph ng 2.3.3. Hu n luy n SVM quy t ñ nh càng t t ñ ng th i vi c phân lo i càng chính xác. M c ñích thu t toán SVM tìm ra ñư c kho ng cách biên l n nh t ñ t o 2.3.4. Các ưu th c a SVM trong phân l p văn b n k t qu phân l p t t. Chúng ta có th th y t các thu t toán phân l p hai l p như SVM ñ n các thu t toán phân l p ña l p ñ u có ñ c ñi m chung là yêu c u văn b n ph i ñư c bi u di n dư i d ng vector ñ c trưng, tuy nhiên các thu t toán khác ñ u ph i s d ng các u c lư ng tham s và ngư ng t i ưu trong khi ñó thu t toán SVM có th t tìm ra các tham s t i ưu này. Trong các phương pháp thì SVM là phương pháp s d ng không gian vector ñ c trưng l n nh t (hơn 10.000 chi u) trong khi ñó các phương pháp khác có s chi u bé hơn nhi u (như Naïve Bayes là 2000, k-Nearest Neighbors là 2415…).
  9. 16 17 2.4. Bán giám sát SVM và phân l p trang Web 2.5. H c ghép ñôi c a mô hình khai thác văn b n 2.4.1. Gi i thi u v bán giám sát SVM 2.5.1. Gi i thi u M c ñích c a S3VM là ñ gán các l p nhãn t i các d li u chưa Ý tư ng trong ph n này là chúng ta có th ñ t ñư c ñ chính gán nhãn m t cách t t nh t, sau ñó s d ng h n h p d li u hu n xác cao hơn v i phương pháp h c bán giám sát cho các b khai thác luy n ñã gán nhãn và d li u chưa gán nhãn sau khi ñã gán nhãn ñ thông tin b ng cách ghép c p ñôi m t cách ñ ng th i vi c ñào t o c a phân l p nh ng d li u m i. N u d li u chưa gán nhãn r ng thì nhi u b khai thác thông tin. Chúng ta có th hi u r ng các nhi m v phương pháp này tr thành phương pháp chu n SVM ñ phân l p. h c bán giám sát dư i m c h n ch có th ñư c th c hi n d dàng N u d li u gán nhãn r ng, sau ñó phương pháp này s tr thành hình hơn b ng cách thêm nhi u h n ch m i phát sinh t vi c ghép c p ñôi th h c không giám sát. H c bán giám sát x y ra khi c d li u gán vi c ñào t o c a nhi u b khai thác thông tin. Chúng ta có th xác nhãn và chưa gán nhãn không r ng. ñ nh t ng quát có ba lo i ghép c p ñôi gi a các ch c năng m c tiêu 2.4.2. Phân l p trang Web s d ng bán giám sát SVM mà có th ñư c k t h p ñ t o thành m t m ng lư i dày ñ c c a các v n ñ h c t p ghép c p ñôi. 2.4.2.1. Gi i thi u bài toán phân l p trang Web 2.5.2. Các m u Phân l p trang web là m t trư ng h p ñ c bi t c a phân l p văn b n. Trong trang web có s hi n di n c a các siêu liên k t trong trang Chúng tôi s d ng các m u văn b n ñ bi u di n cho vi c trích web, c u trúc trang web ch t ch , ñ y ñ hơn, d n ñ n các tính năng thông tin t văn b n t do. h n h p như là plain texts, các th hypertext, hyperlinks…. 2.5.3. H c theo m u b y kh i ñ ng (Bootstrapped) 2.4.2.2. Áp d ng S3VM vào phân l p trang Web “Bootstrap learning” là phương pháp kh i ñ ng h c t p ñ h c Khi áp d ng thu t toán S3VM vào quá trình phân l p nó s tìm bán giám sát. Phương pháp này t kh i ñ ng t m t s lư ng nh d ra ñư c nhãn l p c a các trang web chưa gán nhãn b ng cách thay li u có nhãn. th vector tr ng s bi u di n trang web ñó vào phương trình siêu 2.5.3.1. Đ suy gi m v ng nghĩa ph ng c a S3VM. T ñó suy ra th c ch t c a quá trình phân l p bán Sau bư c l p c a phương pháp Bootstrapping thì ñ chính xác giám sát các trang web là: t p d li u hu n luy n (training set) là các suy gi m d n vì có sai sót trong quá trình ghi nhãn tích lũy, v n ñ trang web còn t p working set (d li u chưa gán nhãn) là nh ng trang này ñư c g i v i tên là ñ suy gi m v ng nghĩa (seSmantic drift). web ñư c các trang web ñã có nhãn trong t p hu n luy n tr t i.
  10. 18 19 2.5.3.2. Đào t o theo phương pháp ghép ñôi b y kh i ñ ng (Coupled d quan h t văn b n không có c u trúc. CPL tìm các m u ng c nh bootstrapped) có b trích xu t v i ñ tin c y cao cho m i v t (ví d : “X và các Có ba lo i ghép ñôi thông d ng sau ñây công ty ph n m m khác” và “X th ng 1 ñi m cho Y”) và dùng chúng ñ t o ra m t t p trư ng h p v t có ñ tin c y, các c m danh t ñi n 1. Các ràng bu c ñ u ra vào các m u b tr ng c a “X” và “Y” t i các câu trong m t t p ng 2. Các ràng bu c thành ph n li u là x y ra ñ ng th i v i các m u kia. T i th i ñi m b t ñ u quá 3. Các ràng bu c phù h p ña chi u trình x lý, CPL kh i t o các t p trư ng h p và các m u ñã có cùng v i các trư ng h p ti m năng và các m u ñã dùng như là các d ki n Đ tt i Thành ph Tr s chính ñ u vào. Trong m i l n l p, CPL m r ng các t p trư ng h p và m u ñã có cho m i v t , ñ ng th i tuân th nguyên t c lo i tr l n nhau và nh ng h n ch trong vi c ki m tra ch ng lo i. Vi c này ñ t ñư c là nh vào bư c l c ra các trư ng h p tri n v ng x y ra ñ ng th i v i Qu c gia Công ty các trư ng h p ho c các m u ra kh i nhóm lo i tr l n nhau và nh vào vi c ñòi h i các ñ i s c a các m i quan h có tri n v ng ñ tr thành các trư ng h p có tri n v ng. V n ñ ng viên Đ i Đ u vào: m t b n th O và m t t p ng li u l n C Chơi cho Đ u ra: ñ xu t các trư ng h p/ các m u ng c nh cho m i v t Hình 2.5. Các ràng bu c lo i tr l n nhau Gi i Thu t: Ngư i h c m u có ghép ñôi (Coupled Pattern Lưu ý: Các ràng bu c lo i tr l n nhau (ñư ng li n nét), các Learner – CPL) ràng bu c ki u ki m tra (ñư ng nét ñ t). 2.5.4. Thu t toán Gi i thi u: M c ñích: M c ñích nghiên c u thu t toán Ngư i h c m u có ghép ñôi (Coupled Pattern Learner – CPL) là ñ trích xu t th lo i và các ví
  11. 20 21 For i=1, 2, …, vô cùng do CHƯƠNG 3 - TH NGHI M Foreach v t p thu c O do 3.1. Mô t ng d ng Rút trích (Extract) các trư ng h p có tri n v ng m i / các ng d ng thu t toán h c bán giám sát SVM ñư c cài ñ t trên m u ng c nh ñang s d ng các m u / các trư ng h p ñã ñ ph n m m mã ngu n m SVMlin (ñã ñư c biên d ch l i ch y trên c p g n ñây; Windows) ñ phân l p bán giám sát văn b n và các tài li u web. L c (Filter) các trư ng h p có tri n v ng nhưng b l i 3.2. Yêu c u c a ng d ng trong vi c ghép ñôi Đ u vào: S p x p (Rank) các trư ng h p/ các m u theo ng c nh có Đ s d ng ng d ng trên ta ph i chu n b khâu d li u ñ u vào tri n v ng; g m có 3 t p tin sau: Đ xu t (Promote) các trư ng h p/ các m u theo ng c nh T p tin traindt.dat: là t p tin ch a d li u hu n luy n. có tri n v ng. T p tin trainlb.dat: là t p tin ch a nhãn c a d li u hu n luy n. T p tin test.dt: là t p tin ch a t p d li u ñư c ñưa vào ki m tra (d li u này có th ñã ñư c gán nhãn ho c chưa ñư c gán nhãn). Đ u ra: Sau khi ñưa t p d li u test.dt vào ki m tra thì d li u ki m tra s gán nhãn và ñư c xu t ra t p tin test.dt.outputs. 3.3. L a ch n công c Dùng ph n m m mã ngu n m SVMlin vi t b ng ngôn ng C ho c C++. 3.4. Các bư c tri n khai 3.4.1. Xây d ng kho d li u cho các t p tin ñ u vào Thành l p b ng d li u hu n luy n như sau:
  12. 22 23 B ng 3.1. B ng tính năng cho m t s lư ng nh các ñ i tư ng +1 hu n luy n -1 -1 Đ ng v t +1 Chân Cánh Lông thú Lông chim có vú -1 Mèo 4 không có không ñúng T p tin ñ u vào test.dt ñư c mô t như sau: Qu 2 có không có sai 3:1 ch 4 không không không sai 1:2 2:1 4:1 Dơi 4 có có không ñúng 1:4 Gh ñ u 3 không không không sai 1:4 2:1 3:1 T b ng 3.1, xây d ng ma tr n d li u v i 5 d li u và 4 ñ c trưng như sau: Trong file ñính kèm có m t t p tin tên svmlin.zip. 4 0 1 0 Ch y chương trình và giao di n: 2 1 0 1 M CMD và CD ñ n thư m c v a gi i nén. 4 0 0 0 • Đ h c gõ l nh sau: svmlin -A 2 traindt.dat trainlb.dat. 4 1 1 0 Sau khi quá trình hoàn t t, s t o ra 2 file: traindt.dat.weights 3 0 0 0 và traindt.dat.outputs. T p tin ñ u vào traindt.dat ñư c mô t như sau: 1:4 3:1 1:2 2:14:1 1:4 1:4 2:1 3:1 1:3 T p tin ñ u vào trainlb.dat (ñ a vào c t cu i cùng trong b ng 3.1 ñ gán nhãn) ñư c mô t như sau:
  13. 24 25 K T LU N Đ tài ñã khái quát ñư c m t s v n ñ v bài toán phân l p bao g m phương pháp phân l p d li u, phân l p văn b n và các thu t toán h c máy áp d ng vào bài toán phân l p, trong ñó chú tr ng nghiên c u t i phương pháp h c bán giám sát ñư c s d ng r t ph bi n hi n nay. Tìm hi u v các thu t toán h c máy áp d ng vào bài toán phân Hình 3.1. Giao di n chương trình – H c d li u l p văn b n bao g m thu t toán phân l p s d ng quá trình h c có • Đ ki m tra d li u, gõ l nh svmlin -f traindt.dat.weights giám sát và h c bán giám sát. ñây chúng ta t p trung ch y u test.dt nghiên c u v quá trình h c bán giám sát, nêu lên m t s phương pháp h c bán giám sát ñi n hình, trên cơ s ñó s ñi sâu tìm hi u thu t toán h c bán giám sát SVM. Bài toán phân l p văn b n và trang web áp d ng thu t toán bán giám sát SVM ñư c nêu lên r t c th . Trong ph n th c nghi m ñã Hình 3.2. Giao di n chương trình – Ki m tra d li u gi i thi u m t ph n m m mã ngu n m có tên là SVMlin. Tôi ñã t • Sau khi quá trình hoàn t t, t p k t qu d li u ki m tra s biên d ch l i ch y trên môi trư ng Windows cho thu n ti n và ñã t ñư c t o ra t p tin test.dt.outputs. Xem k t qu t p tin này xây d ng ñư c kho d li u hu n luy n ñ ñưa vào ch y chương trình. như sau: Đ tài ñã trình bày khá chi ti t cách s d ng ph n m m và ch y cho ra k t qu . Ph n m m mã ngu n m SVMlin ch dùng ñ phân l p văn b n theo phương pháp nh phân nên còn nhi u h n ch . Đ có ñư c ph n m m phân l p văn b n hoàn ch nh thì có th ti p t c t cài ñ t thu t toán phân l p ho c d a trên n n t ng ph n m m SVMlin ñ phát Hình 3.3. Giao di n chương trình – Xem k t qu tri n bài toán phân l p theo phương pháp ña l p. 3.5. Đánh giá: Ph n m m SVMlin ch th c hi n phân l p nh phân.
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2