Luận văn:Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

Chia sẻ: Bluesky_12 Bluesky_12 | Ngày: | Loại File: PDF | Số trang:56

Thêm vào BST

Báo xấu

286
lượt xem 104
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân đoạn từ (Word segmentation) và gán nhãn từ loại( Part-of-speech tagging - POS tagging) là hai bài toán đạc biệt quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn ban đầu. Do đó, nhu cầu là rất lớn cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho thấy hai quá trình này có liên quan với nhau và ảnh hưởng đến chất lượng của một hệ chung. Vì thế, trong luận văn...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn:Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

Mô hình tách t , gán nhãn t lo i và hư ng ti p c n tích h p cho ti ng Vi t TR N TH OANH Master Thesis Gi ng viên hư ng d n: TS. Lê Anh Cư ng PGS.TS. Hà Quang Th y 2008
1
i
L I CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên c u c a b n thân. Các s li u, k t qu trình bày trong lu n văn là trung th c và chưa t ng đư c ai công b trong b t kỳ công trình nào trư c đây. ii
L I C M ƠN Trư c tiên, tôi xin g i l i c m ơn chân thành và s bi t ơn sâu s c t i PGS.TS Hà Quang Thu và TS Lê Anh Cư ng (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i) đã t n tình hư ng d n tôi trong su t quá trình th c hi n khoá lu n này. Tôi xin chân thành c m ơn các thày cô giáo đã gi ng d y tôi trong su t các năm tôi theo h c t i trư ng Đ i h c công ngh đã cho tôi nh ng ki n th c quí báu đ tôi có th v ng bư c trên con đư ng đi c a mình. Tôi xin g i l i c m ơn các anh ch em trong nhóm seminar v khai phá d li u phòng thí nghi m Các h tích h p thông minh (SISLAB) trư ng Đ i h c Công ngh đã nhi t tình ch b o trong quá trình tôi tham gia nghiên c u khoa h c và th c hi n lu n văn này. Và l i cu i cùng, tôi xin bày t lòng chân thành và bi t ơn vô h n t i cha m , và các anh ch tôi, nh ng ngư i luôn bên c nh tôi nh ng lúc tôi khó khăn nh t, giúp tôi vư t qua khó khăn trong h c t p cũng như trong cu c s ng. Hà N i, ngày 30 tháng 12 năm 2008 Sinh viên Tr n Th Oanh iii
M ĐU Phân đo n t (Word segmentation) và gán nhãn t lo i( Part-of-speech tagging – POS tagging) là hai bài toán đ c bi t quan tr ng trong x lý ngôn ng t nhiên. Tuy nhiên, các nghiên c u t i Vi t Nam v hai v n đ này v n còn giai đo n ban đ u. Do đó, nhu c u là r t l n c v cơ s khoa h c và xây d ng công c th c hi n s n dùng. Th c t cho th y hai quá trình này có liên quan v i nhau và nh hư ng đ n ch t lư ng c a m t h chung. Vì th , trong lu n văn này chúng tôi nghiên c u “Mô hình tách t , gán nhãn t lo i và hư ng ti p c n tích h p cho ti ng Vi t” . Đóng góp c a lu n văn là vi c tìm hi u, nghiên c u và đ xu t mô hình th c hi n tách t , gán nhãn t lo i POS ti ng Vi t; xây d ng công c th c hi n liên quan; bên c nh đó đ hu n luy n và ki m th mô hình chúng tôi cũng ti n hành xây d ng m t corpus ti ng Vi t v tách t và gán nhãn t lo i x p x 8000 câu. Lu n văn cũng ti n hành th c nghi m m t hư ng ti p c n tích h p cho hai bài toán này. Các k t qu này có s đ c bi t h u ích cho các nghiên c u mc cao hơn như d ch máy, tóm t t văn b n, phân tích cú pháp ... C u trúc c a lu n văn đư c trình bày như sau: • Chương 1: Khái quát v tách t và gán nhãn t lo i ti ng Vi t : Trong chương này, lu n văn gi i thi u hai bài toán cơ b n trong x lý ngôn ng t nhiên là bài toán tách t và bài toán gán nhãn t lo i ti ng Vi t - các hư ng ti p c n cho m i bài toán và tình hình nghiên c u chung Vi t Nam cũng như trên th gi i. Chương cũng trình bày các hư ng ti p c n tích h p hai bài toán này đ nâng cao hi u qu c a c hai mô hình đã đư c áp d ng thành công cho ti ng Trung. • Chương 2: Mô hình tách t ti ng Vi t : Chương này nghiên c u và đ xu t m t mô hình cho bài toán tách t ti ng Vi t t n d ng thông tin t tri th c t nhi u ngu n khác nhau nh m làm tăng đ chính xác c a b tách t . • Chương 3: Mô hình gán nhãn t lo i ti ng Vi t: Chương này nghiên c u và đ xu t mô hình gán nhãn t lo i ti ng Vi t, các công vi c mà lu n văn đã ti n hành nh m xây d ng m t mô hình gán nhãn POS hi u qu như thi t k corpus gán iv
nhãn t lo i, đ xu t mô hình s d ng Maximum Entropy Markov Model (MEM) và thi t k các t p đ c trưng khác nhau đ tìm ra các đ c trưng h u ích cho ti ng Vi t. • Chương 4: Mô hình tích h p tách t và gán nhãn t lo i ti ng Vi t: T các nghiên c u đã trình bày trong chương 2 và chương 3 và đ c đi m ti ng Vi t, chương này trình bày m t mô hình tích h p áp d ng cho ti ng Vi t. • K t lu n: Ph n này tóm t t l i n i dung c a lu n văn và nh ng đóng góp chính mà lu n văn đã th c hi n. • Ph l c A: M t s thu t ng Anh - Vi t : M t s thu t ng ti ng Anh hay dùng và ch vi t t t. • Ph l c B: Chú gi i t p t lo i vnPOS : Mô t c th đ gi i thích thêm và các nhãn t lo i mà lu n văn đ xu t đ xây d ng corpus gán nhãn t lo i cho ti ng Vi t. v
M cl c M đu v 1 Khái quát v tách t và gán nhãn t lo i ti ng Vi t 1 1.1 Khái quát v tách t ti ng Vi t . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Khái quát v gán nhãn t lo i - POS tagging . . . . . . . . . . . . . . . . . 2 1.2.1 Gi i thi u v bài toán gán nhãn t lo i . . . . . . . . . . . . . . . . 2 1.2.2 Các hư ng ti p c n bài toán POS tagging . . . . . . . . . . . . . . 4 1.2.3 Các nghiên c u gán nhãn t lo i cho ti ng Vi t . . . . . . . . . . . 6 1.3 V n đ tích h p tách t và gán nhãn t lo i . . . . . . . . . . . . . . . . . 7 2 Mô hình tách t ti ng Vi t 9 2.1 Các mô hình liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Mô hình d a vào t đi n . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Mô hình nh n d ng tên th c th - Named Entity Recognition . . . 10 2.1.3 Mô hình N-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Phân tích các mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Thi t k t p đ c trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.1 FS1: Đ c trưng trích t mô hình tách t d a vào t đi n . . . . . . 13 2.3.2 FS2: Đ c trưng d a vào mô hình nh n d ng tên th c th . . . . . . 13 2.3.3 FS3: Đ c trưng d a vào mô hình Ngram . . . . . . . . . . . . . . . 14 2.4 K t qu th c nghi m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Đánh giá các đ c trưng FS1 và FS2 so v i các mô hình trư c đó . . 15 2.4.2 Đánh giá t m quan tr ng c a t ng t p thu c tính . . . . . . . . . . 16 vi
2.5 Đánh giá k t qu tách t . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 Mô hình gán nhãn t lo i ti ng Vi t 19 3.1 Xây d ng corpus gán nhãn t lo i cho ti ng Vi t . . . . . . . . . . . . . . 19 3.1.1 Thi t k t p th VnPOSTag . . . . . . . . . . . . . . . . . . . . . . 20 3.1.2 Mô t b d li u làm vnPOS corpus . . . . . . . . . . . . . . . . . 21 3.1.3 Xây d ng vnPOS corpus . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Gán nhãn t lo i b ng phương pháp Maximum Entropy Markov Model . . 24 3.2.1 Mô hình xác su t . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.2 Các đ c trưng c a POS tagging . . . . . . . . . . . . . . . . . . . . 25 3.3 Đ xu t mô hình gán nhãn t lo i cho ti ng Vi t . . . . . . . . . . . . . . 26 3.3.1 Gán nhãn t lo i d a vào thông tin t . . . . . . . . . . . . . . . . 27 3.3.2 Gán nhãn t lo i d a vào âm ti t . . . . . . . . . . . . . . . . . . . 29 3.4 Đánh giá k t qu gán nhãn t lo i . . . . . . . . . . . . . . . . . . . . . . 30 4 Mô hình tích h p tách t và gán nhãn t lo i ti ng Vi t 32 4.1 L a ch n mô hình tích h p cho ti ng Vi t. . . . . . . . . . . . . . . . . . . 32 4.2 Xây d ng mô hình và ti n hành th c nghi m . . . . . . . . . . . . . . . . . 33 4.2.1 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.2 Gi i mã . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.3 K t qu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.3 Th o lu n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 A M t s thu t ng ti ng Anh tương ng 40 B Chú gi i t p t lo i vnPOS 41 vii
Danh sách hình v 2.1 Word segmentation using N-gram model. . . . . . . . . . . . . . . . . . . . 11 2.2 Các mô hình liên quan c n đ trích các đ c trưng. . . . . . . . . . . . . . . 12 2.3 Bi u đ đ đo F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1 Giao di n công c tr giúp gán nhãn vnPOS. . . . . . . . . . . . . . . . . . 23 3.2 Ki n trúc gán nhãn POS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1 Ki n trúc tích h p tách t và gán nhãn t lo i ti ng Vi t. . . . . . . . . . 32 4.2 Giao di n công c tách t ti ng Vi t . . . . . . . . . . . . . . . . . . . . . 35 4.3 Giao di n công c tách t ti ng Vi t . . . . . . . . . . . . . . . . . . . . . 36 viii
Danh sách b ng 2.1 Table of feature sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Example of feature set 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Ví d m t câu đư c tách t . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 K t qu đánh giá hi u qu c a đ c trưng d a vào t đi n . . . . . . . . . . 16 2.5 Result to estimate the importance of NER-based features . . . . . . . . . . 16 2.6 K t qu th c nghi m khi b đi l n lư t t ng t p đ c trưng. . . . . . . . . 17 2.7 K t qu th c nghi m s d ng t ng lo i đ c trưng riêng. . . . . . . . . . . 17 3.1 T p th vnPOSTag c a t lo i ti ng vi t. . . . . . . . . . . . . . . . . . . . 22 3.2 K t qu gán nhãn POS d a vào thông tin m c t . . . . . . . . . . . . . . 29 3.3 K t qu gán nhãn POS d a vào thông tin âm ti t . . . . . . . . . . . . . . 31 4.1 M t ví d ouput c a mô hình tích h p. . . . . . . . . . . . . . . . . . . . . 33 4.2 K t qu th c nghi m tích h p WS và POS tagging. . . . . . . . . . . . . . 34 A.1 B ng thu t ng Anh - Vi t . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 ix
Chương 1 Khái quát v tách t và gán nhãn t lo i ti ng Vi t 1.1 Khái quát v tách t ti ng Vi t Ti ng Vi t là m t ngôn ng đơn l p, không bi n hình, các ký t đư c d a trên h ch cái Latin. Cũng gi ng như v i các th ti ng khác như ti ng Trung, ti ng Nh t, ti ng Hàn thì t trong ti ng Vi t không đư c xác đ nh b i kho ng tr ng. M t t ti ng Vi t có th đư c t o b i m t ho c nhi u hình v và m i hình v phân tách nhau b i các kho ng tr ng. T là đơn v cơ b n đ phân tích c u trúc c a ngôn ng , do v y đ ti n t i nh ng ng d ng xa hơn v x lý ngôn ng ti ng Vi t như gán nhãn ch c năng cú pháp, phân tích cú pháp thì vi c đ u tiên ta ph i gi i quy t bài toán phân đo n t . Các nhà nghiên c u đã đ xu t m t s hư ng ti p c n đ gi i bài toán phân đo n t [3, 5, 9, 10, 12, 13, 11] . Nhìn chung, các hư ng ti p c n đó đư c chia thành 2 lo i: ti p c n d a trên t đi n và ti p c n d a trên th ng kê. Hai phương pháp tiêu bi u c a hư ng ti p c n d a vào t đi n là Longest Matching và Maximal Matching. H u h t nh ng nghiên c u kh i th y v phân đo n t đ u d a trên cách ti p c n này như trong [13][18]. Hư ng ti p c n này có đ c đi m là đơn gi n, d hi u tuy nhiên hi u qu mang l i không cao. Lý do là b i nó không x lý đư c r t nhi u trư ng h p nh p nh ng cũng như không có kh năng phát hi n t m i trong văn b n. Chính vì v y mà các h th ng phân đo n t có ch t lư ng cao hi n nay thư ng s d ng hư ng ti p c n d a trên th ng kê. Ví d như đ i v i ti ng Trung thì có các nghiên c u liên quan như [9, 12], ti ng Thái [13] cũng như 1
ti ng Vi t [3, 8]. C th , đ i v i ti ng Vi t thì tác gi Lê An Hà[10] đã xây d ng corpus 10M và s d ng thông tin N-gram đ t i ưu t ng các xác su t phân đo n cho m i phân c m (chunk). K t qu th c nghi m tuy không cao nhưng cũng đã cho th y N-gram s tr nên h u ích n u ta bi t cách s d ng thông tin này khi liên k t v i các ngu n thông tin khác. Hi n nay, r t nhi u h th ng phân đo n t ph bi n s d ng hư ng ti p c n lai. Ví d , nhóm tác gi C m Tú [3] đã nghiên c u ng d ng các mô hình CRF và SVM đ phân đo n t ti ng Vi t. Ho c như nhóm tác gi Đinh Đi n [8] đã s d ng mô hình MEM s d ng gi i thu t t i ưu GIS đ hu n luy n b phân đo n trên corpus gán nhãn. Trong nghiên c u đó, tác gi đã phân tách hai quá trình nh n d ng t m i (unknown word recognition) và phân đo n t đã bi t (known word segmentation) như hai ti n trình đ c l p nhau. Tuy nhiên, chúng tôi nh n th y r ng hai ti n trình này nên đư c ti n hành đ ng th i đ nâng cao đ chính xác. M t ví d đi n hình c a hư ng ti p c n như v y cho ti ng Trung đư c J.Gao đ c p trong [9]. Trong các phương pháp lai, các tác gi đã t n d ng thông tin t đi n và m t s thông tin khác nh m phát hi n tên th c th . Tuy nhiên, trong các nghiên c u đó đ u chưa quan tâm thích đáng t i vi c đánh giá nh hư ng c a t ng ngu n tri th c và đ c bi t là chưa có nh ng nghiên c u đ phát hi n t m i (không ch là tên th c th và các d ng factoid). Nghiên c u các phương pháp phát hi n t m i ta th y thông tin Ngram đóng vai trò h u ích giúp ta phát hi n t m i khi mà corpus th ng kê đ l n và xác đ nh đư c đ đo phù h p. Câu h i đ t ra là làm cách nào đ t n d ng đư c t t t c các ngu n tri th c đó. Đây cũng chính là đ ng l c cho lu n văn này. 1.2 Khái quát v gán nhãn t lo i - POS tagging 1.2.1 Gi i thi u v bài toán gán nhãn t lo i Gãn nhãn t lo i là m t công vi c quan tr ng và b t bu c ph i có đ i v i m i h x lý ngôn ng t nhiên. Công vi c gán nhãn t lo i cho m t văn b n là xác đ nh t lo i c a m i t trong ph m vi văn b n đó, t c là phân lo i các t thành các l p t lo i d a trên th c ti n ho t đ ng ngôn ng trong đó: • Input: M t chu i các t và t p nhãn t lo i (Ví d đ i v i ti ng Anh: “Book that flight.”, và t p th Penn Treebank) 2
• Output: M t nhãn t t nh t cho t ng t trong câu (Ví d : Book/VB that/DT flight/NN ./.) Quá trình gán nhãn t lo i có th chia làm 3 bư c như sau: 1. Giai đo n ti n x lý: Phân tách xâu ký t thành chu i các t . Giai đo n này có th đơn gi n hay ph c t p tuỳ theo ngôn ng và quan ni m v đơn v t v ng. Ch ng h n đ i v i ti ng Anh hay ti ng Pháp, vi c phân tách t ph n l n là d a vào các ký hi u tr ng. Tuy nhiên v n có nh ng t ghép hay nh ng c m t gây tranh cãi v cách x lý. Trong khi đó v i ti ng Vi t thì d u tr ng càng không ph i là d u hi u đ xác đ nh ranh gi i các đơn v t v ng do t n s xu t hi n t ghép r t cao. 2. Kh i t o gán nhãn: T c là tìm cho m i t t p t t c các nhãn t lo i mà nó có th có. T p nhãn này có th thu đư c t cơ s d li u t đi n ho c kho ng li u đã gán nhãn b ng tay. Đ i v i m t t m i chưa xu t hi n trong cơ s ng li u thì có th dùng m t nhãn ng m đ nh ho c g n cho nó t p t t c các nhãn. Trong các ngôn ng bi n đ i hình thái ngư i ta cũng d a vào hình thái t đ đoán nh n l p t lo i tương ng c a t đang xét. 3. Quy t đ nh k t qu gán nhãn: Đó là giai đo n lo i b nh p nh ng, t c là l a ch n cho m i t m t nhãn phù h p nh t v i ng c nh trong t p nhãn kh i t o nói trên. Có nhi u phương pháp đ th c hi n vi c này, trong đó ngư i ta phân bi t ch y u các phương pháp d a vào quy t c ng pháp mà đ i di n n i b t là phương pháp Brill và các phương pháp xác su t. Ngoài ra còn có các h th ng s d ng m ng nơ-ron, các h th ng lai s d ng k t h p tính toán xác su t và ràng bu c ng pháp, gán nhãn nhi u t ng, ... Vi c gán nhãn t lo i đã đư c quan tâm t r t s m, cùng v i nó là s xu t hi n c a r t nhi u phương pháp gi i quy t. T i nay, các phương pháp m i v n đang ti p t c đư c nghiên c u nh m hoàn thi n hơn n a các k t qu đã đ t đư c. Hi n nay, bài toán gán nhãn t lo i cho ti ng Anh đã đư c gi i quy t khá t t, đ t k t qu r t kh quan. Bên c nh vi c hoàn thi n hơn n a các b gán nhãn đã có, ngày càng nhi u b gán nhãn m i ra đ i, đem l i k t qu g n như t i ưu. Tuy nhiên, đ i v i các ngôn ng khác, đ c bi t là các ngôn ng tư ng hình (như ti ng Trung Qu c, Nh t, Hàn Qu c ..), các ngôn ng c a n Đ , Thái Lan, A R p, Nga cũng như đ i v i ti ng Vi t 3
thì bài toán gán nhãn t lo i v n còn là m t thách th c l n. Các phương pháp và công c đã đư c xây d ng g n như hoàn thi n cho Ti ng Anh khi đem áp d ng cho các ngôn ng khác lo i trên thư ng đưa l i k t qu th p. Như v y, yêu c u đ t ra v i t ng ngôn ng là ph i k th a, t n d ng đư c các phương pháp s n có, ti n hành hi u ch nh ho c là đ xu t ra các hư ng ti p c n m i sao cho phù h p v i các đ c đi m riêng bi t c a ngôn ng mình. 1.2.2 Các hư ng ti p c n bài toán POS tagging Theo [4], h u h t các thu t toán gán nhãn t lo i rơi vào m t trong hai l p: gán nhãn d a trên lu t (rule-based) ho c b gán nhãn xác su t (stochastic taggers). Các b gán nhãn d a trên lu t thư ng liên quan t i m t cơ s d li u l n các lu t đư c vi t b ng tay. Ví d m t t nh p nh ng đang xét có xu hư ng là m t danh t hơn là m t đ ng t n u nó đi sau m t t ch đ nh. Ph n ti p sau s mô t m t b gán nhãn d a trên lu t m u, ENGTWOL, d a trên ki n trúc cú pháp ràng bu c c a Karlson năm 1995. B gán nhãn xác su t thư ng gi i quy t nh p nh ng b ng cách s d ng m t corpus hu n luy n đ tính toán xác su t c a m t t cho s n s đư c gán m t th nào đó trong ng c nh cho trư c. Ph n sau s mô t m t b gán nhãn HMM (HMM Tagger), hay còn đư c g i là Maximum Likelihood Tagger, ho c m t b gán nhãn Markov Model, cũng d a trên mô hình Markov n. Ngoài ra còn có các hư ng ti p c n khác g m b gán nhãn d a trên bi n đ i transformation- based tagger ho c b gán nhãn Brill (Brill tagger). B gán nhãn Brill s s d ng các đ c tính c a c 2 ki n trúc gán nhãn trên. Gi ng như b gán nhãn d a trên lu t, nó d a vào lu t đ xác đ nh khi m t t nh p nh ng thì nó có kh năng là m t th nào nh t. Gi ng như b gán nhãn xác su t, nó có m t thành ph n h c máy đ t o ra các lu t m t cách t đ ng t m t corpus hu n luy n đã đư c gán nhãn trư c. Tuy nhiên, trong ph m vi lu n văn này chúng tôi không trình bày c th vi c nghiên c u 2 phương pháp này (xem thêm trong [4]). Gán nhãn ch c năng cú pháp d a trên lu t Các thu t toán kh i th y gán nhãn t đ ng t lo i thư ng g m hai giai đo n. Giai đo n m t nó s d ng m t t đi n đ gán cho m i t m t danh sách các t lo i có th có. Giai 4
đo n 2 nó s d ng m t danh sách g m t p các lu t không có nh p nh ng thư ng đư c so n b ng tay đ gán cho m i t ch m t t lo i phù h p nh t. M b gán nhãn đi n hình áp d ng cho ti ng Anh là b gán nhãn ENGTWOL[4]. Gán nhãn t lo i xác su t Ph n này trình bày m t b gán nhãn xác su t đi n hình s d ng mô hình Markov n. Thu t toán này l a ch n chu i nhãn t t nh t cho toàn b câu. Và thông thư ng ngư i ta hay s d ng thu t toán Viterbi đ tìm chu i th t t nh t đó. Gi s v i câu đ u vào là W ta c n tìm m t chu i th T=t1 , ..., tn th a mãn công th c 1.1: T = argmaxT ∈τ P (T |W ) (1.1) S d ng lu t Bayes, P(T|W) đư c vi t theo công th c 1.2 P (T )P (W |T ) P (T |W ) = (1.2) P (W ) Ta đang quan tâm t i tìm chu i th phù h p nh t làm c c đ i công th 3.1 nên m u s trong t t c các trư ng h p là gi ng nhau. Do v y, bài toán tr thành tìm chu i th th a mãn công th c 1.3 T = argmaxT ∈τ P (T )P (W |T ) (1.3) Áp d ng lu t chu i xác su t ta có công th c 1.4: n P (T )P (W |T ) = P (wi |w1 t1 ...wi−1 ti−1 ti )P (ti |w1 t1 ...wi−1 ti−1 ) (1.4) i=1 V n không có phương pháp hi u qu đ tính toán xác xu t c a chu i này m t cách chính xác, nó yêu c u quá nhi u d li u. Tuy nhiên, xác su t có th đư c x p x b i m t xác su t đơn gi n hơn b ng cách áp d ng các gi thi t đ c l p đi u ki n. M c dù các gi thi t này là không th c t nhưng trong th c hành thì vi c đánh giá đó là v n h p lý. đây, ta s d ng gi thi t N-gram đ mô hình hóa xác su t chu i t . C th ta dùng mô hình ph bi n nh t là mô hình tri-gram. Đ u tiên, ta làm đơn gi n hóa r ng xác su t c a m t t thì ch ph thu c vào th c a nó (xem công th c 1.5): 5
P (wi |w1 t1 ...wi−1 ti−1 ti ) = P (wi |ti ) (1.5) Ti p đ n, ta gi thi t r ng các th phía trư c có th đư c x p x b i 2 th g n nó nh t (xem công th c 1.6): P (ti |w1 t1 ...wi−1 ti−1 ) = P (ti |ti−2 ti−1 ) (1.6) Vì v y cu i cùng ta l a ch n chu i th làm c c đ i công th c 1.7: n n P (t1 )P (t2 |t1 ) P (ti |ti−2 ti−1 )[ P (wi |ti )] (1.7) i=3 i=1 Các thành ph n th a s trong công th c 1.7 có th đư c tính toán t corpus hu n luy n c a mô hình. Chú ý r ng đ có th tránh xác su t b ng 0 ta c n s d ng các k thu t làm trơn. 1.2.3 Các nghiên c u gán nhãn t lo i cho ti ng Vi t Đ i v i ti ng Anh thì bài toán này g n như đã đư c gi i quy t xong đ t đ chính xác r t cao lên t i >96% [1]. Tuy nhiên, đ i v i các văn b n Vi t ng , vi c gán nhãn t lo i có nhi u khó khăn, đ c bi t là b n thân vi c phân lo i t ti ng Vi t cho đ n nay v n là m t v n đ còn nhi u tranh cãi, chưa có m t chu n m c th ng nh t. Hi n nay đã có m t s nghiên c u gán nhãn t lo i cho ti ng Vi t và đ t đư c m t s thành t u nh t đ nh. Đi n hình là b gán nhãn t lo i xác su t vnQTAG c a nhóm tác gi Nguy n Th Minh Huy n [16]. Ý tư ng c a phương pháp là xác đ nh phân b xác su t trong không gian k t h p gi a dãy các t Sw và dãy các nhãn t lo i St. Sau khi đã có phân b xác su t này, bài toán lo i b nh p nh ng t lo i cho m t dãy các t đư c đưa v bài toán l a ch n m t dãy t lo i sao cho xác su t đi u ki n P(St|Sw) k t h p dãy t lo i đó v i dãy t đã cho đ t giá tr l n nh t. Nhóm tác gi Nguy n Quang Châu [15] trình bày m t hư ng ti p c n cho bài toán gán nhãn t lo i trong văn b n ti ng Vi t trên cơ s v n d ng các mô hình th ng kê d a vào kho ng li u, t đi n, cú pháp và ng c nh. Ngoài ra còn m t hư ng ti p c n khác s d ng kho ng li u song ng Anh-Vi t [6]. Các hư ng ti p c n này có ưu đi m là t n d ng đư c các công c đã phát tri n g n 6
như hoàn thi n dùng cho ti ng Anh tuy nhiên như c đi m c a nó là: Do s khác nhau v hình thái gi a ti ng Anh và ti ng Vi t nên phép chi u tr c ti p không đơn gi n là phép chi u 1-1 mà thư ng là phép chi u ph c t p m-n. S khác nhau v cơ b n gi a hai ngôn ng này là nguyên nhân c a không ít nh p nh ng c n ph i gi i quy t, nó còn có th ti m tàng nhi u trư ng h p mà nhóm tác gi cũng như các đ c gi chưa tính t i. 1.3 V n đ tích h p tách t và gán nhãn t lo i Vi t Nam chưa có m t công trình nghiên c u nào v tích h p hai bài toán r t quan tr ng trong x lý ngôn ng t nhiên là bài toán tách t và bài toán gán nhãn t lo i ti ng Vi t. Các nghiên c u này ch y u m i có nghiên c u cho ti ng Trung như [22][14][20]. Ý tư ng c a phương pháp tích h p là có th k t h p hai ti n trình l i v i nhau nh m nâng cao hi u qu c a chúng. Các hư ng tích h p có th chia làm 2 lo i: M t là lo i tích h p gi pseudo-integration và m t lo i là tích h p th c s true-integration. Hư ng tích h p gi : [19] mô t m t phương pháp g m 3 bư c chính: 1. T o ra N chu i tách t t t nh t(N-best word sequences) đ i v i m t câu cho s n. 2. Th c hi n gán nhãn POS cho m i chu i t đó, sau đó ch n ra N chu i th POS t t nh t tương ng. 3. S d ng đánh giá có tr ng s c a (1) và (2) đ ch n gi i pháp tách t và gán nhãn POS t t nh t cho câu đ u vào đó. Trong h th ng này, vi c gi i mã cho tách t và gán POS v n đư c th c hi n riêng r , và s suy lu n chính xác cho c hai là đi u có th . Tuy nhiên, s tương tác gi a POS và segmentation b h n ch b i reranking: thông tin POS đư c s d ng đ c i ti n ch t lư ng phân đo n đ i v i ch N segmentor output. Hư ng tích h p th c s tiêu bi u trong hai công trình [19, 14] Trong [19] các tác gi đ xu t m t phương pháp d a trên CRFs hai t ng s d ng gi i mã đ ng th i tách t và gán POS. Trong phương pháp này, tác gi mô hình bài toán tách t và gán nhãn b ng m t CRFs hai t ng. Lúc gi i mã, đ u tiên th c hi n gi i mã riêng m i t ng. Sau đó, m t khung xác su t đư c xây d ng đ tìm ra gi i mã k t h p t t nh t cho c hai bài toán. 7
Còn khi hu n luy n, tác gi hu n luy n m t l n các CRF riêng đó cho hai bài toán, đ i v i ph m vi ng d ng này thì hu n luy n đ ng th i s t n công hơn. K t qu đánh giá tách t và POS tag thu đư c k t qu state-of-the-art trên c t p PCT và First SIGHAN Bakeoff datasets. Trong c hai bài toán, phương pháp đ xu t c i ti n so v i phương pháp baseline không th c hi n gi i mã đ ng th i. Trong [14] trình bày m t nghiên c u tích h p khá công phu. Đ xây d ng m t b gán nhãn POS, có hai câu h i đư c đ t ra: 1. Th c hi n gán nhãn sau khi tách t theo hai pha riêng bi t (one-at-a-time), ho c th c hi n liên k t gán nhãn t lo i và tách t thành m t bư c đơn đ ng th i nhau (all-at-one approach). 2. Gán th POS d a trên n n t ng t (gi ng English), t n d ng các đ c trưng m c t c a ng c nh (word-based), ho c d a trên n n t ng ký t v i các đ c trưng c a ký t (character-based)? Bài báo trình bày m t nghiên c u t m v ki n trúc x lý và bi u di n đ c trưng cho gán POS ti ng Trung v i khung Maximum Entropy. H phân tích hi u qu c a t ng ti p c n nh m tìm ra hư ng ti p c n phù h p nh t. K t qu th c nghi m cho th y ti p c n character-based t t hơn so v i ti p c n d a trên word-based đ i v i bài toán POS tag là không có gì đáng ng c nhiên. Khác v i English mà m i English letter không có nghĩa, thì nhi u character ti ng Trung l i mang nghĩa. Hơn n a, t l OOV đ i v i Chinese words thì cao hơn so v i Chinese characters, đ i v i unknown words, vi c s d ng các character thành ph n trong t giúp đ d đoán chính xác nhãn POS là m t heuristic t t. Ti p c n all-at-once xem xét t t c các khía c nh c a thông tin s n có theo m t khung tích h p đ ng nh t cho k t qu t t hơn nhưng cũng yêu c u chi phí tính toán cao hơn. Tuy nhiên, đi m b t l i c a phương pháp này là s khó khăn khi tích h p toàn b thông tin v t vào vi c gán POS. Ví d , đ c trưng chu n “word + POS tag” s không th ng d ng rõ ràng đư c. 8
Chương 2 Mô hình tách t ti ng Vi t Trong lu n văn này, chúng tôi ch n mô hình maximum entropy làm phương pháp h c máy trong đó các đ c trưng c a mô hình đư c l a ch n d a trên nh ng nghiên c u v tri th c c a các mô hình khác và các đ c đi m c a ngôn ng ti ng Vi t. C th , chúng tôi s d ng thông tin có đư c t ba ngu n là mô hình phân đo n t d a vào t đi n, mô hình N-gram và mô hình nh n d ng th c th . Chúng tôi cũng làm nh ng th c nghi m đ đánh giá tính hi u qu c a h th ng d a trên t p d li u đã gán nhãn. Bên c nh đó, chúng tôi đánh giá nh hư ng c a t ng ngu n tri th c đó đ i v i mô hình cu i cùng. Trong th c nghi m, chúng tôi l y phương pháp Longest Matching làm mô hình cơ s (baseline) đ so sánh. 2.1 Các mô hình liên quan 2.1.1 Mô hình d a vào t đi n Hai phương pháp kinh đi n c a hư ng ti p c n d a trên t đi n là: Longest Matching (LM) và Maximal Matching (MM). Phương pháp LM duy t câu đ u vào tu n t t trái qua ph i và ch n t dài nh t n u t đó có trong t đi n. Rõ ràng là phương pháp này r t đơn gi n nhưng b phân l p sai trong nhi u trư ng h p nh p nh ng. Ví d câu “Đó là cách đ truy n thông tin” , n u áp d ng phương pháp LM thì câu này s b phân tách sai thành “Đó là cách đ truy n_thông tin”. Phương pháp MM s t o ra t t c các phân đo n có th cho m t câu b t kỳ, sau đó câu 9