ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Vương Hoài Thu
PHÂN TÍCH CÚ PHÁP TING VIT THEO TIP
CN THNG
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2009
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Vương Hoài Thu
PHÂN TÍCH CÚ PHÁP TING VIT THEO TIP
CN THNG
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
n bộ hướng dn: TS. Anh Cường
HÀ NI – 2009
LI CM ƠN
Đầu tiên tôi xin t lòng biết ơn sâu sắc đến thầy giáo hướng dn ca tôi,TS
Anh Cường, người đã hướng dn, ch bo tạo điều kiện để tôi hoàn thành luận văn
này.
Tôi xin gi li cm ơn sâu sc ti thy giáo TS Nguyễn Phương Thái nhóm
xây dng ng liu Viet Treebank, đặc bit thy Ngyễn Phương Thái, người đã
hướng dn cung cp tài liu, d liu cn thiết cho tôi trong quá trình hoàn thành
luận văn.
Tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại hc Công nghệ, đặc
bit nhng thy trong b môn Khoa hc máy tính, những người đã dy bo, to
điều kin cho tôi trong sut quá trình hc tp tại trường.
Cuối cùng, gia đình và bn bè là hậu phương vng chc, là nguồn động viên giúp
tôi hoàn thành luận văn này.
TÓM TT
Phân tích pháp mt trong những bài toán bản quan trng nht trong
x ngôn ng t nhiên (XLNNTN). Kết qu của phân tích pháp được s dng
trong rt nhiu ng dụng XLNNTN khác như dịch máy, hỏi đáp, trích chn thông
tin… Xây dng mt b phân tích pháp cho tiếng Vit độ chính xác cao mt
công vic rt có ý nghĩa. Mục tiêu đề ra ca luận văn là xây dựng b phân tích cú pháp
tiếng Vit theo tiếp cn thống kê. Đây một hướng tiếp cn khá mi m trong cách
xây dng b phân tích pháp tiếng Vit. Lun văn sẽ trình bày khái quát v các cách
tiếp cn trong vic xây dng bphân tích pháp, đi sâu tìm hiu vvăn phạm phi
ng cnh xác sut t vng (Lexicalized Probabilistic Context Free Grammar). C th
hơn, tôi tìm hiu, nghiên cu 3 hình xác sut ca Collins [11], áp dng công c
phân tích ca Bikel’s [9] để th nghim cho phân tích pháp tiếng Vit. Phân tích cú
pháp da theo thng cn d liệu để hun luyn hình. Trong lun văn, tôi s
s dng ng liu Viet Treebank. Kết qu thc nghim cho thấy độ chính xác
(precision) trên 80% với n 9000 câu huấn luyn 500 câu kim tra. Nhng kết
qu ca luận văn cho thấy rằng, đối vi tiếng Vit, hình 1 của Collin độ chính
xác thấp n so với mô hình 2, hình 3 chưa thực s hiu qu. Ngoài ra, kết qu
thc nghim còn ch ra mt s tham s ca hình 2 ca Collins ảnh hưởng ti độ
chính xác ca b phân tích cú pháp.
MC LC
MỞ ĐẦU ............................................................................................................1
Chương 1. Gii thiu...........................................................................................2
1.1. X lý ngôn ng t nhiên và các vấn đề chính............................................2
1.2. Phân tích cú pháp ng dng trong x lý ngôn ng t nhiên..................3
1.2.1. Đnh nghĩa: ........................................................................................3
1.2.2. Vai trò ca phân tích cú pháp trong x lý ngôn ng t nhiên .............3
1.3. Phân tích cú pháp dành cho tiếng Vit ......................................................4
1.3.1. Nhp nhng – vấn đề chính ca xngôn ng t nhn: ..................4
1.3.2. Phân tích cú pháp trong tiếng Vit .....................................................5
1.4. Mc tiêu ...................................................................................................6
Chương 2. Phương pháp pn tích cú pháp..........................................................7
2.1. Văn phạm phi ng cnh ............................................................................7
2.2. Các phương pháp cổ điển..........................................................................8
2.2.1. Phânch top down..........................................................................8
2.2.2. Phânch bottom up: .....................................................................10
2.2.3. So sánh gia top – down và bottom up..........................................13
2.2.4. Thut toán CYK (Cocke – Younger – Kasami) ................................13
2.2.5. Thut toán Earley.............................................................................15
2.3. Văn phạm phi ng cnh xác sut (PCFGs)..............................................19
2.3.1. Đnh nghĩa .......................................................................................19
2.3.2. Nhược điểm của văn phạm phi ng cnh xác sut............................20
2.4. Văn phạm phi ng cnh xác sut t vng (LPCFGs) ..............................22
2.4.1. Cu trúc head...................................................................................22
2.4.2. Mô hình mt: Mô hình cơ s............................................................23
2.4.3. Mô hình 2: Phân biệt định ng và b ng, subcategorization ...........25
2.4.4.nh 3: Trace và Wh-movement.................................................27