LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT

Chia sẻ: Lan Lan | Ngày: | Loại File: PDF | Số trang:49

Thêm vào BST

Báo xấu

237
lượt xem 41
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010
LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá luận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn. Hà Nội, ngày 21 tháng 5 năm 2010 Sinh viên thực hiện ĐỒNG THỊ NGÂN
TÓM TẮT LUẬN VĂN Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.
GIỚI THIỆU Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”, mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea” không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó. Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn. Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm; từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình.
Mục tiêu của luận văn:  Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên.  Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt.  Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình.  Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được và độ chính xác của chương trình dựa trên phương pháp này.
MỤC LỤC GIỚI THIỆU Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT 1 1.1. ĐỊNH NGHĨA ............................................................................................ 1 1.2. ĐẶC TRƯNG ............................................................................................. 1 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. .............................................. 1 1.2.2. Có tính cứng nhắc:.................................................................................. 2 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. ....................................................... 2 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: ................................................. 3 1.3. PHÂN LOẠI............................................................................................... 3 1.4. ỨNG DỤNG............................................................................................... 5 Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ ..................................................... 8 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT .......................................... 9 2.2.1. Phương pháp kiểm tra t ........................................................................... 9 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. ................................. 12 2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI))...................................................................... 13 2.4. KẾT QUẢ THỰC NGHIỆM .................................................................... 15 2.4.1. Khái quát về dữ liệu sử dụng ................................................................ 15 2.4.2. Trích chọn bigrams ............................................................................... 16 2.4.3. Các mô hình thử nghiệm ....................................................................... 18 2.4.4. Kết quả thực nghiệm............................................................................. 19 Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ ............................ 25 3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. ............................................................................................................. 26 3.1.1. Bước 1: Trích chọn bigram ................................................................... 26 3.1.2. Bước 2: Lọc các bigram không hợp lệ .................................................. 27 3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. .................................................................................... 28 3.2.1. Bước 1:................................................................................................. 29 3.2.2. Bước 2:................................................................................................. 29
3.2.3. Bước 3:................................................................................................. 29 3.3. KẾT QUẢ THỰC NGHIỆM .................................................................... 30 Chương 4. KẾT LUẬN ............................................................................. 33 TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B
DANH SÁCH HÌNH VẼ Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 ..................................................................................... 20 Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn ................................ 21 Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 22 Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào ................................................................................................................................... 22
DANH SÁCH BẢNG Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt................................. 4 Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh .............................. 8 Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt ......................................... 9 Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t ............ 11 Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương .................. 12 Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương......................................................................................................... 13 Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ ..................................................................................................................... 14 Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger................................................................... 15 Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 .......................................................................... 19 Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại ............................................................................................................................. 20 Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 21 Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm............... 23 Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng ....... 27 Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 .................................................. 30 Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 ................................................... 30 Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2....................... 31
Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation? Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại của chương sẽ đi sâu vào trả lời bốn câu hỏi này. 1.1. ĐỊNH NGHĨA Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. 1.2. ĐẶC TRƯNG Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính: 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một ngữ cảnh nhất định. Các cụm từ như “to make a decision, to hit a record, to perform 1
an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên môn. Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định. 1.2.2. Có tính cứng nhắc: Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định. Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của các từ cấu thành nên nó. Trong hầu hết trường hợp, một collocation không thể được dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác. Ví dụ, chúng ta có thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức. Một người học tiếng Việt không thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không biết trước nghĩa của cả cụm từ trước đó. Dịch một văn bản từ ngôn ngữ này sang một ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết cho một ứng dụng dịch máy hiệu quả. 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations. Các thuật ngữ chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong lĩnh vực đó. Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành. Ví dụ trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó, tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít khó khăn. 2
1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó, đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng (Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê. 1.3. PHÂN LOẠI Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về ngữ nghĩa. Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ (như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to). Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng, không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng nghĩa của nó. Một hệ thống phân loại khác là thiên về cấu trúc của collocation. Theo đó, có hai loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc linh động hơn. Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau trong văn bản, và với chức năng cú pháp cố định. Cụm danh từ + danh từ là ví dụ về loại collocation như thế. Các collocation là các cặp từ linh động bao gồm các collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay xuất hiện các từ xen ngang). 3
Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó, các collocation được chia làm 3 loại chính: - Collocations có quan hệ cú pháp: là loại collocation có cấu trúc linh động nhất. Chúng thường là các cặp từ không liền nhau trong văn bản, xuất hiện cùng nhau lặp đi lặp lại với một cấu trúc ngữ pháp nhất định. Ví dụ: “hostile-takeover”, “make-decision”. Bảng 1-1 minh họa một số collocations có quan hệ vị ngữ trong tiếng Việt. Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt Loại Collocations N-A Màu_sắc sinh_động N-A Đồi trọc N-A Nụ_cười rạng_rỡ V-A Tàn_phá nặng_nề V-A Thở_phào nhẹ_nhõm V-A Cảm_thông sâu_sắc V-V Thực_hiện cải_cách V-V Đề_nghị hợp_tác V-O Khủng_hoảng tài_chính V-O Chăn_nuôi heo V-O Lập biên_bản với N là danh từ, V là động từ và A là tính từ - Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định nhất. Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các từ thành phần. Ví dụ: “stock market”, “foreign exchange”, “New York Stock Exchange”, “The Dow Jones average of 30 industrials”. Bảng 1-2 minh họa một số collocation có dạng cụm danh từ cố định trong tiếng Việt. 4
Bảng 1-2: Một số collocations có dạng cụm danh từ cố định Mức thuế_suất nhập_khẩu Tình_hình kinh_tế chính_trị Khối đại_đoàn_kết toàn dân Quyền và nghĩa_vụ của công_dân Cuộc chiến_tranh Đồn biên_phòng - Collocations là các cụm từ khuôn mẫu: thường bao gồm các cụm từ mang tính chất thành ngữ, chứa một, một vài, hoặc không có chỗ trống nào. Nếu tồn tại chỗ trống, các cụm từ khuôn mẫu cho phép xác định nhãn của các từ có thể được thêm vào chỗ trống đó. Ví dụ: “The average finished the week with a net loss of *NUMBER*”. Bảng 1-3: Một số collocation có dạng cụm từ khuôn mẫu Vận_tải hành_khách công_cộng quyền và lợi_ích hợp_pháp chính_đáng mối quan_hệ hợp_tác hữu_nghị giữa nhân kỷ_niệm * NUMBER * năm Hiệp_định Thương_mại * NOUN * ông * NOUN * - Phó_Giám đốc 1.4. ỨNG DỤNG Collocations tồn tại rất nhiều trong văn bản. Khái niệm về collocation bao trùm từ các cụm từ hay đi liền nhau trong văn bản đến các cụm từ mang tính chất thành ngữ, các thuật ngữ chuyên ngành. Có hai vấn đề chính cần được quan tâm khi nhắc đến collocation, cũng xuất phát từ chính định nghĩa của nó, đó là tính cứng nhắc và không thể tách rời về nghĩa giữa các cụm từ. Có những cụm từ, không sai về cấu trúc ngữ pháp, cũng không sai về nghĩa hay vi phạm quy tắc từ vựng nào, nhưng vẫn không được coi là đúng, hay không được chấp nhận, chỉ đơn giản vì người bản xứ không nói như thế, không sử dụng một cụm từ được kết hợp như thế. Vấn đề này chính là nguyên nhân của không ít khó khăn mà người mới học một ngôn ngữ gặp phải. Chính vì vậy, 5
một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ, kết hợp từ của người bản ngữ. Một vấn đề thứ hai liên quan đến collocation chúng tôi muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation. Như đã nói ở trên, nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ thành phần. Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy. Yêu cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính xác và một độ trôi chảy nhất định. Sử dụng phương pháp dịch từ đối từ để dịch một collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản đích. Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính xác của chương trình mà còn làm tăng tính tự nhiên của văn bản. Thêm vào đó, kho ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh ngôn ngữ và nhiều ứng dụng khác. Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết. Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả (bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn. 6
Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các nhà thực hành và biên soạn từ điển. Theo Benson và Morton[2], các thành phần tạo thành collocation không thể tách ra xử lý một cách độc lập. Do đó, quá trình trích chọn collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng tay, và thêm vào trong từ điển. Trong những năm gần đây, các cách tiếp cận dựa trên thống kê đã được áp dụng trong các nghiên cứu về ngôn ngữ và sự trích chọn các collocation. Điều này một phần xuất phát từ thực tế rằng ngày càng có nhiều corpus dữ liệu lớn tồn tại dưới dạng máy tính có thể hiểu được. Chouka[5] đã phát triển chương trình tự động trích chọn collocation từ văn bản sử dụng n-gram từ 2 đến 6 từ. Một phương pháp đơn giản để xác định các collocation trong corpus dữ liệu là dựa trên tần suất xuất hiện. Nếu hai hay nhiều từ thường xuất hiện cùng nhau, chúng hoàn toàn có thể tạo thành collocation. Tuy nhiên, n-grams có tần suất xuất hiện cao nhất đôi khi lại không phải là một collocation. Ví dụ, nếu chúng ta xét các bigram trong corpus dữ liệu như of the, in the, to the, etc. Để giải quyết vấn đề này, Justeson và Katz[28] đưa ra một phương pháp dựa trên kinh nghiệm để cải thiện độ chính xác chương trình, bằng cách cho các bigram đi qua một bộ lọc dựa trên nhãn từ loại. Bộ lọc này chỉ cho đi qua các N-gram có cấu trúc xác định. Một số mẫu được sử dụng để dọc như AN, NN, AAN, và ANN, với A tương ứng với tính từ, N tương ứng với danh từ. Mặc dù phương pháp dựa trên kinh nghiệm được đưa vào khá đơn giản, tuy nhiên đã cải thiện đáng kể độ chính xác của chương trình. Phương pháp trích chọn dựa trên tần suất được áp dụng khá hiệu quả cho các cụm danh từ cố định. Tuy nhiên, nó lại không thực sự hiệu quả với các collcation có cấu trúc linh động hơn, hay với các collcation có các từ thành phần không liền nhau trong văn bản. Các phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ được đưa ra để cải thiện tình trạng này. Tuy nhiên, mỗi phương pháp có một điểm mạnh và điểm yếu nhất định, và tùy vào bộ dữ liệu sử dụng, chúng ta quyết định phương pháp trích chọn nào là thích hợp nhất. Phần còn lại của chương này, chúng tôi đi sâu vào giới thiệu chi tiết bốn phương pháp cổ điển dựa trên thống kê thường được dùng trong trích chọn collocation: phương pháp dựa trên tần số, phương pháp kiểm tra t, phương pháp kiểm tra Chi bình phương, và phương pháp sử dụng thông tin tương hỗ. 7
2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện cùng nhau trong văn bản. Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi chúng là collocation. Tuy nhiên, độ chính xác của phương pháp này rất hạn chế. Ta có thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc. Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua các cụm từ mà nó cho là có thể là một cụm từ. Justeson and Katz[28] đưa ra các mẫu cho các cụm từ như vậy cho tiếng Anh. Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng Anh được đề xuất bởi Justeson and Katz[28]. Tuy nhiên, do đặc thù của tiếng Việt là tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như trong bảng 2-2. Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N đại diện cho danh từ. Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn dựa trên tần số. Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này. Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh AN Linear function NN Regression coefficients AAN Gaussian random variable ANN Cumulative distribution function NAN Mean squared error NNN Class probability function NPN Degree of freedom Trong đó, A: tính từ, N: danh từ và P: giới từ. 8
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt NA Cà_phê đặc NN Áo sơmi, VN Hát ông_ổng, nói the_thé… VA Sống lâu, chạy nhanh… Đây là phương pháp đơn giản nhất để trích chọn collocations trong văn bản. Tuy nhiên, phương pháp này đòi hỏi bộ dữ liệu vào lớn và độ chính xác của chương trình phụ thuộc nhiều vào độ lớn của corpus dữ liệu. Thêm vào đó, nó chỉ trích chọn được các collocation là cặp từ cố định, trong khi đó, có rất nhiều collocation xuất hiện trong văn bản không đi liền nhau. 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT Trong rất nhiều trường hợp, hai từ có thể ngẫu nhiên xuất hiện cùng nhau mà không lập thành collocation. Với những trường hợp như vậy, chúng ta không thể áp dụng cách tiếp cận dựa trên tần số. Vì thế, phương pháp kiểm định giả thuyết được đưa ra. Bản chất của phương pháp kiểm định giả thuyết là đưa ra kết luận chấp nhận hoặc bác bỏ giả thuyết rỗng. Trong bài toán trích chọn collocations, phép kiểm định giả thuyết giúp chúng ta xác định xem hai từ xuất hiện cùng nhau một cách ngẫu nhiên hay đó là một collocation. Giả thuyết ban đầu H0 là không có sự liên quan giữa các từ ngoài các sự xuất hiện ngẫu nhiên. Từ giả thuyết rỗng này, chúng ta xác định các sự kiện xảy ra nếu H0 đúng. Tính xác suất p xuất hiện sự kiện khi H0 đúng và loại H0 n ếu p quá thấp (thông thường p
là giá trị trung bình mẫu (= count(w1, w2) / N),  là trung bình phân phối Trong đó (trong bài toán này, ta coi  = P(w1w2 ), 2 là phương sai mẫu (= p(1-p) ≈ p (với p rất nhỏ)) và N là cỡ mẫu. Sau khi đã tính xong giá trị của t, chúng ta tra bảng phân phối của t ứng với độ lệch α tương ứng. Nếu t lớn hơn giá trị t0 ứng với độ lệch  xác định, ta có thể loại bỏ giả thuyết H0 với độ chính xác (1-). Ví dụ áp dụng t-test: Giả thuyết rỗng của chúng ta được phát biểu như sau: trung bình chiều cao của nam giới là 158cm. Chúng ta xét một tập mẫu gồm chỉ số chiều cao của 200 nam giới, với = 169 và σ2 = 2600 và chúng ta muốn xác định tập mẫu này có được lấy từ tập dân số đang xét ở trên không, nói cách khác nó có tuân theo giả thuyết rỗng không. Giá trị của t được tính như sau: ≈ 3.05 t= Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị t0 = 2.576. Vì t = 3.05 > 2.576 = t0 nên chúng ta có thể bác bỏ giả thuyết rỗng với độ chính xác 99.5%. Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác của phép kiểm tra lên đến 99.5%. Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta tính toán giá trị t cho cụm từ new companies. Chúng ta coi corpus dữ liệu là một dãy gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram, nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0 trong trường hợp ngược lại. Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất hiện 4675 lần, và có tất cả 14,307,668 bigrams. Giá trị xác suất cho new và companies được tính như sau: P(new) = = P(companies) Giả thuyết rỗng được phát biểu rằng new và companies xuất hiện độc lập với nhau. Hay: 10