LUẬN VĂN:TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

Chia sẻ: Sunflower Sunflower_1 | Ngày: | Loại File: PDF | Số trang:69

Thêm vào BST

Báo xấu

292
lượt xem 86
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu vô cùng phong phú. Việc sao chép tài liệu theo nghĩa tiêu cực như đạo văn, sao chép các luận văn, luận án, đồ án trở nên phổ biến và đang là vấn nạ. Ở quy mô rộng hơn, các thư viện điện tử ngày càng nhiều, một tài liệu có thể phát hành trên internet nhiều lần trong những thư viện điện tử khác nhau, trên các trang web khác nhau

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: LUẬN VĂN:TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------------------- Đỗ Thị Thanh Nga TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ LUẬN VĂN THẠC SĨ HÀ NỘI - 2010
LỜI CẢM ƠN Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS. Nguyễn Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian làm luận văn tốt nghiệp, thầy đã dành nhiều thời gian quí báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn. Tôi xin được cảm ơn các GS, TS đã giảng dạy tôi trong quá trình học tập và làm luận văn. Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có thể vận dụng các kiến thức đó vào trong công tác của mình. Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này. Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên chắc chắn luận văn này còn nhiều thiếu sót và hạn chế. Kính mong nhận được sự góp ý của thầy cô và các bạn. Hà Nội, ngày 20 tháng 09 năm 2010 Học viên Đỗ Thị Thanh Nga
LỜI CAM ĐOAN Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực. Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Hà Nội, ngày 20 tháng 09 năm 2010 Học viên Đỗ Thị Thanh Nga
MỤC LỤC DANH MỤC CÁC BẢNG ..................................................................................................... 1 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................................. 2 MỞ ĐẦU ............................................................................................................................... 3 CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ.......................................................................... 5 1.1. Tổng quan về độ tương tự............................................................................................ 5 1.2. Khái niệm độ tương tự................................................................................................. 6 1.2.1. Định nghĩa độ tương tự (Definition of Similarity) ................................................ 7 1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values) .............................. 8 1.2.3. Độ tương tự chuỗi (String Similarity-A case study) .............................................. 9 1.3. Độ tương tự ngữ nghĩa............................................................................................... 10 CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ ............................................................................... 11 2.1. Khái niệm từ, thuật ngữ ............................................................................................. 11 2.1.1. Từ và cấu trúc từ của tiếng Việt .......................................................................... 11 2.1.1.1. Định nghĩa từ ............................................................................................... 11 2.1.1.2. Cấu trúc từ của tiếng Việt ............................................................................ 11 2.1.2. Nghĩa của từ ....................................................................................................... 12 2.1.3. Thuật ngữ (terms) ............................................................................................... 12 2.2. Từ đồng nghĩa ........................................................................................................... 12 2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa .......................................................... 14 2.3.1. Dựa trên trí tuệ nhân tạo (AI-based) .................................................................... 14 2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) ........................................................ 14 2.3.3. Dựa trên ngữ liệu (Corpus-based) ....................................................................... 14 2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet)...................... 15 2.4.1. Khái quát về từ điển WordNet ............................................................................ 15 2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet ....................................................... 16 2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu ........................................................... 17 2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) ............... 18 2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) .................................. 18 2.5.3. Phương pháp của Dekang Lin ............................................................................. 18 CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN ..................................................... 21 3.1. Xử lý văn bản tiếng Việt ............................................................................................ 21 3.1.1. Một số kết quả đã đạt được................................................................................. 21 3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt ........................................................ 23 3.2. Tách từ trong văn bản tiếng Việt ................................................................................ 23 3.3. Các hướng tiếp cận tách từ ........................................................................................ 24 3.3.1. Các hướng tiếp cận dựa trên “từ” ....................................................................... 24 3.3.2. Các hướng tiếp cận dựa trên ký tự ...................................................................... 25 3.4. Một số phương pháp tách từ tiếng Việt hiện nay ........................................................ 26 3.4.1. Phương pháp Maximum Matching: Forward/Backward ..................................... 26 3.4.2. Phương pháp Transformation-based Learning (TBL) ......................................... 27 3.4.3. Mô hình tách từ bằng WFST và mạng Neural .................................................... 27 3.4.3.1. Tầng WFST ................................................................................................. 27 3.4.3.2. Tầng mạng Neural ....................................................................................... 28 3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền ........................................................................................................................... 28 3.4.4.1. Online Extractor........................................................................................... 28 3.4.4.2. GA Engine for Text Segmentation ............................................................... 29 3.4.5. Nhận xét ............................................................................................................. 29 3.5. Độ tương tự văn bản-văn bản..................................................................................... 30
CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ ........................................................................................................ 33 3.1. Phát biểu bài toán ...................................................................................................... 33 3.2. Giải quyết bài toán .................................................................................................... 33 3.2.1. Chuẩn bị dữ liệu ................................................................................................. 33 3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng ................................. 36 3.2.2.1. Tách từ ghép trong văn bản .......................................................................... 36 3.2.2.2. Tách danh từ riêng trong văn bản ................................................................. 39 3.2.3. Tính toán độ tương tự văn bản ............................................................................ 41 3.3. Xây dựng hệ thống .................................................................................................... 44 3.3.1. Nhập trực tiếp 2 văn bản .................................................................................... 45 3.3.2. Nhập 2 văn bản từ file ........................................................................................ 46 3.3.3. Lấy nội dung 2 văn bản từ URL ......................................................................... 47 3.4. Kết quả thử nghiệm và đánh giá ................................................................................ 48 3.4.1. Một số ví dụ cụ thể ............................................................................................. 48 3.4.2. Kết quả thử nghiệm ............................................................................................ 54 3.4.2.1. Cách tiến hành ............................................................................................. 54 3.4.2.2. Kết quả thử nghiệm ...................................................................................... 54 3.4.3. Đánh giá ............................................................................................................. 59 KẾT LUẬN ......................................................................................................................... 61 HƯỚNG PHÁT TRIỂN ....................................................................................................... 62 TÀI LIỆU THAM KHẢO .................................................................................................... 63
1 DANH MỤC CÁC BẢNG Bảng Trang Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 11 Bảng 2. Mô tả các bộ ba của từ “giàu” 19 Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh 24 Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web 54 Bảng 5. Một số kết quả độ tương tự của hai file bất kỳ 55 Bảng 6. Kết quả đánh giá 20 tin tức do người và máy thực hiện 56 Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web 56 Bảng 8. Một số kết quả độ tương tự của hai tin rao vặt bất kỳ 58 Bảng 9. Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện 59
2 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Trang Hình 1. Ví dụ phân phối của các giá trị có thứ tự ưu tiên 9 Hình 2. Một phần từ điển WordNet 16 Hình 3. Các hướng tiếp cận cơ bản trong việc tách từ 24 Hình 4. Một phần của từ điển Dict 34 Hình 5. Danh sách một số file trong kho ngữ liệu đã xử lý 34 Hình 6. Một phần của từ điển các từ ghép 35 Hình 7. Một phần từ điển CompoundDict 35 Hình 8. Giao diện chính của hệ thống 45 Hình 9. Giao diện cho phép nhập trực tiếp hai văn bản 45 Hình 10. Giao diện kết quả độ tương tự sau khi nhập hai văn bản 46 Hình 11. Giao diện nhập hai văn bản từ file 46 Hình 12. Giao diện kết quả sau khi nhập hai văn bản từ file 47 Hình 13. Giao diện tính độ tương tự nội dung của hai trang Web 48
3 MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu là vô cùng phong phú. Việc “sao chép tài liệu” theo nghĩa tiêu cực như đạo văn, sao chép các luận án, luận văn, đồ án trở nên phổ biến và đang là vấn nạn. Ở qui mô rộng hơn, các thư viện điện tử ngày càng nhiều, một tài liệu có thể được phát hành trên internet nhiều lần trong những thư viện điện tử khác nhau, trên các trang web khác nhau. Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế nào ngăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề này đã được nghiên cứu từ khoảng hơn 10 năm qua. Hiện tại, đã có một số giải pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu nguồn hay không. Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập hợp trước trong một thư viện điện tử- hoặc là mở, chẳng hạn như tập các tài liệu văn bản trên internet. Đã có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định xem một đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay không. Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi. Tuy nhiên, các phương pháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là “nguyên văn”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc sao chép khi có sửa đổi đôi chút như thay thế một số từ bằng từ đồng nghĩa hay thay đổi một ít trong thứ tự các câu trong văn bản. Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi. 2. Mục tiêu của luận văn Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có đ ược sao chép từ văn bản kia hay không. 3. Đối tượng và nhiệm vụ của luận văn Đối tượng:  Tập các văn bản trong bộ dữ liệu mẫu.  Tập các tài liệu trên Internet.
4 Nhiệm vụ: Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương tự giữa từ với từ và tập các từ đồng nghĩa. 4. Phương pháp và nội dung nghiên cứu  Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ.  Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa.  Tìm hiều các cách tách từ trong văn bản tiếng Việt.  Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ tương tự giữa từ với từ. 5. Kết cấu của luận văn Nội dung chính của luận văn gồm 4 chương:  Chương I: Khái niệm độ tương tự.  Chương II: Độ tương tự từ-từ.  Chương III: Độ tương tự văn bản-văn bản.  Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ.
5 CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ 1.1. Tổng quan về độ tương tự Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và không theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện ở nhiều dạng, diễn xuất, và nhiều ứng dụng. Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những khác biệt, chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết. Vì lý do đó, hai đối tượng được đem so sánh giữ những vai trò khác nhau. Đối tượng thứ nhất đang được xem xét và được gọi là vấn đề (problem). Đối tượng thứ hai là đã biết và đã lưu; thường được gọi là bản mẫu (prototype) hay tình huống (case). “Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề, nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phương pháp khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường (không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau. Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:  Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn đề bằng cách sử dụng các kinh nghiệm trước đó. Những kinh nghiệm này được ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tưởng bên dưới nhằm tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các giải pháp tương tự”. CBR cũng có một giả định cơ bản là luôn tồn tại kinh nghiệm. Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng dụng. Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi).
6  Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm, và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác. Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geo- database).  Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự tương tự” thường đóng một vai trò quyết định.  Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác nhau.  Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh y khoa thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tự giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay không. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này.  Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa những con người tương xứng mức độ nào. Có nhiều dạng mô hình về sự tương tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính (featural), dựa trên canh lề (alignment-based), và biến đổi (transformational).  Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,… Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai văn bản giống nhau càng nhiều. 1.2. Khái niệm độ tương tự Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một dạng thể hiện của tri thức. Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin (Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo
7 dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử dụng trong tìm kiếm thông tin (McGill et al., 1979). Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể. Ví dụ độ đo về độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al., 1989) thừa nhận rằng phạm vi được thể hiện trong một mạng. Nếu một tập các tài liệu không được thể hiện như một mạng, độ đo dựa trên khoảng cách sẽ không được áp dụng. Hệ số dice (súc sắc) và hệ số cosin chỉ có thể được áp dụng khi các đối tượng được thể hiện như các vecto đặc trưng bằng số. Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ bản của chúng thường không ở trạng thái rõ ràng. Ngoài việc biết các giả định này, không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào. Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa trên kết quả do kinh nghiệm. Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:  Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ lý thuyết thông tin. Điều đó có thể được áp dụng miễn là phạm vi có một mô hình xác suất. Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước. Hơn nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh vực không có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ tự.  Tính giả định (Theoretical Justification): độ đo độ tương tự không được định nghĩa một cách trực tiếp bởi công thức. Hơn nữa, nó được phân phát từ một tập các giả định về độ tương tự. Mặt khác, nếu các giả định được cho là hợp lý, độ đo độ tương tự cần thiết phải xảy ra. 1.2.1. Định nghĩa độ tương tự (Definition of Similarity) Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự.  Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của chúng. Sự tương đồng càng nhiều, độ tương tự càng lớn.
8  Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp.  Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt nhau (đồng nhất - identical) 1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values) Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng” có thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”. Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng. Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và average”. Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa chúng. Giả sử phân phối của thuộc tính “chất lượng” được nêu ra như ở hình 1. Sau đây là 4 ví dụ tính độ tương tự: 2  log P(excellent  good) sim(excellent, good) = log P(excellent) + log P(good) 2  log(0.05  0.10)   0.72 log 0.05  log 0.10 2  log P(good  average) sim (good, average) = log P(average) + log P(good) 2  log(0.10  0.50)   0.34 log 0.10  log 0.50 2  log P(excellent  good  average) sim(excellent, average) = log P (excellent) + log P(average) 2  log(0.05  0.10  0.50)   0.23 log 0.05  log 0.50 2  log P(good  average  bad) sim(good, bad) = log P( good) + log P(bad) 2  log(0.10  0.50  0.20)   0.11 log 0.10  log 0.20
9 Hình 1: Ví dụ phân phối của các giá trị có thứ tự ưu tiên Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ tương tự giữa “good” và “average”, độ tương tự giữa “excellent” và “average” cao hơn độ tương tự giữa “good” và “bad”. 1.2.3. Độ tương tự chuỗi (String Similarity-A case study) Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ cùng một gốc như là một từ cho sẵn. Ví dụ, cho trước từ “eloquently”, mục đích của chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”, “eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng xếp hạng. Chúng ta tiến hành thử nghiệm với 3 độ đo sau:  Độ đo đầu tiên được định nghĩa như sau: 1 simedit ( x, y )  1  editDist ( x, y ) ở đó editDist(x,y) là số kí tự nhỏ nhất cần chèn vào và xóa đi để chuyển từ xâu này thành xâu khác.  Độ đo độ tương tự thứ hai là dựa trên số bộ ba khác nhau trong hai xâu: 1 simtri ( x, y )  1  tri( x)  tri( y )  2  tri( x)  tri( y )
10 ở đó tri(x) là tập các bộ ba trong x. Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}  Độ đo độ tương tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra trong một từ là độc lập với các bộ ba khác trong từ đó. 2   ttri ( x )tri ( y ) log P (t ) sim( x, y )   log P (t )   ttri ( y ) log P(t ) ttri ( x ) 1.3. Độ tương tự ngữ nghĩa Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của chúng. Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản tương tự nhau thì cùng thuộc một lớp),… Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khác nhau. Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo tương từ giữa văn bản-văn bản.
11 CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ 2.1. Khái niệm từ, thuật ngữ 2.1.1. Từ và cấu trúc từ của tiếng Việt 2.1.1.1. Định nghĩa từ Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào thì không đơn giản. Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều đúng nhưng chưa hoàn chỉnh. Dưới đây, tôi nêu ra một số định nghĩa về từ. Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị nhỏ nhất trong chuỗi lời nói”. Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa, hoàn toàn có khả năng độc lập và bản thân có thể làm thành câu tối giản”. Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị tách rời có thể hiểu được”. Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo”. Quan niệm của ông về “đơn vị cơ bản” là những đơn vị có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau. Đơn vị này phải có ý nghĩa, và khi sử dụng, người dùng phải có ý thức về nó. Chính vì thế, từ không thể là câu, và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa và khi sử dụng, người dùng không ý thức về nó). Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu”. Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ dày, đen sì, v.v.. 2.1.1.2. Cấu trúc từ của tiếng Việt Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để xác định từ loại. Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên. Theo như thống kê trên trang http://Vdict.com thì độ dài của một từ tiếng Việt được thể hiện trong bảng: Độ dài của từ Tần số Tỉ lệ % 1 8933 12.2 2 48995 67.1
12 3 5727 7.9 4 7040 9.7 ≥5 2301 3.1 Tổng cộng 72994 100 Bảng 1: Tấn suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 2.1.2. Nghĩa của từ Nghĩa của từ là một khái niệm đã được nêu ra từ lâu và cũng đã có nhiều cách hiểu, nhiều định nghĩa khác nhau. Nghĩa của từ cũng phản ánh những đặc trưng chung, khái quát của sự vật, hiện tượng do con người nhận thức được trong đời sống thực tiễn tự nhiên và xã hội. Tuy nhiên, nó có thể chưa phải là kết quả của nhận thức đã tiệm cận đến chân lí khoa học. Vì thế, sự vật, hiện tượng nào mà càng ít được nghiênc cứu, phám phá thì nhận thức về nó được phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học. Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn nhất trong xử lý ngôn ngữ tự nhiên. Nghĩa của từ chưa biết thường được suy ra từ văn cảnh sử dụng chúng. Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học định nghĩa một từ. 2.1.3. Thuật ngữ (terms) Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ: “máy tính”, “công nghệ phần mềm”, “tính toán song song”. Các thuật ngữ này thuộc về lĩnh vực “tin học”. Một thuật ngữ có thể có nhiều từ. Ví dụ: Thuật ngữ “công nghệ” gồm 2 từ “công” và “nghệ”, khi tách chúng ra thì 2 từ này không có ý nghĩa gì cả. 2.2. Từ đồng nghĩa Từ đồng nghĩa không phải là những từ trùng nhau hoàn toàn về nghĩa. Chúng nhất định có những dị biệt nào đó bên cạnh sự tương đồng (mặc dù phát hiện sự dị biệt đó không phải lúc nào cũng dễ dàng). Chính sự dị biệt đó lại là lí do tồn tại và làm nên những giá trị khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Rõ ràng tính đồng nghĩa có những mức độ khác nhau, và ta có thể nêu quan niệm như sau: Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách nào đó, hoặc đồng thời cả hai.
13 Ví dụ: - start, commence, begin (trong tiếng Anh) - cố, gắng, cố gắng (trong tiếng Việt) là những nhóm từ đồng nghĩa. Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng nghĩa. Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngôn ngữ tương ứng. Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể có tới dăm bảy nghĩa. Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó. Chính vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác. Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa được nêu lên để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như: + coi – xem: coi hát – xem hát + coi – giữ: coi nhà – giữ nhà Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm. Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” được gọi là từ trung tâm. Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ và đối với nhóm nào cũng làm được. Nhiều khi ta không thể xác định một cách dứt khoát được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng. Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc chờ, đợi; hoặc chỗ, nơi, chốn,... rất khó xác định từ nào là trung tâm. Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết được những nét giống nhau, khác nhau giữa các từ trong mỗi nhóm, luôn luôn làm mong muốn của những người nghiên cứu và xử lí vấn đề từ đồng nghĩa.
14 Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho người ta sử dụng được chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của người bản ngữ hơn. Điều đó rất quan trọng đối với việc dạy và học tiếng. 2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là “khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều mô hình với nhiều hướng tiếp cận khác nhau, chủ yếu là: 2.3.1. Dựa trên trí tuệ nhân tạo (AI-based) Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ như IS-A, PART- OF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều được xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức. 2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển đồng nghĩa…để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đời của mạng WordNet – Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa. Tuy nhiên, các cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự xác định trong từng trường hợp cụ thể. 2.3.3. Dựa trên ngữ liệu (Corpus-based) Hướng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường hợp mới. Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển. Mãi tới thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay. Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.
15 2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet) 2.4.1. Khái quát về từ điển WordNet Wordnet là một cơ sở dữ liệu tri thức từ vựng học được thiết kế dựa trên những lý thuyết về ngôn ngữ tâm lý theo cách liên tưởng từ ngữ của con người. WordNet được tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một quan hệ giữa các nghĩa và các nghĩa có thể được đại diện bởi nhiều synset. Và chúng ta có thể xem những quan hệ ngữ nghĩa như là những con trỏ giữa các synset. Đó là đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau. Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại có thể chứa một hoặc nhiều hơn một từ khác nhau. Xét ví dụ sau: Ví dụ: Khi tìm từ letter trong WordNet ta sẽ được kết quả như sau:  The noun letter has 4 senses: i. Letter, missive: a written message addressed to a person or organization; “wrote an indignant letter to the editor” ii. Letter, letter of the alphabet, alphabetic character: the conventional characters of the alphabet used to represent speech; “his grandmother tauch him his letter”. iii. Letter: a strictly literal interpretation (as distinct from the intention); “he followed instructions to the letter ”; “he obeyed the letter of the law”. iv. Letter, varsity letter: an award earned by participation in a school sport; “he won letters in three sports ”.  Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa: i. Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là “lá thư”, “thư tín”. ii. Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character với nghĩa tiếng Việt tương ứng là “ký tự”, “chữ” hay “chữ cái”. iii. Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”, “nghĩa mặt chữ”.