Luận án Tiễn sĩ Khoa học Máy tính: Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ Chuyên ngành Khoa học Máy tính

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:159

Thêm vào BST

Báo xấu

30
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài nhằm nghiên cứu và đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn ngữ đích cũng như nghiên cứu và đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiễn sĩ Khoa học Máy tính: Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ Chuyên ngành Khoa học Máy tính

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG   Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS.TS. Võ Trung Hùng 2. PGS.TS. Huỳnh Công Pháp ĐÀ NẴNG - 2017
LỜI CAM ĐOAN Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp. Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác. Tôi xin chịu trách nhiệm về những lời cam đoan của tôi. Tác giả, Lâm Tùng Giang -i-
MỤC LỤC MỞ ĐẦU .................................................................................................................... 1 1. ĐẶT VẤN ĐỀ ....................................................................................................... 1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5 2.1. Mục tiêu ............................................................................................................ 5 2.2. Đối tượng .......................................................................................................... 5 2.3. Phạm vi ............................................................................................................. 5 3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6 4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8 CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9 1.1. TRUY VẤN THÔNG TIN .................................................................................. 9 1.1.1. Khái niệm ....................................................................................................... 9 1.1.2. Định nghĩa hình thức .................................................................................... 10 1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin.................................................. 10 1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12 1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16 1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19 1.2.1. Khái niệm ..................................................................................................... 19 1.2.2. Các độ đo ..................................................................................................... 20 1.2.3. Môi trường thực nghiệm ............................................................................... 22 1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ........................................................ 24 1.3.1. Khái niệm ..................................................................................................... 24 1.3.2. Các hướng tiếp cận ....................................................................................... 24 1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25 1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25 - ii -
1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25 1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26 1.4.3. Học xếp hạng ............................................................................................... 28 1.4.4. Khai thác thông tin người sử dụng ................................................................ 30 1.5. XẾP HẠNG TRANG WEB .............................................................................. 31 1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31 1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32 1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36 1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37 1.6.1. Hạn chế ........................................................................................................ 37 1.6.2. Đề xuất nghiên cứu....................................................................................... 37 1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41 CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ................ 42 2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42 2.1.1. Sử dụng máy dịch ......................................................................................... 42 2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43 2.1.3. Sử dụng từ điển ............................................................................................ 44 2.1.4. Sử dụng ngôn ngữ trung gian........................................................................ 44 2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45 2.1.6. Đánh giá chung ............................................................................................ 45 2.2. KHỬ NHẬP NHẰNG....................................................................................... 46 2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47 2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48 2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49 2.3.3. Các biến thể của công thức MI ..................................................................... 49 2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51 - iii -
2.3.5. Xây dựng câu truy vấn.................................................................................. 58 2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62 2.4.1. Môi trường thực nghiệm ............................................................................... 62 2.4.2. Kết quả thực nghiệm .................................................................................... 64 2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65 2.5.1. Môi trường thực nghiệm ............................................................................... 65 2.5.2. Cấu hình thực nghiệm .................................................................................. 65 2.5.3. Kết quả thực nghiệm .................................................................................... 66 2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67 CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69 3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69 3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69 3.1.2. Mở rộng câu truy vấn ................................................................................... 70 3.1.3. Thu hẹp câu truy vấn .................................................................................... 71 3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72 3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73 3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73 3.2.2. Thuật toán WLQS ........................................................................................ 73 3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75 3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78 3.3.1. Phản hồi ẩn ................................................................................................... 79 3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81 3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82 3.4. THỰC NGHIỆM .............................................................................................. 86 3.4.1. Cấu hình thực nghiệm .................................................................................. 86 3.4.2. Kết quả ......................................................................................................... 87 - iv -
3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89 CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91 4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN.............................. 91 4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93 4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94 4.1.3. Đánh giá ....................................................................................................... 96 4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97 4.2.1. Mô hình CL-Büttcher ................................................................................... 98 4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99 4.2.3. Mô hình xếp hạng CL-HighDensity............................................................ 100 4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101 4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103 4.3.1. Các mô hình học xếp hạng.......................................................................... 103 4.3.2. Môi trường thực nghiệm ............................................................................. 106 4.3.3. Cấu hình thực nghiệm ................................................................................ 109 4.3.4. Kết quả thực nghiệm .................................................................................. 109 4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110 CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111 5.1. THIẾT KẾ HỆ THỐNG.................................................................................. 111 5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111 5.1.2. Dữ liệu từ điển ........................................................................................... 114 5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114 5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115 5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116 5.3.1. Cấu hình thực nghiệm ................................................................................ 116 5.3.2. Kết quả thực nghiệm .................................................................................. 117 -v-
5.3.3. Đánh giá ..................................................................................................... 119 5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119 5.4.1. Cấu hình thực nghiệm ................................................................................ 119 5.4.2. Kết quả thực nghiệm .................................................................................. 120 5.4.3. Đánh giá ..................................................................................................... 121 5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121 5.5.1. Cấu hình thực nghiệm ................................................................................ 122 5.5.2. Kết quả thực nghiệm .................................................................................. 123 5.5.3. Đánh giá ..................................................................................................... 125 5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125 5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129 1. KẾT LUẬN ....................................................................................................... 129 1.1. Tóm tắt nội dung luận án ............................................................................... 129 1.2. Các kết quả đạt được ..................................................................................... 129 2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132 TÀI LIỆU THAM KHẢO ..................................................................................... 133 - vi -
DANH MỤC HÌNH VẼ Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11 Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22 Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38 Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39 Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn.............................. 71 Hình 3.2: Phản hồi của người dùng ............................................................. 79 Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79 Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88 Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh ................................. 107 Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh ............ 111 Hình 5.2: Sơ đồ thuật toán của hệ thống.................................................... 112 Hình 5.3: So sánh các cấu hình dùng 1 bản dịch ....................................... 118 Hình 5.4: So sánh các cấu hình dùng 3 bản dịch ....................................... 119 Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp ................... 124 Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all ............. 127 Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight ...... 128 - vii -
DANH MỤC BẢNG Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng............ 18 Bảng 2.1: Cấu hình thực nghiệm ................................................................. 63 Bảng 2.2: Kết quả thực nghiệm ................................................................... 64 Bảng 2.3: So sánh P@k và MAP các cấu hình ............................................ 66 Bảng 3.1: Điểm số MAP ............................................................................. 87 Bảng 3.2: Số lượng tài liệu phù hợp tải về .................................................. 88 Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED................................ 92 Bảng 4.2 So sánh giá trị MAP ..................................................................... 95 Bảng 4.3 So sánh giá trị NDCG@k............................................................. 96 Bảng 4.4: So sánh giá trị P@k .................................................................... 96 Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm ................................ 102 Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận .................. 102 Bảng 4.7: Các phương án hàm distance .................................................... 105 Bảng 4.8: Kết quả thực nghiệm ................................................................. 109 Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn .............. 116 Bảng 5.2: So sánh các giải pháp dịch câu truy vấn .................................... 117 Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn ................... 120 Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn .......................... 121 Bảng 5.5: Cấu hình thực nghiệm học xếp hạng ......................................... 122 Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng ................ 123 Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất............................... 125 - viii -
DANH MỤC TỪ VIẾT TẮT AP Average Precision CLEF Cross Language Evaluation Forum CLIR Cross Language Information Retrieval DF Document frequency FIRE Forum for Information Retrieval Evaluation GP Genetic Programming HITS Hypertext Induced Topic Search HTML Hyper Text Markup Language IDF Inverse Document Frequency IR Information Retrieval LETOR LEearning TO Rank LMIR Language Models in Information Retrieval LSI Latent Sematic Indexing MAP Mean Average Precision MI Mutual Information MRD Machine Readable Dictionary NDCG Normalized Discount Cumulative Gain PRF Pseudo-Relevance Feedback SMI Summary Mutual Information SVD Singular-Value Decomposition TF Term frequency TREC Text REtrieval Conference UNL Universal Network Language VSM Vector Space Model WLQS Word-Length-based Query Segmentation WWW Word Wide Web - ix -
DANH MỤC THUẬT NGỮ Anchor Mốc, neo Authority Độ tin cậy Average Precision Độ chính xác trung bình Bag of Words Túi từ Bilingual Machine Readable Dictionary Từ điển máy song ngữ Binary Independence Retrieval – BIR Mô hình truy vấn nhị phân độc lập Boolean model Mô hình Boolean Cohesion Score Điểm liên kết Cross Language Information Retrieval - Truy vấn thông tin xuyên ngữ CLIR Cross-language Web Search Tìm kiếm web xuyên ngữ Data sparsity Tính thưa thớt dữ liệu Degree of similarity Mức độ tương tự Discounted Cumulative Gain Độ lợi tích lũy giảm dần Fuzzy-Logic model Mô hình lô-gic mờ Gain Function Hàm lợi ích Hub Trung tâm Hyper Text Markup Language-HTML Ngôn ngữ siêu văn bản Hyperlink Siêu liên kết Information Retrieval – IR Truy vấn thông tin Inverse document frequency – IDF Tần suất tài liệu nghịch đảo IR model Mô hình truy vấn thông tin Language Model – LMIR Mô hình ngôn ngữ Latent Sematic Indexing - LSI Mô hình chỉ mục ngữ nghĩa ngầm Learning to Rank Học xếp hạng Loss Function Hàm tổn thất Machine Learning - ML Học máy -x-
Mean Average Precision Độ chính xác trung bình bình quân Meta tag Thẻ cung cấp thông tin trang web Mutual Information - MI Thông tin tương hỗ Precision Độ chính xác Probabilistic model Mô hình xác suất Proximity Model Mô hình lân cận Pseudo-Relevance Feedback – PRF Phản hồi giả Query Câu truy vấn Recall Độ bao phủ Regions models Mô hình vùng Relevant information Thông tin phù hợp Singular-Value Decomposition – SVD Phân tích giá trị đơn Summary Mutual Information Tổng thông tin tương hỗ Term frequency – TF Tần suất xuất hiện của thuật ngữ trong tài liệu Three-way data dữ liệu 3 hướng True Relevance Feedback Phản hồi thực sự Two-way data dữ liệu 2 hướng Vector Space model – VSM Mô hình không gian vec-tơ Word-length-based Query Segmentation Phân đoạn câu truy vấn dựa trên độ dài từ World Wide Web Mạng lưới thông tin toàn cầu - xi -
MỞ ĐẦU 1. ĐẶT VẤN ĐỀ Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng 0,6% tổng số các website2. Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác nhau [134]. Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ (Cross-language Information Retrieval - CLIR) - một lĩnh vực con của truy vấn thông tin (Information Retrieval - IR) - và việc khai thác các đặc thù riêng của các trang web. Truy vấn thông tin quan tâm vấn đề tìm kiếm thông tin phù hợp hay tài liệu chứa các thông tin như vậy dựa trên nhu cầu thông tin của người sử dụng từ một tập hợp lớn các tài liệu (được gọi là kho tài liệu). Nhu cầu thông tin được biểu diễn dưới dạng câu truy vấn. Một tài liệu được coi là phù hợp nếu chứa thông tin phù 1 http://www.worldwidewebsize.com/ (truy cập 26/12/2015) 2 http://w3techs.com/technologies/overview/content_language/all (truy cập 26/12//2015) -1-
hợp với câu truy vấn. Mặc dù sự phù hợp là một khái niệm quan trọng trong truy vấn thông tin và được đề cập tới trong mọi nghiên cứu liên quan, cho đến nay vẫn tồn tại các cách hiểu khác nhau về thuật ngữ này [12], [105]. Một cách lý tưởng, một hệ thống truy vấn thông tin cần có khả năng xác định các tài liệu phù hợp dựa trên nội dung, ý nghĩa của tài liệu và câu truy vấn chứ không phải dựa theo cách biểu diễn của chúng. Ví dụ, từ câu truy vấn "các thảm họa thiên nhiên", cần lọc ra các tài liệu chứa các thông tin liên quan đến "động đất", "sóng thần", hay "núi lửa". Tuy nhiên, trên thực tế hầu hết các hệ thống truy vấn thông tin tính toán mức độ phù hợp của các tài liệu dựa trên cách thức biểu diễn văn bản (ví dụ thông qua các từ khóa chứa bên trong) và chưa có khả năng phân tích ý nghĩa văn bản [4], [43], [100]. Trong truy vấn thông tin xuyên ngữ, việc xác định tính phù hợp còn phức tạp hơn do câu truy vấn và các tài liệu được viết bằng các ngôn ngữ khác nhau [113]. Xếp hạng trong truy vấn thông tin liên quan đến việc tạo lập kết quả khi thực hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu cầu truy vấn. Trong tìm kiếm web xuyên ngữ, hai vấn đề chính của việc xếp hạng kết quả tìm kiếm bao gồm: (1) sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài liệu cần tìm kiếm; (2) nhu cầu hiển thị các tài liệu phù hợp nhu cầu truy vấn tại đầu danh sách kết quả, tạo điều kiện truy cập thuận lợi cho người sử dụng. Nhằm giải quyết các vấn đề này, cần thực hiện hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ dịch thuật, thực hiện việc biểu diễn câu truy vấn và các tài liệu trong một không gian chung, cụ thể là trong cùng một ngôn ngữ. Thứ hai là nhiệm vụ xếp hạng, thông qua việc triển khai các giải pháp kỹ thuật và các thước đo, thực hiện việc đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn. Mục tiêu chung của các nhiệm vụ này là nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm. Có nhiều thước đo khác nhau được sử dụng nhằm đánh giá các hệ thống truy vấn thông tin, bao gồm kích thước kho tài liệu, thời gian đáp ứng, cách biểu diễn kết quả, mức độ nỗ lực của người sử dụng, độ bao phủ, độ chính xác [26]; trong đó hai thước đo cuối được sử dụng phổ biến nhất và được coi là các thước đo chính về hiệu quả của một hệ thống [100], [155]. Đặc biệt, độ chính xác cao của một hệ thống liên quan trực tiếp đến việc xếp hạng các kết quả tìm kiếm, đảm bảo các tài -2-
liệu đứng đầu danh sách kết quả tìm kiếm là các tài liệu phù hợp với nhu cầu truy vấn thông tin. Vấn đề được quan tâm nhất trong các nghiên cứu về CLIR thường liên quan chất lượng dịch thuật [128]. Để giải quyết vấn đề này, 3 hướng tiếp cận chủ yếu trong CLIR là dịch câu truy vấn, dịch tài liệu hay chuyển cả câu truy vấn và các tài liệu sang một ngôn ngữ trung gian [172]. Hướng tiếp cận phổ biến là dịch câu truy vấn sang ngôn ngữ của các tài liệu cần tìm kiếm, sau đó sử dụng các công cụ truy vấn đơn ngữ ở ngôn ngữ này. Công việc dịch thuật được thực hiện bằng nhiều phương pháp khác nhau: sử dụng từ điển, sử dụng các kho ngữ liệu song song, áp dụng công cụ dịch máy. Trong các phương pháp dịch tự động phục vụ truy vấn thông tin xuyên ngữ, việc sử dụng từ điển để dịch câu truy vấn được áp dụng rộng rãi nhờ tính đơn giản và sự có sẵn của các từ điển máy song ngữ (Machine Readable Dictionary - MRD) [94], [119]. Các kết quả nghiên cứu cho thấy, do các khó khăn gây ra bởi sự nhập nhằng ngữ nghĩa của các từ trong câu truy vấn và độ bao phủ của từ điển, hiệu quả xếp hạng của các hệ thống CLIR dựa trên từ điển còn khá hạn chế và phụ thuộc nhiều vào các cặp ngôn ngữ cụ thể [172]. Theo đánh giá của Ballesteros và Croft [7], các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển có chất lượng dưới 60% so với các hệ thống đơn ngữ - đo bằng tỷ lệ giá trị độ chính xác trung bình bình quân (Mean Average Precision – MAP) của hai hệ thống. Đối với tiếng Việt, kết quả nghiên cứu của tác giả Ho Bao Quoc và các đồng sự [63] cho thấy do ảnh hưởng của việc phân đoạn câu truy vấn cũng như chất lượng dịch thuật, hiệu quả của hệ thống truy vấn xuyên ngữ Việt-Anh chỉ đạt 47,58% so với hệ thống truy vấn đơn ngữ (trong khi hệ thống truy vấn xuyên ngữ Anh-Việt đạt 72,27%). Từ đây có thể thấy, việc nghiên cứu nhằm phát triển các phương pháp tăng chất lượng dịch câu truy vấn, đặc biệt khi ngôn ngữ câu truy vấn không phải tiếng Anh, là một vấn đề cấp thiết và mang tính thời sự. Bên cạnh vấn đề dịch thuật, nhiều nghiên cứu được triển khai nhằm tăng hiệu quả xếp hạng. Hướng tiếp cận phổ biến là dựa trên các mô hình xếp hạng có sẵn trong truy vấn đơn ngữ (thực hiện sau khi dịch câu truy vấn). Một số công trình [11], [87], [157], [163] đề xuất tích hợp máy dịch thống kê vào mô hình xếp hạng -3-
xuyên ngữ. Ngoài ra, kỹ thuật học xếp hạng cũng được áp dụng nhằm nâng cao hiệu quả xếp hạng [96], [97], [122]. Nhìn chung, hầu hết các giải pháp xếp hạng đề xuất được triển khai độc lập với việc nghiên cứu vấn đề dịch thuật. Việc nghiên cứu kết nối, trao đổi thông tin giữa các mô-đun là cần thiết nhằm tăng hiệu quả của toàn hệ thống nhưng chưa được chú ý nhiều. Trong luận án, tác giả mong muốn tiếp tục sử dụng thông tin kết xuất từ quá trình dịch câu truy vấn phục vụ việc xếp hạng. Tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn bản truyền thống, vốn được áp dụng cho các hệ thống thư viện. Thứ nhất, người sử dụng Web không có xu hướng tìm tất cả tài liệu thỏa mãn nhu cầu truy vấn, mà mong muốn nhận được kết quả phù hợp trong khoảng 10 tài liệu đầu tiên trong danh sách kết quả tìm kiếm [16]. Điều này đặt ra yêu cầu về độ chính xác cao đối với hệ thống tìm kiếm Web. Thứ hai, trong cấu trúc một tài liệu siêu văn bản (Hyper Text Markup Language - HTML) chứa các thành phần như tiêu đề, tóm tắt, nội dung. Bên cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta tag. Các thành phần này có thể có mức độ tác động khác nhau trong việc tìm kiếm. Trong các nghiên cứu [33], [70], [124], [145], việc xây dựng đa chỉ mục và gán trọng số khác nhau cho các thành phần của trang web giúp tăng độ chính xác trong kết quả tìm kiếm. Điều này cho thấy một hệ thống tìm kiếm web nên được thiết kế khác biệt so với một hệ thống truy vấn thông tin văn bản truyền thống, khai thác cấu trúc đặc thù của các tài liệu có cấu trúc, nhằm nâng cao hiệu quả tìm kiếm. Hầu hết các giải pháp đã liệt kê đều giới hạn ở việc đề xuất gán trọng số một cách thủ công và do đó, cần các nghiên cứu tiếp theo nhằm khắc phục các hạn chế này. Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm nội dung nghiên cứu của luận án Tiến sĩ kỹ thuật của tác giả. Thông qua các công việc cải tiến chất lượng dịch thuật, kết hợp thông tin của quá trình dịch thuật trong quá trình xếp hạng, đề xuất phương án xếp hạng dựa trên việc sử dụng cấu trúc đặc thù của các trang web, tác giả đặt mục tiêu nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm; qua đó, đóng góp các kết quả lý thuyết đối với các lĩnh vực nghiên cứu liên quan, cũng -4-
như tạo ra khả năng ứng dụng thực tế trong việc xây dựng, triển khai các hệ thống tìm kiếm web xuyên ngữ cho các cơ quan, tổ chức. 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2.1. Mục tiêu Luận án đặt mục tiêu đề xuất một mô hình tìm kiếm web xuyên ngữ và các giải pháp kỹ thuật áp dụng tại các thành phần của mô hình nhằm nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm. Các mục tiêu cụ thể của luận án bao gồm:  Đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền xử lý câu truy vấn ở ngôn ngữ nguồn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn ngữ đích;  Đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web.  Kết hợp áp dụng các giải pháp đề xuất trong một mô hình tìm kiếm web xuyên ngữ nhằm nâng cao hiệu quả xếp hạng các tài liệu web trong danh sách kết quả tìm kiếm, cụ thể là nâng cao độ chính xác, áp dụng cho cặp ngôn ngữ Việt-Anh. 2.2. Đối tượng Các đối tượng nghiên cứu của luận án bao gồm:  Các kỹ thuật dịch áp dụng trong truy vấn thông tin xuyên ngữ;  Các kỹ thuật xử lý câu truy vấn trong truy vấn xuyên ngữ;  Các kỹ thuật xếp hạng lại kết quả truy vấn thông tin. 2.3. Phạm vi Với đối tượng nghiên cứu nêu trên và để đáp ứng mục tiêu nghiên cứu, luận án xác định phạm vi nghiên cứu như sau:  Luận án tập trung giải quyết hai bài toán dịch câu truy vấn và xếp hạng kết quả tìm kiếm web xuyên ngữ ; -5-
 Cặp ngôn ngữ được chú trọng nghiên cứu là cặp ngôn ngữ Việt-Anh; cụ thể là với câu truy vấn tiếng Việt và các văn bản tìm kiếm được viết bằng tiếng Anh;  Thước đo được sử dụng nhằm đánh giá hiệu quả hệ thống tìm kiếm là độ chính xác trung bình bình quân (Mean Average Precision - MAP) với 2 lý do chính: thứ nhất, đây là độ đo được sử dụng phổ biến tại các nghiên cứu về truy vấn thông tin; thứ hai, độ đo này liên quan trực tiếp tới khả năng các tài liệu đứng đầu danh sách kết quả tìm kiếm được đánh giá phù hợp với yêu cầu truy vấn;  Các kỹ thuật hỗ trợ truy vấn thông tin xuyên ngữ được tập trung nghiên cứu và áp dụng bao gồm phân đoạn câu truy vấn, sử dụng phản hồi ẩn và mở rộng câu truy vấn;  Luận án chú trọng nghiên cứu kỹ thuật học xếp hạng dựa trên lập trình di truyền;  Luận án sử dụng các máy tìm kiếm đơn ngữ có sẵn và không đi sâu nghiên cứu các vấn đề liên quan kỹ thuật được sử dụng trong các máy tìm kiếm đơn ngữ. 3. ĐÓNG GÓP CỦA LUẬN ÁN Trên cơ sở so sánh các kết quả đạt được với tình hình nghiên cứu hiện tại, luận án có những đóng góp trong việc nâng cao chất lượng dịch thuật và nâng cao hiệu quả xếp hạng lại kết quả tìm kiếm trong lĩnh vực tìm kiếm web xuyên ngữ, cụ thể như sau:  Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch câu truy vấn trên nền tảng của khái niệm Mutual Information về sự cùng xuất hiện của các thuật ngữ trong văn bản (chương 2). Phương pháp thứ nhất dựa trên hàm Summary Mutual Information (SMI) cho phép chọn một bản dịch tốt nhất cho mỗi từ khóa truy vấn và cho kết quả tốt hơn thuật toán khử nhập nhằng greedy được sử dụng rộng rãi [99]. Phương pháp thứ hai áp dụng thuật toán chọn bản dịch một cách tuần tự (SeQuential Translation - SQ), xác định danh sách các bản dịch tốt nhất -6-
được xếp theo thứ tự phù hợp cho mỗi từ khóa truy vấn, phục vụ việc xây dựng câu truy vấn có cấu trúc;  Đề xuất được phương pháp hiệu quả phục vụ tiền xử lý câu truy vấn (chương 3). Một cách cụ thể, tác giả đã đề xuất thuật toán phân đoạn WLQS (viết tắt của Word-length-based Query Segmentation) dựa trên độ dài của từ khóa; thuật toán được sử dụng đồng thời cùng công cụ mã nguồn mở vnTagger [89], thực hiện việc phân tích câu truy vấn thành các cụm từ cần dịch, đi kèm với các danh sách bản dịch ứng viên. Kết quả này phục vụ như đầu vào cho các phương pháp khử nhập nhằng trình bày trong chương 2;  Đề xuất được các phương pháp phục vụ xây dựng, cải tiến câu truy vấn tại ngôn ngữ đích (chương 3). Trên cơ sở câu truy vấn có cấu trúc được tạo lập bằng phương pháp chọn bản dịch một cách tuần tự trình bày tại chương 2, tác giả đề xuất mô hình hai bước dựa trên kỹ thuật phản hồi ẩn, tính toán lại trọng số các từ khóa truy vấn và áp dụng các công thức tính toán trọng số các thuật ngữ chứa trong các văn bản để mở rộng câu truy vấn. Thông qua thực nghiệm, tác giả xác định công thức kết hợp trọng số tf-idf cục bộ và trọng số idf toàn cục của các từ khóa mang lại hiệu quả tốt nhất, khi tăng điểm MAP của hệ thống lên đến 12%.  Đề xuất được các mô hình lân cận xuyên ngữ (chương 4). Các mô hình lân cận xuyên ngữ lần đầu tiên được xây dựng dựa trên cơ sở của các hàm xếp hạng lân cận đơn ngữ đã có và ý tưởng xem xét các bản dịch của một từ khóa như cùng một từ ảo. Trong luận án, điểm xếp hạng lân cận xuyên ngữ của tài liệu so với câu truy vấn được tính toán dựa trên khoảng cách giữa các bản dịch ứng viên của các từ khóa truy vấn. Các mô hình lân cận xuyên ngữ cho phép định nghĩa các hàm xếp hạng mới cho máy tìm kiếm và được sử dụng trong quá trình xếp hạng lại;  Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền (chương 4). Hai phương pháp học xếp hạng (giám sát và không giám sát) được áp dụng nhằm xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các mô hình xếp hạng cơ sở TF-IDF, BM25 và các mô hình xếp hạng lân cận xuyên ngữ, phục vụ việc xếp hạng lại kết quả tìm kiếm web;  Thiết kế một mô hình tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt- -7-