BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

Lâm Tùng Giang

MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG

CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ

Chuyên ngành : Khoa học máy tính

Mã số : 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG - 2017

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

Lâm Tùng Giang

MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG

CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ

Chuyên ngành : Khoa học máy tính

Mã số : 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

1. PGS.TS. Võ Trung Hùng

2. PGS.TS. Huỳnh Công Pháp

ĐÀ NẴNG - 2017

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân

tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng

dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp.

Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là

trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác.

Tôi xin chịu trách nhiệm về những lời cam đoan của tôi.

Tác giả,

Lâm Tùng Giang

- i -

MỤC LỤC

MỞ ĐẦU .................................................................................................................... 1

1. ĐẶT VẤN ĐỀ ....................................................................................................... 1

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5

2.1. Mục tiêu ............................................................................................................ 5

2.2. Đối tượng .......................................................................................................... 5

2.3. Phạm vi ............................................................................................................. 5

3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6

4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8

CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9

1.1. TRUY VẤN THÔNG TIN .................................................................................. 9

1.1.1. Khái niệm ....................................................................................................... 9

1.1.2. Định nghĩa hình thức .................................................................................... 10

1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10

1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12

1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16

1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19

1.2.1. Khái niệm ..................................................................................................... 19

1.2.2. Các độ đo ..................................................................................................... 20

1.2.3. Môi trường thực nghiệm ............................................................................... 22

1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24

1.3.1. Khái niệm ..................................................................................................... 24

1.3.2. Các hướng tiếp cận ....................................................................................... 24

1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25

1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25

- ii -

1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25

1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26

1.4.3. Học xếp hạng ............................................................................................... 28

1.4.4. Khai thác thông tin người sử dụng ................................................................ 30

1.5. XẾP HẠNG TRANG WEB .............................................................................. 31

1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31

1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32

1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36

1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37

1.6.1. Hạn chế ........................................................................................................ 37

1.6.2. Đề xuất nghiên cứu ....................................................................................... 37

1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41

CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42

2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42

2.1.1. Sử dụng máy dịch ......................................................................................... 42

2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43

2.1.3. Sử dụng từ điển ............................................................................................ 44

2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44

2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45

2.1.6. Đánh giá chung ............................................................................................ 45

2.2. KHỬ NHẬP NHẰNG....................................................................................... 46

2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47

2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48

2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49

2.3.3. Các biến thể của công thức MI ..................................................................... 49

2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51

- iii -

2.3.5. Xây dựng câu truy vấn.................................................................................. 58

2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62

2.4.1. Môi trường thực nghiệm ............................................................................... 62

2.4.2. Kết quả thực nghiệm .................................................................................... 64

2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65

2.5.1. Môi trường thực nghiệm ............................................................................... 65

2.5.2. Cấu hình thực nghiệm .................................................................................. 65

2.5.3. Kết quả thực nghiệm .................................................................................... 66

2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67

CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69

3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69

3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69

3.1.2. Mở rộng câu truy vấn ................................................................................... 70

3.1.3. Thu hẹp câu truy vấn .................................................................................... 71

3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72

3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73

3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73

3.2.2. Thuật toán WLQS ........................................................................................ 73

3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75

3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78

3.3.1. Phản hồi ẩn ................................................................................................... 79

3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81

3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82

3.4. THỰC NGHIỆM .............................................................................................. 86

3.4.1. Cấu hình thực nghiệm .................................................................................. 86

3.4.2. Kết quả ......................................................................................................... 87

- iv -

3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89

CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91

4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN .............................. 91

4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93

4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94

4.1.3. Đánh giá ....................................................................................................... 96

4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97

4.2.1. Mô hình CL-Büttcher ................................................................................... 98

4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99

4.2.3. Mô hình xếp hạng CL-HighDensity ............................................................ 100

4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101

4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103

4.3.1. Các mô hình học xếp hạng .......................................................................... 103

4.3.2. Môi trường thực nghiệm ............................................................................. 106

4.3.3. Cấu hình thực nghiệm ................................................................................ 109

4.3.4. Kết quả thực nghiệm .................................................................................. 109

4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110

CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111

5.1. THIẾT KẾ HỆ THỐNG .................................................................................. 111

5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111

5.1.2. Dữ liệu từ điển ........................................................................................... 114

5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114

5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115

5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116

5.3.1. Cấu hình thực nghiệm ................................................................................ 116

5.3.2. Kết quả thực nghiệm .................................................................................. 117

- v -

5.3.3. Đánh giá ..................................................................................................... 119

5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119

5.4.1. Cấu hình thực nghiệm ................................................................................ 119

5.4.2. Kết quả thực nghiệm .................................................................................. 120

5.4.3. Đánh giá ..................................................................................................... 121

5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121

5.5.1. Cấu hình thực nghiệm ................................................................................ 122

5.5.2. Kết quả thực nghiệm .................................................................................. 123

5.5.3. Đánh giá ..................................................................................................... 125

5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125

5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129

1. KẾT LUẬN ....................................................................................................... 129

1.1. Tóm tắt nội dung luận án ............................................................................... 129

1.2. Các kết quả đạt được ..................................................................................... 129

2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132

TÀI LIỆU THAM KHẢO ..................................................................................... 133

- vi -

DANH MỤC HÌNH VẼ

Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11

Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22

Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38

Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39

Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn .............................. 71

Hình 3.2: Phản hồi của người dùng ............................................................. 79

Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79

Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88

Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh ................................. 107

Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh ............ 111

Hình 5.2: Sơ đồ thuật toán của hệ thống .................................................... 112

Hình 5.3: So sánh các cấu hình dùng 1 bản dịch ....................................... 118

Hình 5.4: So sánh các cấu hình dùng 3 bản dịch ....................................... 119

Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp ................... 124

Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all ............. 127

Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight ...... 128

- vii -

DANH MỤC BẢNG

Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng ............ 18

Bảng 2.1: Cấu hình thực nghiệm ................................................................. 63

Bảng 2.2: Kết quả thực nghiệm ................................................................... 64

Bảng 2.3: So sánh P@k và MAP các cấu hình ............................................ 66

Bảng 3.1: Điểm số MAP ............................................................................. 87

Bảng 3.2: Số lượng tài liệu phù hợp tải về .................................................. 88

Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED ................................ 92

Bảng 4.2 So sánh giá trị MAP ..................................................................... 95

Bảng 4.3 So sánh giá trị NDCG@k ............................................................. 96

Bảng 4.4: So sánh giá trị P@k .................................................................... 96

Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm ................................ 102

Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận .................. 102

Bảng 4.7: Các phương án hàm distance .................................................... 105

Bảng 4.8: Kết quả thực nghiệm ................................................................. 109

Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn .............. 116

Bảng 5.2: So sánh các giải pháp dịch câu truy vấn .................................... 117

Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn ................... 120

Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn .......................... 121

Bảng 5.5: Cấu hình thực nghiệm học xếp hạng ......................................... 122

Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng ................ 123

Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất............................... 125

- viii -

DANH MỤC TỪ VIẾT TẮT

Average Precision AP

Cross Language Evaluation Forum CLEF

Cross Language Information Retrieval CLIR

Document frequency DF

Forum for Information Retrieval Evaluation FIRE

Genetic Programming GP

Hypertext Induced Topic Search HITS

Hyper Text Markup Language HTML

Inverse Document Frequency IDF

Information Retrieval IR

LEearning TO Rank LETOR

Language Models in Information Retrieval LMIR

Latent Sematic Indexing LSI

Mean Average Precision MAP

Mutual Information MI

Machine Readable Dictionary MRD

Normalized Discount Cumulative Gain NDCG

Pseudo-Relevance Feedback PRF

Summary Mutual Information SMI

Singular-Value Decomposition SVD

Term frequency TF

Text REtrieval Conference TREC

Universal Network Language UNL

Vector Space Model VSM

Word-Length-based Query Segmentation WLQS

WWW

Word Wide Web

- ix -

DANH MỤC THUẬT NGỮ

Anchor Mốc, neo

Authority Độ tin cậy

Average Precision Độ chính xác trung bình

Bag of Words Túi từ

Bilingual Machine Readable Dictionary Từ điển máy song ngữ

Binary Independence Retrieval – BIR Mô hình truy vấn nhị phân độc

lập

Boolean model Mô hình Boolean

Cohesion Score Điểm liên kết

Cross Language Information Retrieval - Truy vấn thông tin xuyên ngữ

CLIR

Cross-language Web Search Tìm kiếm web xuyên ngữ

Data sparsity Tính thưa thớt dữ liệu

Degree of similarity Mức độ tương tự

Discounted Cumulative Gain Độ lợi tích lũy giảm dần

Fuzzy-Logic model Mô hình lô-gic mờ

Gain Function Hàm lợi ích

Hub Trung tâm

Hyper Text Markup Language-HTML Ngôn ngữ siêu văn bản

Hyperlink Siêu liên kết

Information Retrieval – IR Truy vấn thông tin

Inverse document frequency – IDF Tần suất tài liệu nghịch đảo

IR model Mô hình truy vấn thông tin

Language Model – LMIR Mô hình ngôn ngữ

Latent Sematic Indexing - LSI Mô hình chỉ mục ngữ nghĩa ngầm

Learning to Rank Học xếp hạng

Loss Function Hàm tổn thất

Machine Learning - ML Học máy

- x -

Mean Average Precision Độ chính xác trung bình bình

quân

Thẻ cung cấp thông tin trang web Meta tag

Mutual Information - MI Thông tin tương hỗ

Precision Độ chính xác

Probabilistic model Mô hình xác suất

Proximity Model Mô hình lân cận

Pseudo-Relevance Feedback – PRF Phản hồi giả

Query Câu truy vấn

Recall Độ bao phủ

Regions models Mô hình vùng

Relevant information Thông tin phù hợp

Singular-Value Decomposition – SVD Phân tích giá trị đơn

Summary Mutual Information Tổng thông tin tương hỗ

Term frequency – TF Tần suất xuất hiện của thuật ngữ

trong tài liệu

Three-way data dữ liệu 3 hướng

True Relevance Feedback Phản hồi thực sự

Two-way data dữ liệu 2 hướng

Vector Space model – VSM Mô hình không gian vec-tơ

Word-length-based Query Segmentation Phân đoạn câu truy vấn dựa trên

độ dài từ

World Wide Web Mạng lưới thông tin toàn cầu

- xi -

MỞ ĐẦU

1. ĐẶT VẤN ĐỀ

Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt

bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng

trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử

dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ

biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và

tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng 0,6% tổng số các website2.

Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới

hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài

toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ

nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ

nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn

ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho

phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác

nhau [134].

Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết

hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ (Cross-language

Information Retrieval - CLIR) - một lĩnh vực con của truy vấn thông tin

(Information Retrieval - IR) - và việc khai thác các đặc thù riêng của các trang web.

Truy vấn thông tin quan tâm vấn đề tìm kiếm thông tin phù hợp hay tài liệu

chứa các thông tin như vậy dựa trên nhu cầu thông tin của người sử dụng từ một tập

hợp lớn các tài liệu (được gọi là kho tài liệu). Nhu cầu thông tin được biểu diễn

1 http://www.worldwidewebsize.com/ (truy cập 26/12/2015) 2 http://w3techs.com/technologies/overview/content_language/all (truy cập 26/12//2015)

dưới dạng câu truy vấn. Một tài liệu được coi là phù hợp nếu chứa thông tin phù

- 1 -

hợp với câu truy vấn. Mặc dù sự phù hợp là một khái niệm quan trọng trong truy

vấn thông tin và được đề cập tới trong mọi nghiên cứu liên quan, cho đến nay vẫn

tồn tại các cách hiểu khác nhau về thuật ngữ này [12], [105]. Một cách lý tưởng,

một hệ thống truy vấn thông tin cần có khả năng xác định các tài liệu phù hợp dựa

trên nội dung, ý nghĩa của tài liệu và câu truy vấn chứ không phải dựa theo cách

biểu diễn của chúng. Ví dụ, từ câu truy vấn "các thảm họa thiên nhiên", cần lọc ra

các tài liệu chứa các thông tin liên quan đến "động đất", "sóng thần", hay "núi lửa".

Tuy nhiên, trên thực tế hầu hết các hệ thống truy vấn thông tin tính toán mức độ phù

hợp của các tài liệu dựa trên cách thức biểu diễn văn bản (ví dụ thông qua các từ

khóa chứa bên trong) và chưa có khả năng phân tích ý nghĩa văn bản [4], [43],

[100]. Trong truy vấn thông tin xuyên ngữ, việc xác định tính phù hợp còn phức tạp

hơn do câu truy vấn và các tài liệu được viết bằng các ngôn ngữ khác nhau [113].

Xếp hạng trong truy vấn thông tin liên quan đến việc tạo lập kết quả khi thực

hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu

cầu truy vấn. Trong tìm kiếm web xuyên ngữ, hai vấn đề chính của việc xếp hạng

kết quả tìm kiếm bao gồm: (1) sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài

liệu cần tìm kiếm; (2) nhu cầu hiển thị các tài liệu phù hợp nhu cầu truy vấn tại đầu

danh sách kết quả, tạo điều kiện truy cập thuận lợi cho người sử dụng. Nhằm giải

quyết các vấn đề này, cần thực hiện hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ

dịch thuật, thực hiện việc biểu diễn câu truy vấn và các tài liệu trong một không

gian chung, cụ thể là trong cùng một ngôn ngữ. Thứ hai là nhiệm vụ xếp hạng,

thông qua việc triển khai các giải pháp kỹ thuật và các thước đo, thực hiện việc

đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn. Mục tiêu chung

của các nhiệm vụ này là nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm.

Có nhiều thước đo khác nhau được sử dụng nhằm đánh giá các hệ thống truy

vấn thông tin, bao gồm kích thước kho tài liệu, thời gian đáp ứng, cách biểu diễn

kết quả, mức độ nỗ lực của người sử dụng, độ bao phủ, độ chính xác [26]; trong đó

hai thước đo cuối được sử dụng phổ biến nhất và được coi là các thước đo chính về

hiệu quả của một hệ thống [100], [155]. Đặc biệt, độ chính xác cao của một hệ

thống liên quan trực tiếp đến việc xếp hạng các kết quả tìm kiếm, đảm bảo các tài

- 2 -

liệu đứng đầu danh sách kết quả tìm kiếm là các tài liệu phù hợp với nhu cầu truy

vấn thông tin.

Vấn đề được quan tâm nhất trong các nghiên cứu về CLIR thường liên quan

chất lượng dịch thuật [128]. Để giải quyết vấn đề này, 3 hướng tiếp cận chủ yếu

trong CLIR là dịch câu truy vấn, dịch tài liệu hay chuyển cả câu truy vấn và các tài

liệu sang một ngôn ngữ trung gian [172]. Hướng tiếp cận phổ biến là dịch câu truy

vấn sang ngôn ngữ của các tài liệu cần tìm kiếm, sau đó sử dụng các công cụ truy

vấn đơn ngữ ở ngôn ngữ này. Công việc dịch thuật được thực hiện bằng nhiều

phương pháp khác nhau: sử dụng từ điển, sử dụng các kho ngữ liệu song song, áp

dụng công cụ dịch máy. Trong các phương pháp dịch tự động phục vụ truy vấn

thông tin xuyên ngữ, việc sử dụng từ điển để dịch câu truy vấn được áp dụng rộng

rãi nhờ tính đơn giản và sự có sẵn của các từ điển máy song ngữ (Machine Readable

Dictionary - MRD) [94], [119]. Các kết quả nghiên cứu cho thấy, do các khó khăn

gây ra bởi sự nhập nhằng ngữ nghĩa của các từ trong câu truy vấn và độ bao phủ của

từ điển, hiệu quả xếp hạng của các hệ thống CLIR dựa trên từ điển còn khá hạn chế

và phụ thuộc nhiều vào các cặp ngôn ngữ cụ thể [172]. Theo đánh giá của

Ballesteros và Croft [7], các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển

có chất lượng dưới 60% so với các hệ thống đơn ngữ - đo bằng tỷ lệ giá trị độ chính

xác trung bình bình quân (Mean Average Precision – MAP) của hai hệ thống. Đối

với tiếng Việt, kết quả nghiên cứu của tác giả Ho Bao Quoc và các đồng sự [63] cho

thấy do ảnh hưởng của việc phân đoạn câu truy vấn cũng như chất lượng dịch thuật,

hiệu quả của hệ thống truy vấn xuyên ngữ Việt-Anh chỉ đạt 47,58% so với hệ thống

truy vấn đơn ngữ (trong khi hệ thống truy vấn xuyên ngữ Anh-Việt đạt 72,27%). Từ

đây có thể thấy, việc nghiên cứu nhằm phát triển các phương pháp tăng chất lượng

dịch câu truy vấn, đặc biệt khi ngôn ngữ câu truy vấn không phải tiếng Anh, là một

vấn đề cấp thiết và mang tính thời sự.

Bên cạnh vấn đề dịch thuật, nhiều nghiên cứu được triển khai nhằm tăng hiệu

quả xếp hạng. Hướng tiếp cận phổ biến là dựa trên các mô hình xếp hạng có sẵn

trong truy vấn đơn ngữ (thực hiện sau khi dịch câu truy vấn). Một số công trình

[11], [87], [157], [163] đề xuất tích hợp máy dịch thống kê vào mô hình xếp hạng

- 3 -

xuyên ngữ. Ngoài ra, kỹ thuật học xếp hạng cũng được áp dụng nhằm nâng cao hiệu

quả xếp hạng [96], [97], [122]. Nhìn chung, hầu hết các giải pháp xếp hạng đề xuất

được triển khai độc lập với việc nghiên cứu vấn đề dịch thuật. Việc nghiên cứu kết

nối, trao đổi thông tin giữa các mô-đun là cần thiết nhằm tăng hiệu quả của toàn hệ

thống nhưng chưa được chú ý nhiều. Trong luận án, tác giả mong muốn tiếp tục sử

dụng thông tin kết xuất từ quá trình dịch câu truy vấn phục vụ việc xếp hạng.

Tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn bản

truyền thống, vốn được áp dụng cho các hệ thống thư viện. Thứ nhất, người sử dụng

Web không có xu hướng tìm tất cả tài liệu thỏa mãn nhu cầu truy vấn, mà mong

muốn nhận được kết quả phù hợp trong khoảng 10 tài liệu đầu tiên trong danh sách

kết quả tìm kiếm [16]. Điều này đặt ra yêu cầu về độ chính xác cao đối với hệ thống

tìm kiếm Web. Thứ hai, trong cấu trúc một tài liệu siêu văn bản (Hyper Text

Markup Language - HTML) chứa các thành phần như tiêu đề, tóm tắt, nội dung.

Bên cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta

tag. Các thành phần này có thể có mức độ tác động khác nhau trong việc tìm kiếm.

Trong các nghiên cứu [33], [70], [124], [145], việc xây dựng đa chỉ mục và gán

trọng số khác nhau cho các thành phần của trang web giúp tăng độ chính xác trong

kết quả tìm kiếm. Điều này cho thấy một hệ thống tìm kiếm web nên được thiết kế

khác biệt so với một hệ thống truy vấn thông tin văn bản truyền thống, khai thác cấu

trúc đặc thù của các tài liệu có cấu trúc, nhằm nâng cao hiệu quả tìm kiếm. Hầu hết

các giải pháp đã liệt kê đều giới hạn ở việc đề xuất gán trọng số một cách thủ công

và do đó, cần các nghiên cứu tiếp theo nhằm khắc phục các hạn chế này.

Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ

xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm nội dung nghiên cứu

của luận án Tiến sĩ kỹ thuật của tác giả. Thông qua các công việc cải tiến chất lượng

dịch thuật, kết hợp thông tin của quá trình dịch thuật trong quá trình xếp hạng, đề

xuất phương án xếp hạng dựa trên việc sử dụng cấu trúc đặc thù của các trang web,

tác giả đặt mục tiêu nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm; qua

đó, đóng góp các kết quả lý thuyết đối với các lĩnh vực nghiên cứu liên quan, cũng

- 4 -

như tạo ra khả năng ứng dụng thực tế trong việc xây dựng, triển khai các hệ thống

tìm kiếm web xuyên ngữ cho các cơ quan, tổ chức.

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

2.1. Mục tiêu

Luận án đặt mục tiêu đề xuất một mô hình tìm kiếm web xuyên ngữ và các

giải pháp kỹ thuật áp dụng tại các thành phần của mô hình nhằm nâng cao hiệu quả

xếp hạng danh sách kết quả tìm kiếm.

Các mục tiêu cụ thể của luận án bao gồm:

 Đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền

xử lý câu truy vấn ở ngôn ngữ nguồn, dịch câu truy vấn và xử lý câu truy vấn ở

ngôn ngữ đích;

 Đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong

truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web.

 Kết hợp áp dụng các giải pháp đề xuất trong một mô hình tìm kiếm web

xuyên ngữ nhằm nâng cao hiệu quả xếp hạng các tài liệu web trong danh sách kết

quả tìm kiếm, cụ thể là nâng cao độ chính xác, áp dụng cho cặp ngôn ngữ Việt-Anh.

2.2. Đối tượng

Các đối tượng nghiên cứu của luận án bao gồm:

 Các kỹ thuật dịch áp dụng trong truy vấn thông tin xuyên ngữ;

 Các kỹ thuật xử lý câu truy vấn trong truy vấn xuyên ngữ;

 Các kỹ thuật xếp hạng lại kết quả truy vấn thông tin.

2.3. Phạm vi

Với đối tượng nghiên cứu nêu trên và để đáp ứng mục tiêu nghiên cứu, luận

án xác định phạm vi nghiên cứu như sau:

 Luận án tập trung giải quyết hai bài toán dịch câu truy vấn và xếp hạng

kết quả tìm kiếm web xuyên ngữ ;

- 5 -

 Cặp ngôn ngữ được chú trọng nghiên cứu là cặp ngôn ngữ Việt-Anh; cụ

thể là với câu truy vấn tiếng Việt và các văn bản tìm kiếm được viết bằng tiếng

Anh;

 Thước đo được sử dụng nhằm đánh giá hiệu quả hệ thống tìm kiếm là độ

chính xác trung bình bình quân (Mean Average Precision - MAP) với 2 lý do chính:

thứ nhất, đây là độ đo được sử dụng phổ biến tại các nghiên cứu về truy vấn thông

tin; thứ hai, độ đo này liên quan trực tiếp tới khả năng các tài liệu đứng đầu danh

sách kết quả tìm kiếm được đánh giá phù hợp với yêu cầu truy vấn;

 Các kỹ thuật hỗ trợ truy vấn thông tin xuyên ngữ được tập trung nghiên

cứu và áp dụng bao gồm phân đoạn câu truy vấn, sử dụng phản hồi ẩn và mở rộng

câu truy vấn;

 Luận án chú trọng nghiên cứu kỹ thuật học xếp hạng dựa trên lập trình di

truyền;

 Luận án sử dụng các máy tìm kiếm đơn ngữ có sẵn và không đi sâu

nghiên cứu các vấn đề liên quan kỹ thuật được sử dụng trong các máy tìm kiếm đơn

ngữ.

3. ĐÓNG GÓP CỦA LUẬN ÁN

Trên cơ sở so sánh các kết quả đạt được với tình hình nghiên cứu hiện tại,

luận án có những đóng góp trong việc nâng cao chất lượng dịch thuật và nâng cao

hiệu quả xếp hạng lại kết quả tìm kiếm trong lĩnh vực tìm kiếm web xuyên ngữ, cụ

thể như sau:

 Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch

câu truy vấn trên nền tảng của khái niệm Mutual Information về sự cùng xuất hiện

của các thuật ngữ trong văn bản (chương 2). Phương pháp thứ nhất dựa trên hàm

Summary Mutual Information (SMI) cho phép chọn một bản dịch tốt nhất cho mỗi

từ khóa truy vấn và cho kết quả tốt hơn thuật toán khử nhập nhằng greedy được sử

dụng rộng rãi [99]. Phương pháp thứ hai áp dụng thuật toán chọn bản dịch một cách

tuần tự (SeQuential Translation - SQ), xác định danh sách các bản dịch tốt nhất

- 6 -

được xếp theo thứ tự phù hợp cho mỗi từ khóa truy vấn, phục vụ việc xây dựng câu

truy vấn có cấu trúc;

 Đề xuất được phương pháp hiệu quả phục vụ tiền xử lý câu truy vấn

(chương 3). Một cách cụ thể, tác giả đã đề xuất thuật toán phân đoạn WLQS (viết

tắt của Word-length-based Query Segmentation) dựa trên độ dài của từ khóa; thuật

toán được sử dụng đồng thời cùng công cụ mã nguồn mở vnTagger [89], thực hiện

việc phân tích câu truy vấn thành các cụm từ cần dịch, đi kèm với các danh sách

bản dịch ứng viên. Kết quả này phục vụ như đầu vào cho các phương pháp khử

nhập nhằng trình bày trong chương 2;

 Đề xuất được các phương pháp phục vụ xây dựng, cải tiến câu truy vấn

tại ngôn ngữ đích (chương 3). Trên cơ sở câu truy vấn có cấu trúc được tạo lập bằng

phương pháp chọn bản dịch một cách tuần tự trình bày tại chương 2, tác giả đề xuất

mô hình hai bước dựa trên kỹ thuật phản hồi ẩn, tính toán lại trọng số các từ khóa

truy vấn và áp dụng các công thức tính toán trọng số các thuật ngữ chứa trong các

văn bản để mở rộng câu truy vấn. Thông qua thực nghiệm, tác giả xác định công

thức kết hợp trọng số tf-idf cục bộ và trọng số idf toàn cục của các từ khóa mang lại

hiệu quả tốt nhất, khi tăng điểm MAP của hệ thống lên đến 12%.

 Đề xuất được các mô hình lân cận xuyên ngữ (chương 4). Các mô hình

lân cận xuyên ngữ lần đầu tiên được xây dựng dựa trên cơ sở của các hàm xếp hạng

lân cận đơn ngữ đã có và ý tưởng xem xét các bản dịch của một từ khóa như cùng

một từ ảo. Trong luận án, điểm xếp hạng lân cận xuyên ngữ của tài liệu so với câu

truy vấn được tính toán dựa trên khoảng cách giữa các bản dịch ứng viên của các từ

khóa truy vấn. Các mô hình lân cận xuyên ngữ cho phép định nghĩa các hàm xếp

hạng mới cho máy tìm kiếm và được sử dụng trong quá trình xếp hạng lại;

 Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền

(chương 4). Hai phương pháp học xếp hạng (giám sát và không giám sát) được áp

dụng nhằm xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các

mô hình xếp hạng cơ sở TF-IDF, BM25 và các mô hình xếp hạng lân cận xuyên

ngữ, phục vụ việc xếp hạng lại kết quả tìm kiếm web;

 Thiết kế một mô hình tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-

- 7 -

Anh, tích hợp các đề xuất kỹ thuật đã nêu (chương 5). Mô hình được sử dụng nhằm

so sánh với các giải pháp kỹ thuật khác cũng như để kiểm tra tính hiệu quả tổng thể

việc kết hợp sử dụng các kỹ thuật đề xuất tại các chương 2, 3, 4.

4. BỐ CỤC CỦA LUẬN ÁN

Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương với

cấu trúc như sau:

Chương 1: Tổng quan và đề xuất nghiên cứu. Chương này trình bày kết quả

nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân

tích, đánh giá các công trình nghiên cứu liên quan, chỉ ra một số vấn đề tồn tại. Trên

cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ thống tìm kiếm web xuyên

ngữ và các nội dung nghiên cứu được triển khai tại các thành phần của mô hình.

Chương 2: Dịch tự động phục vụ truy vấn xuyên ngữ. Chương này trình bày

tổng quan các phương pháp dịch tự động, bao gồm dịch máy, sử dụng từ điển và sử

dụng kho ngữ liệu. Nội dung tiếp theo trình bày các đề xuất của tác giả liên quan kỹ

thuật khử nhập nhằng phục vụ dịch câu truy vấn và kỹ thuật xây dựng câu truy vấn

có cấu trúc.

Chương 3 : Hỗ trợ dịch câu truy vấn. Chương này trình bày kết quả nghiên

cứu của tác giả liên quan việc xử lý câu truy vấn. Cụ thể, tác giả đề xuất kỹ thuật

phân đoạn câu truy vấn nhằm xác định các từ khóa ở ngôn ngữ nguồn phục vụ việc

dịch thuật cũng như kỹ thuật điều chỉnh, tối ưu câu truy vấn có cấu trúc ở ngôn ngữ

đích.

Chương 4: Xếp hạng lại. Chương 4 trình bày kết quả nghiên cứu của tác giả

về các phương pháp xếp hạng lại, bao gồm đề xuất các mô hình lân cận xuyên ngữ

và áp dụng kỹ thuật học máy phục vụ việc xây dựng hàm xếp hạng lại kết quả tìm

kiếm web.

Chương 5: Hệ thống tìm kiếm web xuyên ngữ Việt Anh. Chương 5 trình bày

thiết kế hệ thống tìm kiếm web xuyên ngữ Việt-Anh và các kết quả thực nghiệm

nhằm kiểm nghiệm ảnh hưởng của việc áp dụng các giải pháp kỹ thuật đề xuất trong

luận án cũng như so sánh hiệu quả với các giải pháp kỹ thuật khác.

- 8 -

CHƯƠNG 1 TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU

Trong chương 1, tác giả trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng

quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các

công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực tìm kiếm

web xuyên ngữ. Trên cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ

thống tìm kiếm web xuyên ngữ và xác định các nội dung nghiên cứu sẽ được triển

khai.

1.1. TRUY VẤN THÔNG TIN

1.1.1. Khái niệm

Truy vấn thông tin (Information Retrieval – IR) là ngành khoa học liên quan

đến việc phân tích, thiết kế và triển khai các hệ thống máy tính nhằm biểu diễn, tổ

chức và truy cập khối lượng lớn thông tin được số hoá. Thuật ngữ Information

Retrieval được phát biểu như sau: "truy vấn thông tin là tìm kiếm tư liệu (thường

dưới dạng tài liệu), với bản chất không có cấu trúc (thường dưới dạng văn bản)

thoả mãn được nhu cầu thông tin từ một bộ sưu tập lớn (thường được lưu trữ trong

máy tính)" [104]. Định nghĩa này đề cập đến cả hai khía cạnh hướng hệ thống và

hướng người dùng của tìm kiếm thông tin và là cơ sở phát triển các hướng nghiên

cứu và ứng dụng khác nhau.

Các hệ thống truy vấn thông tin tự động ban đầu được phát triển nhằm giúp

quản lý các hệ thống tài liệu khoa học [43]. Ngày nay, nhiều trường đại học, công ty

và thư viện sử dụng các hệ thống truy vấn thông tin phục vụ việc truy cập sách, tạp

chí và các loại tài liệu khác; các hệ thống tìm kiếm thương mại cung cấp cơ sở dữ

liệu chứa hàng triệu tài liệu trong lĩnh vực được quan tâm; ngoài ra có hàng trăm

triệu người hàng ngày thực hiện việc tìm kiếm thông tin trên World Wide Web.

Sự bùng nổ kể cả về số lượng và chủng loại thông tin trên World Wide Web

từ những năm 2000, cùng với các tiến bộ trong công nghệ phần cứng và phần mềm,

- 9 -

đã tạo ra các cơ hội cũng như các thách thức và đã biến truy vấn thông tin trở thành

một lĩnh vực nghiên cứu được đặc biệt quan tâm; kết hợp và ứng dụng kết quả của

nhiều ngành khoa học khác như xử lý ngôn ngữ tự nhiên, giao tiếp người và máy,

thiết kế giao diện.

1.1.2. Định nghĩa hình thức

Một cách hình thức, hệ thống truy vấn thông tin được mô tả như sự kết hợp

của 4 thành phần f(D,Q,F, R(q,d)) [4], trong đó:

 D là tập hợp biểu diễn lô-gíc cho các tài liệu (thành phần biểu diễn tài

liệu);

 Q là tập hợp biểu diễn lô-gíc cho nhu cầu người sử dụng (thành phần biểu

diễn truy vấn);

 F là khung cơ sở cho việc mô hình hoá biểu diễn tài liệu, biểu diễn truy

vấn và quan hệ giữa chúng (thành phần lý luận);

 R(q,d) là hàm xếp hạng, tương ứng với mỗi truy vấn qQ và một tài liệu

dD, trả lại một giá trị là số thực. Một hàm như vậy xác định thứ tự giữa các tài

liệu tương ứng với truy vấn q.

1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin

Sơ đồ tổng quát mô tả quá trình xử lý trong một hệ thống truy vấn thông tin

được trình bày trong Hình 1.1[4].

Để đáp ứng nhu cầu truy vấn thông tin của người sử dụng, các giải pháp truy

vấn thông tin được chia thành 2 giai đoạn thực hiện độc lập:

 Giai đoạn I: Thu thập, xử lý, đánh chỉ mục, lưu trữ tài liệu.

 Giai đoạn II: Truy vấn; thực hiện việc xử lý câu truy vấn, trả về danh

sách kết quả.

Mục đích của giai đoạn I là xây dựng một cơ sở dữ liệu quản lý các tài liệu.

Các thao tác xử lý văn bản và đánh chỉ mục được thực hiện để đưa các văn bản

trong kho tài liệu vào bộ chỉ mục. Việc đánh chỉ mục cho tài liệu được thực hiện

nhằm tạo lập biểu diễn lô-gíc cho các tài liệu, đảm bảo tiết kiệm không gian lưu trữ

- 10 -

và phục vụ truy xuất nhanh. Sau khi bộ chỉ mục cho các tài liệu được định nghĩa, có

THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU

1.1: Xử lý văn bản

1.2: Đánh chỉ mục

Biểu diễn văn bản

Kho tài liệu

Bộ chỉ mục

Tài liệu tải về

Giao diện

2.3: Tìm kiếm

2.4: Xếp hạng

2.2: Xử lý truy vấn

2.1: Xử lý văn bản

Biểu diễn văn bản

Biểu diễn truy vấn

Yêu cầu thông tin

Nội dung phản hồi

Danh sách tài liệu được xếp hạng

TRUY VẤN

thể thực hiện việc truy vấn.

Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin [4]

Trong giai đoạn II, người sử dụng được cung cấp một giao diện để thực hiện

việc trình bày yêu cầu thông tin cũng như tiếp nhận kết quả tìm kiếm. Tại giao diện,

người sử dụng xác định nhu cầu thông tin dưới dạng câu truy vấn. Các thao tác xử

lý văn bản và xử lý truy vấn được áp dụng nhằm tạo lập một dạng biểu diễn lô-gíc

cho nhu cầu thông tin của người dùng. Quá trình tìm kiếm được thực hiện bởi hệ

thống dựa trên việc so sánh biểu diễn của câu truy vấn và của các tài liệu được đánh

chỉ mục. Trước khi được trả về cho người sử dụng, các tài liệu được sắp xếp theo

thứ tự phù hợp so với nhu cầu truy vấn thông qua quá trình xếp hạng. Tiếp theo,

một quá trình xử lý thông tin phản hồi có thể được thực hiện nhằm giúp hệ thống

- 11 -

thực hiện lại các thao tác xử lý truy vấn, tìm kiếm, xếp hạng và tạo lập một danh

sách kết quả mới có chất lượng tốt hơn. Có hai loại thông tin phản hồi: phản hồi

thực sự dựa trên sự đánh giá của người dùng khi nhận được danh sách kết quả tài

liệu; ngược lại, phản hồi giả được tạo lập bằng cách khai thác thông tin từ các tài

liệu đứng đầu danh sách kết quả tìm kiếm ban đầu.

1.1.4. Các mô hình truy vấn thông tin truyền thống

Mô hình truy vấn thông tin đóng vai trò như một bản thiết kế, định nghĩa và

giải thích các nội dung công việc được thực hiện trong một hệ thống truy vấn thông

tin, bao gồm cách biểu diễn tài liệu, biểu diễn truy vấn, tính điểm xếp hạng các tài

liệu so với câu truy vấn.

Các mô hình truy vấn thông tin truyền thống bao gồm mô hình Boolean, mô

hình không gian vec-tơ, mô hình xác suất [4]. Trừ mô hình Boolean, các mô hình

khác sử dụng công thức xếp hạng mức độ phù hợp của tài liệu so với câu truy vấn;

thông qua đó người sử dụng nhận được danh sách các tài liệu được xếp hạng theo

mức độ phù hợp.

1.1.4.1 Mô hình Boolean

Mô hình Boolean là mô hình cơ bản và đơn giản dựa trên đại số Bool, sử

dụng nguyên tắc so sánh chính xác khi tìm kiếm văn bản [4]. Mỗi tài liệu và câu

truy vấn được biểu diễn dưới dạng kết hợp của các từ chứa bên trong. Ví dụ, tài liệu

D = t1 ∩ t2 ∩ t3, với t1, …t3 là các thuật ngữ chứa trong tài liệu, một câu truy vấn Q

có thể có dạng t1 ∪ t3. Tài liệu D được xác định phù hợp với câu truy vấn Q nếu và

chỉ nếu D→Q.

Điểm hạn chế lớn nhất của mô hình Boolean là nó không hỗ trợ việc xếp

hạng các văn bản, không xử lý được vấn đề đồng nghĩa và đa nghĩa, có cú pháp

phức tạp và dễ gây nhầm lẫn. Một số mở rộng của mô hình này bao gồm mô hình

vùng, coi bộ sưu tập tài liệu như một chuỗi từ liên tục, mỗi chuỗi tuỳ ý các từ nối

tiếp là một vùng [62]; mô hình lô-gic mờ gộp các từ đồng nghĩa và các từ liên quan

- 12 -

vào các nhóm với trọng lượng tương ứng tần suất xuất hiện của từ, nhằm phát huy

ưu điểm về tính đơn giản và khắc phục các hạn chế vốn có của mô hình gốc [76].

1.1.4.2 Mô hình không gian vec-tơ

Mô hình không gian vec-tơ khắc phục các hạn chế của mô hình Boolean

bằng cách gán trọng số cho các thuật ngữ trong tài liệu và câu truy vấn. Các trọng

số này được sử dụng để tính mức độ tương tự giữa tài liệu và câu truy vấn.

Ký hiệu {w1, w2,…,wn} là tập hợp các thuật ngữ được sử dụng trong các tài

liệu. Giá trị n tương ứng với kích thước tập hợp thuật ngữ. Với một văn bản dj và

⃗, ⃗ của trong mô câu truy vấn q, mức độ tương tự được ký hiệu là

hình không gian véc-tơ và được tính toán bằng cách sử dụng công thức cô-sin [4]

dưới dạng sau:

∑ ,

× ∑ ,

∑ , × , ⃗, ⃗ = cos () = = (1.1) ⃗ ∙ ⃗ ⃗ × |⃗|

, câu truy vấn q được biểu

Ở đây, tài liệu dj được biểu diễn bằng vec-tơ ⃗

và ⃗; wi,j là trọng số thuật ngữ wi trong tài liệu dj; wi,q là trọng số thuật ngữ wi trong câu truy vấn q. Giá trị công thức là một

diễn bằng vec-tơ ⃗;  là góc giữa 2 vec-tơ ⃗

số thực trong đoạn [0,1]. Các tài liệu được coi là phù hợp một phần nếu như giá trị ⃗, ⃗ vượt quá một ngưỡng xác định trước và được sắp xếp theo giá trị

⃗, ⃗. giảm dần của

Một mô hình khác do Gerard Salton đề xuất và được sử dụng rộng rãi với tên

gọi mô hình tf-idf [136]. Mô hình sử dụng chủ yếu hai thước đo về tần suất xuất

hiện của thuật ngữ trong các tài liệu và giá trị tần suất tài liệu chứa thuật ngữ để xác

định mức độ tương tự của một tài liệu so với câu truy vấn. Ký hiệu tft,d là tần suất

xuất hiện của thuật ngữ t trong tài liệu d, ký hiệu dft là tần suất tài liệu chứa thuật

ngữ t và N là tổng số tài liệu trong toàn bộ kho tài liệu, mô hình đưa ra khái niệm

tần suất tài liệu nghịch đảo idft cho thuật ngữ t như sau:

- 13 -

) (1.2) = log (

Từ đây và cùng sử dụng các ký hiệu đã được định nghĩa, công thức tf-idf xác

định mức độ tương tự (, ) của văn bản d và câu truy vấn q có dạng:

(, ) = , × (1.3)

Mô hình không gian véc-tơ có nhiều ưu điểm: nó đưa ra khái niệm phù hợp

một phần; các công thức xếp hạng trình bày ở trên cho phép đồng thời xác định sự

phù hợp và phục vụ sắp xếp danh sách kết quả. Điểm hạn chế của mô hình này là

các từ khoá được giả định độc lập và mô hình không đánh giá được ngữ nghĩa của

câu truy vấn.

1.1.4.3 Mô hình xác suất

Mô hình xác suất được xây dựng dựa trên ý tưởng: dựa trên các thuộc tính

của văn bản và câu truy vấn, có thể đưa ra xác suất hay các chứng cứ thống kê về sự

phù hợp của văn bản đối với câu truy vấn. Nền tảng toán học của mô hình xác suất

là công thức Bayes tính xác suất với điều kiện có dạng như sau [53]:

(1.4) (|) = (|) × () ()

Ở đây, P(E) là xác suất của sự kiện E, P(E|F) là xác suất của sự kiện E, cho

trước sự kiện F. Với câu truy vấn Q, một tài liệu D có các xác suất P(rel│D,Q) và

P(irrel│D,Q) = 1- P(rel│D,Q) tương ứng với sự kiện phù hợp rel hoặc sự kiện

không phù hợp irrel của tài liệu so với câu truy vấn

Mô hình xác suất đơn giản nhất là mô hình truy vấn nhị phân độc lập [130]

giả định về sự độc lập của các thuật ngữ trong câu truy vấn. Trong mô hình này,

một tài liệu D được biểu diễn như tập hợp các sự kiện {x1,...,xn}, trong đó xi=1 và

xi=0 tương ứng với sự xuất hiện hay không xuất hiện của từ khóa ti trong tài liệu D..

Một trong những mô hình truy vấn xác suất được sử dụng rộng rãi hiện nay

là OKAPI BM25 [131]. Mô hình này sử dụng số lần xuất hiện của từ khóa trong tài

- 14 -

liệu, độ dài tài liệu để tính trọng số các từ khóa trong tài liệu và trong câu truy vấn.

Trong luận án sử dụng phương pháp triển khai mô hình OKAPI BM25 được trình

bày tại công trình [125] với chi tiết như sau:

Với một thuật ngữ ti, trong tài liệu d, trọng số wi của ti được tính bằng công

thức:

(1.5) = ( + 1) × +

với k1 là hằng số (được gán giá trị 1.2), tfi là tần suất xuất hiện của thuật ngữ

ti trong tài liệu d và K được tính bằng công thức:

(1.6) = × ((1 − ) + × )

Ở đây, k là hằng số (được gán giá trị 2), b là hằng số (được gán giá trị 0.9),

l là độ dài tài liệu, avdl là độ dài trung bình của các tài liệu.

Với một từ khóa ti trong câu truy vấn q, trọng số qwi được tính bằng công

thức sau:

(1.7) × ( ) = + −

trong đó qtfi là tần suất xuất hiện của từ khóa ti trong câu truy vấn, dfi là số

tài liệu chứa từ khóa ti, k3 là hằng số (được gán giá trị 1000), N là số tài liệu trong

kho tài liệu. Với câu truy vấn q chứa m từ khóa t1,…tm, điểm số scoreokapi của tài

liệu d đối với câu truy vấn q khi đó được tính bằng công thức sau:

(1.8) (, ) = ×

với giá trị wi tính theo công thức (1.5) và qwi tính theo công thức (1.7).

1.1.4.4 Mô hình ngôn ngữ

Mô hình ngôn ngữ là một ứng dụng của mô hình thống kê ngôn ngữ ứng

dụng trong lĩnh vực truy vấn thông tin [120]. Ý tưởng của mô hình ngôn ngữ là sử

- 15 -

dụng xác suất P(d|q) để xác định mức độ phù hợp của văn bản d so với câu truy vấn

q. Trong mô hình ngôn ngữ, với giả định về tính độc lập của các thuật ngữ, xác suất

văn bản d phù hợp với câu truy vấn q được ký hiệu là P(d|q) và có dạng như sau:

(|) = ∝ (|) × () = (|) × () (1.9) (|) × () ()

Ở công thức trên, ký hiệu ∝ thể hiện sự tương đương của 2 biểu thức do có

thể bỏ qua xác suất P(q) ở biểu thức đầu vì giá trị này không đổi đối với mọi tài

liệu. Bên cạnh đó, có thể giả định các tài liệu được phân phối đều và suất P(d) bằng

nhau với mọi tài liệu. Xác suất P(t|d) được xác định bởi một mô hình ngôn ngữ của

tài liệu (ví dụ mô hình unigram).

1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản

Các mô hình đã trình bày ở phần 1.1.4 được coi là nền tảng của truy vấn

thông tin dựa trên tính phù hợp của văn bản so với câu truy vấn nhưng có hạn chế

do giả định về sự độc lập của các thuật ngữ. Một số mô hình khác được đề xuất với

mục tiêu khắc phục hạn chế này. Mô hình chỉ mục ngữ nghĩa ngầm (Latent Sematic

Indexing-LSI) và mô hình lân cận được trình bày sau đây xem xét tính phụ thuộc

lẫn nhau và mối quan hệ ngữ nghĩa giữa các thuật ngữ trong văn bản.

1.1.5.1 Mô hình chỉ mục ngữ nghĩa ngầm

Cùng sử dụng cấu trúc tính toán như mô hình không gian véc-tơ nhưng khác

biệt với giả định tính độc lập của các thuật ngữ, phương pháp chỉ mục ngữ nghĩa

ngầm LSI khai thác cấu trúc ngầm của các thuật ngữ trong văn bản [35]. Trong mô

hình này, một ma trận thuật ngữ - văn bản được sử dụng để xây dựng một không

gian "ngữ nghĩa", trong đó các thuật ngữ và văn bản có liên quan được đặt trong

cùng chiều không gian. Kỹ thuật phân tích giá trị đơn (Singular-Value

Decomposition - SVD) được sử dụng cho phép biểu diễn các văn bản trong một

không gian với số lượng chiều được thu hẹp, đảm bảo phản ánh sự liên quan giữa

thuật ngữ và văn bản, dựa trên các mẫu liên quan chính và bỏ qua các ảnh hưởng

nhỏ.

- 16 -

So với các phương pháp trình bày trong phần 1.1.4, Scott Deerwester [35]

cho rằng ưu điểm chính của LSI là khả năng trích xuất nội dung ngữ nghĩa của nội

dung và do đó giải quyết các vấn đề đồng nghĩa và đa nghĩa; bên cạnh đó các thuật

ngữ được đặt chung trong các chiều thu hẹp cũng phản ánh sự liên quan giữa các

thuật ngữ. Hạn chế của phương pháp LSI là việc tính toán giá trị SVD của ma trận

thuật ngữ - tài liệu phụ thuộc kích thước của ma trận và do đó rất tốn kém: trong ma

trận số lượng cột tương ứng số lượng tài liệu trong kho tài liệu, số lượng hàng tương

ứng số lượng thuật ngữ - tương đương kích thước của từ điển từ vựng. Chính từ hạn

chế này LSI chỉ ứng dụng hiệu quả với các bộ sưu tập tài liệu nhỏ và không thực sự

phù hợp nếu kho tài liệu thường xuyên được cập nhật.

1.1.5.2 Mô hình lân cận

Trong các mô hình truy vấn thông tin truyền thống, các tài liệu được biểu

diễn như túi từ (bag of words) và được tính điểm dựa trên các số liệu thống kê như

tần suất xuất hiện của từ, độ dài văn bản, giá trị nghịch đảo tần suất tài liệu. Hạn chế

căn bản của các mô hình này là chúng không khai thác mối liên quan giữa các thuật

ngữ xuất hiện trong câu truy vấn và trong các tài liệu. Từ một góc độ khác, khoảng

cách giữa các từ trong tài liệu là một yếu tố thể hiện mối liên quan giữa các từ. Một

cách cảm quan, nếu trong một tài liệu các từ khóa truy vấn đứng sát nhau thì tài liệu

đó sẽ phù hợp hơn đối với câu truy vấn so với một tài liệu khác chứa cùng số lượng

từ khóa truy vấn nhưng các từ này lại đứng xa nhau.

Những nghiên cứu nhằm mô hình hóa mối liên hệ giữa các từ trong văn bản

được thực hiện khá sớm. Năm 1987, Fagan [39] đề xuất hai phương pháp đánh chỉ

mục ngữ dựa trên phương pháp thống kê và phân tích cấu trúc văn bản. Sau đó,

Croft Bruce [32] đề xuất việc đánh chỉ mục ngữ như một dạng đặc biệt của mô hình

lân cận khi các từ đứng kế sát nhau.

Hai xu hướng phổ biến khác bao gồm tính điểm lân cận dựa trên đoạn và dựa

trên cặp từ [154]. Trong xu hướng thứ nhất, thuật ngữ span được định nghĩa như

một đoạn văn bản chứa tất cả các từ khóa truy vấn trong tài liệu. Điểm lân cận của

một tài liệu tương ứng với một câu truy vấn tỷ lệ thuận với số span và tỷ lệ nghịch

- 17 -

với độ dài của span [55], [150]. Trong xu hướng thứ hai, các tác giả đưa ra các công

thức để tính điểm lân cận cho từng cặp từ trong tài liệu, sau đó tính điểm lân cận

của tài liệu bằng cách cộng dồn các điểm lân cận của tất cả các cặp từ khóa truy vấn

xuất hiện trong tài liệu [19], [125]. Một mô hình lân cận có thể được áp dụng để xếp

hạng lại các tài liệu truy vấn sau lần tìm đầu tiên, hoặc có thể được xây dựng trong

quá trình đánh chỉ mục văn bản.

Bảng 1.1 mô tả các thông tin được sử dụng trong công thức xếp hạng của

mỗi mô hình xếp hạng cũng như trình bày đặc trưng nổi bật của các mô hình. Trong

số này, các mô hình TF-IDF và BM25 được sử dụng rộng rãi trong các máy tìm kiếm. Ví dụ, các máy tìm kiếm Solr3 áp dụng mô hình TF-IDF; máy tìm kiếm

SMART được sử dụng phổ biến trước đây áp dụng mô hình BM25. Máy tìm kiếm Elastic4 cho phép tùy biến chọn áp dụng mô hình TF-IDF hoặc BM25. Trong các

mô hình khai thác mối liên hệ giữa các từ khóa, mô hình LSI thường dừng ở mức độ

thử nghiệm do khối lượng tính toán lớn, mô hình lân cận chỉ giới hạn ở việc được

sử dụng như một thước đo bổ sung trong công thức xếp hạng của máy tìm kiếm do

không xem xét trực tiếp mức độ ảnh hưởng của mỗi từ khóa đối với tài liệu.

Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng

Mô hình Thông tin sử dụng Đặc điểm

Boolean Sự tồn tại của từ khóa + Đơn giản

- Các từ khóa độc lập

- Không phục vụ xếp hạng

VSM - Số lần xuất hiện của từ khóa + Giá trị

trong tài liệu - Các từ khóa độc lập

- Khối lượng tính toán lớn

TF-IDF - Số lần xuất hiện của từ khóa + Đơn giản, được sử dụng phổ

trong tài liệu biến

3 http://lucene.apache.org/solr/ 4 https://www.elastic.co

- Độ dài tài liệu - Các từ khóa độc lập

- 18 -

- Số lượng tài liệu chứa từ khóa

BM25 - Số lần xuất hiện của từ khóa + Là mô hình được sử dụng phổ

trong tài liệu và trong kho tài biến

liệu - Các từ khóa độc lập

- Độ dài tài liệu - Xác định các tham số điều chỉnh

- Các tham số điều chỉnh khi khởi tạo hệ thống

LSI - Trọng số theo các chiều trong + Các văn bản được biểu diễn lại

không gian ngữ nghĩa trong không gian với số lượng

chiều thu hẹp.

+ Giảm khối lượng tính toán sau

khi đã đánh chỉ mục

- Chỉ phù hợp với kho tài liệu có

kích thước nhỏ

Lân cận - Khoảng cách giữa các từ khóa + Xem xét mối liên hệ thông qua

vị trí, khoảng cách giữa các thuật trong tài liệu

ngữ - Độ dài tài liệu

- Chỉ được sử dụng như thước đo

phụ

Ở bảng trên, trong cột đặc điểm, các ưu điểm được đánh dấu cộng (+) và các

hạn chế được đánh dấu (-) phía trước.

1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN

1.2.1. Khái niệm

Việc đánh giá các hệ thống truy vấn thông tin đóng vai trò quan trọng, giúp

so sánh, chọn lựa mô hình, giải pháp phù hợp cũng như phục vụ quá trình thiết kế,

phát triển và bảo trì hệ thống [100]. Công việc này liên quan đến việc xác định các

tiêu chuẩn thành công (có thể đo được) của một hệ thống. Có thể đánh giá các tính

chất như kích thước dữ liệu, tính hiệu quả truy vấn của hệ thống, hay sự thỏa mãn

và chấp nhận của người dùng thông qua thời gian thực hiện, các nỗ lực của người

dùng, hay cách thể hiện kết quả [29]. Việc đánh giá đòi hỏi sự kết hợp người sử

- 19 -

dụng trong một môi trường đánh giá nhằm tiến hành đối chiếu, so sánh các kết quả

nghiên cứu với các kiểm tra trong thực tế.

1.2.2. Các độ đo

Hai thước đo cơ bản để đánh giá chất lượng của các mô hình truy vấn thông

tin là độ chính xác và độ bao phủ, được sử dụng tương ứng với trường hợp đơn giản

nhất khi hệ thống truy vấn thông tin trả lại tập hợp các tài liệu cho một câu truy vấn.

Độ chính xác (Precision) là tỷ lệ số tài liệu phù hợp trong so với số các tài liệu

được trả về, được ký hiệu là P:

(1.10) = #_ #_

với #retrieved_relelevantdocs là số tài liệu phù hợp được trả về và

#retrieved_docs là số tài liệu được trả về.

Độ bao phủ (Recall) là tỷ lệ số tài liệu phù hợp được tải về, ký hiệu là R:

(1.11) = #_ #

với #retrieved_relelevantdocs là số tài liệu phù hợp trả về và #relevantdocs

là tổng số tài liệu phù hợp.

Độ chính xác và độ bao phủ đề cập ở trên hạn chế ở việc được sử dụng trên

tập hợp tài liệu không được sắp xếp. Các độ đo cơ sở này được mở rộng thành các

độ đo khác, phục vụ việc đánh giá chất lượng danh sách kết quả xếp hạng của các

máy tìm kiếm [100].

Độ chính xác tại mức k được tính toán nhằm xác định trong k kết quả tìm

kiếm đầu tiên, có bao nhiêu tài liệu thỏa mãn nhu cầu thông tin. Công thức độ chính

xác tại mức k ký hiệu là P@k và có dạng sau:

(1.12) @ = #()

với #relevantdocs(k) là số văn bản phù hợp trong danh sách k văn bản đầu

tiên.

- 20 -

Độ chính xác trung bình AP (Average Precision) là giá trị trung bình của

các giá trị P@k tại các mức k nhằm đánh giá hiệu quả của một câu truy vấn. Gọi

I(K) là hàm xác định đối tượng ở vị trí hạng K, nếu phù hợp thì I(K) = 1 và ngược

lại I(K) = 0, n là số tài liệu tải về bởi câu truy vấn. Công thức độ chính xác trung

bình AP cho một câu truy vấn có dạng:

= (1.13) @ × () ∑ ()

Trên cơ sở các định nghĩa trên, Độ chính xác trung bình trên tất cả các

truy vấn MAP (Mean Average Precision) được định nghĩa nhằm đánh giá hiệu quả

bình quân trên tập hợp các câu truy vấn. Công thức MAP có dạng:

(1.14) =

trong đó giá trị APi là độ chính xác trung bình của câu truy vấn thứ i, giá trị

m là số lượng các truy vấn.

Nếu trong một hệ thống có nhiều mức độ phù hợp khi so sánh các tài liệu với

câu truy vấn (ví dụ các mức độ 4, 3, 2, 1 tương ứng với rất phù hợp, phù hợp, liên

quan, không liên quan), với mức độ phù hợp reli của văn bản thứ i, giá trị

Discounted Cumulative Gain – DCG cho một mức xếp hạng p ký hiệu là DCGp và

được tính bằng công thức:

(1.15) 2 − 1 (1 + ) =

Trên cơ sở đó, giá trị Normalize Discounted Cumulative Gain NDCG được

tính bằng công thức:

(1.16) =

trong đó IDCG là giá trị DCG trong trường hợp kết quả đưa ra là hoàn hảo,

nhận được khi tất cả các văn bản đều được xếp đúng vị trí tương ứng với độ phù

hợp của chúng. Trong khi độ đo P@k được sử dụng khi các tài liệu chỉ được đánh

- 21 -

giá phù hợp hay không so với câu truy vấn, thước đo nDCG được áp dụng khi xem

1

0.9

0.8

0.7

0.6

0.5

xét các tài liệu có nhiều hơn 2 mức phù hợp so với câu truy vấn.

í

0.4

c á x h n h c ộ Đ

0.3

0.2

0.1

0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Độ bao phủ

Hình 1.2: Biểu đồ trung bình 11 điểm

Bên cạnh các thước đo đã nêu, để mô tả sự quan hệ giữa độ chính xác và độ

bao phủ, biểu đồ trung bình 11 điểm thường được sử dụng bằng cách tính giá trị

trung bình của độ chính xác nội suy tương ứng 11 mức bao phủ (0.0, 0.1,…., 0.9,

1.0) trên một tập hợp các câu truy vấn. Hình 1.2 mô tả một ví dụ cho biểu đồ trung

bình 11 điểm.

1.2.3. Môi trường thực nghiệm

Việc nghiên cứu và phát triển các hệ thống truy vấn thông tin luôn kết hợp

với việc phát triển các mô hình, công cụ và kỹ thuật phục vụ truy vấn nhằm nâng

cao khả năng đáp ứng nhu cầu tìm kiếm thông tin của người dùng. Môi trường thực

nghiệm được xây dựng nhằm giúp cho việc kiểm tra, đánh giá cũng như hoàn chỉnh

các mô hình, công cụ và kỹ thuật [129].

Để thực hiện thực nghiệm, cần một bộ dữ liệu đánh giá, được biểu diễn như

là một tập hợp (D, Q, R, M), trong đó D là kho tài liệu được tìm kiếm, Q là tập hợp

các chủ đề được xác định trước, biểu diễn dưới dạng các câu truy vấn, R là tập kết

quả đánh giá về sự phù hợp của các tài liệu và câu truy vấn, M là thước đo hiệu quả

của hệ thống [69].

- 22 -

Bộ dữ liệu đánh giá truy vấn thông tin đầu tiên được tạo ra tại Trường Cao

đẳng Hàng không Cranfield. Tổng cộng 1400 tài liệu nghiên cứu khí động học được

xem xét, mức độ phù hợp của tất cả các tài liệu tương ứng với mỗi truy vấn được

thực hiện thủ công bởi chuyên gia [129].

Với các kho tài liệu lớn hơn, phương pháp pooling được đề xuất bởi Jones và

Van Rijsbergen được áp dụng với mục tiêu giảm số lượng các đánh giá thủ công

cần thực hiện [147]. Trong phương pháp này, với mỗi câu truy vấn, n tài liệu được

xếp hạng đầu tiên trả về bởi hệ thống truy vấn khác nhau được lựa chọn và trộn, loại

bỏ các văn bản trùng, tạo thành danh sách tài liệu cần phải được đánh giá bởi các

chuyên gia. Phương pháp này được áp dụng rộng rãi tại các hội nghị nghiên cứu

khác nhau như Text REtrieval Conference (TREC), Cross Language Evaluation

Forum (CLEF), Forum for Information Retrieval Evaluation (FIRE), NACSIS Test

Collection for Information Retrieval (NTCIR), Chinese Web Information Retrieval

Forum (CWIRF) và IR Initiative for Evaluation of XML retrieval (INEX) [106]. Tại

các hội nghị này, điểm số MAP là độ đo chính được sử dụng để đánh giá chất lượng

các hệ thống.

Trong những năm gần đây, một số nghiên cứu trong truy vấn thông tin liên

quan đến tiếng Việt đã và đang được triển khai [63], [109], [112]. Do sự khác biệt

trong cấu trúc ngữ pháp của tiếng Việt so với tiếng Anh hoặc các ngôn ngữ châu Âu

khác, các kỹ thuật mã hóa tài liệu, lập chỉ mục, so sánh tài liệu phục vụ truy vấn

thông tin cũng có những điểm khác biệt. Các bộ dữ liệu đánh giá được các tác giả

sử dụng vẫn giới hạn ở một số lượng nhỏ các câu truy vấn. Hơn nữa, các bộ dữ liệu

này chưa được công bố và chưa được cho phép sử dụng rộng rãi. Việc thiếu một

môi trường đánh giá chung gây khó khăn cho việc so sánh hiệu quả của các phương

pháp, các hướng tiếp cận khác nhau và do đó chưa thúc đẩy việc hình thành một

môi trường cộng tác cho các nhà nghiên cứu trong lĩnh vực này.

- 23 -

1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ

1.3.1. Khái niệm

Truy vấn thông tin xuyên ngữ là một lĩnh vực con của truy vấn thông tin, giải

quyết trường hợp khi tài liệu cần truy vấn được viết bằng ngôn ngữ khác với ngôn ngữ

câu truy vấn [113], [142].

Vấn đề cốt lõi trong lĩnh vực truy vấn thông tin liên quan đến việc trình bày

nội dung thông tin. Một tài liệu và một câu truy vấn có thể cùng mô tả một nội

dung, một vấn đề nhưng lại có thể được trình bày bằng các từ ngữ khác nhau. Điều

này gây khó khăn cho việc xác định tài liệu phù hợp với câu truy vấn. Đối với truy

vấn thông tin xuyên ngữ, vấn đề lại càng trở nên khó khăn hơn do sự khác biệt về

ngôn ngữ giữa câu truy vấn và các tài liệu cần tìm kiếm.

1.3.2. Các hướng tiếp cận

Để thực hiện việc xác định các tài liệu phù hợp với câu truy vấn, các giải

pháp được đề xuất đều cố gắng biểu diễn câu truy vấn và các tài liệu trong một

không gian chung, cho phép so sánh các tài liệu và câu truy vấn.

Hai hướng tiếp cận chủ yếu trong CLIR là dịch câu truy vấn và dịch tài liệu.

Trong hướng thứ nhất, câu truy vấn được dịch từ ngôn ngữ nguồn sang ngôn ngữ

đích của các tài liệu cần tìm kiếm. Hướng thứ hai thực hiện việc dịch các tài liệu ở

ngôn ngữ đích sang ngôn ngữ nguồn của câu truy vấn [172]. Bên cạnh đó, ở hướng

tiếp cận thứ ba của CLIR, cả câu truy vấn và các tài liệu được chuyển sang một

ngôn ngữ trung gian phục vụ việc so sánh và đánh giá.

Hướng tiếp cận dịch câu truy vấn được nghiên cứu rộng rãi và áp dụng phổ

biến nhất do tính đơn giản và hiệu quả. Hạn chế chủ yếu của hướng tiếp cận này là

vấn đề nhập nhằng nghĩa, có nguyên nhân từ sự hạn chế thông tin và ngữ cảnh trong

câu truy vấn. Từ cách nhìn này, hướng tiếp cận dịch tài liệu dựa vào các hệ thống

dịch máy tự động hứa hẹn một chất lượng cao hơn. Tuy nhiên, các kết quả nghiên

cứu cho thấy chưa có ưu thế rõ ràng của giải pháp dịch tài liệu so với dịch câu truy

- 24 -

vấn. Bên cạnh đó, việc dịch tài liệu tốn kém hơn nhiều về cả yếu tố thời gian và tài

nguyên [172].

1.3.3. Các kỹ thuật dịch tự động

Các kỹ thuật dịch được sử dụng phục vụ truy vấn thông tin xuyên ngữ được

phân thành hai nhóm: dịch trực tiếp và dịch gián tiếp [172]. Nhóm dịch trực tiếp

bao gồm các kỹ thuật sử dụng máy dịch, dựa trên các kho ngữ liệu song song hay

kho ngữ liệu so sánh, hoặc sử dụng từ điển, dựa trên các kho tri thức nhằm mô tả

văn bản. Nhóm dịch gián tiếp sử dụng ngôn ngữ trung gian để dịch văn bản. Chi tiết

các nhóm kỹ thuật được trình bày trong chương 2.

1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI

1.4.1. Xếp hạng và xếp hạng lại

Trong truy vấn thông tin, thông thường việc xếp hạng được thực hiện thông

qua việc tính toán điểm số đo mức độ phù hợp giữa tài liệu và câu truy vấn, phục vụ

mục tiêu tạo lập một danh sách các tài liệu theo thứ tự giảm dần của điểm số [97].

Khi thực hiện câu truy vấn, danh sách kết quả tìm kiếm ban đầu có thể chưa

đảm bảo chất lượng hoặc chưa thực sự phù hợp với nhu cầu đa dạng của những

người dùng khác nhau. Các nghiên cứu liên quan kỹ thuật xếp hạng lại được thực

hiện nhằm tăng độ chính xác ở đầu danh sách kết quả tìm

kiếm [6], [22], [92], [123], [162].

Trong khi các kỹ thuật xếp hạng cơ sở đã trình bày liên quan nhiều đến việc

tạo lập chỉ mục hay đánh giá cho một tập hợp lớn các văn bản, quá trình xếp hạng

lại thường chỉ xem xét một số hữu hạn, có thể giới hạn ở vài chục đến vài nghìn văn

bản. Đây chính là cơ hội để có thể áp dụng các thuật toán phức tạp hơn, từ các

phương pháp thống kê, các phương pháp sử dụng phản hồi, cho đến việc áp dụng

các thuật toán xử lý ngôn ngữ tự nhiên, phân tích ngữ nghĩa, ngữ cảnh, áp dụng kỹ

thuật học máy trong việc điều chỉnh các tham số trong công thức xếp hạng, hoặc tạo

lập công thức tổng hợp các phương pháp đã nêu.

- 25 -

Một số các phương pháp xếp hạng lại danh sách kết quả tìm kiếm được trình

bày tiếp theo bao gồm:

 Khai thác thông tin của các máy tìm kiếm có sẵn;

 Học xếp hạng;

 Khai thác thông tin người sử dụng.

1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn

Kỹ thuật trộn kết quả và xếp hạng lại được sử dụng rộng rãi trong các hệ

thống tìm kiếm liên hợp [101] hoặc phân tán [20]. Các hệ thống này không lập chỉ

mục cho các văn bản mà khai thác thông tin của các máy tìm kiếm có sẵn.

1.4.2.1 Kết hợp điểm xếp hạng có sẵn

Phương pháp đơn giản nhất để trộn các kết quả xếp hạng là Raw-score, sử

dụng trực tiếp điểm xếp hạng trong từng danh sách kết quả tìm kiếm gốc [139].

Phương pháp CombSUM được đề nghị bởi Fox và Shaw, thực hiện việc lấy tổng

điểm số của văn bản trong các máy tìm kiếm khác nhau để xác định điểm xếp hạng

CombSUM cho một tài liệu [144]:

= (1.17)

với IR Servers là tập hợp các máy tìm kiếm, scorei là điểm của tài liệu được

gán bởi máy tìm kiếm i.

Điểm số score được gán bởi một máy tìm kiếm có thể được chuẩn hoá thành

điểm NormalizedScore [90] để tránh sự khác biệt về chuẩn điểm của các máy tìm kiếm:

(1.18) = − −

với MinScore và MaxScore là các giá trị nhỏ nhất và lớn nhất trong điểm số

của tất cả các tài liệu được gán bởi máy tìm kiếm.

Để khắc phục hạn chế khi cộng điểm xếp hạng của các máy tìm kiếm vốn

khác nhau về chất lượng xếp hạng, cách tính điểm, cách thức trình bày, công thức

- 26 -

trộn xếp hạng với trọng số máy chủ Weighted CombSUM bổ sung các tham số tương

ứng với giá trị xếp hạng cho các máy chủ [56]. Điểm xếp hạng WeightedCombSUM

của một tài liệu được tính bằng công thức:

(1.19) ℎ = × ∈

Ở đây, wi là trọng số được gán trước cho máy tìm kiếm i trong tập hợp các

máy tìm kiếm IR Servers; NormalizedScorei là điểm chuẩn hóa của được gán bởi

máy chủ i cho tài liệu như ở công thức (1.18).

Tương tự, một số nghiên cứu [66], [159] đề xuất hàm tuyến tính kết hợp

điểm xếp hạng của các máy tìm kiếm dạng:

(1.20) (, ) = × (, )

Ở đây M(d,q) là điểm xếp hạng cuối cùng, si(d,q) là điểm xếp hạng (được

chuẩn hóa) của máy tìm kiếm i, là trọng số được gán cho máy tìm kiếm i. Điểm

hạn chế của các phương pháp này nằm ở việc phải xác định các giá trị bằng các

phương pháp thủ công hoặc dựa trên việc quan sát dữ liệu huấn luyện.

1.4.2.2 Sử dụng thông tin về thứ tự xếp hạng

Một số giải pháp sử dụng thông tin về thứ tự xếp hạng trong danh sách tìm

kiếm gốc bao gồm phương pháp Round Robin và phương pháp trộn Borda.

Phương pháp Round Robin [139] là phương pháp trộn đơn giản nhất, được

thực hiện như sau: cho m danh sách kết quả trả về từ các máy chủ tìm kiếm gốc L1,

L2, ... , Lm; trước hết ta lấy m kết quả đầu tiên là R1 từ các danh sách Li, sau đó lấy m

kết quả thứ hai là R2 từ các danh sách Li và tiếp tục như vậy. Kết quả cuối cùng của

quá trình trộn có dạng L1R1, ..., LmR1, L1R2 , ..., LmR2, ... Đây là giải pháp phù hợp

nhằm đảm bảo tốc độ tìm kiếm khi các nguồn thông tin có chất lượng tương đương.

Trên thực tế, các máy tìm kiếm quản lý các kho tài liệu với chất lượng khác nhau và

cách thức xếp hạng khác nhau và khi đó phương pháp trộn này trở nên không phù

hợp.

- 27 -

Phương pháp trộn Borda [66] sử dụng điểm đánh giá của các chuyên gia.

Mỗi chuyên gia xếp hạng một số lượng c tài liệu. Với mỗi chuyên gia, tài liệu đứng

đầu được tính c điểm, tài liệu thứ hai được gán c-1 điểm và cứ thế tiếp tục. Nếu có

một số tài liệu không được xếp hạng, điểm còn lại được chia đều cho tất cả các tài

liệu không xếp hạng. Cuối cùng, các tài liệu được xếp hạng theo dựa trên tổng số

điểm được gán.

Các phương pháp trộn sử dụng thông tin về thứ hạng hữu dụng trong trường

hợp không có thông tin về điểm xếp hạng của các máy tìm kiếm. Tuy nhiên, các

nghiên cứu cho thấy phương pháp trộn này không hiệu quả bằng các phương pháp

kết hợp điểm xếp hạng [126].

1.4.3. Học xếp hạng

Trong một hệ thống tìm kiếm cục bộ, các văn bản có thể được đánh chỉ mục

theo nhiều phương pháp khác nhau (VSM, LSI, LMIR,..) như đã trình bày tại phần

1.1.4 và 1.1.5. Điểm xếp hạng của văn bản so với câu truy vấn theo các phương

pháp khác nhau có thể được coi như các thuộc tính (features) khác nhau của văn

bản. Các hệ thống truy vấn thông tin hiện nay có khuynh hướng áp dụng kỹ thuật

học máy (machine learning) để xác lập mô hình hoặc tạo công thức xếp hạng trên

cơ sở các thuộc tính này.

Quá trình học xếp hạng gồm 2 bước: huấn luyện và kiểm tra. Dữ liệu đầu vào

của quá trình huấn luyện là D cấu thành từ tập hợp { }, trong đó q là câu

truy vấn, d là văn bản được biểu diễn dưới dạng danh sách các thuộc tính

{f1,f2,...,fm}, r là mức độ phù hợp của văn bản d so với truy vấn q. Bước huấn luyện

thực hiện việc xây dựng một mô hình xếp hạng F, dựa trên cơ sở dữ liệu huấn luyện

xác định mối liên hệ giữa các thuộc tính của văn bản với mức độ phù hợp của văn

bản so với câu truy vấn. Tại bước kiểm tra, mô hình xếp hạng được áp dụng trên bộ

dữ liệu thực nghiệm T cấu thành từ tập hợp {}, giá trị rpredict là mức

độ phù hợp văn bản dtest đối với truy vấn qtest - được tính toán bởi mô hình xếp hạng

F - sẽ được so sánh với giá trị rtest để đánh giá chất lượng của mô hình xếp hạng. Dữ

liệu phục vụ huấn luyện D và dữ liệu phục vụ thực nghiệm T thường được tạo lập

- 28 -

bằng cách biên tập các kết quả tìm kiếm trong thực tế, sau đó được đánh giá thủ

công bởi các chuyên gia.

Các phương pháp học xếp hạng thường có chung một cách tiếp cận thông

qua việc tối ưu hóa hàm mục tiêu: tìm giá trị cực đại của hàm lợi ích (gain function)

hoặc tìm giá trị cực tiểu của hàm tổn thất (loss function).

Các kỹ thuật học xếp hạng được chia thành 3 nhóm: point-wise, pair-wise và

list-wise [97]. Với cách tiếp cận point-wise, mỗi đối tượng huấn luyện tương ứng

với một văn bản được gán kèm theo giá trị xếp hạng. Quá trình học thực hiện tìm

một mô hình có thể ánh xạ mỗi đối tượng tới một giá trị xếp hạng gần với giá trị

thật của nó. Cách tiếp cận pair-wise sử dụng các cặp văn bản kèm theo quan hệ thứ

tự xếp hạng (trước hoặc sau) như các đối tượng huấn luyện. Trong cách tiếp cận

list-wise, đối tượng huấn luyện là bản thân danh sách các văn bản đã được xếp hạng

tương ứng với câu truy vấn.

Đại diện đặc trưng của nhóm giải pháp point-wise là PRank được giới thiệu

bởi K.Crammer và Y.Singer [30] thông qua sử dụng phương pháp phân tích hồi

quy.

Trong nhóm pair-wise, Herbrich [60] và Joachims [68] xây dựng thuật toán

xếp hạng RankSVM với mục tiêu giảm thiểu sai lệch trong danh sách các cặp sắp

xếp. Phương pháp này thường được tham chiệu trong các nghiên cứu như một cơ sở

để so sánh. Freund áp dụng giải pháp tăng tốc (boosting) và giới thiệu giải thuật

RankBoost [44]. Ưu điểm của phương pháp này là dễ triển khai và có thể chạy song

song để kiểm tra. Một ví dụ khác là FRank [156] do Tsai Ming Feng đề xuất được

xây dựng trên mô hình xếp hạng xác suất.

Trong phương pháp ListNet [22] do Zhe Cao và các đồng sự đề xuất, thuộc

nhóm list-wise, bản thân danh sách văn bản được coi là đối tượng huấn luyện. Các

tác giả sử dụng phương pháp xác suất để tính hàm tổn thất đối với danh sách, được

xác định bởi sự khác biệt giữa danh sách sắp xếp dự kiến và danh sách sắp xếp

đúng. Các mô hình mạng nơ-ron và Gradient Descent được sử dụng trong các thuật

toán triển khai để xác định mô hình xếp hạng.

- 29 -

Trong khi các phương pháp trình bày tại phần 1.4.2 có thể áp dụng phục vụ

trộn kết quả từ nhiều máy tìm kiếm, các phương pháp học máy trình bày tại phần

1.4.3 được áp dụng cho trường hợp hệ thống tìm kiếm cục bộ và các văn bản được

đánh chỉ mục theo nhiều phương pháp khác nhau. Theo Liu và các đồng sự [98],

các phương pháp học xếp hạng với dữ liệu huấn luyện (gọi là học xếp hạng có giám

sát) được đánh giá hiệu quả hơn so với các phương pháp đã trình bày tại phần 1.4.2

(có thể coi là học xếp hạng không giám sát).

1.4.4. Khai thác thông tin người sử dụng

Một cách mặc định, các máy tìm kiếm web truyền thống thực hiện việc truy

vấn dựa trên từ khóa. Tuy nhiên, hai người dùng khác nhau, với chủ đề quan tâm

khác nhau, có thể dùng chung các từ khóa với mục tiêu tìm kiếm khác nhau. Để có

thể đáp ứng tốt hơn nhu cầu tìm kiếm của cá nhân người dùng, thông tin khai báo

của người sử dụng, thói quen hành vi của người dùng trong quá trình thao tác tìm

kiếm đã trở thành một đối tượng nghiên cứu phục vụ cá nhân hóa kết quả xếp hạng

[52], [158] hay xếp hạng hợp tác [24].

Việc cá nhân hóa kết quả xếp hạng thực hiện việc truy vấn thông tin và xếp

hạng kết quả cho người sử dụng dựa trên mối quan tâm riêng biệt của từng người sử

dụng và được thực hiện thông qua hai quá trình : (1) thu thập thông tin mô tả mối

quan tâm của người sử dụng và (2) suy luận dữ liệu thu thập nhằm dự đoán các nội

dung gần với mong muốn của người sử dụng [54].

Những giải pháp thu thập thông tin ban đầu yêu cầu người sử dụng khai báo

mối quan tâm thông tin thông qua bảng đăng ký, và người dùng có thể thay đổi

thông tin này [25], [121]. Vấn đề tồn tại của giải pháp này là người sử dụng không

muốn, hoặc gặp khó khăn khi cung cấp thông tin phản hồi về kết quả tìm kiếm cũng

như mối quan tâm của họ. Một hướng đi khác, phổ biến hơn, thực hiện việc "học",

tạo lập hồ sơ người sử dụng thông qua lịch sử tìm kiếm [152], dữ liệu nhấp chuột

(clickthough data) [149] hay các trang web đã truy cập [38] nhằm phân loại, tạo lập

nhóm các chủ đề quan tâm của người sử dụng với mục tiêu cung cấp thêm thông tin

cho việc xếp hạng. Dựa trên các dữ liệu thu thập, các tác giả xây dựng mô hình mô

- 30 -

tả và khai thác các quan hệ giữa người sử dụng, câu truy vấn và các trang Web,

phục vụ việc xếp hạng kết quả tìm kiếm phù hợp với nhu cầu người sử dụng. Về

đặc tính, các mô hình có thể giới hạn ở việc khai thác "dữ liệu 2 hướng" (two-way

data) khai thác mối quan tâm của người sử dụng đối với các chủ đề thông tin, hoặc

"dữ liệu 3 hướng" (three-way data) kết hợp thêm thông tin về các trang web [149].

Bên cạnh giải pháp sử dụng thông tin của bản thân người sử dụng đã nêu,

một số giải pháp khai thác thông tin nhóm người sử dụng, được tạo lập thông qua

việc phân tích các nội dung tìm kiếm đã được thực hiện của tập hợp nhóm người sử

dụng có chung đặc điểm (vị trí địa lý, nghề nghiệp, sở thích) hoặc có chung thói

quen tìm kiếm, ví dụ như nhóm giải pháp "lọc cộng tác" (Collaborative Filtering -

CF) [14]. Các trang web đáp ứng yêu cầu thông tin của một người trong nhóm sẽ

được coi như phù hợp đối với những người khác trong cùng nhóm.

Do tính thưa thớt của dữ liệu huấn luyện (data sparsity), thuật toán đánh chỉ

mục ngữ nghĩa ẩn (Latent Semantic Indexing) được sử dụng rộng rãi như kỹ thuật

chính phục vụ xây dựng mô hình dữ liệu nhằm tối ưu hóa cách biểu diễn cũng như

khối lượng tính toán [149].

Các phương pháp được trình bày trong phần 1.4.4 được triển khai trong điều

kiện sử dụng các tập tin log của các máy chủ tìm kiếm hoặc đòi hỏi thao tác của

người sử dụng và nằm ngoài khuôn khổ nghiên cứu của luận án.

1.5. XẾP HẠNG TRANG WEB

1.5.1. Đặc thù của tìm kiếm web

Hiện nay, tìm kiếm web được coi là đối tượng nghiên cứu trong nhiều lĩnh

vực, từ khoa học máy tính (cho các vấn đề kỹ thuật) đến xã hội nhân văn (ví dụ cho

các vấn đề liên quan thói quen, hành vi của người sử dụng) [148]. Chỉ riêng ở mức

độ kỹ thuật, tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn

bản truyền thống, vốn được áp dụng cho các hệ thống thư viện, ở nhiều khía cạnh

như cấu trúc tài liệu, cách tương tác giữa người sử dụng và cách hoạt động của hệ

thống [95].

- 31 -

Một tài liệu HTML chứa các thành phần như tiêu đề, tóm tắt, nội dung. Bên

cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta tag.

Các thành phần này ảnh hưởng khác nhau đối với việc tìm kiếm. Ví dụ, tài liệu chứa

từ khóa truy vấn trong tiêu đề thường được coi là phù hợp hơn so với tài liệu chứa

từ khóa truy vấn trong nội dung.

Một cách truyền thống, câu truy vấn có độ dài là 2-3 từ khóa. Tuy nhiên, một

nghiên cứu của Fabio Crestani cùng đồng sự [31] cho thấy đang có xu hướng "chép

và dán" câu truy vấn trong tìm kiếm web, dẫn đến độ dài phổ biến của các câu truy

vấn (dưới dạng viết) là khoảng 7,5 đến 9,5 từ. Trong luận án, tác giả tập trung xem

xét các câu truy vấn trong nhóm này.

Trong tìm kiếm web, người sử dụng có nhu cầu về độ chính xác cao ở các tài

liệu đứng đầu danh sách kết quả, điều này khác biệt so với các hệ thống truy vấn

thông tin, vốn chú trọng nhiều đến việc tạo lập tập hợp toàn bộ các tài liệu phù hợp

với câu truy vấn [95].

1.5.2. Các phương pháp xếp hạng trang Web

1.5.2.1 Khai thác cấu trúc tập tin HTML

Việc khai thác cấu trúc tập tin HTML là một mở rộng của phương pháp

truyền thống thực hiện việc đánh chỉ mục văn bản. Trong tập tin HTML, nội dung

tương ứng với một số các thẻ được nhóm thành các lớp khác nhau và được đánh chỉ

mục riêng biệt. Bằng các phương pháp khác nhau, mức độ quan trọng của mỗi lớp

được xác định nhằm xây dựng một công thức xếp hạng, kết hợp điểm số xếp hạng

của từng lớp thành công thức xếp hạng cho tập tin HTML [2], [33], [71]. Mức độ

quan trọng của mỗi lớp có thể được xác định một cách thủ công [33], hoặc bằng

cách áp dụng kỹ thuật học máy [71].

1.5.2.2 Khai thác mức độ quan trọng của văn bản

Các thuật toán tìm kiếm trên Web phổ biến hiện nay như PageRank và HITS

tạo lập thứ tự xếp hạng dựa trên việc xem xét mối quan hệ giữa các trang web để

đánh giá mức độ quan trọng của các trang web [73], [116]. Nếu coi WWW là một

- 32 -

đồ thị, mỗi trang web có thể được coi là một đỉnh của đồ thị. Các liên kết trong

trang web được biểu diễn dưới dạng cung (có hướng) kết nối các đỉnh. Hai khái

niệm quan trọng trong đồ thị này là authority và hub. Authority tương ứng với một

văn bản có một số liên kết tới, còn hub tương ứng với văn bản có các liên kết ra bên

ngoài.

a. Thuật toán PageRank

Thuật toán PageRank được đề xuất bởi Larry Page và Sergey Brin [116]. Giá trị

PageRank được gán trước cho mỗi trang web trong quá trình tạo chỉ mục giúp khi máy

tìm kiếm tiếp nhận câu truy vấn, kết quả được trả về một cách hầu như tức thì. Mức độ

quan trọng của mỗi trang được tính dựa trên số liên kết từ các trang web khác tới nó.

Mỗi trang P được gán điểm xếp hạng r(P) và được tính bằng công thức đệ quy sau:

∈()

() = (1.21) () ||

trong đó B(P) là tập hợp các trang liên kết tới P. Với mỗi trang Q trong tập

hợp B(P), |Q| là số các liên kết ra từ trang Q, r(Q) điểm xếp hạng của trang Q.

Thuật toán PageRank được sử dụng như một thành phần quan trọng của máy tìm kiếm Google5 đồng thời với các độ đo trong truy vấn thông tin truyền thống dựa

trên nội dung tài liệu. Giá trị PageRank được tính trong quá trình tạo lập chỉ mục và

được tính trên toàn thể tập hợp tài liệu, do đó giúp giảm thời gian truy vấn. Hạn chế

của thuật toán này là nó bỏ qua việc xác định mức độ phù hợp về nội dung của các

trang. Các trang có nội dung phù hợp nhưng không liên kết ra ngoài (tới các trang

khác) lại có giá trị PageRank thấp [36] .

b. Thuật toán HITS

HITS - Hypertext Induced Topic Search - được phát triển năm 1997 bởi Jon

Kleinberg [73]. HITS coi rằng các đỉnh hub tốt sẽ chỉ tới các đỉnh authority tốt và

5 http://www.google.com (truy cập ngày 15/01/2016)

ngược lại các đỉnh authority tốt được chỉ tới từ các đỉnh hub tốt.

- 33 -

Thuật toán HITS được thực hiện theo hai bước: đầu tiên, các tài liệu có nội

dung phù hợp được tập hợp; tiếp theo, một vòng lặp được thực hiện đối với các tài

liệu này nhằm xác định điểm hub score và authority score của mỗi trang dựa trên

. Ở đây, ai và hi lần lượt là authority công thức đệ quy = ∑ ℎ và ℎ = ∑

score và hub score của trang i. Ký hiệu → nghĩa là trang i có liên kết tới trang j.

Ưu điểm của thuật toán này là giá trị xếp hạng của trang phụ thuộc vào nội

dung truy vấn và có thể được kết hợp với các độ đo trong truy vấn thông tin truyền

thống. Một số hạn chế của thuật toán bao gồm: nó cho kết quả không chính xác khi

một trang có liên kết tới rất nhiều chủ đề được xác định là trang phù hợp, tốc độ tính

toán chậm hơn so với thuật toán PageRank vì việc tính điểm cho các trang được

thực hiện sau khi truy vấn.

c. Thuật toán SimRank

Cùng cách tiếp cận với các giải pháp trên, đánh giá mức độ tương tự các

trang web dựa trên cấu trúc liên kết giữa các trang trong hệ thống chứ không dựa

trên sự giống nhau về nội dung như các giải pháp truyền thống, SimRank là giải

pháp được đề xuất bởi các tác giả G. Jeh và J. Widom [67], xác định độ giống nhau

giữa hai đỉnh trên một đồ thị. Ý tưởng chính của SimRank là “hai đỉnh là tương tự

nếu được tham chiếu (có cạnh đi tới) từ các đỉnh tương tự”, hay rộng ra “hai đối

tượng là tương tự nếu cùng có chung quan hệ với các đối tượng tương tự”. Ví dụ,

các giáo viên cùng trường, dạy các học sinh giống nhau thì tương đồng; hoặc các

bài báo có danh sách tài liệu tham khảo trùng lắp là các bài báo có tính tương đồng.

Để thực hiện việc tìm kiếm các trang Web, có thể coi các trang web là đối tượng,

các liên kết chứa bên trong các trang web được sử dụng phục vụ việc so sánh giữa

các đối tượng.

SimRank ứng dụng mô hình đồ thị để xác định mức độ tương tự giữa các đối

tượng. Đồ thị có hướng G=(V,E) chứa các đỉnh V tương ứng với các đối tượng và

các cạnh E tương ứng với quan hệ giữa các đối tượng. Với một đỉnh vV, gọi I(v)

và O(v) là tập hợp các đỉnh lân cận (tương ứng có quan hệ tới hoặc từ đối tượng v),

- 34 -

khi đó mức độ tương tự giữa 2 đối tượng a và b được xác định bằng một trong hai

|()|

|()|

công thức s1(a,b) hay s2(a,b) như sau:

(, ) = |()||()| ((), ())

|()|

|()|

Hoặc

(, ) = |()||()| ((), ())

với C1, C2 là hằng số thỏa mãn 0 ≤ C1, C2 ≤ 1; Ii(a) và Ij(b) tương ứng với các

đỉnh lân cận của a và b trong tập hợp I(v); Oi(a) và Oj(b) là các đỉnh lân cận của a

và b trong tập hợp O(v). Trường hợp đặc biệt, nếu I(a)=0 hoặc I(b)=0 thì s1(a,b) =

0; nếu O(a)=0 hoặc O(b)=0 thì s2(a,b) = 0. Ngoài ra s(a,a) = 1.

Các công thức trên được triển khai tính toán theo cơ chế vòng lặp. Xuất phát

từ giá trị gán ban đầu R0(a,b)= 0 nếu a≠b và R0(a,b)=1 nếu a=b, có thể tính giá trị

|()|

|()|

Rk+1(a,b) dựa trên giá trị Rk(a,b) bằng công thức:

(, ) = |()||()| ((), ())

Dựa trên kết quả thí nghiệm, tác giả đánh giá công thức trên hội tụ khá nhanh

và chọn thực hiện k=5 vòng lặp để xác định mức độ tương tự giữa các đối tượng.

Ngoài ra, tác giả cũng đề xuất giải pháp giảm khối tượng tính toán bằng cách chỉ

xem xét các đỉnh gần nhau trên đồ thị.

Trên cơ sở thuật toán này, các nghiên cứu khác [141], [153], [167] được thực

hiện nhằm giải quyết hạn chế “tương tự zero” (zero-similarity) của SimRank khi

tính toán mức độ tương tự của các đỉnh xa nhau, tăng ngữ nghĩa của độ đo, cũng

như đề xuất các phương pháp tính toán hiệu quả. Các kết quả nghiên cứu được ứng

dụng trong các lĩnh vực như tìm kiếm web, hệ tư vấn, phân tích trích dẫn.

- 35 -

1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ

Trên môi trường Internet, Google6 vào năm 2007 đã giới thiệu công cụ

Google Language Tools hỗ trợ tìm kiếm web xuyên ngữ [23], cho phép người sử

dụng nhập câu truy vấn ở một ngôn ngữ và xác định ngôn ngữ của các tài liệu cần

tìm kiếm. Đây là một trường hợp hạn hữu của mô hình tìm kiếm và xếp hạng kết

quả tìm kiếm trang Web trong môi trường xuyên ngữ. Đến năm 2013, công cụ này

không còn hoạt động. Không có thông tin chính thức về lý do của sự kiện này.

Đối với các hệ thống máy chủ Web cục bộ, các máy chủ tìm kiếm (Search Server) phổ biến như Apache Solr7 , Elastic8, Lemur Indri9 đều giới hạn ở việc phục

vụ tìm kiếm đơn ngữ. Việc thiếu vắng một giải pháp tìm kiếm web xuyên ngữ là

một hạn chế cần được khắc phục trong bối cảnh các cơ quan, tổ chức, cơ sở đào tạo

đang nỗ lực xây dựng các kho kiến thức chứa tài liệu được viết bằng các ngôn ngữ

khác nhau và đang hết sức có nhu cầu về các giải pháp kỹ thuật hỗ trợ quản lý, vận

hành và khai thác các kho kiến thức này.

Về mặt nghiên cứu, các nhà khoa học tập trung giải quyết các vấn đề trong

truy vấn thông tin xuyên ngữ, đặc biệt là các vấn đề liên quan việc dịch thuật nhưng

lại ít quan tâm đến việc mô hình hóa các hệ thống tìm kiếm web xuyên ngữ và giải

quyết các vấn đề kỹ thuật đặc thù của mô hình này. Từ một góc nhìn, một hệ thống

tìm kiếm web xuyên ngữ có thể được phân rã thành các thành phần độc lập, tương

ứng với các chuyên ngành nghiên cứu khác nhau như xử lý ngôn ngữ tự nhiên, dịch

tự động, truy vấn thông tin, học máy. Từ một góc nhìn khác, việc nghiên cứu kết

hợp các vấn đề trong cùng một hệ thống cho phép đề xuất các giải pháp kỹ thuật đặc

thù, kết nối kết quả nghiên cứu của nhiều lĩnh vực, nhằm mục tiêu tối ưu hóa hệ

6 http://www.google.com (truy cập ngày 15/01/2016) 7 http://lucene.apache.org/solr/ (truy cập ngày 15/01/2016) 8 https://www.elastic.co/ (truy cập ngày 15/01/2016) 9 http://www.lemurproject.org/indri.php (truy cập ngày 15/01/2016)

thống.

- 36 -

1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU

1.6.1. Hạn chế

Một số hạn chế liên quan lĩnh vực tìm kiếm web xuyên ngữ, bao gồm cả xử

lý ngôn ngữ tự nhiên, dịch tự động và truy vấn thông tin, đặc biệt là các nghiên cứu

liên quan tiếng Việt, bao gồm:

 Phần lớn các nghiên cứu tập trung xử lý các tài liệu dạng văn bản thuần

túy, chưa khai thác đặc thù của tìm kiếm web là các tài liệu có định dạng HTML;

 Các nghiên cứu về dịch thuật và xếp hạng kết quả tìm kiếm có tính độc

lập, bước thực hiện sau chưa khai thác thông tin kết xuất của bước trước. Các mô

hình kết hợp các kỹ thuật này đòi hỏi sử dụng máy dịch thống kê;

 Các nghiên cứu liên quan tiếng Việt còn hạn chế, chưa thu hút được sự

quan tâm và việc công bố còn manh múm. Chất lượng dịch câu truy vấn còn chưa

cao, gây ảnh hưởng đến hiệu quả của toàn hệ thống. Tài nguyên liên quan tiếng Việt

(từ điển, công cụ phân tích câu tiếng Việt, bộ dữ liệu phục vụ thực nghiệm) còn

chưa phong phú, gây cản trở cho việc nghiên cứu.

1.6.2. Đề xuất nghiên cứu

Trên cơ sở nghiên cứu cơ sở lý thuyết cũng như phân tích thực tiễn và một số

nghiên cứu đã được triển khai, tác giả xác định 2 vấn đề cần thực hiện nghiên cứu

bao gồm vấn đề dịch thuật nhằm tạo môi trường cho phép so sánh câu truy vấn với

các tài liệu cần tìm kiếm và vấn đề cải tiến chất lượng xếp hạng, đảm bảo hệ thống

tìm kiếm được xây dựng phù hợp với loại tài liệu lưu trữ (trong trường hợp của luận

án là các tài liệu web) và đạt hiệu quả cao dựa trên các thước đo đánh giá hệ thống

đã trình bày.

1.6.2.1 Mô hình xếp hạng

Từ đây, tác giả đề xuất xây dựng mô hình xếp hạng phục vụ tìm kiếm web

xuyên ngữ. Mô hình được trình bày trong khuôn khổ bài toán cụ thể tìm kiếm web

xuyên ngữ Việt-Anh, với các cải tiến tại các thành phần chức năng và khai thác đặc

thù của tìm kiếm web.

- 37 -

Mô hình xếp hạng phục vụ tìm kiếm web xuyên ngữ mô tả tại Hình 1.3, được

xây dựng trên nền tảng sơ đồ xử lý truy vấn thông tin trình bày trong Hình 1.1 với

các điều chỉnh để phù hợp với bối cảnh kho tài liệu chứa các tập tin HTML và sự

THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU

1.1: Xử lý văn bản HTML

1.2: Tạo lập đa chỉ mục

Biểu diễn văn bản

Kho tài liệu HTML

Các bộ chỉ mục

Giao diện

2.2: Dịch câu

2.5: Xếp hạng lại

2.4: Tìm kiếm

2.3: Xử lý truy vấn

truy vấn

Bản dịch

Biểu diễn truy vấn

Biểu diễn văn bản

2.1: Tiền xử lý câu truy vấn

Danh sách tài liệu

được xếp hạng

Yêu cầu thông tin

Nội dung phản hồi

TRUY VẤN

khác biệt ngôn ngữ giữa câu truy vấn và tài liệu cần tìm kiếm.

Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ

Trong mô hình, tại giai đoạn thu thập, xử lý dữ liệu, các tập tin HTML được

xử lý, phân tích thành các trường tương ứng với các thành phần nội dung trong tập

tin và được đánh chỉ mục theo các trường.

Giai đoạn truy vấn bao gồm các bước chính: tiền xử lý câu truy vấn, dịch câu

truy vấn, xử lý câu truy vấn ở ngôn ngữ đích, thực hiện tìm kiếm và cuối cùng là xếp

hạng lại (xem Hình 1.4).

- 38 -

Tiền xử lý câu truy vấn

Câu

truy vấn

Dịch câu truy vấn

Xử lý câu truy vấn

Bộ

chỉ mục

Thực hiện tìm kiếm

Xếp hạng lại

Danh sách kết quả

Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn

Bước tiền xử lý câu truy vấn thực hiện việc phân tích câu truy vấn tiếng Việt

,

, …

qv thành một tập hợp ((v1,L1),(v2,L2), ….,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn } chứa mi phương án và các danh sách bản dịch L1,…,Ln. Cụ thể = {

dịch của từ tiếng Việt vi.

Bước dịch câu truy vấn xác định các phương án dịch phù hợp cho mỗi từ

khóa tiếng Việt vi từ danh sách Li; sắp xếp các phương án dịch này theo mức độ

phù hợp và tạo lập câu truy vấn.

Bước xử lý câu truy vấn kế thừa kết quả của bước dịch câu truy vấn và

hoàn thiện câu truy vấn ở ngôn ngữ đích.

Bước thực hiện tìm kiếm sử dụng các công thức của mô hình xếp hạng

trong máy tìm kiếm nhằm lọc các tài liệu phù hợp với câu truy vấn. Bước xếp

hạng lại áp dụng các kỹ thuật nhằm sắp xếp lại danh sách kết quả tìm kiếm trả

về từ máy tìm kiếm.

- 39 -

Phân tích về mặt công nghệ, giai đoạn truy vấn thông tin trong mô hình đề

xuất bao gồm 3 nhóm thành phần kỹ thuật. Thành phần dịch thuật phục vụ việc

biểu diễn các tài liệu và câu truy vấn trong một không gian chung (cụ thể là trong

cùng một ngôn ngữ) để cho phép so sánh, xác định mức độ phù hợp. Trong luận án,

tác giả triển khai nghiên cứu phương án sử dụng từ điển. Đây là công cụ có sẵn và

có thể dễ dàng triển khai trong thực tế.

Thành phần hỗ trợ dịch thuật kết hợp các kỹ thuật phân tích, xử lý câu truy

vấn ở ngôn ngữ nguồn (ngôn ngữ câu truy vấn) trước khi dịch, rồi điều chỉnh câu

truy vấn tại ngôn ngữ đích (ngôn ngữ tài liệu) sau khi dịch nhằm tối ưu câu truy

vấn.

Sau khi thực hiện truy vấn ở ngôn ngữ đích sử dụng máy tìm kiếm, thành

phần xếp hạng lại thực hiện việc cải tiến chất lượng xếp hạng. Trong khuôn khổ

luận án, tác giả đề xuất các hàm xếp hạng cơ sở và áp dụng kỹ thuật học máy bằng

lập trình di truyền nhằm xây dựng hàm xếp hạng cuối cùng.

1.6.2.2 Xác định nội dung nghiên cứu

Để đạt mục tiêu xây dựng mô hình tìm kiếm web xuyên ngữ, các nội dung

được tác giả thực hiện nghiên cứu bao gồm:

 Các kỹ thuật dịch tự động, được trình bày ở chương 2;

 Các kỹ thuật hỗ trợ dịch câu truy vấn, được trình bày ở chương 3, bao

gồm tiền xử lý câu truy vấn tại ngôn ngữ nguồn và tối ưu hóa câu truy vấn tại ngôn

ngữ đích;

 Các phương pháp xếp hạng lại, trong đó chú trọng việc học xếp hạng,

được trình bày ở chương 4;

 Xây dựng hệ thống tìm kiếm web xuyên ngữ bằng cách tích hợp các kỹ

thuật dịch tự động, hỗ trợ dịch thuật và xếp hạng lại nhằm triển khai thực nghiệm và

đánh giá mô hình đề xuất, được trình bày trong chương 5.

- 40 -

1.7. TIỂU KẾT CHƯƠNG

Nội dung chương 1 trình bày cơ sở lý thuyết về truy vấn thông tin và truy

vấn thông tin xuyên ngữ; các độ đo phổ biến được sử dụng để đánh giá và cách thức

tạo lập môi trường đánh giá. Bên cạnh đó, tác giả giới thiệu các hướng tiếp cận

trong truy vấn thông tin xuyên ngữ, giới thiệu tổng quan về các phương pháp xếp

hạng lại kết quả tìm kiếm và vấn đề xếp hạng kết quả tìm kiếm web.

Trên cơ sở nghiên cứu cơ sở lý thuyết và phân tích các kết quả nghiên cứu đã

có, tác giả xác định 2 vấn đề cần thực hiện nghiên cứu bao gồm vấn đề dịch thuật

nhằm tạo môi trường cho phép so sánh câu truy vấn với các tài liệu cần tìm kiếm và

vấn đề cải tiến chất lượng xếp hạng. Từ đó, tác giả đề xuất một mô hình tìm kiếm

web xuyên ngữ và xác định các nội dung nghiên cứu phục vụ việc thiết kế mô hình,

bao gồm các kỹ thuật dịch tự động, các kỹ thuật hỗ trợ dịch câu truy vấn và các

phương pháp học xếp hạng lại.

- 41 -

CHƯƠNG 2 DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ

Nội dung chương 2 trình bày nghiên cứu của tác giả liên quan các kỹ thuật

dịch tự động phục vụ truy vấn xuyên ngữ, bao gồm các phương pháp dịch khác

nhau áp dụng trong CLIR, các kỹ thuật khử nhập nhằng trong phương pháp sử dụng

từ điển. Trọng tâm của chương 2 trình bày các đề xuất của tác giả phục vụ việc dịch

câu truy vấn bằng từ điển, cụ thể là các phương pháp khử nhập nhằng nhằm chọn

các bản dịch tốt nhất cho các từ trong câu truy vấn dựa trên việc sử dụng thông tin

đo mức độ liên quan của cặp từ Mutual Information và các phương pháp xây dựng

bản dịch câu truy vấn ở ngôn ngữ đích (ngôn ngữ tài liệu cần tìm kiếm).

2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG

2.1.1. Sử dụng máy dịch

Sử dụng máy dịch được nhận định là một sự lựa chọn khá tự nhiên và độc

lập với mô hình tìm kiếm. Phương pháp này đặc biệt phù hợp và hiệu quả đối với

việc dịch tài liệu. Trong những năm gần đây, các hệ thống máy dịch trở nên phổ

biến và đạt được các kết quả rất khả quan. Tại hội thảo CLEF 2008, các hệ thống

CLIR sử dụng máy dịch có thể đạt hiệu quả tới 90- 99% so với hệ thống IR đơn ngữ

trên các tập tài liệu tiếng Pháp, tiếng Anh và tiếng Đức. Máy dịch Google Translate10 được đánh giá vượt trội so với các máy dịch khác [42].

Trong một thực nghiệm do tác giả tiến hành, sử dụng công cụ máy dịch

Google Translate nhằm tăng hiệu quả của truy vấn xuyên ngữ [79] cho cặp ngôn

ngữ Anh-Pháp, bên cạnh việc áp dụng kỹ thuật sử dụng phản hồi ẩn trong mô-đun

tiền xử lý câu truy vấn, tác giả dịch một số tài liệu đứng đầu danh sách kết quả tìm

kiếm ở ngôn ngữ nguồn, so sánh với các tài liệu trong kết quả tìm kiếm ở ngôn ngữ

10 http://translate.google.com (truy cập ngày 16/01/2016)

đích nhằm xếp hạng lại kết quả tìm kiếm ở ngôn ngữ đích. Kết quả thực nghiệm cho

- 42 -

thấy việc chỉ áp dụng công cụ Google Translate chưa đảm bảo cho một kết quả tìm

kiếm tốt. Việc áp dụng các kỹ thuật loại bỏ các từ phổ biến trong tập hợp các văn

bản, sử dụng phản hồi ẩn, kết xuất từ khóa để mở rộng câu truy vấn có tác dụng

nhất định trong việc tăng chất lượng xếp hạng. Đặc biệt, việc xếp hạng lại các văn

bản tiếng Pháp dựa trên nội dung các văn bản trong danh sách kết quả tìm kiếm

tiếng Anh làm tăng đáng kể chất lượng xếp hạng.

Bên cạnh các thành công, sử dụng máy dịch trong CLIR cũng có hạn chế,

đặc biệt với các ngôn ngữ không phổ biến: các hệ thống máy dịch chỉ cho ra một

phương án dịch và có thể bỏ qua một số phương án dịch khác; bên cạnh đó, các hệ

thống này đặt sự chú ý quá cao đến chính tả, vốn là một yếu tố không quan trọng

trong CLIR.

2.1.2. Sử dụng kho ngữ liệu

Văn bản song song là các văn bản có cùng nội dung, được trình bày bằng các

ngôn ngữ khác nhau. Một kho tài liệu chứa một số lượng lớn các văn bản song song

được gọi là kho ngữ liệu song song. Trong CLIR, các kho ngữ liệu so sánh được

khai thác nhằm đánh giá sự liên quan giữa các từ khóa thông qua xác suất cùng xuất

hiện của chúng trong các ngôn ngữ khác nhau để xây dựng một từ điển từ vựng

tương đương [143], [172].

Các kho ngữ liệu song song có thể được thu thập từ nhiều nguồn: các tổ chức

quốc tế định kỳ công bố các tài liệu được viết bằng nhiều thứ tiếng; các tác phẩm

văn học nổi tiếng cũng được dịch sang các ngôn ngữ khác nhau. Nhiều kỹ thuật,

công cụ được áp dụng nhằm xây dựng kho ngữ liệu song song từ WWW, trong đó

có thể kể đến các kết quả nghiên cứu của Nie và Resnik [114], [127], thực hiện đầu

tiên việc xác định các website ứng viên, phân tích nội dung chuỗi ký tự địa chỉ trang

Web, cấu trúc nội dung trang Web, sau đó so sánh các văn bản để bóc tách các cặp

tài liệu song song. Đối với tiếng Việt, các nghiên cứu của Đặng Văn Bắc và Huỳnh

Công Pháp [34], [65] cũng thực hiện các mục đích tương tự cho cặp song ngữ Việt-

- 43 -

Anh. Tác giả Ngo Quoc Hung và các đồng sự [108] công bố các công cụ tạo lập và một phần của kho ngữ liệu song ngữ Việt-Anh trên Internet11.

Hạn chế cơ bản của các kho ngữ liệu song song là chúng không có sẵn và

khó tạo lập. Thay vào đó, có thể sử dụng các kho chứa các tài liệu có chung chủ đề,

nội dung (ví dụ nhiều bài báo mạng hàng ngày cùng nói về các sự kiện xảy ra trên

thế giới) và chứa các từ khóa quan trọng tương đương ở các ngôn ngữ khác nhau,

hay nói cách khác là có thể so sánh được.

2.1.3. Sử dụng từ điển

Các từ điển máy được lưu trữ trong máy tính và có thể được khai thác như

một cơ sở dữ liệu để phục vụ việc tra cứu bản dịch của một từ ở một ngôn ngữ này

trong một ngôn ngữ khác (ví dụ từ điển Anh-Việt cho phép tra cứu bản dịch tiếng

Việt của các từ tiếng Anh).

Sử dụng từ điển là kỹ thuật phổ biến trong CLIR, chủ yếu do sự có sẵn của

các loại từ điển máy và tính chất đơn giản của việc sử dụng CLIR thông qua việc

chọn lựa bản dịch trong từ điển cho các từ khóa trong câu truy vấn để tạo lập bản

dịch câu truy vấn ở ngôn ngữ khác: có thể chọn bản dịch là phương án đầu tiên xuất

hiện trong mục từ, chọn tất cả các phương án dịch, hay sử dụng các thông tin thống

kê nhằm chọn lựa bản dịch phù hợp nhất. Kỹ thuật này tương đối đơn giản so sánh

với việc sử dụng kho ngữ liệu và có ưu điểm là thường tăng độ bao phủ (recall) của

kết quả. Các vấn đề chủ yếu cần giải quyết trong kỹ thuật sử dụng từ điển bao gồm

việc khử nhập nhằng và độ bao phủ của từ điển [94], [172].

2.1.4. Sử dụng ngôn ngữ trung gian

Ngôn ngữ trung gian thường được sử dụng khi không có các tài nguyên phục

vụ việc dịch trực tiếp giữa hai ngôn ngữ [172]. Trong trường hợp dịch chuyển tiếp,

câu truy vấn được dịch từ ngôn ngữ trung gian nhằm thực hiện việc so sánh với các

tài liệu ở ngôn ngữ đích khác với ngôn ngữ trung gian. Trong trường hợp dịch đồng

11 https://code.google.com/p/evbcorpus (truy cập ngày 16/01/2016)

thời, cả câu truy vấn và tài liệu đều được dịch sang ngôn ngữ trung gian.

- 44 -

Ngôn ngữ trung gian có thể là một ngôn ngữ phổ biến (thường là tiếng Anh),

hoặc là hệ thống các khái niệm như các ontology hay ngôn ngữ UNL. Trong một số

giải pháp, Wikipedia cũng được sử dụng như một ngôn ngữ trung gian: câu truy vấn

và các tài liệu được biểu diễn thông qua các tài liệu trong Wikipedia và sau đó sử

dụng các liên kết ngôn ngữ để tính toán độ phù hợp [59], [110], [111].

Các nghiên cứu [75], [93] cho rằng chất lượng các hệ thống truy vấn xuyên

ngữ sử dụng ngôn ngữ trung gian làm công cụ dịch phụ thuộc vào tài nguyên phục

vụ dịch (kho ngữ liệu song song, từ điển). Nếu có đủ tài nguyên, các hệ thống này

có thể có chất lượng gần bằng (nhưng không vượt) các hệ thống dịch trực tiếp.

2.1.5. Sử dụng không gian ngữ nghĩa

Nhằm tiến tới một giải pháp CLIR chung cho nhiều ngôn ngữ và vượt qua

hạn chế về nhập nhằng ngữ nghĩa, một hướng tiếp cận mới được đề xuất dựa trên

việc biểu diễn văn bản và câu truy vấn không phải bằng các từ khóa chứa bên trong,

mà bởi các khái niệm trong một không gian ngữ nghĩa. Các khái niệm trong không

gian này được thiết lập quan hệ ngữ nghĩa, trên cơ sở đó xây dựng sự tương tự ngữ

nghĩa giữa các tài liệu, hay giữa câu truy vấn và tài liệu cần tìm kiếm. Những kỹ

thuật nằm trong hướng tiếp cận này bao gồm sử dụng các trang liên kết ngôn ngữ

trong Wikipedia [59], [110], [111], sử dụng Ontology [58],[64], [164], hay sử

dụng ngôn ngữ UNL [107].

2.1.6. Đánh giá chung

Nhằm xử lý sự khác biệt ngôn ngữ giữa câu truy vấn và tài liệu trong CLIR,

nhiều kỹ thuật dịch được đề xuất. Trong mọi trường hợp, yếu tố tài nguyên phục vụ

dịch thuật (độ bao phủ của từ điển, kích thước và chất lượng của kho ngữ liệu song

song hay có thể so sánh) đóng vai trò then chốt đối với chất lượng dịch thuật.

Các giải pháp sử dụng máy dịch, sử dụng kho ngữ liệu hay sử dụng không

gian ngữ nghĩa có các hiệu quả nhất định, tuy nhiên việc xây dựng đòi hỏi các kho

ngữ liệu lớn, có chất lượng. Nhằm tránh khó khăn này, luận án chọn hướng tiếp cận

sử dụng từ điển số và tập trung giải quyết vấn đề nhập nhằng ngữ nghĩa.

- 45 -

2.2. KHỬ NHẬP NHẰNG

Khi triển khai phương pháp sử dụng từ điển song ngữ, ba vấn đề chính có

khả năng gây ảnh hưởng giảm hiệu quả của hệ thống bao gồm độ bao phủ của từ

điển, việc phân đoạn câu truy vấn thành các phần có nghĩa và việc xác định bản

dịch phù hợp [119]. Theo Ballesteros và Croft [8], xuất phát từ các nguyên nhân

này, các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển có chất lượng dưới

60% so với các hệ thống đơn ngữ (đo bằng tỷ lệ giá trị MAP của hai hệ thống). Gao

Jianfeng và các đồng sự cũng có một kết luận tương tự [49]. Khử nhập nhằng chính

vì thế là một ứng dụng quan trọng trong truy vấn thông tin xuyên ngữ.

Có hai nhóm giải pháp khử nhập nhằng: dựa trên học máy hoặc dựa trên từ

điển [138]. Trong nhóm giải pháp dựa trên học máy, hệ thống được huấn luyện dựa

trên các kho ngữ, thông tin về cách kết hợp từ, tính chất cùng xuất hiện của các từ

lân cận nhằm xây dựng các mô hình xác suất, thống kê hay bộ luật phục vụ khử

nhập nhằng. Nhóm giải pháp thứ hai dựa vào các quan hệ ngữ nghĩa được định

nghĩa trong các từ điển như Wordnet [151], hay các cơ sở dữ liệu đặc biệt về từ

vựng.

Tác giả Nguyen Han Doan [109] sử dụng mô hình xác suất để triển khai kỹ

thuật khử nhập nhằng. Cho câu truy vấn tiếng Việt được biểu diễn dưới dạng tập

hợp các từ khóa (v1,…,vn) và các bản dịch ứng viên có dạng (e1,…,en), trong đó ei là

bản dịch của vi. Xác suất P(E) = P(e1,…,en) của việc lựa chọn bản dịch (e1,…,en)

được ước lượng bằng công thức:

(2.1) (, , … , ) = () (|)

Trong đó, P(e) là xác suất thuật ngữ e xuất hiện trong kho tài liệu huấn

luyện, P(e|e’) được xác định bằng công thức:

(2.2) (|′) = max , 0 + () × () (, ) − 1

- 46 -

Với f(e,e’) là tần suất hai thuật ngữ e và e’ cùng xuất hiện trong kho tài liệu.

N là số thuật ngữ xuất hiện trong kho tài liệu huấn luyện.

Tác giả Hồ Bảo Quốc và các đồng sự [63] đề xuất kết hợp cả hai kỹ thuật sử

dụng từ điển và kho ngữ liệu song song. Đầu tiên một kho ngữ liệu song song

Anh-Việt được tạo lập, chứa 120.000 cặp câu song song. Một mô hình dịch xác suất

được huấn luyện dựa trên kho ngữ liệu này bằng cách sử dụng mô hình dịch

IBM1 [17]. Từ khóa truy vấn đầu tiên được tìm trong từ điển và nếu xuất hiện nhiều

hơn một phương án, mô hình dịch xác suất được sử dụng để chọn bản dịch phù hợp.

Trong nghiên cứu [63], các tác giả không chú trọng việc phân đoạn câu truy vấn nên

kết quả đạt được còn chưa cao. Điểm MAP của hệ thống truy vấn xuyên ngữ Việt-

Anh chỉ bằng 47,58% so với hệ thống truy vấn đơn ngữ.

Các tác giả Zhou và Gao [47], [171] đề xuất xây dựng mô hình dịch dưới

dạng đồ thị, với đỉnh biểu diễn các phương án dịch và các cạnh mô tả quan hệ giữa

các phương án này, nhằm xác định xác suất liên kết của các phương án dịch, từ đó

xác định tập hợp các bản dịch phù hợp nhất. Hạn chế lớn nhất của các mô hình này

là khối lượng tính toán lớn kể cả khi câu truy vấn ngắn, mô hình được đơn giản hóa

thông qua việc giả định chỉ xác định xác suất liên kết giữa các cặp từ.

Một phương pháp khác, khai thác các thông tin thống kê về việc “cùng xuất

hiện” của các từ khóa trong văn bản được sử dụng bởi các tác giả Ballesteros, Gao

và Mirna [9], [48], [103] nhằm chọn lựa bản dịch cho các từ khóa truy vấn. Giả

thuyết đứng sau nhóm kỹ thuật này là bản dịch đúng của các từ khóa trong câu truy

vấn thường cùng xuất hiện trong một phần của văn bản (cùng câu, cùng đoạn) ở

ngôn ngữ đích, trong khi các từ dịch sai không như vậy. Nói một cách khác, hướng

tiếp cận này xác định bản dịch tiềm năng nhất bằng việc kiểm tra tần suất cùng xuất

hiện của các từ khóa trong một kho văn bản nào đó (có thể được tính toán trước).

2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY

Mô hình sử dụng từ điển máy bao gồm ba bước chính [119]. Tại bước phân

đoạn, câu truy vấn được chia thành các phần nhỏ là các từ khóa có ý nghĩa. Tiếp

theo, bản dịch các từ khóa này được kết xuất từ từ điển. Tại bước cuối cùng, tương

- 47 -

ứng với mỗi từ khóa trong câu truy vấn, một hoặc một số bản dịch phù hợp được

lựa chọn. Sự kết hợp các bản dịch cho kết quả là biểu diễn của câu truy vấn tại ngôn

ngữ chứa các tài liệu cần tìm kiếm.

Trong từ điển, mỗi mục từ thường tương ứng với nhiều phương án dịch khác

nhau, do đó cần chọn bản dịch phù hợp nhất. Hai phương án đối lập nhau bao gồm:

chọn một bản dịch hoặc chọn nhiều bản dịch [172].

Luận án tập trung xử lý trường hợp truy vấn song ngữ Việt-Anh. Từ một câu

truy vấn ở ngôn ngữ nguồn, các thuật toán sẽ được mô tả tại chương 3 thực hiện

việc bóc tách các từ khóa trong câu truy vấn kèm với danh sách các phương án dịch

của từ khóa. Trong chương này, tác giả tập trung trình bày mô-đun dịch thuật, chịu

trách nhiệm chọn lựa từ các phương án dịch một hay một số phương án tốt nhất để

xây dựng câu truy vấn tại ngôn ngữ đích. Nội dung mô hình và kết quả thực nghiệm

được trình bày tại các bài báo của tác giả [81], [83].

2.3.1. Xây dựng dữ liệu từ điển

Nhằm xây dựng một từ điển đủ lớn từ các nguồn tài nguyên mã nguồn mở,

một cơ sở dữ liệu chứa các cặp từ Việt-Anh được tạo lập, kết xuất dữ liệu từ dự án từ điển miễn phí cho tiếng Việt12 của tác giả Hồ Ngọc Đức và các cặp từ trong cơ sở

dữ liệu cặp từ liên kết của Wikipedia. Với nguồn dữ liệu đầu tiên, tương ứng với

mỗi mục từ trong từ điển Anh-Việt và Việt-Anh, các bản dịch được bóc tách và

cùng với mục từ tạo thành cặp từ Việt-Anh để đưa vào cơ sở dữ liệu cặp từ. Với nguồn dữ liệu Wikipedia, bản sao các cặp từ liên kết13 được phân tích nhằm bóc

tách các cặp từ Việt-Anh. Các cặp từ được lưu trữ trong các bảng riêng nhằm khai

thác theo thứ tự ưu tiên: đầu tiên từ được tìm kiếm trong Wikipedia, tiếp theo là từ

12 http://www.informatik.uni-leipzig.de/~duc/Dict (truy cập ngày 15/01/2016) 13 http://dumps.wikimedia.org/viwiki (truy cập ngày 15/01/2016)

điển Việt-Anh và cuối cùng là từ điển Anh-Việt.

- 48 -

Trên cơ sở phân tích cấu trúc dữ liệu của các tập tin từ điển và dữ liệu

Wikipedia, các mô-đun phần mềm được xây dựng chuyển đổi các mục từ trong từ

điển sang dạng cơ sở dữ liệu riêng phục vụ luận án.

2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ

Mỗi từ khóa thuộc câu truy vấn ở ngôn ngữ nguồn có thể có các phương án

dịch khác nhau. Để chọn lựa phương án dịch phù hợp với nhu cầu thông tin, cần xác

định ngữ cảnh sử dụng từ khóa. Từ các giải pháp khử nhập nhằng được trình bày tại

phần 2.2, có thể thấy sự liên quan giữa các cặp từ (cùng xuất hiện trong kho ngữ

liệu, trong cùng văn bản hoặc cùng câu) đóng vai trò quan trọng trong việc cung cấp

thêm thông tin về ngữ cảnh sử dụng từ khóa, thông qua đó giúp xác định bản dịch

phù hợp cho các từ khóa trong câu truy vấn. Bên cạnh đó, trong bối cảnh thiếu vắng

các kho ngữ liệu song song lớn, với chất lượng tốt, cách tiếp cận sử dụng thông tin

liên quan giữa các cặp từ thể hiện rõ ưu điểm do thông tin này được khai thác từ các

kho ngữ liệu đơn ngữ có thể dễ dàng tạo lập.

Trong luận án, mức độ liên quan của cặp từ được xác định bằng độ đo thông

tin tương hỗ (Mutual Information-MI) của cặp từ và được sử dụng để thực hiện khử

nhập nhằng và chọn lựa bản dịch phù hợp. Trên cơ sở độ đo này, độ đo tính điểm

liên kết (cohesion score) được tính toán nhằm xác định mức độ phù hợp với ngữ

cảnh của các phương án dịch, từ đó cho phép chọn lựa bản dịch tốt nhất.

2.3.3. Các biến thể của công thức MI

Phần này giới thiệu các phương án xây dựng công thức đo thông tin tương hỗ

của cặp từ được sử dụng trong luận án.

2.3.3.1 Sử dụng tần xuất cùng xuất hiện của cặp từ

Đầu tiên, quá trình huấn luyện được thực hiện trên một kho tài liệu tiếng Anh

nhằm xây dựng mô hình quan hệ của các cặp từ. Với mỗi từ tiếng Anh, số lần từ đó

cùng xuất hiện cùng một từ khác trong cùng câu và trong phạm vi cửa sổ [-5,5]

được ghi nhận trong một bảng dữ liệu. Kết quả, mỗi dòng trong bảng dữ liệu chứa

một cặp từ và số lần chúng cùng xuất hiện trong cùng câu và có khoảng cách không

- 49 -

quá 5 từ. Với hai từ x và y, công thức phổ biến tính giá trị Micooc thể hiện quan hệ

cặp từ có dạng sau:

(2.3) = log (, ) () × ()

trong đó, p(x,y) là xác suất hai từ x,y xuất hiện trong cùng câu với khoảng

cách không quá 5 từ, p(x) và p(y) là xác suất xuất hiện từ x và y trong kho ngữ liệu.

Gọi N là kích thước kho ngữ liệu, nx, ny là số lần xuất hiện của mỗi từ x và y

trong kho ngữ liệu, nxy là số lần xuất hiện của cặp từ x và y trong cùng câu và cách

nhau không quá 5 từ, công thức (2.3) có thể được tính như sau:

(2.4) = log + log () = log × ×

Cùng sử dụng các ký hiệu trên, luận án thực nghiệm một biến thể khác (ký

hiệu là MInxy có dạng sau:

(2.5) + ) (, ) = × ( 1 1

2.3.3.2 Sử dụng máy tìm kiếm

Một công thức tính giá trị MI dựa trên hệ thống truy vấn đơn ngữ tiếng Anh,

ký hiệu là MIir, được trình bày như sau: Với 2 từ x và y, giá trị MIir(x,y) được xác

định như sau: các chuỗi x,y và 'x AND y' được dùng như các câu truy vấn gửi tới

máy tìm kiếm. Các giá trị n(x), n(y) tương ứng sẽ là số tài liệu chứa các chuỗi x, y.

Gía trị n(x,y) là số tài liệu có x,y cùng xuất hiện. Nếu n(x) hay n(y) bằng 0, giá trị

MIir trả về được tính bằng 0. Trong trường hợp ngược lại:

(2.6) = (, ) () × ()

- 50 -

Ưu điểm của công thức này là nó được tính toán ngay trên hệ thống các văn

bản cần tìm kiếm và do đó giúp loại bỏ các cặp từ không cùng xuất hiện trong các

văn bản.

Trong các thuật toán tiếp theo, có thể sử dụng một trong các biến thể của

hàm MI(x,y) đã trình bày để xác định mức độ liên quan giữa hai từ x và y. Trong

một trường hợp riêng, giá trị MI(x,y) với y là từ đa âm tiết được tính bằng giá trị nhỏ

nhất của các giá trị MI(x,e) với e là từ thành phần của y.

2.3.4. Thuật toán chọn bản dịch tốt nhất

Các thuật toán trong phần này được thực hiện khi câu truy vấn tiếng Việt qv

đã được phân tích thành một tập hợp ((v1,L1),(v2,L2), ….,(vn,Ln)) chứa các từ khóa

tiếng Việt v1,..vn và các danh sách bản dịch tương ứng L1,…,Ln, trong đó

= (, … , ) là danh sách chứa các bản dịch ứng viên của vi. Ví dụ, với câu truy vấn tiếng Việt "quản lý quy trình sản xuất", tập hợp ((v1,L1),(v2,L2),(v3,L3)) tương

ứng các giá trị v1="quản lýverb", v2="quy trìnhnoun”, v3="sản xuấtverb" và các phương

án dịch của tương ứng là L1= (manage, administor, control, management, regulate),

L2 = (method, process, instruction) và L3 = (make, produce, manufacture,

fabricate).

Việc áp dụng thuật toán nhằm mục tiêu chọn lựa một hay một số bản dịch tốt

nhất cho mỗi từ khóa tiếng Việt.

2.3.4.1 Thuật toán Greedy

Thuật toán Greedy sau được sử dụng rộng rãi để xác định bản dịch phù hợp:

Thuật toán Greedy

Input: câu truy vấn q = {q1,q2,…,qn}

Output: tập hợp các phương án dịch T = {t1,….,tn}

begin

(1) Với mỗi từ qi của q, xác định tập hợp các bản dịch Ti =

{ti,1,ti,2,…,ti,m} từ tài nguyên dịch thuật (ví dụ từ điển)

(2) Đối với mỗi tập hợp Ti:

- 51 -

(a) Với mỗi ti,m  Ti định nghĩa mức tương tự giữa bản

dịch ti,m và các tập hợp Tj khác (Tj ≠ Ti)

,, = ,, , ,∈

(b) Tính điểm liên kết (cohesion score) cho ti,m

(2.7)

, = (,, )

(c) Lựa chọn ti,m có điểm liên kết cao nhất

= , ,

(2.8)

(2.9)

return {t1,…,tn}

end

Các thuật toán khác nhau để tính giá trị ,, , đo sự tương tự giữa

hai từ ti,m và tj,n có thể được sử dụng. Các thuật toán phổ biến bao gồm khai thác

thông tin chung Mutual Information, hệ số Dice, tỷ lệ tương tự log và kiểm tra Chi

bình phương [99].

Trong thuật toán Greedy, với n là số thuật ngữ trong câu truy vấn, ta cần tìm

bản dịch tốt nhất cho từng thuật ngữ; Với mỗi thuật ngữ cần xem xét các phương án

dịch của (n-1) thuật ngữ khác. Từ đây cho thể thấy thuật toán có độ phức tạp là

(n2). Thuật toán Greedy được sử dụng như cơ sở so sánh với các thuật toán do tác

giả đề xuất.

2.3.4.2 Thuật toán SMI

Như đã trình bày tại phần 2.3.4.1, thuật toán Greedy thực hiện việc xác định

phương án dịch tốt nhất cho từng từ (ở ngôn ngữ nguồn) một cách độc lập trên cơ

sở mức độ quan hệ của phương án dịch của từ đó với các phương án dịch của các từ

khác. Hạn chế của thuật toán xác định bản dịch tốt nhất một cách độc lập cho từng

từ nằm ở chỗ nó chưa thể hiện mối ràng buộc giữa phương án dịch giữa tất cả các từ

khóa truy vấn. Bên cạnh đó, công thức (2.7) bao hàm điểm liên kết của một bản

dịch với tất cả các phương án dịch của một từ khác (bao gồm cả bản dịch phù hợp

hoặc không phù hợp) và do đó tiềm ẩn việc chứa đựng thông tin không chính xác.

- 52 -

Thuật toán SMI (viết tắt của Summary Mutual Information) do tác giả đề

xuất, được trình bày tại [81], thực hiện việc khử nhập nhằng dựa trên ý tưởng xây

dựng hàm tính tổng độ đo mức độ liên quan của các cặp từ nhằm mục tiêu xây dựng

mối ràng buộc giữa các phương án dịch được chọn lựa của tất cả các từ khóa truy

vấn ở ngôn ngữ nguồn.

Thuật toán SMI

Input: câu truy vấn qv = {v1,v2,…,vn}

Output: tập hợp các phương án dịch qe = {e1,….,en}

begin

(1) Với mỗi từ vi của q, xác định tập hợp các bản dịch Li

= {ti,1,ti,2,…,ti,m} từ tài nguyên dịch thuật (ví dụ từ

điển)

(2) Với mỗi tập hợp qtrane={e1,….,en} | eiLi

() = (, )

(2.10)

, ∈

(3) Lựa chọn qtrane có điểm SMI cao nhất = (())

(2.11)

return qe

end

Sau khi thực hiện bước phân đoạn câu truy vấn, mỗi câu truy vấn tiếng Việt

qv được biểu diễn như tập hợp ((v1, L1), ..., (vn, Ln)), trong đó vi là từ tiếng Việt và

= (, … , ) là danh sách chứa các bản dịch ứng viên của vi. Để tiết kiệm chi phí tính toán, mỗi danh sách Li chỉ chứa tối đa 3 phương án dịch có giá trị phân bố

cao nhất (xuất hiện nhiều nhất) trong kho tài liệu huấn luyện.

Mỗi bản dịch ứng viên qtrane của câu truy vấn tiếng Việt qv có thể biểu diễn

dưới dạng mảng qtrane = (e1, ..., en), trong đó ei được chọn từ danh sách Li. Với các

bản dịch ứng viên này, hàm SMI kết hợp thông tin liên quan giữa các cặp từ thành

phần được định nghĩa tại công thức (2.10). Kết quả, bản dịch ứng viên với giá trị

SMI cao nhất được chọn là bản dịch tiếng Anh cho câu truy vấn tiếng Việt qv ban

đầu.

- 53 -

Để minh họa cho thuật toán, ta xem xét câu truy vấn tiếng Việt "ăn chuối

mỗi ngày để giảm nguy cơ đột quỵ". Giai đoạn tiền xử lý tách câu truy vấn thành

các từ khóa và phương án dịch như sau:

v1 = ăn L1 = (To eat, to feed, to take, to have, ate , eaten , eating , finish ,

get , grip , had , has , have , horse , jump , knife , knives , meal ,

pick , put , stomach , taken , took , touch , tuck , hand-feed)

v2=chuối L2=(Banana)

v3=mỗi ngày L4=(each day, everyday)

v4=giảm L3=(to lessen, to reduce, to decrease, commutation , commute ,

cut , cutting , depression , diminish , discount , drawback , drop,

fade , lower , pull , reduce , retrench , subduce , subduct,

subduction , subside , subsidence , take , taken , took , wane)

v5=nguy cơ L5=(danger , jeopardy , liability)

V6=đột quỵ L6=(stroke)

Tất cả các phương án tổ hợp bản dịch của các từ khóa tiếng Việt dạng qtrane

= (e1, ..., en), trong đó ei được chọn từ danh sách Li, được xem xét và tính giá trị

SMI. Kết quả, phương án dịch tốt nhất tương ứng với giá trị SMI cao nhất là (eat,

banana, everyday, reduce, danger, stroke).

Phương pháp xác định bản dịch tốt nhất này khác với các phương pháp sử

dụng thuật toán greedy được trình bày tại phần 2.3.4.1. Trong thuật toán greedy,

bản dịch được xác định cho mỗi từ khóa một cách độc lập. Trong giải pháp tác giả

đề xuất, mọi phương án kết hợp các bản dịch được xem xét để cho phương án tốt

nhất dựa trên việc xem xét giá trị hàm SMI, từ đó xác định bản dịch tốt nhất.

Hạn chế của thuật toán SMI liên quan độ phức tạp. Nếu xem xét 3 bản dịch

cho mỗi thuật ngữ trong câu truy vấn, độ phức tạp của thuật toán là (3n), do đó

thuật toán này chỉ phù hợp với giá trị n nhỏ. Trên thực tế, luận án giới hạn xem xét

- 54 -

các câu truy vấn có độ dài trung bình và khi đó, giá trị n thường giao động từ 3

đến 7 (do câu truy vấn tiếng Việt chứa nhiều thuật ngữ có độ dài 2 âm).

2.3.4.3 Thuật toán chọn bản dịch một cách tuần tự

Ý tưởng chính của thuật toán chọn bản dịch một cách tuần tự (SeQuential

Translation - SQ) là lần lượt kết xuất bản dịch của các từ khóa truy vấn sao cho mối

quan hệ giữa các bản dịch là "tốt nhất". Mức độ "tốt" của mối quan hệ giữa các từ

được đo bằng một hàm được tính toán dựa trên giá trị Mutual Information của các

cặp từ trong nhóm. Thuật toán được trình bày và triển khai thực nghiệm tại [83].

Biểu diễn danh sách các từ khóa của câu truy vấn (tại ngôn ngữ nguồn) dưới

dang các cột. Tập hợp AllColumns chứa chỉ mục của tất cả các cột: AllColumns =

{1…n|n: số lượng từ khóa của câu truy vấn}. Đầu tiên, một danh sách tất cả các cặp

bản dịch ( k it , j it 1 ) của tất cả các cặp 2 cột liền kề (i, i+1) được tạo lập. Trong danh

sách này, cặp bản dịch có giá trị hàm MI cao nhất được chọn là bản dịch tương ứng

với 2 cột i0 và i0+1. Tập hợp GoodColumns chứa chỉ mục của các cột đã xác định

của từ khóa ti0+1.

được bản dịch được tạo và ban đầu sẽ chứa các giá trị i0 và i0+1, tương ứng với các

của từ khóa vi0 và

bản dịch tốt nhất được ký hiệu là

, xác định mối liên quan

Tiếp theo, bản dịch tốt nhất từ 2 cột liền kề với các cột trong tập hợp GoodColumns

cho một từ khóa vi với phương án dịch được coi là tốt

được xác định dựa trên giá trị của một hàm ℎ

được tính bằng

giữa một phương án dịch

nhất của các cột trong tập hợp GoodColumns. Hàm ℎ

)

,

công thức:

= ( ∈

;

ℎ (2.12)

Gọi cột chứa bản dịch tốt nhất từ 2 cột liền kề là i1, bản dịch tốt nhất là

giá trị i1 được thêm vào tập hợp GoodColumns. Quá trình này tiếp tục cho đến khi

mọi cột đều được kiểm tra (tương ứng với GoodColumns == AllColumns). Trong

bước tiếp theo, các bản dịch trong mỗi cột được sắp xếp lại dựa theo công thức

(2.13), nhằm sắp xếp lại các phương án dịch của mỗi cột theo mức độ liên quan với

- 55 -

phương án dịch được coi là tốt nhất của các cột khác. Cuối cùng, tương ứng với mỗi

từ tiếng Việt, ta nhận được một danh sách các bản dịch tốt nhất được sắp xếp theo

thứ tự giảm dần mức độ phù hợp.

Thuật toán chọn bản dịch một cách tuần tự được phát triển dựa trên một kết

quả nghiên cứu của Sadat [133]. Trong thuật toán xếp hạng và khử nhập nhằng dựa

, n jt ) và chọn trên bản dịch, Sadat lần lượt xem xét tất cả các cặp phương án dịch ( m it

cặp bản dịch có giá trị MI cao nhất. Trong luận án, tác giả chỉ xem xét các cặp từ

đứng liền nhau trong câu truy vấn nhằm mục tiêu tránh các ảnh hưởng của việc

chọn các cặp từ ít liên quan, đứng xa nhau trong câu truy vấn. Bên cạnh đó, với mỗi

từ khóa ở ngôn ngữ nguồn (tiếng Việt), thuật toán sẽ kết xuất một số các phương án

dịch ở ngôn ngữ đích (tiếng Anh).

Thuật toán được trình bày chi tiết như sau:

Thuật toán SQ: Chọn bản dịch một cách tuần tự

Input: danh sách các phần tử chứa từ tiếng Việt và các bản

dịch ứng viên

Output: danh sách các phần tử, chứa từ tiếng Việt và các

bản dịch tốt nhất

Begin

Bước 1:

Tạo tập hợp AllColumns từ chỉ mục của danh sách đầu vào

Tạo danh sách các cặp từ liền kề

Với mỗi cặp từ (vi,vi+1)

Với mỗi bản dịch k

it của vi và l +it

1 của vi+1:

Tính giá trị MI( k

it , l

+it 1 )

Chọn cặp bản dịch ( best

it 0 , best +it 10 ) có giá trị MI cao nhất

TranslationSet = [(vi0, best

it 0 ), (vi0+1, best +it 10 )]

Tạo tập hợp GoodColumns chứa 2 giá trị i0 và i0+1

Bước 2:

- 56 -

while GoodColumns <> AllColumns

1 = (, ∈ ) − 1

2 = (, ∈ ) + 1

Với mỗi danh sách ứng viên tại cột i, ∈ [1, 2]

Với mỗi bản dịch k

it

,

= ∈

Chọn best

it 1 với giá trị cohesion cao nhất

Thêm (vi1, best

it 1 ) vào TranslationSet

Thêm giá trị i1 vào tập hợp GoodColumns

Gán điểm cohesion cho mỗi phương án dịch của từng từ

(2.13)

,

=

Sắp xếp các bản dịch trong mỗi cột i (tập hợp Li) theo giá

trị cohesion giảm dần

Tạo lại TranslationSet ={ (, ) |i=0..n} return TranslationSet

End

Ký hiệu m là số tối đa phương án dịch cho mỗi thuật ngữ (luận án sử dụng

giá trị m=5), n là số thuật ngữ trong câu truy vấn (ở ngôn ngữ nguồn), vòng lặp xác định cặp bản dịch tốt nhất đầu tiên có độ phức tạp là m*n2, vòng lặp thêm bản dịch

tốt nhất từ các từ lân cận các từ đã xem xét có độ phức tạp là m*n, việc sắp xếp lại

điểm cohesion cho các từ có độ phức tạp là m*n. Từ đây xác định được thuật toán có độ phức tạp là O(n2), tốt hơn so với thuật toán SMI và có thể áp dụng trong

trường hợp câu truy vấn dài.

Để minh họa cho thuật toán, ta xem xét câu truy vấn tiếng Việt “Khánh Hòa

cố gắng phát triển kinh tế biển”. Giai đoạn tiền xử lý phân tách câu truy vấn thành

các từ khóa "Khánh Hòa/Np", "cố gắng/V", "phát triển/V", "kinh tế biển/N" cùng

với các phương án dịch tương ứng:

- 57 -

v1=Khánh Hòa L1=('Khanh Hoa Province')

v2=cố gắng L2=('attempt', 'to endeavour', 'to make every effort', 'To try')

v3=phát triển L3=('Develop', 'enlarge', 'expand', 'expand trade', 'expansion',

'expansion plan', 'evolutional', 'evolutionary', 'evolve',

'extend','grow')

v4=kinh tế biển L4=('marine economy')

Xem xét các cặp bản dịch của 2 từ liên tiếp, thuật toán chọn được cặp bản

dịch (develop, marine economy) có giá trị cohesion cao nhất cho 2 từ khóa "phát

triển" và "kinh tế biển". Tiếp tục xem xét các từ còn lại, thuật toán chọn lựa bản

dịch "make every effort" cho từ khóa "cố gắng" và sau đó, chọn bản dịch duy nhất

"Khanh Hoa province" từ từ điển Wiki. Sau khi thực hiện lại việc sắp xếp các bản

dịch trong mỗi cột, bản dịch "try" được chọn thay thế cho bản dịch "make every

effort" cho từ khóa "cố gắng". Kết quả cuối cùng, tương ứng với các từ khoá của

câu truy vấn, các bản dịch như sau được lựa chọn:

 Khánh Hòa ['Khanh Hoa Province']

 cố gắng ['To try', 'to endeavour', 'to make every effort']

 phát triển ['Develop', 'expand', 'expand trade']

 kinh tế biển ['marine economy']

Các phương án dịch được sắp xếp theo thứ tự giảm dần mức độ phù hợp.

2.3.5. Xây dựng câu truy vấn

Cho trước câu truy vấn qv và tập hợp ((v1,L1),(v2,L2), ….,(vn,Ln)) chứa các từ

khóa tiếng Việt v1,..vn và các danh sách bản dịch L1,…,Ln. Sau quá trình khử nhập

nhằng (mô tả tại phần 2.3.4), các bản dịch trong mỗi danh sách Li được điều chỉnh:

giới hạn số lượng phương án dịch và được sắp xếp theo thứ tự giảm dần mức độ

phù hợp. Từ đây, 3 nhóm phương án xây dựng câu truy vấn có thể được triển khai:

 Sử dụng 1 bản dịch cho mỗi từ vi để tạo lập câu truy vấn;

 Nối tất cả các bản dịch của các từ thành câu truy vấn ở ngôn ngữ đích;

- 58 -

 Xây dựng câu truy vấn có cấu trúc từ các bản dịch.

Xây dựng câu truy vấn có cấu trúc là một kỹ thuật được đề xuất khá sớm

trong các nghiên cứu của Pirkola [118] và của Bruce Croft và đồng sự [115] nhằm

mục tiêu sử dụng các toán tử lô-gíc cũng như trọng số của các từ khóa để xây dựng

câu truy vấn và đã cho thấy sự vượt trội của phương pháp này so với câu truy vấn

không cấu trúc (không sử dụng các toán tử lô-gíc). Một ví dụ điển hình là máy tìm

kiếm INQUERY[21] hỗ trợ việc xây dựng câu truy vấn có cấu trúc thông qua các

toán tử như #and, #or, #not, #syn. Trong khi các toán tử giúp xác định sự liên quan

của các từ khóa trong các tài liệu tìm kiếm (ví dụ cùng xuất hiện, không xuất hiện,

chọn một trong các phương án), trọng số từ khóa cho phép xác định mức ảnh hưởng

của một từ khóa lên điểm xếp hạng. Máy tìm kiếm tích hợp các toán tử và trọng số

vào các công thức tính toán điểm xếp hạng. Trong khuôn khổ luận án, nhằm phát huy thế mạnh của câu truy vấn có cấu trúc, tác giả sử dụng máy tìm kiếm Solr14 là

một phần mềm mã nguồn mở của Apache. Máy tìm kiếm Solr hỗ trợ nhiều cú pháp

tìm kiếm, đặc biệt là hỗ trợ xây dựng câu truy vấn có cấu trúc; cho phép tạo lập

nhiều kiểu đầu ra như Json, XML, PHP, và có khả năng tích hợp với các ứng dụng

web một cách đơn giản.

Để minh họa cho các nội dung tiếp theo, ta sử dụng câu truy vấn ví dụ tiếng

Việt “quản lý quy trình sản xuất”. Các từ "quản lýverb", "quy trìnhnoun", "sản

xuấtverb" có các phương án dịch là (management, regulate, control), (method,

process, instruction) và (production, manufacture, fabricate).

Với máy tìm kiếm Solr, có thể sử dụng các toán tử lô-gíc AND, OR cũng

như sử dụng cú pháp a^m để gán trọng số m cho từ khóa a [146]. Ví dụ, trong câu

truy vấn "management^2 method^4 production^2", các từ khóa "management" và

"production" có trọng số là 2 và từ khóa "method" có trọng số là 4.

2.3.5.1 Sử dụng một bản dịch

14 http://lucene.apache.org/solr/ (truy cập ngày 15/01/2016)

Với việc áp dụng công thức SMI, mỗi từ khóa ở ngôn ngữ nguồn tương ứng

- 59 -

với một bản dịch ở ngôn ngữ đích. Ví dụ, bản dịch của các từ "quản lýverb", "quy

trìnhnoun", "sản xuấtverb" tương ứng sẽ là "management", "method" và "production".

Câu truy vấn tiếng Anh lúc đó sẽ là "management method production".

2.3.5.2 Nối bản dịch của các từ thành câu truy vấn

Phương án nối tất cả các bản dịch của các từ thành câu truy vấn ở ngôn ngữ

đích có thể được sử dụng mà không cần áp dụng bất kỳ thuật toán khử nhập nhằng

nào. Câu truy vấn được tạo tại ngôn ngữ đích có dạng:

là các phương án dịch của vi trong danh sách Li. Câu

(2.14)

,

, … truy vấn ví dụ sẽ có bản dịch tiếng Anh như sau:

trong đó

management regulate control method process instruction production

manufacture fabricate

2.3.5.3 Nhóm các bản dịch của từng từ bằng toán tử OR

Bản dịch câu truy vấn có cấu trúc có thể được tạo bằng cách nhóm các

phương án dịch của từng từ khóa bằng toán tử OR có dạng:

)

) … (

) (

(2.15) (

Đối với câu truy vấn ví dụ, bản dịch tiếng Anh như sau:

(management OR regulate OR control) (method OR process OR instruction)

(production OR manufacture OR fabricate)

Cách định nghĩa câu truy vấn cho máy tìm kiếm Solr như thế này tương tự

phương pháp của Pirkola [118].

2.3.5.4 Gán trọng số thủ công cho các phương án dịch

Phương pháp gán trọng số thủ công ưu tiên phương án dịch được coi là tốt

nhất bằng cách gán trọng số 1 cho phương án đầu tiên trong danh sách các phương

án dịch; các phương án dịch khác được giữ trong danh sách được gán trọng số 0.5.

Với cú pháp sử dụng tại máy tìm kiếm Solr, câu truy vấn tiếng Anh lúc đó có dạng:

- 60 -

^0.5)

^0.5) … (

^1

^1

^0.5 …

^0.5 …

(2.16) (

Bản dịch tiếng Anh của câu truy vấn ví dụ như sau:

(management^1 OR regulate^0.5 OR control^0.5) (method^1 OR process^0.5

OR instruction^0.5) (production^1 OR manufacture^0.5 OR fabricate^0.5)

2.3.5.5 Gán trọng số thủ công cho các từ trong câu truy vấn.

Khi thực hiện thuật toán bóc tách từ khóa, nhãn từ đã được xác định và được

dùng làm cơ sở gán trọng số trong câu truy vấn tiếng Anh. Trong luận án, nhóm các

phương án dịch của từ được gán thẻ Np (noun phrase) được gán trọng số 8. Trọng

số cho các thẻ N (noun), V (verb) lần lượt là 4 và 2. Các thẻ khác có trọng số 1. Với

máy tìm kiếm Solr, câu truy vấn có dạng:

)^ … (

)^

)^ (

là các phương án dịch của vi trong danh sách Li. Giá trị

(2.17) (

,

, … wi là trọng số của từ vi trong câu truy vấn.

Ở đây,

Với câu truy vấn tiếng Việt “quản lý quá trình sản xuất”, quá trình bóc tách

từ khóa có kết quả là 3 từ khóa và thẻ tương ứng: “quản lý”-động từ, “quá trình”-

danh từ, “sản xuất”-động từ, có các trọng số tương ứng là 2, 4, 2. Do đó, bản dịch

tiếng Anh của câu truy vấn ví dụ có dạng như sau:

(management OR regulate OR control)^2 (method OR process OR

instruction)^4 (production OR manufacture OR fabricate)^2

2.3.5.6 Kết hợp 2 phương pháp gán trọng số thủ công

,

trọng số cho các phương án dịch khác nhau. Gọi

, … của vi trong danh sách Li với các trọng số tương ứng là

,

, …

Ta có thể kết hợp việc gán trọng số cho các từ trong câu truy vấn và gán là các phương án dịch . Giá trị wi là

trọng số của từ vi trong câu truy vấn. Các phương án dịch của từ được gán thẻ Np

được gán trọng số 8. Trọng số cho các thẻ N, V lần lượt là 4 và 2. Các thẻ khác có

trọng số 1. Khi đó, bản dịch tiếng Anh của câu truy vấn có dạng:

- 61 -

) ) Với máy tìm kiếm Solr, câu truy vấn ví dụ có dạng:

(2.18) = ( … (

(management^1 OR regulate^0.5 OR control^0.5)^2 (method^1 OR

process^0.5 OR instruction^0.5)^4 (production^1 OR manufacture^0.5 OR

fabricate^0.5)^2.

2.3.5.7 Gán trọng số dựa trên kết quả quá trình khử nhập nhằng

của từ tiếng Việt vi được gán giá

Trong thuật toán Chọn bản dịch một cách tuần tự (2.3.4.3), tại bước sắp xếp

lại các phương án dịch, mỗi phương án dịch điểm cohesion bằng cách sử dụng công thức (2.13), đo mức độ liên quan của

phương án dịch này với phương án dịch được coi là tốt nhất của các từ tiếng Việt

. Gọi là các phương án dịch của vi trong danh sách Li với các trọng số tương . Khi đó, bản dịch tiếng Anh của câu truy vấn được xây dựng

, … ứng là

,

, …

khác. Giá trị này có để được sử dụng như trọng số của phương án dịch ,

dưới dạng:

= ( … (

) )

… Với máy tìm kiếm Solr, câu truy vấn ví dụ được tạo dựng trong thực nghiệm

(2.19)

với giá trị sau:

((control)^0.556445681271 OR (manage)^0.268952911452 OR

(supervise)^0.174601407277) ((process)^0.60852654056 OR

(method)^0.203213625283 OR (procedure)^0.188259834156)

((production)^0.512249748308 OR (manufacture)^0.262275130029 OR

(fabrication)^0.225475121664)

2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI

2.4.1. Môi trường thực nghiệm

Để thiết lập môi trường thực nghiệm việc áp dụng công thức SMI, một bộ dữ

- 62 -

liệu đánh giá được xây dựng, chứa một danh sách các câu truy vấn và một tập hợp

tài liệu phục vụ truy vấn theo phương pháp pooling. Các kho tài liệu tiếng Việt

(5.000 tài liệu) và tiếng Anh (8.000) tài liệu được đánh chỉ mục, sử dụng các hệ

thống tìm kiếm đơn ngữ áp dụng mô hình xếp hạng LSI được xây dựng bằng ngôn ngữ Python15, sử dụng thư viện Gensim16.

Các câu truy vấn tiếng Việt được dịch thủ công sang tiếng Anh bởi các

chuyên gia ngôn ngữ. Tương ứng với mỗi câu truy vấn tiếng Anh, 100 kết quả tìm

kiếm tương ứng mỗi mô hình xếp hạng được kết xuất và trộn thành một danh sách

chung. Từng tài liệu được đánh giá lại một cách thủ công để kiểm tra có phù hợp

hay không với câu truy vấn.

Một ứng dụng Web được xây dựng nhằm hỗ trợ người đánh giá. Với mỗi câu

truy vấn, danh sách các kết quả tìm kiếm tốt nhất được hiển thị, kèm theo các thông

tin về số hiệu, tiêu đề, trích yếu và nội dung, điểm số. Người đánh giá dùng chuột

hoặc bấm phím tại để đánh dấu đối với các tài liệu được xác định là phù hợp với câu

truy vấn. Với kích thước hạn chế của bộ dữ liệu thực nghiệm, môi trường đánh giá

này chưa thực sự hoàn thiện và cần được cải thiện, tuy nhiên nó vẫn đảm bảo sự

hữu ích trong thực nghiệm được tiến hành [82].

Các cấu hình khác nhau được đánh giá được liệt kê trong Bảng 2.1. Trong

bảng này, phương pháp nMI sử dụng kỹ thuật phân đoạn câu truy vấn thành các từ

khóa cần dịch (sẽ được trình bày trong chương 3), sau đó áp dụng thuật toán greedy

(2.3.4.1) để chọn bản dịch tốt nhất.

Bảng 2.1: Cấu hình thực nghiệm

Cấu hình Diễn giải STT

Sử dụng thuật toán greedy 1 nMI

15 http://www.python.org/ (truy cập ngày 15/01/2016) 16 https://radimrehurek.com/gensim/ (truy cập ngày 15/01/2016)

Do tác giả đề xuất 2 SMI

- 63 -

3 Dịch Google Dùng máy dịch Googe

4 Dịch thủ công Chuyên gia dịch

Cấu hình SMI cũng áp dụng kỹ thuật phân đoạn câu truy vấn, sau đó áp dụng

thuật toán SMI (2.3.4.2) để xác định bản dịch tốt nhất với mỗi từ khóa. Hai phương

pháp cuối không áp dụng các kỹ thuật phân đoạn và khử nhập nhằng: Phương pháp

thứ ba sử dụng máy dịch Google; phương pháp thứ tư sử dụng các bản dịch thủ

công được tạo bởi các chuyên gia tiếng Anh nhằm làm cơ sở so sánh hiệu quả các

cấu hình đề xuất.

2.4.2. Kết quả thực nghiệm

Để đánh giá chất lượng của phương pháp xếp hạng, các chỉ số thông dụng

phục vụ việc đánh giá độ chính xác xếp hạng bao gồm độ chính xác mức k ký hiệu

P@k, độ chính xác trung bình AP, độ chính xác trung bình bình quân MAP [4].

Kết quả thực nghiệm tương ứng với các cấu hình khác nhau được trình bày

tại Bảng 2.2. Các chỉ số độ chính xác mức k P@k, độ chính xác trung bình bình

quân MAP được tính toán nhằm so sánh với phương pháp sử dụng dịch thủ công

(tương đương với tình huống truy vấn đơn ngữ).

Bảng 2.2: Kết quả thực nghiệm

STT Cấu hình P@1 P@5 P@10 MAP So sánh

1 nMI 0.497 0.482 0.429 0.436 74.79%

2 SMI 0.511 0.488 0.447 0.446 76.50%

3 Dịch Google 0.489 0.535 0.505 0.499 85.59%

4 Dịch thủ công 0.605 0.605 0.563 0.583 100%

Kết quả thực nghiệm cho thấy cấu hình SMI sử dụng phương pháp khử nhập

nhằng đề xuất tỷ lệ lớn hơn 75% so với truy vấn đơn ngữ và tốt hơn cấu hình nMI.

- 64 -

2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU

TRÚC

2.5.1. Môi trường thực nghiệm

Bộ công cụ Solr phiên bản 4.3.1017 được sử dụng để xây dựng các máy tìm

kiếm đơn ngữ cho tiếng Việt và tiếng Anh. Đây là một công cụ mã nguồn mở viết

bằng ngôn ngữ Java, được sử dụng khá rộng rãi, với hàm xếp hạng được phát triển

dựa trên mô hình TF-IDF. Điểm phù hợp của bộ công cụ đối với luận án là nó tiếp

nhận và xử lý các câu truy vấn có cấu trúc.

Dữ liệu được đánh chỉ mục được thu thập từ 2 nguồn. Đối với tiếng Việt,

200.000 tài liệu của website http://vietnamplus.vn được sử dụng. Đối với tiếng Anh,

tiêu đề của một số bài báo tiếng Anh được sử dụng như câu truy vấn gửi tới máy

tìm kiếm Google. Một chương trình được viết để nhận các địa chỉ trong danh sách

kết quả và tải các trang web tương ứng. Kết quả, 24.000 trang web tiếng Anh được

tải về. Nội dung của các trang web bao gồm tiêu đề và toàn văn được bóc tách sử dụng công cụ Boilerpipe18. Mỗi tài liệu web trong kho tài liệu được bóc tách các

thành phần tiêu đề (tương ứng thẻ ) và nội dung (tương ứng thẻ <BODY>)</p> <p>của mỗi tài liệu. Các nội dung này được định dạng để cập nhật vào chỉ mục máy tìm</p> <p>kiếm.</p> <h4>2.5.2. Cấu hình thực nghiệm</h4> <p></p> <p>Việc thực nghiệm hiệu quả của sự kết hợp thuật toán bóc tách từ khóa, khử</p> <p>nhập nhằng và xây dựng câu truy vấn có cấu trúc được triển khai thông qua thực</p> <p>nghiệm với 25 câu truy vấn tiếng Việt có độ dài trung bình 9,52 từ. Các cấu hình</p> <p>sau được kiểm tra và so sánh:</p> <p> top_one_ch: dùng công thức MIir trình bày tại (2.6) và cohesion score</p> <p>17 http://archive.apache.org/dist/lucene/solr/4.3.1/ (truy cập ngày 16/01/2016) 18 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016)</p> <p>như công thức (2.8) , chọn một bản dịch tốt nhất cho mỗi từ tiếng Việt.</p> <p>- 65 -</p> <p></p> <p>top_three_ch: dùng công thức MIcooc trình bày tại (2.4) và cohesion score như công thức (2.8) xây dựng câu truy vấn có cấu trúc bằng cách kết hợp 3 bản</p> <p>dịch tốt nhất cho mỗi từ tiếng Việt.</p> <p> top_one_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng</p> <p>thuật toán SQ được trình bày tại 2.3.4.3.</p> <p></p> <p>top_three_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng thuật toán SQ, sau đó chọn thêm 2 bản dịch gần giống bản dịch tốt nhất (đo bằng MIcooc).  top_three_all: Tương tự như top_three_sq, nhưng sử dụng một công thức</p> <p>MI đặc biệt:</p> <p>(2.20) �(�, �) = � × ������(�, �) + (1 − �) × ����(�, �)</p> <p>α được gán giá trị 0.02 trong thực nghiệm.</p> <p>Google: sử dụng công cụ Google Translate để dịch câu truy vấn.</p> <p>Baseline: dịch thủ công câu truy vấn tiếng Việt.</p> <h4>2.5.3. Kết quả thực nghiệm</h4> <p></p> <p>Bảng 2.3: So sánh P@k và MAP các cấu hình</p> <p>Cấu hình P@1 P@5 P@10 MAP Tỷ lệ</p> <p>top_one_ch 0.64 0.48 0.444 0.275 71.24% 1</p> <p>top_one_sq 0.52 0.472 0.46 0.291 75.39% 2</p> <p>top_three_ch 0.68 0.528 0.524 0.316 81.87% 3</p> <p>top_three_sq 0.64 0.552 0.532 0.323 84.55% 4</p> <p>top_three_all 0.76 0.576 0.54 0.364 94.30% 5</p> <p>Google 0.64 0.568 0.536 0.349 90.41% 6</p> <p>Baseline 0.76 0.648 0.696 0.386 100% 7</p> <p>Bảng 2.3 mô tả kết quả thực nghiệm trên cơ sở sử dụng các thước đo P@n và</p> <p>MAP [4]. Với mỗi phương pháp, các giá trị trung bình của P@k (với k = 1, 5, 10) và</p> <p>- 66 -</p> <p>giá trị MAP được ghi nhận. Cột Tỷ lệ hiển thị tỷ lệ giá trị MAP của thuật toán được</p> <p>đề xuất với giá trị MAP của cấu hình cơ sở Baseline, sử dụng dịch thủ công.</p> <p>Tất cả các cấu hình đề xuất đều đạt trên 70% khi so sánh với phương án dịch</p> <p>thủ công. Các câu truy vấn có cấu trúc được tạo bởi các phương pháp top_three_all,</p> <p>top_three_ch và top_three_sq có kết quả tốt hơn hẳn so với việc chỉ chọn một bản</p> <p>dịch tốt nhất ở 2 cấu hình top_one_ch and top_one_sq.</p> <p>Trong một số câu truy vấn, các phương pháp dịch đề xuất chưa hoạt động</p> <p>chính xác. Ví dụ, câu truy vấn "kiểm soát hoạt động trên biển" cho bản dịch</p> <p>(supervise OR to oversee^0.5 OR monitor^0.5)^2 (action OR activity^0.5 OR</p> <p>operation^0.5)^4 afloat. Đây là bản dịch tốt, nhưng có hiệu quả tìm kiếm không tốt</p> <p>do từ afloat dịch từ "trên biển" không được sử dụng trong các tài liệu. Bản dịch thủ</p> <p>công của câu truy vấn là monitor activities on sea cho hiệu quả tốt hơn.</p> <p>Cấu hình top_three_all cho điểm MAP 0.364, bằng 94.30% so với dịch thủ</p> <p>công. Kết quả này tốt hơn điểm MAP 0.349 trong cấu hình sử dụng công cụ máy</p> <p>dịch Google Translate. Cấu hình top_three_sq đạt kết quả tốt hơn ở 9 câu truy vấn</p> <p>khi so sánh với công cụ máy dịch Google Translate.</p> <h4>2.6. TIỂU KẾT CHƯƠNG</h4> <p></p> <p>Nội dung chương 2 trình bày nghiên cứu của tác giả liên quan các kỹ thuật</p> <p>dịch tự động phục vụ truy vấn xuyên ngữ.</p> <p>Phần đầu tiên của chương giới thiệu các phương pháp dịch khác nhau áp</p> <p>dụng trong CLIR bao gồm sử dụng máy dịch, sử dụng kho ngữ liệu song song, sử</p> <p>dụng từ điển, sử dụng ngôn ngữ trung gian, sử dụng không gian ngữ nghĩa. Bên</p> <p>cạnh đó, tác giả tìm hiểu một số kỹ thuật khử nhập nhằng trong phương pháp sử</p> <p>dụng từ điển.</p> <p>Đề xuất của tác giả trình bày trong chương là các phương án dịch câu truy</p> <p>vấn bằng từ điển. Hướng tiếp cận của tác giả là sử dụng thông tin về sự liên quan</p> <p>giữa các cặp từ Mutual Information nhằm cung cấp thêm thông tin về ngữ cảnh sử</p> <p>dụng từ khóa, thông qua đó giúp xác định bản dịch phù hợp cho các từ khóa trong</p> <p>- 67 -</p> <p>câu truy vấn. Tác giả đề xuất các phương pháp khử nhập nhằng nhằm chọn các bản</p> <p>dịch tốt nhất cho các từ trong câu truy vấn.</p> <p> Phương pháp thứ nhất dựa trên việc định nghĩa hàm Summary Mutual</p> <p>Information nhằm chọn một phương án dịch tốt nhất cho mỗi từ khóa trong câu truy</p> <p>vấn [81]. Thuật toán có độ phức tạp là (3n), phù hợp với giá trị n nhỏ (n <= 7).</p> <p> Phương pháp thứ hai dựa trên một thuật toán chọn bản dịch cho các từ</p> <p>khóa truy vấn một cách tuần tự [83], có độ phức tạp là O(n2).</p> <p>Với phương pháp sử dụng từ điển, việc sử dụng công thức SMI - do tác giả</p> <p>đề xuất để xác định một bản dịch tốt nhất - cho kết quả tốt hơn phương pháp sử</p> <p>dụng thuật toán Greedy thường được sử dụng, tuy nhiên vẫn không cho kết quả tốt</p> <p>bằng máy dịch Google. Với việc sử dụng kết hợp nhiều phương án dịch cho mỗi từ</p> <p>khóa truy vấn để xây dựng câu truy vấn có cấu trúc, phương pháp trình bày trong</p> <p>chương sử dụng thuật toán SQ và công thức (2.20) cho kết quả vượt trội máy dịch</p> <p>Google. Kết quả này cho thấy ưu điểm của việc tạo lập câu truy vấn ở ngôn ngữ</p> <p>đích dưới dạng bản dịch có cấu trúc - kết hợp nhiều bản dịch cho mỗi từ khóa truy</p> <p>vấn ở ngôn ngữ nguồn - so với dạng bản dịch kết hợp chỉ một bản dịch cho mỗi từ</p> <p>khóa truy vấn. Điều kiện để triển khai thuật toán SQ là máy tìm kiếm phải hỗ trợ</p> <p>câu truy vấn có cấu trúc.</p> <p>Sau khi câu truy vấn ở ngôn ngữ nguồn được tiền xử lý (sẽ được trình bày tại</p> <p>�, ��</p> <p>chương 3), câu truy vấn tiếng Việt qv được phân tích thành một tập hợp</p> <p>((v1,L1),(v2,L2), ….,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn và các danh sách bản ��} chứa mi phương án dịch của từ �, … �� dịch tương ứng L1,…,Ln với �� = {�� tiếng Việt vi. Các phương pháp khử nhập nhằng được trình bày tại chương 2 cho phép tạo lập danh sách các phương án dịch tốt nhất của mỗi từ khóa trong câu truy</p> <p>vấn, phục vụ việc xây dựng câu truy vấn. Đây là bước thứ hai trong sơ đồ xử lý của</p> <p>giai đoạn truy vấn được trình bày tại Hình 1.4 trang 39.</p> <p>Trong các thực nghiệm triển khai ở chương này, trọng số tương ứng các loại</p> <p>từ cũng như trọng số cho các bản dịch được xác định thủ công nhằm tạo ra một bản</p> <p>dịch có cấu trúc cho câu truy vấn. Các trọng số này sẽ được tiếp tục điều chỉnh bằng</p> <p>cách sử dụng các phương pháp sẽ được trình bày tại chương 3.</p> <p>- 68 -</p> <h3>CHƯƠNG 3 HỖ TRỢ DỊCH CÂU TRUY VẤN</h3> <p>Chương 3 trình bày các nghiên cứu của tác giả liên quan các kỹ thuật xử lý</p> <p>câu truy vấn. Đầu tiên tác giả trình bày tổng quan về các kỹ thuật phân đoạn câu</p> <p>truy vấn, mở rộng câu truy vấn, thu hẹp câu truy vấn, xử lý thuật ngữ không có</p> <p>trong từ điển. Nội dung chính của chương trình bày hai đề xuất của tác giả, bao gồm</p> <p>kỹ thuật phân đoạn câu truy vấn ở ngôn ngữ nguồn và kỹ thuật cải tiến câu truy vấn</p> <p>ở ngôn ngữ đích dựa trên thông tin phản hồi ẩn giúp tăng độ chính xác và độ bao</p> <p>phủ cho hệ thống truy vấn.</p> <h4>3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN</h4> <p></p> <p>Trong mô hình dịch câu truy vấn, nhiều kỹ thuật khác nhau có thể được áp</p> <p>dụng nhằm hỗ trợ chất lượng dịch thuật: phân đoạn câu truy vấn nhằm xác định các</p> <p>cụm từ cần dịch; mở rộng câu truy vấn để bổ sung các từ đồng nghĩa hay liên quan</p> <p>đến nội dung truy vấn; thu hẹp câu truy vấn nhằm loại bỏ các từ không cần thiết; xử</p> <p>lý tên riêng, các cụm danh từ, hay thuật ngữ không có trong từ điển. Một số hướng</p> <p>tiếp cận đề xuất tích hợp dịch thuật trong mô hình tìm kiếm, hoặc xác định trọng số</p> <p>cho các loại từ khóa khi thực hiện câu truy vấn.</p> <h4>3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn</h4> <p></p> <p>Phân tích câu truy vấn nhằm tách và xác định các từ khóa cần dịch trong câu</p> <p>truy vấn là bước đầu tiên của công việc dịch câu truy vấn. Đối với các ngôn ngữ</p> <p>châu Âu (như tiếng Anh, tiếng Pháp), giải pháp thông dụng là sử dụng dấu cách</p> <p>giữa các từ. Đối với các ngôn ngữ châu Á như tiếng Việt, tiếng Hoa, vấn đề phức</p> <p>tạp hơn: các từ khóa có thể chứa một hoặc nhiều âm [109] và không có quy tắc xác</p> <p>định ranh giới giữa các từ [63]. Nhiều giải pháp khác nhau được đề xuất cho việc</p> <p>tách từ khóa cho tiếng Việt: tác giả Nguyen Han Doan [109] đề xuất thuật toán tách</p> <p>câu truy vấn thành các từ đơn hoặc kép. Đầu tiên, thông tin lưu trữ các câu truy vấn</p> <p>(query log) được khai thác để tính xác suất xuất hiện của các từ đơn và kép. Câu</p> <p>- 69 -</p> <p>truy vấn được xem xét từ trái qua phải và sử dụng các giá trị xác suất đã tính nhằm</p> <p>quyết định tách một từ đơn hay một từ kép. Trong thuật toán này, các từ khóa được</p> <p>giả định độc lập với nhau. Hạn chế lớn nhất ở phương pháp này nằm ở việc các từ</p> <p>khóa truy vấn có thể không xuất hiện trong query log. Nhằm giảm độ phức tạp của</p> <p>việc dịch thuật các câu dài và phức tạp, Bui Thanh Hung và các đồng sự [18] đề</p> <p>xuất phương án dùng luật tách câu thành các phần nhỏ hơn và các cụm danh từ. Với</p> <p>công cụ vnTagger [89], không những có thể tách được các từ khóa, mà có thể xác</p> <p>định các loại từ (danh từ, tính từ, …).</p> <p>Các giải pháp có thể được chia thành 3 nhóm: dựa trên từ điển, dựa trên số</p> <p>liệu thống kê hoặc là giải pháp lai, kết hợp nhiều phương pháp [117]. Tác giả Dinh</p> <p>Quang Thang và các đồng sự [37] giới thiệu và so sánh một số phương pháp tách từ</p> <p>khóa dựa trên biểu thức chính quy, kỹ thuật học máy hay dựa trên kinh nghiệm</p> <p>(heuristics). Kết quả nghiên cứu cho thấy các công cụ phân đoạn tiếng Việt hiện nay</p> <p>có độ chính xác khoảng 93-97% trên các tập dữ liệu thực nghiệm.</p> <p>Các công cụ phân đoạn tiếng Việt hiện nay chú trọng nhiều vào việc xác định</p> <p>loại từ (tag) cho các từ khóa và chưa thực sự phù hợp trong việc dịch câu truy vấn</p> <p>do không xác định các từ kép kết hợp nhiều từ đơn. Ví dụ từ "tàu sân bayaircraft"</p> <p>được tách thành "tàutrain" và "sân bayairport"; từ "kinh tế biểnmarine economy" được tách</p> <p>thành "kinh tếeconomy" và "biểnsea", từ đó dẫn tới bản dịch chưa chính xác hoặc chưa</p> <p>tối ưu.</p> <h4>3.1.2. Mở rộng câu truy vấn</h4> <p></p> <p>Mở rộng câu truy vấn là một kỹ thuật thường được sử dụng trong các mô</p> <p>hình truy vấn thông tin, thực hiện việc bổ sung các từ khóa vào câu truy vấn [100].</p> <p>Giải pháp toàn cục dựa trên tài nguyên bên ngoài và khai thác các thông tin độc lập</p> <p>với câu truy vấn, ví dụ bổ sung các từ đồng nghĩa trong từ điển; trong khi giải pháp</p> <p>cục bộ khai thác các thông tin liên quan đến câu truy vấn thông qua phản hồi ẩn,</p> <p>hay phân tích ngữ cảnh cục bộ, bổ sung các từ khóa quan hệ tới câu truy vấn từ các</p> <p>tài liệu trong danh sách kết quả tìm kiếm khi dùng câu truy vấn gốc [161] (xem</p> <p>Hình 3.1)</p> <p>- 70 -</p> <p>Mở rộng câu truy vấn</p> <p>Dựa trên</p> <p>Dựa trên tài nguyên</p> <p>Dựa trên query log</p> <p>phản hồi</p> <p>bên ngoài</p> <p>Từ điển</p> <p>Wikipedia</p> <p>Wordnet</p> <p>Phản hồi thực</p> <p>Phản hồi ẩn</p> <p>đồng nghĩa</p> <p>Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn</p> <p>Nhìn chung, mở rộng câu quy vấn được nhìn nhận như một các tiếp cận hữu</p> <p>ích. Hạn chế lớn nhất của cách tiếp cận này này là nguy cơ làm lệch ý nghĩa của câu</p> <p>truy vấn. Khi bổ sung các từ khóa mới, câu truy vấn có thể có ý nghĩa không giống</p> <p>với ý đồ tìm kiếm ban đầu của người sử dụng [46]. Trong CLIR, việc mở rộng câu</p> <p>truy vấn có thể được thực hiện trước (với ngôn ngữ truy vấn) hay sau quá trình dịch</p> <p>thuật (với ngôn ngữ các tài liệu) [7].</p> <h4>3.1.3. Thu hẹp câu truy vấn</h4> <p></p> <p>Trong truy vấn đơn ngữ, bên cạnh các câu truy vấn ngắn chứa 1-2 từ khóa</p> <p>khá phổ biến, các câu truy vấn dài với độ dài trên 5 từ khóa (ví dụ tiêu đề tin tức,</p> <p>trích dẫn lời phát biểu,…) chiếm một phần đáng kể (khoảng 10%) [10]. Các máy</p> <p>tìm kiếm thường xử lý các câu truy vấn dài kém hơn so với các câu truy vấn ngắn</p> <p>[10] và thu hẹp câu truy vấn (query reduction) là một trong các kỹ thuật thường</p> <p>được sử dụng để nâng cao hiệu quả xử lý của các câu truy vấn dài [5], [77]. Các tác</p> <p>giả Kumaran và Carvalho [77] coi việc thu hẹp câu truy vấn như bài toán xếp hạng:</p> <p>các tham số dự đoán chất lượng câu truy vấn như Mutual Information, Query</p> <p>Clarity, IDF-based features, Query Scope,.. được định nghĩa và sử dụng như các</p> <p>tham số thành phần của một hàm xếp hạng và sau đó áp dụng kỹ thuật học máy</p> <p>RankSVM để tìm kiếm câu truy vấn thành phần có chất lượng cao nhất (phương</p> <p>pháp pointwise). Balasubramanian và Drive [5] xem xét tập hợp các câu truy vấn</p> <p>thành phần (sub query) được tạo lập bằng cách loại bỏ đi một số từ trong câu truy</p> <p>- 71 -</p> <p>vấn gốc và áp dụng kỹ thuật học máy để so sánh các cặp câu truy vấn trong tập hợp</p> <p>với mục tiêu giảm thiểu các lỗi xếp hạng (phương pháp pairwise). Zukerman và các</p> <p>đồng sự [173] tạo lập thông tin thống kê về phân bố (dựa trên số lần xuất hiện) của</p> <p>các từ khóa, phân đoạn câu truy vấn và đề xuất mô hình đồ thị phục vụ ra quyết</p> <p>định (Decision-graph analysis) nhằm loại bỏ các từ có số lần xuất hiện vượt quá các</p> <p>ngưỡng được xác định như tham số của mô hình. Đối với truy vấn xuyên ngữ, việc</p> <p>xác định và loại bỏ các từ không phù hợp trong câu truy vấn có thể được thực hiện</p> <p>trước hoặc sau khi dịch với mục tiêu tăng chất lượng kết quả tìm kiếm. Tại các</p> <p>nghiên cứu của Braschler và Gey [13], [51], câu truy vấn ở ngôn ngữ nguồn được</p> <p>chỉnh sửa, loại bỏ các từ xuất hiện quá phổ biến nhằm loại bỏ ảnh hưởng của các từ</p> <p>khóa không phù hợp, tuy nhiên quá trình này được thực hiện thủ công.</p> <h4>3.1.4. Xử lý thuật ngữ không có trong từ điển</h4> <p></p> <p>Vấn đề các từ khóa không nhận biết do nằm ngoài từ điển (Out Of</p> <p>Vocabulary) tồn tại khá phổ biến trong các nghiên cứu CLIR. Các giải pháp ban đầu</p> <p>xử lý vấn đề này đề xuất việc xây dựng các từ điển chuyên ngành giới hạn chủ yếu</p> <p>cho việc xử lý các thuật ngữ kỹ thuật [119]. Một số nghiên cứu áp dụng kỹ thuật</p> <p>chuyển ngữ, phân tích sự tương tự trong cấu trúc tạo lập từ giữa hai ngôn ngữ để</p> <p>xây dựng các luật xác định một chuỗi kỹ tự ở ngôn ngữ này được áp dụng thế nào</p> <p>tại ngôn ngữ khác [28], [50]. Gần đây, các tác giả khai thác WWW để nhận dạng</p> <p>các mẫu chuyển ngữ dựa trên quan sát: khi các tên riêng, thuật ngữ mới xuất hiện</p> <p>trên các trang web, thường chúng sẽ đi kèm với văn bản gốc [170]. Các phân tích</p> <p>thống kê sau đó được áp dụng nhằm xác định bản dịch. Các liên kết ngôn ngữ</p> <p>Wikipedia cũng được sử dụng để tạo lập bản dịch cho các loại thuật ngữ loại này,</p> <p>tuy nhiên kết quả còn tương đối hạn chế.</p> <p>Trong luận án, tác giả tập trung nghiên cứu, đề xuất các phương pháp phân</p> <p>đoạn câu truy vấn ở ngôn ngữ nguồn - ngôn ngữ câu truy vấn (giới hạn ở câu truy</p> <p>vấn tiếng Việt) và điều chỉnh câu truy vấn tại ngôn ngữ đích - ngôn ngữ của các tài</p> <p>liệu cần tìm kiếm.</p> <p>- 72 -</p> <h4>3.2. PHÂN ĐOẠN CÂU TRUY VẤN</h4> <h4>3.2.1. Sử dụng công cụ vnTagger</h4> <p>VnTagger là một công cụ đánh dấu loại từ tự động, được áp dụng cho tiếng Việt19. Kết quả thực nghiệm đối với tiếng Việt cho độ chính xác là 93,13% [89].</p> <p>Công cụ này có thể được sử dụng nhằm mục đích phân đoạn và xác định các từ</p> <p>khóa cần dịch trong câu truy vấn. Sau khi sử dụng công cụ vnTagger để thực hiện</p> <p>việc phân đoạn, các từ được tách được kiểm tra trong từ điển để kết xuất các bản</p> <p>dịch ứng viên.</p> <h4>3.2.2. Thuật toán WLQS</h4> <p></p> <p>Thuật toán WLQS (viết tắt của Word-length-based Query Segmentation) - do</p> <p>tác giả đề xuất và được trình bày tại [81] - thực hiện việc phân đoạn câu truy vấn</p> <p>dựa trên độ dài từ khóa. Việc đề xuất thuật toán trên cơ sở của giả thuyết: nếu một</p> <p>từ ghép (compound word) tồn tại trong từ điển và chứa các từ bên trong khác, bản</p> <p>dịch của từ ghép có xu hướng tốt hơn việc kết hợp bản dịch của các từ bên trong.</p> <p>Xem xét các từ chứa bên trong từ ghép: khi đứng một mình, một từ có thể có các ý</p> <p>nghĩa khác nhau; khi được kết hợp với một hay một số từ khác trong từ ghép, ý</p> <p>nghĩa của từ được xác định rõ hơn do phải phù hợp với ngữ cảnh đồng thời xuất</p> <p>hiện các từ khác, từ đó bản dịch cũng được xác định chính xác hơn. Ví dụ, với cụm</p> <p>từ "kinh tế biển", bản dịch "maritime economy" phù hợp hơn bản dịch "economy</p> <p>sea". Bên cạnh đó, một số từ ghép mang ý nghĩa khác hẳn so với các từ chứa bên</p> <p>trong. Ví dụ, với cụm từ "tàu sân bay" cần sử dụng bản dịch "aircraft carrier", còn</p> <p>bản dịch "train airport" thì không phù hợp.</p> <p>Thuật toán phân đoạn WLQS được trình bày như sau:</p> <p>Thuật toán phân đoạn WLQS</p> <h4>Input: câu truy vấn tiếng Việt</h4> <h4>Output: một danh sách các phần tử, mỗi phần tử chứa từ khóa</h4> <p>19 https://code.google.com/p/vntagger-gate-plugin/downloads/list (truy cập ngày 15/01/2016)</p> <p></p> <p>- 73 -</p> <p>tiếng Việt chứa trong câu truy vấn đi kèm với các phương án</p> <p>dịch</p> <h4>Begin</h4> <p>Kết xuất từ từ điển các từ chứa bên trong câu truy vấn, kèm</p> <p>theo các phương án dịch</p> <p>Với mỗi từ w trong danh sách:</p> <p>thêm cặp (w,translations) vào list_keyword nếu từ w chưa</p> <p>có trong list_keyword</p> <p>Kết xuất từ từ điển wiki các từ chứa bên trong câu truy</p> <p>vấn, kèm theo các phương án dịch</p> <p>Với mỗi từ w trong danh sách:</p> <p>if từ đã có trong danh sách list_keyword</p> <p>thay thế cặp cũ bằng cặp (w,translations) kết xuất từ</p> <p>từ điển wiki</p> <h4>else</h4> <p>thêm cặp (w,translations) vào list_keyword</p> <p>Xóa các từ chứa bên trong từ khác trong danh sách</p> <h4>list_keyword</h4> <p>Với câu truy vấn gốc, thay thế các từ trong danh sách</p> <h4>list_keyword bằng ký hiệu đặc biệt ";"</h4> <p>Tách câu truy vấn dựa trên ký hiệu ";"</p> <p>Các đoạn tách ra được bỏ dấu và coi như các từ nước ngoài,</p> <p>thuật ngữ kỹ thuật, tên riêng hay tên viết tắt, được thêm</p> <p>vào danh sách list_keyword</p> <h4>Return list_keyword</h4> <h4>End</h4> <p>Đầu tiên, xem xét tất cả các từ tiếng Việt tồn tại trong các cơ sở dữ liệu từ</p> <p>điển và chứa hoàn toàn bên trong câu truy vấn; kết xuất các từ này và bản dịch tiếng</p> <p>Anh vào danh sách ứng viên.</p> <p>Trong danh sách này, giữ lại các mục từ với từ tiếng Việt không chứa trong</p> <p>một từ tiếng Việt khác cũng nằm trong danh sách ứng viên.</p> <p>- 74 -</p> <p>Các từ không có trong từ điển được giữ nguyên và được coi như bản dịch.</p> <p>Thông thường, đây là các từ nước ngoài, thuật ngữ kỹ thuật, tên riêng, tên viết tắt.</p> <p>Kết quả thu được là một danh sách các từ tiếng Việt cần được dịch, kèm theo</p> <p>tất cả phương án dịch của các từ này.</p> <h4>3.2.3. Kết hợp WLQS và công cụ vnTagger</h4> <p></p> <p>Nhằm nâng cao hiệu quả của thuật toán WLQS cũng như khai thác các ưu</p> <p>điểm của bộ công cụ vnTagger, một thuật toán phân đoạn, bóc tách từ khóa từ câu</p> <p>truy vấn được xây dựng trên cơ sở kết hợp các ưu điểm của hai thành phần. Thuật</p> <p>toán bóc tách từ khóa từ câu truy vấn tiếng Việt được trình bày tại [83] và bao gồm</p> <p>5 bước:</p> <p>Thuật toán bóc tách từ khóa</p> <h4>Input: câu truy vấn tiếng Việt</h4> <h4>Output: một danh sách các phần tử, mỗi phần tử chứa từ khóa</h4> <p>tiếng Việt chứa trong câu truy vấn đi kèm với các phương án</p> <p>dịch</p> <h4>Begin</h4> <p>Bước 1:</p> <p>Sử dụng công cụ vnTagger gán nhãn từ cho câu truy vấn</p> <p>Kết xuất danh sách các từ kèm nhãn</p> <h4>list_keywords = empty</h4> <p>Với mỗi từ w trong danh sách từ kèm nhãn:</p> <p>tìm w trong từ điển</p> <p>if tìm thấy</p> <p>kết xuất các phương án dịch translations</p> <p>else</p> <p>if tag = 'Np'</p> <p>xóa dấu tiếng Việt, coi đây là phương án dịch</p> <p>translations</p> <p>thêm cặp (w,translations) vào list_keyword</p> <p>Kết xuất từ từ điển các từ chứa bên trong câu truy vấn, kèm</p> <p></p> <p>- 75 -</p> <p>theo các phương án dịch</p> <p>Với mỗi từ w trong danh sách:</p> <p>thêm cặp (w,translations) vào list_keyword nếu từ w chưa</p> <p>có trong list_keyword</p> <p>Kết xuất từ từ điển wiki các từ chứa bên trong câu truy</p> <p>vấn, kèm theo các phương án dịch</p> <p>Với mỗi từ w trong danh sách:</p> <p>if từ đã có trong list_keyword</p> <p>thay thế cặp cũ bằng cặp (w,translations) kết xuất từ</p> <p>từ điển wiki</p> <h4>else</h4> <p>thêm cặp (w,translations) vào list_keyword</p> <p>Bước 2:</p> <p>với mỗi từ w trong list_keyword:</p> <p>if w có trong danh sách gán nhãn POS tag list</p> <p>Gán lại nhãn cho từ</p> <p>else</p> <p>Duyệt danh sách các từ gán nhãn chứa trong từ w</p> <p>Gán nhãn có "mức quan trọng" cao nhất cho từ</p> <p>Bước 3:</p> <p>Loại bỏ các từ tương ứng với các nhãn phụ (POS tag =</p> <p>E,M,R,L,C)</p> <p>Xóa các từ chứa bên trong từ khác trong list_keyword</p> <p>Bước 4:</p> <p>Gửi câu truy vấn tới máy tìm kiếm tiếng Việt</p> <p>Nối nội dung các tài liệu đứng đầu kết quả truy vấn thành</p> <p>một văn bản</p> <p>Với mỗi từ trong list_keyword</p> <p>Tính trọng số từ theo công thức (3.1)</p> <p>So sách trọng số giữa các từ chồng chéo, loại bỏ các từ với</p> <p>trọng số thấp hơn, kết quả nhận được là list_of_good_items</p> <p>Bước 5:</p> <p>- 76 -</p> <p>Loại bỏ các từ trong danh sách list_keyword từ câu truy vấn</p> <p>Kiểm tra các từ gán nhãn, thêm các từ chứa trong phần còn</p> <p>lại của câu truy vấn vào list_of_good_items</p> <h4>return list_of_good_items</h4> <h4>End</h4> <p>Trong thuật toán, đầu tiên công cụ vnTagger được sử dụng để gán nhãn từ.</p> <p>Kết quả là một danh sách các từ tiếng Việt đi kèm với nhãn POS (Part-Of-Speech).</p> <p>Mỗi từ được tìm trong từ điển để nhận được danh sách các phương án dịch. Các từ</p> <p>gán nhãn Np nếu không có bản dịch sẽ được coi là từ nước ngoài, tên riêng, thuật</p> <p>ngữ kỹ thuật hoặc từ viết tắt. Từ sau khi được loại bỏ dấu tiếng Việt sẽ được coi là</p> <p>bản dịch của chính nó. Bên cạnh đó, các từ tiếng Việt trong từ điển Việt-Anh và từ</p> <p>điển wiki sẽ được kết xuất nếu từ tiếng Việt chứa hoàn toàn bên trong câu truy vấn.</p> <p>Kết hợp các danh sách trên, ta thu được một danh sách các phần tử, trong đó mỗi</p> <p>phần tử chứa một từ tiếng Việt và các phương án dịch sang tiếng Anh.</p> <p>Nhãn từ đóng vai trò quan trọng trong việc phân tích câu truy vấn. Các nhãn</p> <p>từ khác nhau được gán mức quan trọng khác nhau. Các ngữ danh từ (noun phrase)</p> <p>với thẻ Np thường là địa danh, tên tổ chức, tên người. Nếu một ngữ danh từ xuất</p> <p>hiện trong câu truy vấn, nó có ảnh hưởng nhiều hơn và do đó được gán mức quan</p> <p>trọng cao nhất. Trong thực nghiệm của luận án, 4 mức quan trọng được định nghĩa:</p> <p>8 cho ngữ danh từ, 4 cho danh từ, 2 cho động từ, 1 cho các từ khác. Các giá trị mức</p> <p>quan trọng được sử dụng để xây dựng câu truy vấn có cấu trúc (đã được trình bày ở</p> <p>chương 2).</p> <p>Ở bước thứ 3, một số từ khóa có thể gây ảnh hưởng xấu đến hiệu quả truy</p> <p>vấn sẽ bị loại bỏ. Đầu tiên các liên từ, giới từ, mạo từ và các con số bị loại bỏ. Các</p> <p>từ chứa hoàn toàn bên trong một từ khác trong danh sách cũng sẽ bị loại bỏ. Giả</p> <p>thuyết của việc loại bỏ này là nếu một từ phức tồn tại trong từ điển và chứa một từ</p> <p>khác (từ thành phần) thì bản dịch của nó có xu hướng tốt hơn việc ghép bản dịch</p> <p>các từ thành phần. Ví dụ với từ kinh tế biển có trong từ điển, bản dịch maritime</p> <p>economy sẽ tốt hơn kết hợp của hai bản dịch economy và sea của các từ kinh tế và</p> <p>biển.</p> <p>- 77 -</p> <p>Tại bước này, vẫn có khả năng tồn tại các từ chồng chéo. Để giải quyết vấn</p> <p>đề này tại bước 4, câu truy vấn tiếng Việt được gửi đến máy tìm kiếm tiếng Việt. Từ</p> <p>tập hợp n kết quả tốt nhất trả về từ hệ thống (giá trị n=10 được sử dụng trong luận</p> <p>án), một chuỗi văn bản bigtext được tạo bằng cách nối nội dung của các văn bản.</p> <p>Trọng số của một từ w được ký hiệu là ����ℎ�(�) và được tính bằng công thức:</p> <p>(3.1) ����ℎ�(�) = ��(�) × log � � + log ((1 + ��(�)) 1 + ��(�) ��(�)</p> <p>trong đó nq(w) là số lần w xuất hiện trong bigtext, và nc(w) là số tài liệu chứa</p> <p>w trong toàn bộ kho tài liệu. Tất cả các từ khóa được sắp xếp theo thứ tự giảm dần</p> <p>của trọng số. Đối với các từ chồng chéo, từ với trọng số nhỏ hơn sẽ bị loại bỏ.</p> <p>Bước 5 thực hiện việc loại bỏ các từ khóa đã kết xuất bằng cách thay thế mỗi</p> <p>từ khóa đã kết xuất bằng một khoảng trắng để tạo một chuỗi văn bản mới. Sau đó,</p> <p>các từ đã được gán nhãn (thực hiện bằng công cụ vnTagger ở bước 1) được kiểm</p> <p>tra. Từ nào chứa bên trong chuỗi văn bản mới sẽ được đưa vào danh sách cần kết</p> <p>xuất.</p> <p>Đến điểm này, một danh sách các từ khóa và các phương án dịch tương ứng</p> <p>được tạo lập để chuẩn bị cho bước khử nhập nhằng (đã được trình bày trong chương 2).</p> <h4>3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH</h4> <p></p> <p>Phần này trình bày việc đề xuất của tác giả trong việc áp dụng kỹ thuật sử</p> <p>dụng phản hồi ẩn. Kỹ thuật sử dụng phản hồi ẩn không mới, tuy nhiên trong luận</p> <p>án, tác giả đề xuất, so sánh việc sử dụng các loại thông tin khác nhau nhằm chọn lựa</p> <p>phương án đánh giá trọng số các từ khóa phục vụ điều chỉnh trọng số các từ khóa</p> <p>truy vấn và mở rộng câu truy vấn.</p> <p>Kết quả thực nghiệm trong hệ thống truy vấn xuyên ngữ Việt-Anh cho thấy</p> <p>phương pháp thay đổi trọng số từ khóa truy vấn giúp nâng cao độ chính xác lên</p> <p>khoảng 7%. Bên cạnh đó, tác giả cũng xem xét ảnh hưởng của việc mở rộng câu</p> <p>truy vấn. Trên nền tảng sử dụng thông tin phản hồi ẩn, các công thức khác nhau</p> <p>phục vụ việc xác định trọng số cho các từ khóa mở rộng được kiểm tra, đánh giá.</p> <p>- 78 -</p> <p>Kết quả thực nghiệm cho thấy việc mở rộng câu truy vấn chỉ cải thiện ở mức độ</p> <p>không đáng kể đối với độ chính xác, tuy nhiên lại giúp hệ thống tìm được thêm</p> <p>nhiều tài liệu phù hợp. Kết quả thực nghiệm chứng tỏ hiệu quả của việc kết hợp hai</p> <p>kỹ thuật sử dụng phản hồi ẩn và mở rộng câu truy vấn khi được kết hợp trong cùng</p> <p>một hệ thống. Chỉ số MAP tăng đến 12% trong hệ thống thực nghiệm [84].</p> <h4>3.3.1. Phản hồi ẩn</h4> <p></p> <p>Sử dụng phương pháp biểu diễn câu truy vấn và các tài liệu trong một không</p> <p>gian vector, Rocchio [132] giới thiệu công thức xây dựng một câu truy vấn mới</p> <p>bằng cách điều chỉnh các tham số của véc-tơ câu truy vấn với mục tiêu tăng độ</p> <p>tương tự với các tài liệu phù hợp và giảm độ tương tự với các tài liệu không phù</p> <p>hợp trong kho tài liệu. Ban đầu, kỹ thuật này được áp dụng cho các hệ thống sử</p> <p>dụng mô hình không gian véc-tơ và sử dụng các phản hồi của người dùng từ danh</p> <p>1: Câu truy vấn</p> <p>Kết quả</p> <p>Hệ thống</p> <p>Người sử dụng</p> <p>Phản hồi người dùng</p> <p>sách kết quả tìm kiếm.</p> <p>Hình 3.2: Phản hồi của người dùng</p> <p>Do sự khó khăn trong việc thu thập phản hồi của người sử dụng, phản hồi ẩn</p> <p>(Pseudo-Relevance Feedback –PRF) được sử dụng như một giải pháp thay thế</p> <p>1: Câu truy vấn</p> <p>Kết quả</p> <p>Hệ thống</p> <p>N tài liệu đứng đầu</p> <p>danh sách kết quả</p> <p>Phản hồi tự động</p> <p>[135].</p> <p>Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu</p> <p>- 79 -</p> <p>Kỹ thuật PRF giả định n tài liệu đứng đầu danh sách kết quả tìm kiếm là phù</p> <p>hợp với câu truy vấn và sử dụng các tài liệu này để điều chỉnh câu truy vấn cho lần</p> <p>tìm kiếm kế tiếp. Do tính chất được thực hiện tự động cũng như từ kết quả đánh giá</p> <p>thực nghiệm, PRF đã được áp dụng rộng rãi trong các mô hình truy vấn thông tin</p> <p>khác nhau như mô hình không gian vector [135], mô hình xác suất [165], hay mô</p> <p>hình ngôn ngữ [78].</p> <p>Các giải pháp sử dụng phản hồi ẩn truyền thống xác định trọng số của từ khóa</p> <p>truy vấn dựa trên các thông tin thống kê từ các tài liệu kết quả và từ kho tài liệu, ví</p> <p>dụ mật độ từ khóa tf, mật độ tài liệu df, hay mật độ nghịch đảo từ khóa-tài liệu tf-idf.</p> <p>Ví dụ, ký hiệu Dr là danh sách các tài liệu kết quả của câu truy vấn ban đầu, R là số</p> <p>tài liệu trong danh sách kết quả ban đầu, mỗi từ khóa t trong tài liệu kết quả có thể</p> <p>được gán một trọng số mở rộng w(t,Dr) với giá trị trung bình trọng số trong mỗi tài</p> <p>liệu d như sau [165]:</p> <p>�∈��</p> <p>∑ �(�, ��) = �(�, �) � (3.2)</p> <p>Ở đây w(t,d) là mật độ từ khóa t trong tài liệu d. Các trọng số thuật ngữ này</p> <p>có thể được dùng để định nghĩa một câu truy vấn mới bằng công thức Rocchio:</p> <p>(3.3) � � ���� = � ⋅ � + � ⋅ � �∈��</p> <p>Ở đây, Q và Qnew biểu diễn câu truy vấn gốc và câu truy vấn mới. Dr là danh</p> <p>sách các tài liệu kết quả của câu truy vấn ban đầu, d là véc-tơ trọng số mở rộng. R là</p> <p>số tài liệu trong danh sách kết quả ban đầu, α và β là các tham số (nhận giá trị số</p> <p>thực) có thể được điều chỉnh.</p> <p>Gần đây, các kỹ thuật được giới thiệu trong mô hình ngôn ngữ [78]. Trong mô</p> <p>hình này, xác suất của một tài liệu với điều kiện cho trước câu truy vấn được xác</p> <p>định bằng công thức Bayes:</p> <p>(3.4) �(�|�) = ∝ �(�|�) ⋅ �(�) �(�|�) ⋅ �(�) �(�)</p> <p>- 80 -</p> <p>Thông thường, P(d) được giả định phân bố đều trong kho tài liệu và các thuật</p> <p>ngữ được giả định độc lập với nhau. Xác suất P(d|q) khi đó tương đương với:</p> <p>�∈�</p> <p>�(�|�) ∝ �(�|�) = � � (�|�) (3.5)</p> <p>Giá trị P(t|d) có thể được tính sử dụng phương pháp Jelinek-Mercer</p> <p>smoothing hoặc Dirichlet priors [168]. Ý tưởng cơ bản của giải pháp Relevance-</p> <p>Based (RM) là ước lượng một mô hình truy vấn dựa trên các tài liệu kết quả và các</p> <p>từ khóa truy vấn [88], [169]. Với một thuật ngữ w và câu truy vấn q, áp dụng các</p> <p>công thức trên, ta có:</p> <p>�</p> <p>�(�|�) = � �(�|�) × �(�|�) ∝</p> <p>� �(�|�) × �(�|�) �∈�� (3.6)</p> <p>�∈�</p> <p>�∈��</p> <p>= � �(�|�) × � �(�|�)</p> <p>Nhằm cải thiện công thức trên, các phương án mở rộng khác nhau của mô</p> <p>hình truy vấn Relevance-Based cố gắng loại bỏ các từ khóa không phù hợp, xuất</p> <p>hiện nhiều trong các tài liệu kết quả cũng như trong kho tài liệu. Công thức sau kết</p> <p>hợp xác suất của thuật ngữ w trong kho tài liệu C [27], [169]:</p> <p>(3.7) ��(�|�) = � × �(�|�) + (1 − �) × �(�|�)</p> <p>Ở đây, λ là tham số điều chỉnh. Tất cả n thuật ngữ với giá trị Pλ(w|q) cao nhất</p> <p>được chọn để bổ sung vào câu truy vấn mới.</p> <p>Tuy sử dụng các cách thức tính toán và các số liệu thống kê khác nhau, điểm</p> <p>chung của các phương pháp sử dụng phản hồi ẩn là đều thực hiện việc tính lại trọng</p> <p>số của các từ khóa truy vấn hoặc tính trọng số của các thuật ngữ chứa trong các tài</p> <p>liệu nhằm mở rộng câu truy vấn.</p> <h4>3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ</h4> <p></p> <p>Trong truy vấn xuyên ngữ, PRF được áp dụng ở các giai đoạn khác nhau:</p> <p>trước hoặc sau quá trình dịch thuật hoặc kết hợp sử dụng trong cả 2 giai đoạn với</p> <p>mục tiêu nâng cao hiệu quả truy vấn [172][72]. Việc sử dụng PRF được đánh giá là</p> <p>- 81 -</p> <p>thường làm tăng độ chính xác trung bình cho một nhóm các câu truy vấn. Đặc biệt,</p> <p>PRF tỏ ra hiệu quả nếu có nhiều tài liệu phù hợp trong danh sách n kết quả tìm kiếm</p> <p>tốt nhất và ít thành công hơn nếu kết quả tìm kiếm ban đầu không tốt [137].</p> <p>Hiemstra [61] xây dựng câu truy vấn có cấu trúc ban đầu ở ngôn ngữ đích</p> <p>bằng cách nhóm các bản dịch của mỗi từ khóa ở ngôn ngữ nguồn trong cùng nhóm</p> <p>với trọng số giống nhau và sau đó sử dụng phản hồi để học xác suất dịch. Daqing và</p> <p>Dan [57] đề xuất phương pháp Translation Enhancement, điều chỉnh xác suất dịch.</p> <p>Lee và Croft [91] đề xuất sử dụng kỹ thuật PRF cho các văn bản không hình thức</p> <p>(informal text) bằng cách định nghĩa các mô hình Intra-language và Inter-language</p> <p>PRF và định nghĩa tập hợp các tính chất phục vụ việc phân tích câu truy vấn và</p> <p>chọn lựa mô hình phù hợp cho từng câu truy vấn. Một xu hướng khác là xây dựng</p> <p>chủ đề ẩn từ các tài liệu đứng đầu kết quả tìm kiếm ban đầu tại ngôn ngữ nguồn, rồi</p> <p>tìm kiếm các tài liệu ở ngôn ngữ đích phù hợp với chủ đề tương đương ở ngôn ngữ</p> <p>đích [160].</p> <h4>3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích</h4> <p></p> <p>Tại chương 2, từ câu truy vấn qv và tập hợp ((v1, L1),(v2, L2), …,(vn, Ln)) chứa</p> <p>các từ khóa tiếng Việt v1,.., vn và các danh sách bản dịch L1,…, Ln tương ứng, tác giả</p> <p>đã trình bày phương pháp tạo bản dịch có cấu trúc có dạng:</p> <p>��� ��� ��</p> <p>��� �� ���</p> <p>� … �� ���</p> <p>���� � … ��</p> <p>(3.8)</p> <p>�, ��</p> <p>��)�� ��� ��)�� ���� �� là các phương án dịch của vi trong danh sách Li với các ��. Giá trị wi là trọng số của từ vi trong câu truy</p> <p>��� � = (�� … ��� (�� �, … �� trọng số tương ứng là ��</p> <p>�, ��</p> <p>�, … ��</p> <p>Trong đó ��</p> <p>vấn. Tuy nhiên, trong các phương án gán trọng số được trình bày tại phần 2.3.5.6, � và wi còn được xác định thủ công bằng phương pháp heuristics:</p> <p>các giá trị �� Bản dịch tốt nhất được gắn trọng số 1, các bản dịch khác được gắn trọng số 0.5;</p> <p>danh từ có trọng số 4, động từ được gán trọng số 2.</p> <p>Thuật toán điều chỉnh câu truy vấn do tác giả đề xuất, trình bày tại [84], được</p> <p>thực hiện thông qua việc sử dụng phản hồi ẩn và mở rộng câu truy vấn. Với câu truy</p> <p>- 82 -</p> <p>vấn q ở dạng công thức (3.8) và kho tài liệu Dr chứa các tài liệu trong danh sách trả</p> <p>về của câu truy vấn ban đầu q, thuật toán sau được áp dụng nhằm mục tiêu xác định</p> <p>lại trọng số của cá từ khóa ở ngôn ngữ đích và bổ sung các từ khóa mới nhằm xây</p> <p>dựng câu truy vấn mới.</p> <p>Thuật toán điều chỉnh câu truy vấn</p> <p>Bước 1: Xác định trọng số các từ khóa dựa trên phân bố</p> <p>trong các tài liệu trả về.</p> <p>Bước 2: Thay đổi trọng số từ khóa trong câu truy vấn, sử</p> <p>dụng câu truy vấn mới để truy vấn các tài liệu mới.</p> <p>Bước 3: Chọn m từ khóa phổ biến nhất từ các tài liệu tải</p> <p>về mới (m=100).</p> <p>Bước 4: Tính toán trọng số từ khóa và chọn n từ khóa có</p> <p>trọng số cao nhất. Việc thực nghiệm được tiến hành với</p> <p>một số giá trị của n (n=5, 10, 15, 20, 25).</p> <p>Bước 5: Xây dựng câu truy vấn mở rộng bằng cách bổ sung</p> <p>n từ khóa có trọng số cao nhất.</p> <p>Mục tiêu chính của tác giả là đề xuất, so sánh và đánh giá các phương pháp</p> <p>tính trọng số của các tử khóa truy vấn và trọng số các từ khóa chứa trong các văn</p> <p>bản phục vụ việc mở rộng câu truy vấn.</p> <h4>3.3.3.1 Tính trọng số từ khóa truy vấn</h4> <p></p> <p>Biểu diễn Dr là tập hợp các tài liệu trả về từ câu truy vấn ban đầu. Trọng số</p> <p>của một thuật ngữ t chứa trong câu truy vấn q được ký hiệu là w(t) và được tính</p> <p>bằng công thức:</p> <p>�∈��</p> <p>�(�) = � �����(�) × (3.9) �����(�, �) �����ℎ(�)</p> <p>- 83 -</p> <p>Với count(t,d) là số lần xuất hiện của thuật ngữ t trong tài liệu d chứa trong tập</p> <p>hợp Dr, length(d) là độ dài tài liệu d, score(d) là điểm số được gán cho tài liệu d bởi</p> <p>máy tìm kiếm.</p> <p>Trọng số từ khóa được tính ở công thức trên được sử dụng để xây dựng lại câu</p> <p>truy vấn mới với dạng</p> <p>��� ��� ��</p> <p>��� �� ���</p> <p>� … �� ���</p> <p>���� � … ��</p> <p>(3.10)</p> <p>�, ��</p> <p>��) ��� ��) ���� �� là các phương án dịch của vi trong danh sách Li với các �� được tính dựa theo công thức (3.9). Đây là</p> <p>��� �′ = (�� … ��� (�� �, … �� trọng số tương ứng là ��</p> <p>�, ��</p> <p>�, … ��</p> <p>Trong đó ��</p> <p>một cải tiến so với công thức (2.18) đã được trình bày tại chương 2.</p> <h4>3.3.3.2 Chọn các từ phổ biến nhất</h4> <p></p> <p>Với tập hợp Dr các tài liệu trả về trong lần truy vấn thứ 2 sử dụng câu truy vấn</p> <p>q', tất cả các tài liệu di trong Dr được vector hóa. Một từ điển chứa tất cả các thuật</p> <p>ngữ trong các tài liệu trong Dr có dạng Dict = {t1,…t|D|} được tạo lập (|D| là kích</p> <p>� là trọng số tf-idf của thuật ngữ tj trong tài</p> <p>thước tập hợp D chứa các thuật ngữ). Mỗi tài liệu được biểu diễn như một vector</p> <p>�, ���</p> <p>�, … ���</p> <p>|�|}, trong đó ���</p> <p>�� = {���</p> <p>liệu di được tính bằng tfj*idfj; ở đây tfj là tần suất xuất hiện của của thuật ngữ tj trong</p> <p>tài liệu di và idfj là giá trị nghịch đảo số tài liệu trong Dr có chứa thuật ngữ tj.</p> <p>Với mỗi thuật ngữ không chứa trong câu truy vấn q, trọng số thuật ngữ mới</p> <p>được tính bằng công thức:</p> <p>� × � ��� ��∈��</p> <p>(3.11) ��t�� = 1 |��|</p> <p>Công thức trên được sử dụng để xác định m thuật ngữ phổ biến nhất (m=100</p> <p>trong thực nghiệm) trong các tài liệu tải về. Các từ khóa truy vấn mở rộng sẽ được</p> <p>chọn trong danh sách này.</p> <p>- 84 -</p> <h4>3.3.3.3 Tính toán trọng số</h4> <p>Phần này trình bày 4 công thức khác nhau phục vụ việc tính toán trọng số mới</p> <p>cho các thuật ngữ, các công thức sử dụng ký hiệu tương tự (3.11) và tham số �. Các</p> <p>công thức sử dụng dữ liệu khác nhau: thuần túy từ thông tin phản hồi hoặc kết hợp</p> <p>với thông tin toàn cục, khai thác giá trị Mutual Information. Tác giả muốn khảo sát</p> <p>loại dữ liệu nào phù hợp cho việc xác định trọng số cho các thuật ngữ phục vụ mở</p> <p>rộng câu truy vấn.</p> <p>Ký hiệu N là tổng số tài liệu trong kho tài liệu, Nt là số tài liệu chứa thuật ngữ</p> <p>t, � là tham số điều chỉnh và cùng sử dụng các ký hiệu tại 3.3.3.2, công thức đầu</p> <p>tiên tính trọng số thuật ngữ ��t��, gọi tên là FW1, có dạng như sau:</p> <p>� × � ��� ��∈��</p> <p>(3.12) ��t�� = � |��|</p> <p>Công thức 2, gọi tên là FW2, kết hợp trọng số tf-idf cục bộ và trọng số idf của</p> <p>các từ khóa. Với mỗi thuật ngữ tj, trọng số thuật ngữ ��t�� được tính như sau:</p> <p>� × � ��� ��∈��</p> <p>× log ( ) (3.13) ��t�� = � |��| � + 1 ��� + 1</p> <p>Dựa trên giả thuyết trong các tài liệu, các thuật ngữ gần các thuật ngữ trong</p> <p>câu truy vấn sẽ phù hợp với câu truy vấn, phương pháp thứ 3 tính trọng số thuật ngữ</p> <p>dựa trên giá trị Mutual Information của các thuật ngữ mở rộng và các thuật ngữ</p> <p>trong câu truy vấn ban đầu. Đầu tiên, một mô hình "cùng xuất hiện cục bộ" của các</p> <p>cặp từ khóa được xây dựng. Với mỗi thuật ngữ tj và một từ khóa truy vấn qk,</p> <p>mi(tj,qk) là số lần cùng xuất hiện của hai từ này với khoảng cách không quá 3 ký tự</p> <p>trong các tài liệu tải về. Trọng số của thuật ngữ ��t�� được tính toán bằng công</p> <p>thức FW3 như sau:</p> <p>��∈�</p> <p>��t�� = � × � ��(�� , ��) (3.14)</p> <p>- 85 -</p> <p>Một cách triển khai khác của Mutual Information là xây dựng mô hình "cùng</p> <p>xuất hiện toàn cục" của các cặp từ trong toàn bộ kho tài liệu. Trọng số thuật ngữ</p> <p>��t�� được tính toán bằng công thức FW4:</p> <p>��∈�</p> <p>) (3.15) ����� = � × � ��(�� , ��) × ��� ( � + 1 ��� + 1</p> <p>Với N là tổng số tài liệu trong kho, Nt là số tài liệu chứa thuật ngữ t.</p> <p>Bằng cách thêm n thuật ngữ với trọng số cao nhất, câu truy vấn cuối cùng, ký</p> <p>hiệu là qfinal, có dạng như sau:</p> <p>��)</p> <p>���</p> <p>��� ��</p> <p>���</p> <p>��� ��</p> <p>���</p> <p>� … ��</p> <p>����</p> <p>����</p> <p>��) ��� … ��� (�� ��� ���� … ����</p> <p>(3.16) ������ = �����(������� �����) = � … �� = (��</p> <p>�, ��</p> <p>�, … ��</p> <p>�� là các phương án dịch của vi trong danh sách Li với các ��, được tính bằng công thức (3.10);</p> <p>Trong đó ��</p> <p>�, ��</p> <p>�, … ��</p> <p>trọng số tương ứng là ��</p> <p>��, ��, … , �� là các thuật ngữ mở rộng với các trọng số tương ứng là</p> <p>��, ��, … , ��, được tính bằng một trong các công thức FW1, FW2, FW3, FW4.</p> <h4>3.4. THỰC NGHIỆM</h4> <h4>3.4.1. Cấu hình thực nghiệm</h4> <p></p> <p>Việc đánh giá các phương pháp điều chỉnh câu truy vấn ở ngôn ngữ đích được</p> <p>tiến hành trong môi trường thực nghiệm đã trình bày ở phần 2.5.1. Tổng cộng 50</p> <p>câu truy vấn tiếng Việt với độ dài trung bình 8,73 từ được sử dụng trong thực</p> <p>nghiệm. Phương pháp dịch câu truy vấn dựa trên thuật toán chọn bản dịch một cách</p> <p>tuần tự được trình bày ở phần 2.3.4.3 được sử dụng để tạo lập câu truy vấn có cấu</p> <p>trúc bằng tiếng Anh. Tiếp theo, thuật toán được trình bày ở phần 3.3.3 được áp dụng</p> <p>để thay đổi trọng số từ khóa truy vấn. Với 100 từ khóa phổ biến nhất chứa trong 50</p> <p>tài liệu tải về, các công thức FW1, FW2, FW3, FW4 định nghĩa ở trên được sử dụng</p> <p>để tính toán trọng số từ khóa. Cuối cùng, n thuật ngữ (n=5, 10, 15, 20 hoặc 25) với</p> <p>trọng số cao nhất được chọn để mở rộng câu truy vấn.</p> <p>- 86 -</p> <h4>3.4.2. Kết quả</h4> <p>Thực nghiệm được tiến hành với các giá trị khác nhau của � để xác định mức</p> <p>ảnh hưởng của tham số này: 0.0001, 0.0002, 0.0005, 0.001, 0.002, 0.005, 0.01, 0.02,</p> <p>0.05, 0.1, 0.2 và 0.5. Trong thực nghiệm được tiến hành, giá trị � tốt nhất tương ứng</p> <p>là 0.1,0.01, 0.001 và 0.001 khi áp dụng các công thức FW1, FW2, FW3 và FW4.</p> <p>Bảng 3.1 và Bảng 3.2 thể hiện điểm MAP và số tài liệu phù hợp được tải về</p> <p>tương ứng với các cấu hình thực nghiệm khác nhau. Trong mỗi bảng, dòng đầu (cấu</p> <p>hình Baseline) được coi là cấu hình cơ sở và dòng 2 (cấu hình CW) thể hiện điểm số</p> <p>khi sử dụng bản dịch câu truy vấn như trình bày tại 2.3.5.6 và thay đổi trọng số từ</p> <p>khóa câu truy vấn như trình bày tại 3.3.3.1. Bốn dòng tiếp theo thể hiện điểm khi</p> <p>mở rộng câu truy vấn bằng cách thêm 5, 10, 15, 20 hay 25 từ khóa khi áp dụng các</p> <p>công thức tính trọng số FW1, FW2, FW3, FW4.</p> <p>Bảng 3.1: Điểm số MAP</p> <p>Cấu hình n=5 n=10 n=15 n=20 n=25</p> <p>Baseline 0.380</p> <p>CW 0.407</p> <p>FW1 0.416 0.421 0.417 0.416 0.410</p> <p>FW2 0.416 0.418 0.415 0.411 0.425</p> <p>FW3 0.414 0.411 0.413 0.411 0.412</p> <p>FW4 0.404 0.400 0.388 0.386 0.367</p> <p>Bằng cách thay đổi trọng số truy vấn sử dụng công thức (3.9), điểm số MAP</p> <p>của cấu hình CW tăng 7% so với cấu hình Baseline. Với n=10, phương pháp mở</p> <p>rộng câu truy vấn sử dụng công thức FW2 cho điểm MAP tốt nhất là 0.425, bằng</p> <p>112% cấu hình cơ sở và 104% of cấu hình CW. Công thức FW1 cũng cho điểm số</p> <p>MAP 0.421, bằng 111% cấu hình cơ sở và bằng 103% cấu hình CW. Có thể thấy</p> <p>rằng, việc xác định lại trọng số truy vấn là yếu tố chính giúp nâng cao độ chính xác</p> <p>cho hệ thống.</p> <p>- 87 -</p> <p>Bảng 3.2: Số lượng tài liệu phù hợp tải về</p> <p>Cấu hình n=5 n=10 n=15 n=20 n=25</p> <p>Baseline 4999</p> <p>CW 4961</p> <p>FW1 5044 5047 5075 5075 5071</p> <p>FW2 5010 5067 5061 5082 5099</p> <p>FW3 5081 5075 5095 5070 5072</p> <p>FW4 5019 5004 5179 5098 5127</p> <p>Kết quả tại Bảng 3.2 cho thấy số tài liệu tải về bị giảm trong cấu hình CW.</p> <p>Tuy nhiên, số này tăng khi thực hiện việc mở rộng câu truy vấn. Kết quả tốt nhất</p> <p>với 5179 tài liệu tải về trong tổng số 6109 tài liệu phù hợp đạt được khi áp dụng</p> <p>0.9</p> <p>0.8</p> <p>0.7</p> <p>0.6</p> <p>Baseline</p> <p>0.5</p> <p>công thức FW4 và n=15.</p> <h4>í</h4> <p>0.4</p> <p>CW</p> <h4>c á x h n h c ộ Đ</h4> <p>0.3</p> <p>FW1</p> <p>0.2</p> <p>FW2</p> <p>0.1</p> <p>0</p> <p>0</p> <p>10</p> <p>20</p> <p>30</p> <p>40</p> <p>50</p> <p>60</p> <p>70</p> <p>80</p> <p>90</p> <p>100</p> <h4>Độ bao phủ</h4> <p></p> <p>Hình 3.4: Đồ thị trung bình 11 điểm</p> <p>Hình 3.4 thể hiện đồ thị trung bình 11 điểm (interpolated 11-point average</p> <p>precision) cho 4 cấu hình: baseline, CW, FW1 và FW2 với n=10. Đồ thị cho thấy</p> <p>tính ưu việt rõ ràng khi áp dụng thuật toán với các công thức FW1 và FW2 so với</p> <p>cấu hình cơ sở.</p> <p>- 88 -</p> <p>Một cách tổng thể, kết quả thực nghiệm cho thấy việc kết hợp áp dụng thuật</p> <p>toán đề xuất để xác định lại trọng số từ khóa truy vấn và mở rộng câu truy vấn giúp</p> <p>tăng độ chính xác và độ bao phủ cho hệ thống.</p> <h4>3.5. TIỂU KẾT CHƯƠNG</h4> <p></p> <p>Chương 3 trình bày các nghiên cứu của tác giả liên quan các kỹ thuật hỗ trợ</p> <p>dịch câu truy vấn. Phần đầu của chương trình bày tổng quan về các kỹ thuật hỗ trợ</p> <p>dịch câu truy vấn bao gồm phân đoạn câu truy vấn, mở rộng câu truy vấn, thu hẹp</p> <p>câu truy vấn, xử lý thuật ngữ không có trong từ điển.</p> <p>Các đóng góp của tác giả được trình bày ở chương 3 bao gồm:</p> <p> Thuật toán thực hiện việc phân đoạn câu truy vấn, được thực hiện ở bước</p> <p>tiền xử lý câu truy vấn thông qua việc kết hợp thuật toán phân đoạn dựa trên độ dài</p> <p>từ khóa và công cụ vnTagger [83].</p> <p> Các kỹ thuật điều chỉnh câu truy vấn ở ngôn ngữ đích dựa trên việc sử</p> <p>dụng phản hồi ẩn nhằm tính lại trọng số của các từ khóa truy vấn và mở rộng câu</p> <p>truy vấn [84].</p> <p>Các nội dung chương 3 liên hệ chặt chẽ với nội dung chương 2, cùng liên</p> <p>quan đến các nghiên cứu của tác giả nhằm mục tiêu nâng cao chất lượng dịch thuật</p> <p>trong máy tìm kiếm web xuyên ngữ. Thuật toán phân đoạn câu truy vấn thực hiện</p> <p>việc bóc tách câu truy vấn ở ngôn ngữ nguồn thành một danh sách các từ khóa và</p> <p>các bản dịch ứng viên. Danh sách này được sử dụng như đầu vào cho các phương</p> <p>pháp khử nhập nhằng được trình bày tại chương 2.</p> <p>Từ câu truy vấn có cấu trúc được tạo lập sau quá trình khử nhập nhằng được</p> <p>trình bày tại chương 2, quá trình cải tiến câu truy vấn được thực hiện, bao gồm việc</p> <p>điều chỉnh trọng số của các từ khóa truy vấn và mở rộng câu truy vấn. Kết quả thực</p> <p>nghiệm cho thấy việc cải tiến câu truy vấn ở ngôn ngữ đích giúp tăng độ chính xác</p> <p>và độ bao phủ cho hệ thống truy vấn.</p> <p>Kết quả thực nghiệm các kỹ thuật hỗ trợ việc dịch tự động câu truy vấn trong</p> <p>một hệ thống CLIR sử dụng từ điển cho thấy:</p> <p>- 89 -</p> <p> Nhóm kỹ thuật thứ nhất là các thuật toán phục vụ việc phân tích câu truy</p> <p>vấn ở ngôn ngữ nguồn. Việc kết hợp sử dụng thuật toán WLQS của tác giả và công</p> <p>cụ vnTagger cho kết quả tốt. Câu truy vấn ở ngôn ngữ nguồn được phân tách thành</p> <p>các từ khóa (đi kèm với các phương án dịch), phục vụ cho bước khử nhập nhằng</p> <p>được trình bày tại chương 2.</p> <p> Nhóm kỹ thuật thứ hai dựa trên việc sử dụng phản hồi ẩn nhằm thay đổi</p> <p>trọng số của các từ khóa truy vấn và mở rộng câu truy vấn. Kết quả thực nghiệm</p> <p>của các phương pháp được đề xuất cho thấy việc kết hợp áp dụng thuật toán xác</p> <p>định lại trọng số từ khóa truy vấn và mở rộng câu truy vấn giúp tăng độ chính xác</p> <p>và độ bao phủ cho hệ thống.</p> <p>Các thuật toán phân đoạn câu truy vấn và điều chỉnh câu truy vấn ở ngôn ngữ</p> <p>đích là các kỹ thuật được thực hiện ở bước thứ nhất và bước thứ ba trong sơ đồ xử</p> <p>lý của giai đoạn truy vấn được trình bày tại Hình 1.4 trang 39.</p> <p>- 90 -</p> <h3>CHƯƠNG 4 XẾP HẠNG LẠI</h3> <p>Trong chương 4, tác giả nghiên cứu bài toán học xếp hạng dựa trên lập trình</p> <p>di truyền, đề xuất các mô hình lân cận trong truy vấn xuyên ngữ và đề xuất 2 mô</p> <p>hình học xếp hạng dựa trên lập trình di truyền nhằm xếp hạng lại kết quả tìm kiếm</p> <p>các trang Web trong hệ thống tìm kiếm web xuyên ngữ.</p> <h4>4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN</h4> <p></p> <p>Phương pháp lập trình di truyền (Genetic Programming - GP) được giới thiệu</p> <p>đầu tiên bởi Koza [3], dựa trên cơ sở thuật toán di truyền. Trong GP, mỗi giải pháp</p> <p>tiềm năng dưới dạng một hàm số được gọi là cá thể trong tập hợp quần thể. GP hoạt</p> <p>động thông qua cơ chế vòng lặp: tại mỗi thế hệ thực hiện chọn lọc cá thể vượt trội</p> <p>trong quần thể dựa trên hàm lượng giá; thực hiện các phép toán lai ghép, đột biến và</p> <p>sinh sản để tạo ra các cá thể tốt hơn cho các thế hệ sau.</p> <p>Từ đặc tính ngẫu nhiên và không lệ thuộc vào nguyên tắc thuật toán khi tạo</p> <p>lập cá thể, trong nhiều trường hợp lập trình di truyền giúp vượt qua các lỗi kết quả</p> <p>tối ưu cục bộ. Mặc dù không có đảm bảo chắc chắn cho việc kết quả xác định bởi</p> <p>lập trình di truyền là tối ưu, thực nghiệm trong các lĩnh vực khác nhau cho thấy kết</p> <p>quả này thường tốt hơn việc áp dụng các giải thuật định nghĩa bởi chuyên gia và</p> <p>trong nhiều trường hợp, kết quả này gần với giải pháp tối ưu [3].</p> <p>Yếu tố quan trọng khi triển khai lập trình di truyền là cách định nghĩa cá thể,</p> <p>trên cơ sở đó xác định hàm lượng giá, đảm bảo độ đo này xác định đúng chất lượng</p> <p>của giải pháp. Bên cạnh đó, các yếu tố về độ phức tạp của hàm lượng giá, số lượng</p> <p>cá thể trong quần thể, tốc độ lai ghép và đột biến, số lượng thế hệ cần kiểm nghiệm</p> <p>cần được xác định tốt nhằm cân đối khả năng tạo lập giải pháp tốt, loại trừ các giải</p> <p>pháp không phù hợp với khối lượng tính toán và thời gian giải quyết bài toán.</p> <p>Trước đây, việc thực nghiệm các phương pháp học xếp hạng được tiến hành</p> <p>độc lập, trên các bộ dữ liệu khác nhau. Điều này không cho phép so sánh các</p> <p>- 91 -</p> <p>phương pháp và gây trở ngại lớn cho việc nghiên cứu. Năm 2007, hãng Microsoft</p> <p>giới thiệu bộ dữ liệu đánh giá LETOR (viết tắt của LEearning TO Rank) phục vụ</p> <p>việc nghiên cứu các kỹ thuật trong tìm kiếm văn bản. Trong phiên bản 3.0 [123], bộ</p> <p>sưu tập OHSUMED được biên tập từ MEDLINE - một cơ sở dữ liệu về các ấn</p> <p>phẩm y học - để phục vụ học xếp hạng. Từ dữ liệu của 106 câu truy vấn, 3 tập tin</p> <p>được tạo lập: trainset chứa 63 câu truy vấn, validationset chứa 21 câu truy vấn và</p> <p>testset chứa 22 câu truy vấn. Mỗi tập tin chứa các bản ghi dưới dạng biểu diễn sau:</p> <p><lb> qid:<q> 1:<v1> 2:<v2> . ... 45:<v45> (4.1)</p> <p>trong đó <lb> là giá trị đánh giá mức độ phù hợp; <q> là số hiệu câu truy</p> <p>vấn; <v1>,...<v45> là giá trị tương ứng với các thuộc tính (features) của các văn</p> <p>bản, được tính toán trên cơ sở các công thức xếp hạng phổ biến phục vụ tìm kiếm.</p> <p>Một số ví dụ thuộc tính được sử dụng bao gồm:</p> <p>ID Công thức</p> <p>��∈�∩�</p> <p>∑ 1 trong tiêu đề �(��, �)</p> <p>��∈�∩�</p> <p>� ��(��)</p> <p>5 ∑ log ( trong tiêu đề )</p> <p>11 Điểm BM25 của tiêu đề</p> <p>14 Điểm LMIR.JM của tiêu đề</p> <p>��∈�∩�</p> <p>∑ 16 trong trích yếu �(��, �)</p> <p>26 Điểm BM25 của trích yếu</p> <p>28 Điểm LMIR.JM của trích yếu</p> <p>Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED</p> <p>Trong các công thức trên, qi là từ khóa truy vấn thứ i trong câu truy vấn q, d</p> <p>là tài liệu, c(qi,d) là số lượt xuất hiện của qi trong tài liệu d; C là tổng số tài liệu</p> <p>trong kho, df(qi) là số tài liệu chứa từ khóa qi. Điểm BM25 và điểm LMIR.JM là</p> <p>điểm xếp hạng tài liệu khi áp dụng mô hình xếp hạng BM25 [131] và mô hình ngôn</p> <p>ngữ sử dụng phương pháp làm mịn Jelinek-Mercer [168].</p> <p>- 92 -</p> <h4>4.1.1. Mô hình ứng dụng lập trình di truyền</h4> <p>Giải pháp ứng dụng GP phục vụ học xếp hạng được tác giả đề xuất và trình</p> <p>bày tại công trình [80], có mô hình như sau:</p> <p> Đầu vào 1: tập dữ liệu huấn luyện D với các bản ghi biểu diễn với dạng</p> <p>như tại (4.1);</p> <p> Đầu vào 2: các tham số Ng=số lượng thế hệ, Np=số lượng cá thể mỗi thế</p> <p>hệ, Nc=tốc độ lai ghép, Nm=tốc độ đột biến.</p> <p> Đầu ra: hàm xếp hạng F(q,d), tạo lập giá trị là một số thực, tương ứng</p> <p>mức độ phù hợp của văn bản d đối với câu truy vấn q.</p> <p>Quá trình thực hiện huấn luyện bao gồm 4 bước như sau:</p> <p> Bước 1: Xác định ngẫu nhiên các cá thể thế hệ đầu tiên</p> <p> Bước 2: Xác định giá trị hàm lượng giá đối với mỗi cá thể.</p> <p> Bước 3: Thực hiện các thao tác lai ghép và đột biến</p> <p> Bước 4: Tạo lập thế hệ mới và lặp lại các bước 2-4 cho đến khi đủ số</p> <p>lượng Ng</p> <p> Bước 5: Chọn kết quả là cá thể tốt nhất</p> <p>Mỗi cá thể (gene) được xác định là một hàm f(q,d) đo mức độ phù hợp của</p> <p>văn bản so với câu truy vấn, với các phương án như sau:</p> <p> Phương án 1: Hàm tuyến tính sử dụng 45 thuộc tính:</p> <p>(4.2) �� − �� = �� × �� + �� × �� + ⋯ + ��� × ���</p> <p> Phương án 2: Hàm tuyến tính, chỉ sử dụng một số thuộc tính chọn lọc</p> <p>ngẫu nhiên:</p> <p>(4.3) �� − �� = ��� × ��� + ��� × ��� + ⋯ + ��� × ���</p> <p> Phương án 3: Áp dụng hàm số lên các thuộc tính. Giới hạn sử dụng các</p> <p>hàm số x, 1/x, sin(x), log(x), và 1/(1+ex).</p> <p>(4.4) �� − �� = �� × ℎ�(��) + �� × ℎ�(��) + ⋯ + ��� × ℎ��(���)</p> <p>- 93 -</p> <p> Phương án 4: Tạo dựng hàm TF-GF tương tự phương pháp trình bày tại</p> <p>[166], tuy nhiên giữ lại đánh giá các hàm phi tuyến tính. Tại nghiên cứu [166], hàm</p> <p>có dạng cây nhị phân, với các đỉnh bên trong là các toán tử, các đỉnh lá là hằng số</p> <p>hay biến.</p> <p>Trong các công thức, ai là các tham số, fi là giá trị thuộc tính của văn bản, hi</p> <p>là hàm số.</p> <p>Trong các phương án 1, 2 và 3, để lai ghép hai cá thể f1(q,d) và f2(q,d), một</p> <p>danh sách ngẫu nhiên các tham số có cùng chỉ số của các hàm được trao đổi. Thao</p> <p>tác đột biến cho cá thể - hàm f(q,d) - được thực hiện bằng cách hoán đổi hai tham số</p> <p>ngẫu nhiên của hàm f(q,d).</p> <p>Việc so sánh các giải pháp tìm kiếm và xếp hạng thường dựa trên các độ đo</p> <p>P@k, MAP, NDCG@k trình bày tại phần 1.2.2 chương 1 được sử dụng để xác định</p> <p>giá trị hàm lượng giá. Ở đây, tác giả thực nghiệm các hàm lượng giá (fitness</p> <p>function) tương ứng với giá trị MAP.</p> <p>Tại hai phương án đầu, Ng, Np, Nc, Nm có giá trị tương ứng là 100, 100, 0.9,</p> <p>0.1. Đối với phương án 3, Ng, Np được xác định tương ứng là 200,400. Tại phương</p> <p>pháp 4, Ng, Np, Nc, Nm tương ứng là 1000, 100, 0.9 và 0.2. Các giá trị này được</p> <p>xác định thông qua thực nghiệm. Giá trị Ng, Np ở các phương án 3 và 4 lớn hơn do</p> <p>tính chất phức tạp và đa dạng của các cá thể - hàm xếp hạng.</p> <h4>4.1.2. Xây dựng công cụ và kết quả thực nghiệm</h4> <p></p> <p>Phần mềm thực nghiệm phương pháp TF-Ranking được xây dựng trên nền thư viện PyEvolve được phát triển bởi Christian S. Perone20, cho phép triển khai</p> <p>thuật toán lập trình di truyền trên môi trường phát triển bằng ngôn ngữ Python.</p> <p>Trong bộ sưu tập OHSUMED, dữ liệu được chia sẵn thành 5 thư mục, mỗi</p> <p>thư mục chứa các tập tin train.txt, vali.txt và test.txt phục vụ huấn luyện, đánh giá</p> <p>lại và thực nghiệm. Tương ứng mỗi thư mục, các bước huấn luyện và thực nghiệm</p> <p>20 http://pyevolve.sourceforge.net (truy cập ngày 15/01/2016)</p> <p>được thực hiện như sau:</p> <p>- 94 -</p> <p> Mô-đun huấn luyện đọc dữ liệu từ train.txt để chọn lọc cá thể tốt nhất</p> <p>pbest, áp dụng tạo hàm tính điểm các văn bản trong test.txt.</p> <p> Công cụ Eval-Score-3.0.pl của hãng Microsoft được sử dụng để tạo lập</p> <p>các giá trị P@k, MAP, NDCG@k (k=1,2,5,100), đánh giá hiệu quả hàm tính điểm</p> <p>được tạo dựng.</p> <p>Với mỗi phương án, giá trị trung bình cho từng điểm số P@k, MAP,</p> <p>NDCG@k của 5 thư mục lấy làm các điểm số của phương án thực nghiệm. Việc</p> <p>thực hiện quá trình huấn luyện và thực nghiệm được thực hiện 5 lần, kết xuất giá trị</p> <p>bình quân phục vụ việc so sánh và đánh giá kết quả.</p> <p>Bảng 4.2, Bảng 4.3 và Bảng 4.4 so sánh giá trị MAP, P@k và NDCG@k (với</p> <p>k=1,2,5,10) của giải pháp đề xuất so với các phương pháp cơ sở, được công bố tại website của bộ dữ liệu đánh giá LETOR21. Các ô in đậm chứa giá trị cao nhất trong</p> <p>cột tương ứng.</p> <p>a. So sánh giá trị MAP</p> <p>Bảng 4.2 So sánh giá trị MAP</p> <p>Phương pháp MAP</p> <p>Regression 0.4220</p> <p>RankSVM 0.4334</p> <p>RankBoost 0.4411</p> <p>ListNet 0.4457</p> <p>FRank 0.4439</p> <p>TF-AF 0.4456</p> <p>TF-RF 0.4467</p> <p>TF-FF 0.4468</p> <p>21 http://research.microsoft.com/en-us/um/beijing/projects/letor/letor3baseline.aspx</p> <p>TF-GF 0.4427</p> <p>- 95 -</p> <p>b. So sánh giá trị NDCG@k</p> <p>Bảng 4.3 So sánh giá trị NDCG@k</p> <p>Phương pháp K=1 K=2 K=5 K=10</p> <p>Regression 0.4456 0.4532 0.4278 0.4110</p> <p>RankSVM 0.4958 0.4331 0.4164 0.4140</p> <p>RankBoost 0.4632 0.4504 0.4494 0.4302</p> <p>ListNet 0.5326 0.481 0.4432 0.441</p> <p>FRank 0.5300 0.5008 0.4588 0.4433</p> <p>TF-AF 0.5506 0.4789 0.4476 0.4348</p> <p>TF-RF 0.4835 0.4404 0.5545 0.4633</p> <p>TF-FF 0.5294 0.4600 0.4957 0.4437</p> <p>TF-GF 0.4997 0.4760 0.4507 0.4372</p> <p>c. So sánh giá trị P@k</p> <p>Bảng 4.4: So sánh giá trị P@k</p> <p>Phương pháp P@1 P@2 P@5 P@10</p> <p>Regression 0.5965 0.6006 0.5337 0.4666</p> <p>RankSVM 0.5974 0.5494 0.5319 0.4864</p> <p>RankBoost 0.5576 0.5481 0.5447 0.4966</p> <p>ListNet 0.6524 0.6093 0.5502 0.4975</p> <p>FRank 0.6429 0.6195 0.5638 0.5016</p> <p>TF-AF 0.6167 0.5499 0.4955 0.6691</p> <p>TF-RF 0.6642 0.6020 0.4954 0.5653</p> <p>TF-FF 0.6619 0.5612 0.4983 0.6279</p> <p>TF-GF 0.6220 0.6058 0.5520 0.4969</p> <h4>4.1.3. Đánh giá</h4> <p></p> <p>Kết quả thực nghiệm cho thấy các phương án TF-AF, TF-RF cho kết quả tốt.</p> <p>Các giá trị MAP, NDCG@k và P@k vượt trội hơn hẳn so với giá trị tương ứng của</p> <p>các phương pháp Regression, RankSVM và RankBoost, tương đương và có phần</p> <p>- 96 -</p> <p>nhỉnh hơn so với các phương pháp ListNet và FRank. Phương pháp TF-GF cho kết</p> <p>quả không cao: Tuy đạt điểm số tốt trên tập huấn luyện, kết quả trên tập thực</p> <p>nghiệm chỉ ở mức độ trung bình - dấu hiệu của hiện tượng overfitting.</p> <p>Một lần huấn luyện cho 5 thư mục với các phương án TF-AF, TF-RF, TF-</p> <p>FF, TF-GF tốn bình quân tương ứng 150 phút, 70 phút, 200 phút và 10 giờ trên</p> <p>máy tính cấu hình CPU Dual Core 3.30 GHz, 4 GB RAM cài đặt Windows 7.</p> <p>Kết quả này cho thấy việc sử dụng các hàm tuyến tính phục vụ xếp hạng đảm</p> <p>bảo tính hiệu quả, kể cả về chất lượng thực nghiệm và thời gian huấn luyện.</p> <p>Kết quả của được trình bày khác biệt so với kết quả của Fan và các đồng sự</p> <p>[40] trong việc không định nghĩa trước hàm xếp hạng. Các phương pháp xây dựng</p> <p>hàm xếp hạng được trình bày bởi Fan [41] và Yeh [166] tương tự như phương án</p> <p>TF-GF. So với kết quả của Yeh [166], các phương án TF-AF, TF-RF đơn giản và</p> <p>hiệu quả hơn trong cách tạo dựng hàm xếp hạng tuyến tính và tiết kiệm thời gian do</p> <p>không tốn thời gian tạo dựng hàm rồi loại bỏ các hàm phi tuyến tính.</p> <h4>4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN</h4> <p></p> <p>Trong phần này, tác giả đề xuất các mô hình lân cận áp dụng trong bối cảnh</p> <p>truy vấn xuyên ngữ; các mô hình này được trình bày tại công trình [85].</p> <p>Như đã trình bày tại phần 1.1.5.2, mô hình lân cận khắc phục hạn chế căn</p> <p>bản của các mô hình truy vấn thông tin truyền thống như TF-IDF và BM25 trong</p> <p>việc khai thác mối liên quan giữa các thuật ngữ xuất hiện trong câu truy vấn và</p> <p>trong các tài liệu và cho phép tăng điểm số xếp hạng của các tài liệu có chứa các từ</p> <p>khóa truy vấn đứng gần nhau. Hai mô hình lân cận xuyên ngữ được tác giả phát</p> <p>triển dựa trên các kết quả nghiên cứu của các tác giả Büttcher [140] và Rasolofo</p> <p>[125]. Bên cạnh đó là một mô hình mới, đơn giản nhưng hiệu quả, tính điểm số xếp</p> <p>hạng lân cận của tài liệu dựa trên việc phân tích các câu trong tài liệu chứa hơn 1 từ</p> <p>khóa truy vấn. Ý tưởng về độ đo lân cận trong CLIR dựa trên quan sát rằng chúng</p> <p>ta có thể coi các phương án dịch một của một từ khóa truy vấn như cùng một từ giả.</p> <p>- 97 -</p> <p>Sau khi thực hiện bước bóc tách từ khóa từ câu truy vấn q ở ngôn ngữ nguồn,</p> <p>mỗi từ khóa vi đi kèm với tập L(vi) chứa n phương án dịch tốt nhất của vi (n được</p> <p>gán giá trị 5 trong luận án). Độ đo lân cận của một tài liệu d ở ngôn ngữ đích đối</p> <p>với bản dịch T(q) của câu truy vấn q ở ngôn ngữ nguồn được ký hiệu là</p> <p>���������(�, �) và có dạng:</p> <p>�∈�</p> <p>���������(�, �) = � ������(�(�)) (4.5)</p> <p>với gnprox là hàm xác định quan hệ giữa các từ trong danh sách L(v) với các</p> <p>từ trong các danh sách L(v'), v'≠v.</p> <p>Dạng thứ hai của độ đo lân cận như sau:</p> <p>(4.6) ���������(�, �) = � ������(�(��), �����) ��,��∈�</p> <p>trong đó fnprox là một hàm xác định mức độ quan hệ giữa các từ tiếng Anh trong</p> <p>danh sách L(vi) và L(vj).</p> <p>Các hàm độ đo lân cận này được dùng kết hợp với các hàm xếp hạng khác để</p> <p>thực hiện việc xếp hạng lại các tài liệu.</p> <h4>4.2.1. Mô hình CL-Büttcher</h4> <p></p> <p>Mô hình đề xuất thứ nhất mô phỏng theo mô hình Büttcher [19]. Đầu tiên, ta</p> <p>ký hiệu pi(d) là từ xuất hiện tại vị trí i trong tài liệu d, Pd(t) là tập hợp chứa các vị trí</p> <p>thuật ngữ t xuất hiện trong tài liệu d và Pd(L(v)) là tập hợp chứa các vị trí một trong</p> <p>các từ trong danh sách L(v) xuất hiện trong tài liệu d . Với tài liệu d ở ngôn ngữ đích</p> <p>và câu truy vấn q ở ngôn ngữ nguồn, ký hiệu tập hợp các cặp vị trí của các từ khóa</p> <p>truy vấn khác nhau trong tài liệu d là Qd(q) với định nghĩa như sau:</p> <p>(4.7) ��(�) = {(�, �) ∈ ��(�(��)) × ��(�(��))|� < �, � ≠ �}</p> <p>Tập hợp các cặp vị trí liền kề của các từ khóa khác nhau được ký hiệu là</p> <p>Ad(a) và được định nghĩa như sau:</p> <p>- 98 -</p> <p>(4.8) ��(�) = {(�, �) ∈ ��(�)|∀ � ∈ {� + 1 … . , � − 1: � ∉ ��(�)}}</p> <p>Với câu truy vấn q = {v1,…,vn} ở ngôn ngữ nguồn và L(q) = {L(v1),…,L(vn)}</p> <p>là bản dịch tại ngôn ngữ đích, ta định nghĩa:</p> <p>��(�(�)) = + (4.9) ���(�(�)) (� − �)� ���(�(�)) (� − �)� � (�,�)∈��(�):��∈�(�) � (�,�)∈��(�):��∈�(�)</p> <p>Trong đó, với tập hợp L(v) chứa các bản dịch của một thuật ngữ v, giá trị</p> <p>nghịch đảo tần số văn bản idf(L(v)) được định nghĩa như sau:</p> <p>���(�(�)) = log ( ) (4.10) � + 0.5 ���(�)� + 0.5</p> <p>với N là tổng số tài liệu, n(L(v)) là số tài liệu chứa ít nhất một từ trong L(v).</p> <p>Cuối cùng, giá trị hàm lân cận của tài liệu d đối với câu truy vấn q được tính bằng</p> <p>công thức sau:</p> <p>�∈�</p> <p>����������������(�, �) = � ���(1, ���(�(�)) × (4.11) ��(�(�)) × (�� + 1) � + ��(�)</p> <p>Các giá trị k1 và K có được tính toán tương tự như công thức BM25 tại</p> <p>1.1.4.3 chương 1.</p> <h4>4.2.2. Mô hình xếp hạng CL-Rasolofo</h4> <p></p> <p>Mô hình thứ hai được phát triển dựa theo mô hình Rasolofo [125]. Trong</p> <p>luận án, tác giả phát triển phiên bản hàm xếp hạng lân cận áp dụng cho truy vấn</p> <p>thông tin xuyên ngữ. Với một đoạn văn bản s và một cặp từ khóa (ti, tj), hàm khoảng</p> <p>cách cặp từ tpi được định nghĩa như sau:</p> <p>(4.12) ������, ��, �� = 1 ������, ��, ��</p> <p>Ở đây, ������, ��, �� là khoảng cách giữa 2 từ khóa ti và tj trong đoạn văn bản</p> <p>s hoặc bằng độ dài của s nếu ít nhất một từ khóa không chứa trong s. Từ đây, với</p> <p>- 99 -</p> <p>cặp từ v1, v2 trong câu truy vấn ở ngôn ngữ nguồn và đoạn văn bản s ở ngôn ngữ</p> <p>đích, tác giả đề xuất phiên bản xuyên ngữ của hàm khoảng cách cặp từ như sau:</p> <p>��∈�(��),��∈�(��)</p> <p>���(��, ��, �) = � ������, ��, �� (4.13)</p> <p>Ở đây, L(vi) là tập hợp các phương án dịch của vi.</p> <p>Với tập hợp Sents bao gồm tất cả các câu trong tài liệu d, hàm lân cận của 2</p> <p>từ khóa v1 và v2 được định nghĩa bằng công thức sau:</p> <p>(4.14) ��(��, ��) = � ������, ��, �� � ∈�����</p> <p>Đối với tập L(w) chứa tất cả các bản dịch ứng viên của thuật ngữ w, hàm</p> <p>idf(L(w)) được định nghĩa như sau:</p> <p>�����(�)� = log ( ) (4.15) � + 0.5 ���(�)� + 0.5</p> <p>trong đó N là tổng số tài liệu, n(L(w)) là số tài liệu chứa ít nhất một từ trong</p> <p>tập hợp L(w).</p> <p>Cuối cùng, với câu truy vấn q ở ngôn ngữ nguồn và tài liệu d ở ngôn ngữ</p> <p>đích, hàm xếp hạng lân cận xuyên ngữ CL-Rasolofo được định nghĩa bằng công</p> <p>thức:</p> <p>��,��∈�;�����</p> <p>���������������� = � �(�, �) × (4.16) �����, ��� × (�� + 1) � + �����, ���</p> <p>Ở đây, m(i,j) là giá trị nhỏ nhất giữa hai giá trị idf(L(vi)) và idf(L(vj)). Các giá</p> <p>trị k1 và K được tính toán như ở công thức BM25 tại 1.1.4.3 chương 1.</p> <h4>4.2.3. Mô hình xếp hạng CL-HighDensity</h4> <p></p> <p>Hàm xếp hạng lân cận CL-HighDensity được định nghĩa dựa trên việc xem</p> <p>xét các câu trong tài liệu chứa nhiều từ khóa truy vấn. Cụ thể, ký hiệu S(text) là tập</p> <p>hợp các câu trong văn bản text, Sdensity(text) là tập con của S(text), bao gồm các câu</p> <p>chứa bản dịch của ít nhất 2 từ khóa truy vấn. Ký hiệu textdensity là văn bản mới tạo</p> <p>- 100 -</p> <p>bằng cách nối các câu trong Sdensity(text), hàm xếp hạng lân cận được định nghĩa</p> <p>bằng công thức:</p> <p>(4.17) �������������������(�, �) = ����������(�����������, �)</p> <p>trong đó, scoreokapi được tính dựa trên mô hình xếp hạng OKAPI BM25 như</p> <p>ở công thức (1.8) trình bày tại chương 1.</p> <h4>4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ</h4> <p></p> <p>Việc đánh giá hiệu quả của các mô hình lân cận xuyên ngữ được triển khai</p> <p>thông qua thực nghiệm với 50 câu truy vấn tiếng Việt có độ dài trung bình 8,73 từ</p> <p>trong môi trường thực nghiệm trình bày tại phần 2.5.1. Từ các câu truy vấn tiếng</p> <p>Việt, đầu tiên các câu truy vấn có cấu trúc được tạo bởi các phương pháp</p> <p>top_three_all, top_three_ch và top_three_sq. Bên cạnh đó, câu truy vấn flat query</p> <p>được tạo bằng cách nối tất cả các phương án dịch của các từ khóa thành câu truy</p> <p>vấn tiếng Anh. Một câu truy vấn khác được tạo bằng cách lập nhóm các bản dịch</p> <p>của từng từ khóa bằng toán tử OR, sau đó nối các nhóm thành câu truy vấn tiếng</p> <p>Anh. Câu truy vấn này được ký hiệu là join-all query.</p> <p>Các câu truy vấn nói trên được gửi tới máy tìm kiếm Solr. Tiếp theo, các mô</p> <p>hình lân cận xuyên ngữ đề xuất được kết hợp với điểm trả về của máy tìm kiếm Solr</p> <p>và hàm xếp hạng Okapi để xây dựng hàm xếp hạng mới phục vụ việc xếp hạng lại</p> <p>danh sách top 200 kết quả tìm kiếm của Solr.</p> <p>Các hàm xếp hạng sau được sử dụng để kiểm tra và so sánh:</p> <p>������������(�, �) = ���������(�, �) + ����������(�, �) (4.18) +10 × ����������������(�, �)</p> <p>������������(�, �) = ���������(�, �) + ����������(�, �) (4.19) +10 × ����������������(�, �)</p> <p>���������������(�, �) = ���������(�, �) + ����������(�, �) (4.20) +5 × �������������������(�, �)</p> <p>- 101 -</p> <p>Kết quả thực nghiệm được trình bày tại Bảng 4.5 và Bảng 4.6. Bảng đầu tiên</p> <p>mô tả điểm MAP cho các phương pháp dịch khác nhau và khi áp dụng các mô hình</p> <p>lân cận để xếp hạng lại. Hai dòng cuối tương ứng với cấu hình khi sử dụng công cụ</p> <p>dịch Google Translate và cấu hình dịch thủ công, được chọn làm cấu hình cơ sở.</p> <p>Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm</p> <p>Origin CL-Buttcher CL-Rasolofo CL-HighDensity</p> <p>top_three_ch 0.350 0.352 0.372 0.365</p> <p>top_three_sq 0.370 0.375 0.397 0.389</p> <p>top_three_all 0.380 0.386 0.403 0.397</p> <p>Join-all 0.351 0.357 0.376 0.374</p> <p>Flat 0.262 0.271 0.310 0.299</p> <p>Google 0.372</p> <p>Baseline 0.381</p> <p>Có thể thấy mọi câu truy vấn có cấu trúc hoạt động tốt hơn câu truy vấn flat</p> <p>query, khi cấu hình này chỉ cho điểm MAP 0.262 (bằng 68,77% so với cấu hình cơ</p> <p>sở). Phương pháp xây dựng câu truy vấn có cấu trúc đơn giản bằng cách kết hợp tất</p> <p>cả các bản dịch của từng từ bằng toán tử OR (tương ứng cấu hình Join-all) cho kết</p> <p>quả cũng khá cao 0.351 (bằng 92,21% so với cấu hình cơ sở).</p> <p>Bảng 4.6 mô tả mức độ ảnh hưởng khi áp dụng các mô hình lân cận so với</p> <p>kết quả tìm kiếm khi sử dụng bản dịch ban đầu.</p> <p>Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận</p> <p>CL-Butcher CL-Rasolofo CL-HighDensity</p> <p>top_three_ch 0.57% 6.29% 4.29%</p> <p>top_three_sq 1.35% 7.30% 5.14%</p> <p>top_three_all 1.58% 6.05% 4.47%</p> <p>Join-all 1.71% 7.12% 6.55%</p> <p>Flat 3.44% 18.32% 14.12%</p> <p>Với mọi câu truy vấn có cấu trúc, các mô hình lân cận có tác động nhất quán.</p> <p>Mô hình CL-Büttcher đòi hỏi khối lượng tính toán lớn, nhưng chỉ cải thiện điểm số</p> <p>- 102 -</p> <p>MAP ở mức 0.57%-1.71%. Mô hình CL-HighDensity đơn giản, nhưng cũng giúp</p> <p>tăng điểm MAP được 4.47%-6.55%. Mô hình CL-Rasolofo hiệu quả nhất và giúp</p> <p>tăng điểm MAP từ 6.05% đến 7.12% cho các câu truy vấn khác nhau.</p> <h4>4.3. HỌC XẾP HẠNG TRANG WEB</h4> <h4>4.3.1. Các mô hình học xếp hạng</h4> <p></p> <p>Trên cơ sở thực nghiệm học xếp hạng dựa trên lập trình di truyền và kết quả</p> <p>thực nghiệm kết hợp các hàm xếp hạng lân cận vào công thức xếp hạng lại đã trình</p> <p>bày, 2 mô hình học xếp hạng dựa trên lập trình di truyền được đề xuất nhằm "học"</p> <p>hàm xếp hạng dưới dạng tổ hợp tuyến tính của các hàm xếp hạng cơ sở [86]. Mô</p> <p>hình thứ nhất sử dụng dữ liệu huấn luyện chứa điểm số gán cho các thành phần</p> <p>trong các tài liệu HTML và nhãn xác định tài liệu có phù hợp hay không so với câu</p> <p>truy vấn. Mô hình thứ hai chỉ sử dụng điểm số gán cho các thành phần trong các tài</p> <p>liệu HTML, sau đó so sánh thứ tự xếp hạng của các hàm ứng viên so với các hàm</p> <p>xếp hạng cơ sở. Việc chọn lựa áp dụng giải thuật di truyền dựa trên các đánh giá, so</p> <p>sánh các phương pháp học xếp hạng đã trình bày tại phần 4.1.3.</p> <p>Các mô hình học xếp hạng đề xuất trong luận án kết hợp hai loại hàm xếp</p> <p>hạng cơ sở: các hàm xếp hạng truyền thống TF-IDF, BM25 và các hàm xếp hạng</p> <p>lân cận CL-Rasolofo và CL-HighDensity. Hàm xếp hạng tổng hợp được xây dựng</p> <p>kết hợp các thông tin về tấn suất xuất hiện từ khóa truy vấn trong tài liệu của các</p> <p>hàm xếp hạng truyền thống với các thông tin liên quan mối quan hệ giữa các từ</p> <p>khóa truy vấn của các hàm xếp hạng lân cận. Quá trình học xếp hạng cho phép</p> <p>"học" mức độ ảnh hưởng của mỗi mô hình xếp hạng cơ sở đối với hàm xếp hạng</p> <p>tổng hợp. Nội dung tiếp theo mô tả các thành phần của các mô hình học xếp hạng</p> <p>dựa trên lập trình di truyền.</p> <h4>4.3.1.1 Cá thể</h4> <p></p> <p>Với một tập n hàm xếp hạng cơ sở F0, F1,…,Fn, mỗi cá thể được xem xét có</p> <p>dạng một hàm tuyến tính f kết hợp các hàm xếp hạng cơ sở:</p> <p>- 103 -</p> <p>� �(�) = � �� × �� ���</p> <p>(4.21) (�)</p> <p>Với �� là các số thực, d là tài liệu cần gán điểm. Mục đích của chúng ta là</p> <p>xác định hàm f cho kết quả xếp hạng tốt nhất.</p> <h4>4.3.1.2 Hàm mục tiêu</h4> <p></p> <p>Hàm mục tiêu xác định mức độ thích nghi của mỗi cá thể. Hàm mục tiêu</p> <p>được sử dụng trong mô hình học xếp hạng có giám sát được đề xuất là giá trị MAP</p> <p>[100] khi áp dụng hàm xếp hạng f đối với tập hợp các câu truy vấn và được tính</p> <p>toán bằng thuật toán 4.1:</p> <p>Thuật toán 4.1: tính độ phù hợp (có giám sát)</p> <h4>Input: Hàm ứng viên f, tập các câu truy vấn Q</h4> <h4>Output: mức độ phù hợp của hàm f</h4> <h4>begin</h4> <p>n = 0; sap = 0;</p> <h4>for each câu truy vấn q do</h4> <p>n+=1;</p> <p>tính điểm mỗi tài liệu bởi hàm xếp hạng f;</p> <p>ap = độ chính xác trung bình cho hàm xếp hạng f;</p> <p>sap += ap;</p> <p>map = sap/n</p> <h4>return map</h4> <h4>end</h4> <p></p> <p>Chú ý rằng để tính được giá trị ap đo độ chính xác trung bình tương ứng hàm</p> <p>xếp hạng f cần có tập dữ liệu huấn luyện, trong đó mỗi tài liệu và một câu truy vấn</p> <p>tương ứng với một nhãn xác định tài liệu phù hợp hoặc không với câu truy vấn.</p> <p>Hàm mục tiêu được sử dụng trong mô hình học xếp hạng không giám sát</p> <p>được xây dựng dựa trên ý tưởng của Klementiev và các đồng sự [74] về sự thống</p> <p>nhất giữa các hàm xếp hạng. Gọi r(i,d,q) là thứ hạng của tài liệu d trong danh sách</p> <p>kết quả tìm kiếm bằng câu truy vấn q, sử dụng hàm xếp hạng Fi; rf(d,q) là thứ hạng</p> <p>- 104 -</p> <p>của tài liệu d trong danh sách kết quả tìm kiếm bằng câu truy vấn q, sử dụng hàm</p> <p>xếp hạng f; thuật toán được trình bày như sau:</p> <p>Thuật toán 4.2: tính độ phù hợp (không giám sát)</p> <h4>Input: Hàm ứng viên f, tập các câu truy vấn Q</h4> <h4>Output: mức độ phù hợp của hàm f</h4> <h4>begin</h4> <p>s_fit = 0;</p> <h4>for each câu truy vấn q do</h4> <p>tính điểm mỗi tài liệu bởi hàm xếp hạng f;</p> <p>D = tập hợp 200 tài liệu đứng đầu;</p> <h4>for each tài liệu d in D do</h4> <p>k+=1;d_fit = 0;</p> <h4>for i=0 to n do</h4> <p>d_fit +=distance(i,k,q)</p> <p>s_fit += d_fit</p> <h4>return s_fit</h4> <h4>end</h4> <p></p> <p>Có thể thấy, giá trị s_fit được tính chỉ dựa trên điểm số gán cho tài liệu bởi</p> <p>các hàm cơ sở và không cần thông tin về độ phù hợp của tài liệu so với câu truy</p> <p>vấn. Với việc sử dụng thuật toán 4.2 để định nghĩa hàm mục tiêu, ta đang áp dụng</p> <p>quá trình huấn luyện không giám sát.</p> <p>Tác giả thực nghiệm 3 phương án của hàm distance(i,k,q) được sử sụng trong</p> <p>thuật toán 4.2 như sau:</p> <p>Bảng 4.7: Các phương án hàm distance</p> <p>distance(i,k,q) Phương án</p> <p>1 abs(r(i,d,q)-rf(d,q))</p> <p>2 abs(r(i,d,q)-rf(d,q))/log(k+1)</p> <p>3 (r(i,d,q)-rf(d,q))/ k</p> <p>- 105 -</p> <h4>4.3.1.3 Quá trình huấn luyện</h4> <p>Quá trình huấn luyện nhằm tìm hàm ứng viên cho kết quả là một hàm xếp</p> <p>hạng f dưới dạng tổ hợp tuyến tính của các hàm xếp hạng cơ sở như định nghĩa tại</p> <p>công thức (4.21) được thực hiện như sau:</p> <p>Thuật toán 4.3: Học xếp hạng</p> <h4>Input: Ng = số thế hệ, Np: kích thước quần thể, Nc: tốc độ</h4> <p>lai ghép, Nm: tốc độ đột biến</p> <h4>Output:</h4> <p>Tạo lập quần thể đầu tiên, mỗi cá thể có dạng hàm tuyến</p> <p>tính của các hàm F0, F1,…,Fn</p> <h4>begin</h4> <p>Thực hiện những tác vụ sau Ng thế hệ:</p> <p>Với mỗi cá thể tính giá trị hàm mục tiêu;</p> <p>Chọn cá thể có giá trị hàm mục tiêu tốt nhất;</p> <p>Tạo quần thể mới bằng cách thực hiện các hàm tái sinh,</p> <p>lai ghép, đột biến với tốc độ tương ứng;</p> <p>f_best = cá thể tốt nhất;</p> <h4>return f_best</h4> <p></p> <p>Với mô hình học máy giám sát, cá thể tốt nhất tương ứng với cá thể có giá trị</p> <p>map trả về cao nhất; với mô hình học máy không giám sát, đó là cá thể có giá trị trả</p> <p>về s_fit nhỏ nhất.</p> <h4>4.3.2. Môi trường thực nghiệm</h4> <p></p> <p>Một hệ thống tìm kiếm web xuyên ngữ Việt-Anh được xây dựng trên nền tảng sử dụng công cụ tìm kiếm mã nguồn mở Solr22, sử dụng mô hình xếp hạng TF-</p> <p>IDF và cho phép đánh chỉ mục trên nhiều trường, tương tự môi trường thực nghiệm</p> <p>trình bày tại phần 2.5.1. Tại Hình 4.1, tác giả mô tả quy trình xử lý của hệ thống.</p> <p>Mỗi tài liệu web trong kho tài liệu được bóc tách các thành phần tiêu đề</p> <p>22 http://lucene.apache.org/solr/ (truy cập ngày 15/01/2016)</p> <p>(tương ứng thẻ <TITLE>) và nội dung (tương ứng thẻ <BODY>) của mỗi tài liệu.</p> <p>- 106 -</p> <p>Thành phần tóm tắt của mỗi tài liệu được định nghĩa như phần văn bản tương ứng</p> <p>thẻ <H2> Nếu không có thẻ này, 200 ký tự đầy tiên của nội dung được coi như phần</p> <p>THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU</p> <p>1.2: Đánh đa chỉ mục</p> <p>1.1: Xử lý văn bản HTML</p> <p>Biểu diễn văn bản</p> <p>Kho tài liệu HTML</p> <p>Các bộ chỉ mục</p> <p>Giao diện</p> <p>2.2: Dịch câu</p> <p>2.4: Tìm kiếm</p> <p>2.3: Xử lý truy vấn</p> <p>2.5: Xếp hạng lại</p> <p>truy vấn</p> <p>Bản dịch</p> <p>Biểu diễn truy vấn</p> <p>Biểu diễn văn bản</p> <p>2.1: Tiền xử lý câu truy vấn</p> <p>Danh sách tài liệu</p> <p>được xếp hạng</p> <p>Yêu cầu thông tin</p> <p>Nội dung phản hồi</p> <p>TRUY VẤN</p> <p>Học xếp hạng</p> <p>Xếp hạng bổ sung</p> <p>Kết hợp Xếp hạng</p> <p>Truy vấn theo trường</p> <p>tóm tắt. Nội dung các trường của tài liệu được bóc tách bằng cách sử dụng công cụ Boilerpipe23 và sau đó được cập nhật vào chỉ mục máy tìm kiếm.</p> <p>23 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016)</p> <p>Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh</p> <p>- 107 -</p> <p>Tại giai đoạn truy vấn thông tin, mô-đun Tiền xử lý câu truy vấn (2.1) xử lý</p> <p>và tách câu truy vấn tiếng Việt qv thành tập hợp ((v1, L1),(v2, L2), ….,(vn, Ln)) chứa</p> <p>các từ khóa tiếng Việt v1,.., vn và các danh sách bản dịch L1,…, Ln tương ứng (theo</p> <p>phương pháp trình bày tại chương 3).</p> <p>Mô-đun Dịch câu truy vấn (2.2) áp dụng kỹ thuật khử nhập nhằng (trình bày</p> <p>tại chương 2) để chọn các bản dịch tốt nhất cho mỗi từ khóa truy vấn. Mô-đun Xử lý</p> <p>câu truy vấn (2.3) thực hiện việc xây dựng câu truy vấn có cấu trúc ban đầu (theo</p> <p>phương pháp trình bày tại chương 2), và sử dụng thông tin phản hồi ẩn để điều</p> <p>chỉnh câu truy vấn (theo phương pháp trình bày tại chương 3). Kết quả, hệ thống</p> <p>nhận được câu truy vấn có cấu trúc ở ngôn ngữ tiếng Anh với cấu trúc:</p> <p>���</p> <p>���</p> <p>��� �� … ��� (��</p> <p>� … �� ���</p> <p>���� ��� ��</p> <p>��) ��� ���� … ����</p> <p>��) ��� � … �� ���</p> <p>����</p> <p>�, ��</p> <p>�, … ��</p> <p>�� là các phương án dịch của vi với các trọng số tương ứng ��; ��, ��, … , �� là các thuật ngữ mở rộng với các trọng số tương</p> <p>�, ��</p> <p>� = (�� (4.22)</p> <p>là ��</p> <p>trong đó �� �, … �� ứng là ��, ��, … , ��.</p> <p>Phần tiếp theo trình bày chi tiết của mô-đun Xếp hạng lại (2.5), được phân rã</p> <p>thành các mô-đun con Truy vấn theo trường, Xếp hạng bổ sung, Học xếp hạng và</p> <p>Kết hợp xếp hạng.</p> <p>Có 4 hàm xếp hạng cơ sở F0, F1, F2, F3 được tạo, gán điểm cho các tài liệu</p> <p>tương ứng với điểm của máy tìm kiếm đơn ngữ tiếng Anh cho các tài liệu khi thực</p> <p>hiện tìm kiếm giới hạn theo các trường khác nhau của trang web: toàn văn, tiêu đề,</p> <p>tóm tắt và nội dung, thực hiện tại mô-đun Truy vấn theo trường. Bên cạnh đó, 3 mô</p> <p>hình xếp hạng khác cũng được áp dụng trong mô-đun Xếp hạng bổ sung, bao gồm</p> <p>mô hình BM25, các mô hình lân cận CL-Rasolofo và CL-HighDensity được định</p> <p>nghĩa tại phần 4.2 của chương 4, áp dụng cho các thành phần của trang Web. Cụ</p> <p>thể, ta có các hàm F4, F5 và F6 gán điểm cho tài liệu tương ứng điểm tìm kiếm theo</p> <p>tiêu đề, tóm tắt và nội dung khi sử dụng mô hình xếp hạng BM25; các hàm F7, F8,</p> <p>F9 sử dụng điểm xếp hạng lân cận CL-Rasolofo và các hàm F10, F11, F12 sử dụng</p> <p>điểm xếp hạng lân cận CL-HighDensity. Tổng cộng, ta thu được 13 hàm xếp hạng</p> <p>- 108 -</p> <p>cơ sở F0,…, F12. Với câu truy vấn có cấu trúc được tạo bởi mô-đun dịch, mô-đun</p> <p>Truy vấn theo trường được thực hiện để tính toán giá trị các hàm F0, F1, F2, F3 và</p> <p>tải về danh sách 200 tài liệu xếp hạng cao nhất tương ứng là L0, L1, L2, L3. Một danh</p> <p>sách tài liệu Lm được tạo từ tất các danh sách này. Với các tài liệu trong Lm, mô-đun</p> <p>Xếp hạng bổ sung gán điểm cho các tài liệu, sử dụng mô hình BM25 và các mô hình</p> <p>lân cận CL-Rasolofo và CL-HighDensity. Mô-đun Học xếp hạng học các tham số để</p> <p>tạo tổ hợp tuyến tính của các hàm xếp hạng cơ sở, từ đó tạo hàm xếp hạng cuối</p> <p>cùng, được sử dụng bởi mô-đun Kết hợp xếp hạng để sắp xếp lại các tài liệu.</p> <h4>4.3.3. Cấu hình thực nghiệm</h4> <p></p> <p>Thuật toán học xếp hạng đề xuất được kiểm tra với các cấu hình sau:</p> <p> Cấu hình baseline: các câu truy vấn được dịch thủ công, điểm xếp hạng</p> <p>tương ứng với điểm xếp hạng khi tìm kiếm toàn văn.</p> <p> Cấu hình google: các câu truy vấn được dịch bằng cách sử dụng máy dịch</p> <p>Google, điểm xếp hạng tương ứng với điểm xếp hạng khi tìm kiếm toàn văn.</p> <p> Cấu hình SQ: sử dụng bản dịch có cấu trúc.</p> <p> Cấu hình SC: kết quả học xếp hạng có giám sát.</p> <p> Các cấu hình UC1, UC2, UC3: kết quả học xếp hạng không giám sát,</p> <p>tương ứng với 3 cấu hình hàm mục tiêu định nghĩa tại Bảng 4.7.</p> <h4>4.3.4. Kết quả thực nghiệm</h4> <p></p> <p>Kết quả thực nghiệm được mô tả tại Bảng 4.8, trong đó cột 2 thể hiện trung</p> <p>bình điểm số MAP, sử dụng phương pháp kiểm định 5 thư mục (5-fold validation)</p> <p>tương tự như tại [123].</p> <p>Bảng 4.8: Kết quả thực nghiệm</p> <p>Cấu hình Giá trị MAP</p> <p>Baseline 0.3742</p> <p>Google 0.3548</p> <p>- 109 -</p> <p>SQ 0.4307</p> <p>SC 0.4640</p> <p>UC1 0.4284</p> <p>UC2 0.4394</p> <p>UC3 0.4585</p> <p>Cấu hình SC cho điểm MAP cao nhất 0.4640, bằng 124% so với cấu hình cơ</p> <p>sở. Tuy áp dụng phương pháp học máy không giám sát, cấu hình UC3 cũng cho kết</p> <p>quả điểm MAP là 0,4585; cao hơn cấu hình SQ 6,4% và cấu hình baseline 17,4%.</p> <h4>4.4. TIỂU KẾT CHƯƠNG</h4> <p></p> <p>Từ câu truy vấn ở ngôn ngữ nguồn, việc áp dụng các kỹ thuật trình bày tại</p> <p>chương 2 và chương 3 cho phép tạo lập và hiệu chỉnh một câu truy vấn có cấu trúc</p> <p>tại ngôn ngữ đích. Chương 4 kế thừa các kết quả của các chương này và trình bày</p> <p>các đề xuất kỹ thuật của tác giả phục vụ xếp hạng lại kết quả tìm kiếm.</p> <p>Các đóng góp của tác giả được trình bày trong chương 4 bao gồm:</p> <p> Áp dụng phương pháp học máy sử dụng lập trình di truyền trên bộ dữ liệu</p> <p>thực nghiệm LETOR để xây dựng hàm xếp hạng mới với mục tiêu đánh giá tính</p> <p>hiệu quả của phương pháp học xếp hạng này [80];</p> <p> Định nghĩa các mô hình lân cận xuyên ngữ CL-Buttcher, CL-Rasolofo và</p> <p>CL-HighDensity áp dụng trong tìm kiếm xuyên ngữ, nhằm tìm kiếm các hàm xếp</p> <p>hạng cơ sở mới [85];</p> <p> Đề xuất bóc tách và đánh chỉ mục các thành phần nội dung trong trang</p> <p>web trong máy tìm kiếm nhằm định nghĩa tập hợp các hàm xếp hạng cơ sở;</p> <p> Đề xuất mô hình học xếp hạng trong một hệ thống tìm kiếm web xuyên</p> <p>ngữ, trong đó hàm xếp hạng cuối cùng được xây dựng dưới dạng một tổ hợp tuyến</p> <p>tính các hàm xếp hạng cơ sở [86].</p> <p>Kết quả thực nghiệm cho thấy việc áp dụng học xếp hạng giúp tăng hiệu quả</p> <p>của hệ thống (đo bằng độ đo MAP).</p> <p>- 110 -</p> <h3>CHƯƠNG 5 HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH</h3> <p>Chương 5 trình bày chi tiết thiết kế hệ thống tìm kiếm web xuyên ngữ Việt-</p> <p>Anh và các kết quả thực nghiệm nhằm đánh giá ảnh hưởng của việc áp dụng các</p> <p>giải pháp kỹ thuật đề xuất trong luận án cũng như so sánh hiệu quả với các giải</p> <p>pháp kỹ thuật khác.</p> <h4>5.1. THIẾT KẾ HỆ THỐNG</h4> <h4>5.1.1. Các thành phần hệ thống & sơ đồ thuật toán</h4> <p></p> <p>Hình 5.1 và 5.2 mô tả các thành phần và sơ đồ thuật toán của hệ thống tìm</p> <p>5: Xếp hạng lại GP</p> <p>Kết quả tìm kiếm cuối cùng</p> <p>Hàm xếp hạng</p> <p>Kết quả tìm kiếm cơ sở</p> <p>tổng hợp</p> <p>Yêu cầu thông tin</p> <p>4: Tìm kiếm</p> <p>Giao diện</p> <p>tiếng Anh</p> <p>Câu truy vấn</p> <p>Câu truy vấn điều chỉnh</p> <p>1:Phân đoạn</p> <p>3: Điều chỉnh</p> <p>Tập hợp từ khóa</p> <p>câu truy vấn</p> <p>Chỉ mục</p> <p>Bản dịch câu truy vấn</p> <p>kiếm web cho cặp ngôn ngữ Việt-Anh</p> <h4>2: Khử nhập nhằng SQ</h4> <p>câu truy vấn FW2</p> <h4>WLQS+vnTagger</h4> <p>tiếng Anh</p> <p>Công cụ bóc tách</p> <p>nội dung trang Web</p> <p>Kho ngữ liệu Tiếng Anh</p> <p>Từ điển Việt-Anh</p> <p>Công cụ</p> <p>Tìm kiếm</p> <p>Tài liệu</p> <p>Chỉ mục</p> <p>vnTagger</p> <p>tiếng Việt</p> <p>tiếng Anh</p> <p>tiếng Việt</p> <p></p> <p>Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh</p> <p>- 111 -</p> <p>Begin</p> <p>Truy vấn tiếng Anh</p> <p>Tiếp nhận câu truy vấn</p> <h4>Phân đoạn câu truy vấn WLQS+vnTagger</h4> <p>Chấm điểm bổ sung cho các tài liệu trong d/s kết quả</p> <h4>Khử nhập nhằng SQ</h4> <p>Tính điểm bằng hàm tổng hợp & Xếp hạng lại</p> <p>Tạo câu truy vấn có cấu trúc</p> <p>Trả kết quả</p> <p>Truy vấn ban đầu</p> <h4>Điều chỉnh câu truy vấn FW2</h4> <p>End</p> <p>Hình 5.2: Sơ đồ thuật toán của hệ thống</p> <p>Các thành phần chính của hệ thống bao gồm: tiền xử lý câu truy vấn, dịch</p> <p>câu truy vấn, điều chỉnh câu truy vấn, truy vấn tiếng Anh và xếp hạng lại; tương</p> <p>ứng với kết quả nghiên cứu trình bày tại các chương 2, 3 và 4. Quá trình từ tiếp</p> <p>nhận yêu cầu thông tin dưới dạng câu truy vấn cho đến trả lại kết quả cho người sử</p> <p>dụng (thể hiện trong sơ đồ thuật toán) được thực hiện lần lượt bởi các thành phần</p> <p>này (đánh số từ 1 đến 5 trong Hình 5.1).</p> <p>Đầu tiên, thành phần phân đoạn câu truy vấn WLQS+vnTagger (1) sử dụng</p> <p>công cụ vnTagger kết hợp với thuật toán WLQS (trình bày tại trang 75 chương 3)</p> <p>và dữ liệu từ điển Việt-Anh phục vụ việc phân đoạn câu truy vấn. Thành phần này</p> <p>cũng sử dụng máy tìm kiếm tiếng Việt phục vụ việc xử lý tình huống tồn tại các từ</p> <p>chồng chéo trong câu truy vấn. Từ câu truy vấn tiếp nhận tại giao diện, thành phần</p> <p>- 112 -</p> <p>này thực hiện việc phân đoạn câu truy vấn, phân tích câu truy vấn tiếng Việt qv</p> <p>�, ��</p> <p>�, … ��</p> <p>thành một tập hợp ((v1,L1),(v2,L2), ….,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn và ��} chứa mi phương án dịch các danh sách bản dịch L1,…,Ln , với �� = {��</p> <p>của từ tiếng Việt vi.</p> <p>Thành phần khử nhập nhằng SQ (2) sử dụng kho ngữ liệu đơn ngữ tiếng Anh</p> <p>nhằm xây dựng các mô hình thống kê về tần suất xuất hiện của các từ và tần suất</p> <p>cùng xuất hiện của các cặp từ tiếng Anh, phục vụ các cho thuật toán khử nhập</p> <p>nhằng SQ trình bày tại chương 2. Thành phần này xác định các phương án dịch</p> <p>phù hợp cho mỗi từ khóa tiếng Việt vi từ danh sách Li và sắp xếp các phương án</p> <p>dịch này theo mức độ phù hợp. Tiếp theo, hệ thống tạo lập câu truy vấn tiếng</p> <p>Anh có cấu trúc.</p> <p>Trên cơ sở kết quả truy vấn ban đầu, thành phần điều chỉnh câu truy vấn</p> <p>FW2 (3) thực hiện việc sử dụng phản hồi ẩn từ kết quả tìm kiếm ban đầu trên tập</p> <p>chỉ mục tiếng Anh để tối ưu hóa câu truy vấn thông qua việc điều chỉnh trọng số</p> <p>của các từ khóa và mở rộng câu truy vấn. Cách hoạt động của thành phần này được</p> <p>trình bày tại chương 3 và hàm được áp dụng để tính trọng số từ khóa phục vụ mở</p> <p>rộng câu truy vấn là hàm FW2 trình bày tại trang 85.</p> <p>Thành phần Truy vấn tiếng Anh (4) được xây dựng trên nền tảng bộ công cụ</p> <p>Solr phiên bản 4.3.10. Đây là một công cụ mã nguồn mở viết bằng ngôn ngữ Java,</p> <p>được sử dụng khá rộng rãi, với hàm xếp hạng được phát triển dựa trên mô hình TF-</p> <p>IDF. Điểm phù hợp của bộ công cụ đối với luận án là nó hỗ trợ đa chỉ mục cũng</p> <p>như tiếp nhận và xử lý các câu truy vấn có cấu trúc. Mô-đun bóc tách nội dung các</p> <p>trang Web (tiếng Anh) được xây dựng trên nền tảng công cụ Boilerpipe, thực hiện</p> <p>việc trích xuất nội dung tiêu đề, trích đoạn, thân bài của các tài liệu HTML với</p> <p>phương pháp trình bày tại phần 4.3.2 và sau đó thực hiện việc đánh chỉ mục cho các</p> <p>nội dung này. Thành phần này thực hiện việc xử lý câu truy vấn (tiếng Anh) và trả</p> <p>kết quả là các tài liệu phù hợp với câu truy vấn.</p> <p>Thành phần xếp hạng lại GP (5) áp dụng kết quả nghiên cứu trình bày tại</p> <p>chương 4. Quá trình học xếp hạng dựa trên lập trình di truyền cho kết quả là một</p> <p>- 113 -</p> <p>hàm xếp hạng tổng hợp, dưới dạng một tổ hợp tuyến tính của các hàm xếp hạng cơ</p> <p>sở kết hợp các thông tin về tần suất xuất hiện các từ khóa truy vấn trong các tài liệu</p> <p>và mối quan hệ của các từ khóa truy vấn (trình bày tại phần 4.3 của chương 4).</p> <p>Trong sơ đồ thuật toán, với kết quả trả về bởi thành phần truy vấn tiếng Anh, các tài</p> <p>liệu trong danh sách kết quả sẽ được chấm điểm bổ sung (đã trình bày tại trang</p> <p>109). Sau đó, thành phần xếp hạng lại sử dụng hàm xếp hạng tổng hợp phục vụ việc</p> <p>sắp xếp lại danh sách kết quả tìm kiếm và trả kết quả cho người sử dụng.</p> <h4>5.1.2. Dữ liệu từ điển</h4> <p></p> <p>Nguồn tài nguyên để triển khai các từ điển dùng trong mô hình là các từ điển</p> <p>số (machine readabe dictionary) cho cặp ngôn ngữ. Trong luận án, một phiên bản</p> <p>mới của từ điển số Việt-Anh được xây dựng dựa trên dữ liệu từ điển Việt-Anh và Anh-Việt của Hồ Trọng Đức24. Mỗi mục từ trong từ điển được phân tích nhằm bóc</p> <p>tách các cặp chứa một từ tiếng Việt và một phương án dịch sang tiếng Anh. Kết</p> <p>quả, một từ điển Việt-Anh gồm 600.000 cặp từ được xây dựng. Bên cạnh đó, một từ</p> <p>điển wiki được tạo lập từ các cặp từ Việt-Anh trong cơ sở dữ liệu liên kết ngôn ngữ của Wikipedia25. Điểm đặc biệt của từ điển wiki là mỗi từ tiếng Việt chỉ có một bản</p> <p>dịch. Từ điển này rất hữu dụng trọng việc dịch các thực thể định danh, vốn thường</p> <p>không xuất hiện trong từ điển thông thường.</p> <h4>5.1.3. Dữ liệu đánh chỉ mục</h4> <p></p> <p>Dữ liệu được đánh chỉ mục được thu thập từ 2 nguồn. Đối với tiếng Việt,</p> <p>200.000 tài liệu của website http://vietnamplus.vn được sử dụng. Đối với tiếng Anh,</p> <p>tiêu đề của một số bài báo tiếng Anh được sử dụng như câu truy vấn gửi tới máy</p> <p>tìm kiếm Google. Một chương trình được viết để nhận các địa chỉ trong danh sách</p> <p>kết quả và tải các trang web tương ứng. Kết quả, 24.000 trang web tiếng Anh được</p> <p>24 http://www.informatik.uni-leipzig.de/duc/Dict/ 25 https://dumps.wikimedia.org/viwiki/latest/</p> <p>tải về. Nội dung của các trang web bao gồm tiêu đề, trích yếu và toàn văn được bóc</p> <p>- 114 -</p> <p>tách bằng cách sử dụng công cụ Boilerpipe26 và sau đó cập nhật vào chỉ mục máy</p> <p>tìm kiếm tiếng Anh.</p> <h4>5.2. PHƯƠNG PHÁP THỰC NGHIỆM</h4> <p></p> <p>Việc tạo lập dữ liệu đánh giá phục vụ thực nghiệm được thực hiện theo</p> <p>phương pháp pooling [100], là phương pháp truyền thống và được sử dụng rộng rãi</p> <p>tại các hội thảo như TREC, CLEF. Tổng cộng có 50 câu truy vấn được sử dụng cho</p> <p>thực nghiệm. Với mỗi câu truy vấn tiếng Việt được dịch một cách thủ công, bằng</p> <p>công cụ Google Translate và sau đó một số một số câu truy vấn khác được tạo bằng</p> <p>cách thay thế các từ trong bản dịch bằng các từ đồng nghĩa. Các câu truy vấn được</p> <p>gửi tới máy tìm kiếm đơn ngữ tiếng Anh. Danh sách các tài liệu đứng đầu (200 tài</p> <p>liệu tương ứng mỗi câu truy vấn) trong kết quả tìm kiếm của các câu truy vấn tiếng</p> <p>Anh được trộn và việc đánh giá cho từng tài liệu được thực hiện thủ công.</p> <p>Toàn bộ dữ liệu thực nghiệm, bao gồm các tài liệu tiếng Việt và tiếng Anh,</p> <p>máy tìm kiếm Solr đã đánh chỉ mục các tài liệu này, các loại từ điển Việt-Anh, Anh-</p> <p>Việt, Wiki, các câu truy vấn sử dụng trong kiểm thử (tiếng Việt, tiếng Anh dịch thủ</p> <p>công, tiếng Anh dịch bằng công cụ Google) và các tập tin chứa danh sách số hiệu</p> <p>các tài liệu phù hợp với các câu truy vấn (được đánh giá thủ công) được lưu trữ tại</p> <p>địa chỉ https://goo.gl/oDCtxy phục vụ việc công bố và chia sẻ.</p> <p>Các cấu hình thực nghiệm được định nghĩa nhằm triển khai việc so sánh các</p> <p>giải pháp kỹ thuật cũng như đánh giá việc tích hợp các giải pháp này trong mô hình</p> <p>tìm kiếm web Việt-Anh.</p> <p>Đầu tiên, tương ứng với nội dung các chương 2, 3 và 4, các cấu hình do tác</p> <p>giả đề xuất trong mỗi thành phần dịch thuật, điều chỉnh câu truy vấn và xếp hạng sẽ</p> <p>được đánh giá và so sánh với các phương pháp đã được các tác giả khác đề xuất.</p> <p>Tiếp theo, các cấu hình thực nghiệm việc áp dụng các kỹ thuật đề xuất được kiểm</p> <p>tra và đánh giá mức độ tăng hiệu quả khi sử dụng kết hợp trong hệ thống tìm kiếm</p> <p>26 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016)</p> <p>web xuyên ngữ Việt Anh.</p> <p>- 115 -</p> <h4>5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN</h4> <h4>5.3.1. Cấu hình thực nghiệm</h4> <p>Các cấu hình được sử dụng nhằm so sánh các giải pháp dịch câu truy vấn bao</p> <p>gồm:</p> <p>Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn</p> <p>Cấu hình Diễn giải</p> <p>Baseline Các câu truy vấn được dịch thủ công, điểm xếp hạng tương</p> <p>ứng với điểm xếp hạng khi tìm kiếm toàn văn.</p> <p>Google Các câu truy vấn được dịch bằng cách sử dụng máy dịch</p> <p>Google, điểm xếp hạng tương ứng với điểm xếp hạng khi</p> <p>tìm kiếm toàn văn.</p> <p>nMI Sử dụng thuật toán khử nhập nhằng greedy và tạo câu truy</p> <p>vấn tiếng Anh bằng cách kết nối một bản dịch tốt nhất</p> <p>tương ứng với mỗi từ khóa tiếng Việt trong câu truy vấn.</p> <p>Đây là phương pháp đề xuất bởi Adriani [1].</p> <p>SMI Sử dụng thuật toán khử nhập nhằng SMI và tạo câu truy vấn</p> <p>tiếng Anh bằng cách kết nối bản dịch tốt nhất tương ứng với</p> <p>mỗi từ khóa tiếng Việt trong câu truy vấn.</p> <p>Top_one_all Sử dụng thuật toán chọn bản dịch một cách tuần tự và công</p> <p>thức (2.20) để tính giá trị MI, kết xuất chỉ một bản dịch tốt</p> <p>nhất cho mỗi từ khóa, tạo lập câu truy vấn có cấu trúc như</p> <p>trình bày tại phần 2.3.5.6 chương 2.</p> <p>Top_three_all Sử dụng thuật toán chọn bản dịch một cách tuần tự và công</p> <p>thức (2.20) để tính giá trị MI, kết xuất 3 bản dịch tốt nhất</p> <p>cho mỗi từ khóa, tạo lập câu truy vấn có cấu trúc như trình</p> <p>bày tại phần 2.3.5.6 chương 2.</p> <p>- 116 -</p> <p>Top_three_weight Sử dụng thuật toán chọn bản dịch một cách tuần tự và công</p> <p>thức (2.20) để tính giá trị MI, , kết xuất 3 bản dịch tốt nhất</p> <p>cho mỗi từ khóa,tạo lập câu truy vấn có cấu trúc với trọng</p> <p>số được xác định trong quá trình khử nhập nhằng như trình</p> <p>bày tại phần 2.3.5.7 chương 2.</p> <p>Top-Three_flat Sử dụng thuật toán chọn bản dịch một cách tuần tự và công</p> <p>thức (2.20) để tính giá trị MI, tạo lập câu truy vấn có cấu</p> <p>trúc bằng cách lập nhóm các bản dịch (3 bản dịch) của từng</p> <p>từ khóa bằng toán tử OR, sau đó nối các nhóm bằng toán tử</p> <p>AND thành câu truy vấn tiếng Anh.</p> <p>Join-All Tạo lập câu truy vấn có cấu trúc bằng cách lập nhóm các</p> <p>bản dịch kết xuất từ từ điển của từng từ khóa bằng toán tử</p> <p>OR, sau đó nối các nhóm bằng toán tử AND thành câu truy</p> <p>vấn tiếng Anh. Đây là một phương pháp dịch câu truy vấn</p> <p>được trình bày trong nghiên cứu của Pirkola [118]</p> <h4>5.3.2. Kết quả thực nghiệm</h4> <p></p> <p>Kết quả thực nghiệm được trình bày trong Bảng 5.2 chứa các giá trị độ chính</p> <p>xác mức 5,10, 20, độ đo MAP và kết quả so sánh giá trị MAP so với cấu hình</p> <p>baseline sử dụng bản dịch thủ công.</p> <p>Bảng 5.2: So sánh các giải pháp dịch câu truy vấn</p> <p>Cấu hình P@5 P@10 P@20 MAP So sánh</p> <p>0.636 0.562 0.514 0.3838 100% Baseline</p> <p>0.616 0.54 0.507 0.3743 97,52% Google</p> <p>0.5 0.464 0.418 0.269 70,09% nMI</p> <p>0.496 0.478 0.427 0.2862 74,57% SMI</p> <p>Top_one_all 0.56 0.526 0.451 0.3245 84,55%</p> <p>- 117 -</p> <p>Top_three_all 0.64 0.582 0.3924 102,24% 0.52</p> <p>Top_three_weight 0.64 0.592 0.3988 103,91% 0.52</p> <p>Top-Three_flat 0.592 0.556 0.499 0.3737 97,37%</p> <p>Join-All 0.612 0.574 0.509 0.3865 100,70%</p> <p>Hình 5.3 thể hiện biểu đồ 11 điểm nhằm so sánh các cấu hình sử dụng một</p> <p>bản dịch cho mỗi từ khóa trong câu truy vấn ở ngôn ngữ nguồn với các cấu hình</p> <p>baseline sử dụng bản dịch thủ công và cấu hình Google sử dụng máy dịch Google.</p> <p>Có thể nhận thấy hai cấu hình SMI và Top_one_all do tác giả đề xuất đạt hiệu quả</p> <p>tốt hơn so với cấu hình nMI, tuy nhiên, các cấu hình này còn chưa so sánh được với</p> <p>0.9</p> <p>0.8</p> <p>0.7</p> <p>0.6</p> <p>Baseline</p> <p>0.5</p> <p>máy dịch Google.</p> <h4>í</h4> <p>Google</p> <p>0.4</p> <p>nMI</p> <h4>c á x h n h c ộ Đ</h4> <p>0.3</p> <p>SMI</p> <p>0.2</p> <p>Top_one_all</p> <p>0.1</p> <p>0</p> <p>0</p> <p>0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9</p> <p>1</p> <h4>Độ bao phủ</h4> <p></p> <p>Hình 5.3: So sánh các cấu hình dùng 1 bản dịch</p> <p>Hình 5.4 thể hiện biểu đồ 11 điểm nhằm so sánh các cấu hình sử dụng 3 bản</p> <p>dịch cho mỗi từ khóa trong câu truy vấn ở ngôn ngữ nguồn với các cấu hình</p> <p>baseline sử dụng bản dịch thủ công và cấu hình Google sử dụng máy dịch Google.</p> <p>Phân tích cho thấy các cấu hình Top_three_all và Top_three_weight có hiệu quả</p> <p>làm tăng vị trí xếp hạng cho các tài liệu phù hợp với câu truy vấn ở các vị trí đầu</p> <p>danh sách kết quả tìm kiếm.</p> <p>- 118 -</p> <p>1</p> <p>0.8</p> <p>Baseline</p> <p>0.6</p> <p>Google</p> <h4>í</h4> <p>Top_three_all</p> <p>0.4</p> <h4>c á x h n h c ộ Đ</h4> <p>Top_three_weight</p> <p>0.2</p> <p>Top-Three_flat</p> <p>0</p> <p>Join-All</p> <p>0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1</p> <h4>Độ bao phủ</h4> <p>Hình 5.4: So sánh các cấu hình dùng 3 bản dịch</p> <h4>5.3.3. Đánh giá</h4> <p></p> <p>So sánh giữa các phương pháp chỉ sử dụng một bản dịch tốt nhất cho mỗi từ</p> <p>khóa ở ngôn ngữ nguồn cho thấy cấu hình SMI cho kết quả tốt hơn so với cấu hình</p> <p>nMI, cấu hình Top_one_all sử dụng câu truy vấn có cấu trúc với trọng số được gán</p> <p>thủ công tương ứng với loại từ (tag) cho kết quả tốt nhất.</p> <p>Việc sử dụng các câu truy vấn có cấu trúc cho kết quả tốt hơn so với việc</p> <p>đơn thuần nối các phương án dịch thành câu truy vấn mới. Trong các cấu hình thực</p> <p>nghiệm, việc đơn thuần nhóm các phương án dịch của từ khóa (cấu hình Join-All)</p> <p>cho kết quả kém nhất. Giữa các cấu hình sử dụng 3 bản dịch tốt nhất cho mỗi từ</p> <p>khóa, cấu hình Top-Three_flat không thực hiện việc gán trọng số cho kết quả thấp</p> <p>nhất. Cấu hình Top_three_weight cho kết quả tốt nhất.</p> <h4>5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN</h4> <h4>5.4.1. Cấu hình thực nghiệm</h4> <p></p> <p>Các cấu hình được triển khai nhằm đánh giá việc áp dụng giải pháp điều</p> <p>chỉnh câu truy vấn ở ngôn ngữ đích chính là các cấu hình sử dụng câu truy vấn có</p> <p>cấu trúc Top_three_all, Top_three_weight, Top-Three_flat đã được trình bày tại</p> <p>Bảng 5.1. Riêng cấu hình câu truy vấn Top_three_weight tương ứng phương án sử</p> <p>dụng câu truy vấn có cấu trúc được tách thành 2 cấu hình Top_three_weight_A</p> <p>- 119 -</p> <p>tương ứng việc áp dụng bước tính lại trọng số từ khóa và cấu hình</p> <p>Top_three_weight_B tương ứng việc không áp dụng bước tính lại trọng số.</p> <p>Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn</p> <p>Cấu hình Diễn giải</p> <p>Baseline Các câu truy vấn được dịch thủ công; sử dụng</p> <p>điểm xếp hạng tìm kiếm toàn văn.</p> <p>FW2_Top_three_all Sử dụng thuật toán dịch câu truy vấn</p> <p>Top_three_all. Thực hiện điều chỉnh câu truy vấn,</p> <p>sử dụng công thức (3.12).</p> <p>FW2_Top_three_weight_A Sử dụng thuật toán dịch câu truy vấn</p> <p>Top_three_weight và mở rộng câu truy vấn. Thực</p> <p>hiện việc tính lại trọng số từ khóa truy vấn.</p> <p>FW2_Top_three_weight_B Sử dụng thuật toán dịch câu truy vấn</p> <p>Top_three_weight và mở rộng câu truy vấn.</p> <p>Không thực hiện việc tính lại trọng số từ khóa truy</p> <p>vấn.</p> <p>Top-Three_flat Sử dụng thuật toán dịch câu truy vấn</p> <p>Top-Three_flat và mở rộng câu truy vấn.</p> <h4>5.4.2. Kết quả thực nghiệm</h4> <p></p> <p>Tương ứng với mỗi cấu hình, phương án điều chỉnh câu truy vấn áp dụng</p> <p>công thức FW2 trình bày tại phần 3.3.3.3 được áp dụng với giá trị tham số � = 0.01</p> <p>và có 10 thuật ngữ được sử dụng để mở rộng câu truy vấn. Trong thực nghiệm tại</p> <p>chương 3, đây là phương án thực nghiệm cho kết quả tốt nhất.</p> <p>Kết quả thực nghiệm được trình bày trong Bảng 5.4 chứa các giá trị độ chính</p> <p>xác mức 5,10, 20, độ đo MAP sau khi điều chỉnh câu truy vấn và kết quả so sánh</p> <p>giá trị MAP sau khi điều chỉnh câu truy vấn với cấu hình baseline sử dụng bản dịch</p> <p>thủ công.</p> <p>- 120 -</p> <p>Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn</p> <p>Cấu hình P@5 P@10 P@20 MAP So sánh</p> <p>Baseline 0.636 0.562 0.514 0.3838 100%</p> <p>FW2_Top_three_all 0.640 0.586 0.522 0.4261 111.02%</p> <p>FW2_Top_three_weight_A 0.644 0.586 0.522 0.4192 109.22%</p> <p>FW2_Top_three_weight_B 0.660 0.594 0.535 0.4312 112.35%</p> <p>FW2_Top-Three_flat 0.652 0.586 0.520 0.4220 109.95%</p> <h4>5.4.3. Đánh giá</h4> <p></p> <p>Bảng kết quả cho thấy việc áp dụng kỹ thuật điều chỉnh câu truy vấn giúp</p> <p>tăng hiệu quả của hệ thống với kết quả tốt nhất tương ứng với cấu hình kiểm thử</p> <p>FW2_Top_three_weight_B, tiếp theo là cấu hình FW2_Top_three_all . So sánh 2</p> <p>cấu hình FW2_Top_three_weight_A và FW2_Top_three_weight_B cho thấy với bản</p> <p>dịch câu truy vấn đã được gán trọng số bằng cách sử dụng thuật toán dịch câu truy</p> <p>vấn Top_three_weight, việc điều chỉnh lại trọng số trước khi mở rộng câu truy vấn</p> <p>không cho kết quả tốt bằng việc không điều chỉnh lại trọng số.</p> <h4>5.5. THỰC NGHIỆM XẾP HẠNG LẠI</h4> <p></p> <p>Việc thực nghiệm kỹ thuật xếp hạng lại được thực hiện qua 2 bước: học xếp</p> <p>hạng và áp dụng kết quả học xếp hạng. Các phương pháp học máy giám sát và</p> <p>không giám sát áp dụng lập trình di truyền do tác giả đề xuất được đánh giá và so</p> <p>sánh với một số phương pháp học xếp hạng khác được triển khai bằng công cụ RankLib27.</p> <p>Để tránh ảnh hưởng đến kêt quả học xếp hạng do tính chất ngẫu nhiên của</p> <p>giá trị các cá thể sinh ra trong quá trình học xếp hạng, việc học xếp hạng tương ứng</p> <p>mỗi phương pháp được thực hiện 5 lần. Trong quá trình học máy, với 25 câu truy</p> <p>27 https://people.cs.umass.edu/~vdang/ranklib.html</p> <p>vấn chọn một cách ngẫu nhiên, bản dịch theo cấu hình Top_three_all được sử dụng</p> <p>- 121 -</p> <p>như câu truy vấn có cấu trúc tại ngôn ngữ đích để thực hiện việc học xếp hạng và</p> <p>xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các hàm xếp</p> <p>hạng cơ sở.</p> <p>Quá trình kiểm tra được thực hiện đối với câu truy vấn tiếng Anh được tạo</p> <p>tương ứng với hai cấu hình kiểm thử cho kết quả tốt ở phần 5.4 là</p> <p>FW2_Top_three_all và FW2_Top_three_weight_B. Giá trị MAP trung bình của</p> <p>việc sử dụng hàm xếp hạng kết quả lên 50 câu truy vấn tiếng Anh, tính cho 5 lần</p> <p>học xếp hạng, được sử dụng để so sánh hiệu quả xếp hạng của các phương pháp học</p> <p>xếp hạng khác nhau.</p> <h4>5.5.1. Cấu hình thực nghiệm</h4> <p></p> <p>Các phương pháp học xếp hạng do tác giả đề xuất được kiểm tra bao gồm</p> <p>các cấu hình học xếp hạng dựa trên lập trình di truyền có giám sát SC và học máy</p> <p>không giám sát UC3 đã trình bày tại phần 4.3.3, áp dụng cho 2 phương án sử dụng</p> <p>câu truy vấn FW2_Top_three_all và FW2_Top_three_weight_B.</p> <p>Ngoài ra, các phương án học máy có giám sát dựa trên công cụ RankLib</p> <p>được đánh giá và so sánh bao gồm MART [45], Coordinate Ascent [102] và</p> <p>Random Forests [15].</p> <p>Tương ứng với mỗi phương án dịch câu truy vấn, các cấu hình sau được</p> <p>kiểm tra:</p> <p>Bảng 5.5: Cấu hình thực nghiệm học xếp hạng</p> <p>Cấu hình Diễn giải</p> <p>SC-1 Áp dụng học xếp hạng dựa trên lập trình di truyền,</p> <p>có sử dụng dữ liệu huấn luyện. Sử dụng phương án</p> <p>dịch câu truy vấn FW2_Top_three_all</p> <p>UC3-1 Áp dụng học xếp hạng dựa trên lập trình di truyền,</p> <p>không sử dụng dữ liệu huấn luyện. Sử dụng</p> <p>phương án dịch câu truy vấn FW2_Top_three_all</p> <p>- 122 -</p> <p>SC-2 Áp dụng học xếp hạng dựa trên lập trình di truyền,</p> <p>có sử dụng dữ liệu huấn luyện. Sử dụng phương án</p> <p>dịch câu truy vấn FW2_Top_three_weight_B</p> <p>UC3-2 Áp dụng học xếp hạng dựa trên lập trình di truyền,</p> <p>không sử dụng dữ liệu huấn luyện. Sử dụng</p> <p>phương án dịch câu truy vấn</p> <p>FW2_Top_three_weight_B</p> <p>MART Sử dụng RankLib với phương pháp MART</p> <p>Coordinate Ascent Sử dụng RankLib với phương pháp Coordinate</p> <p>Ascent</p> <p>Random Forests Sử dụng RankLib với phương pháp Random</p> <p>Forests</p> <h4>5.5.2. Kết quả thực nghiệm</h4> <p></p> <p>Tương ứng với mỗi phương pháp học xếp hạng, điểm MAP tương ứng với</p> <p>kết quả 5 lần huấn luyện (tại các cột 1, 2, 3, 4, 5) và giá trị điểm MAP trung bình</p> <p>được sử dụng để so sánh với cấu hình Baseline sử dụng bản dịch thủ công và cấu</p> <p>hình FW2_Top_three_all tương ứng việc sử dụng bản dịch câu truy vấn và chưa áp</p> <p>dụng học xếp hạng.</p> <p>Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng</p> <p>Trung Cấu hình 1 2 3 4 5 bình</p> <p>Baseline 0.384</p> <p>FW2_Top_three_all 0.426</p> <p>FW2_Top_three_weight_B 0.431</p> <p>SC-1 0.474 0.474 0.475 0.481 0.477 0.476</p> <p>- 123 -</p> <p>UC3-1 0.457 0.453 0.458 0.455 0.457 0.456</p> <p>SC-2 0.485 0.480 0.480 0.490 0.486 0.484</p> <p>UC3-2 0.462 0.463 0.465 0.464 0.467 0.464</p> <p>MART 0.450 0.462 0.443 0.487 0.502 0.469</p> <p>Coordinate Ascent 0.461 0.459 0.460 0.462 0.464 0.461</p> <p>Random Forests 0.466 0.454 0.447 0.483 0.482 0.466</p> <p>Điểm MAP trung bình cao nhất thuộc về 2 cấu hình học máy có huấn luyện</p> <p>SC-1 và SC-2 (in đậm). Các điểm này cao hơn điểm MAP trung bình tương ứng các</p> <p>thuật toán MART, Coordinate Ascent và Random Forests được triển khai với công</p> <p>cụ RankLib.</p> <p>Các cấu hình UC3-1 và UC3-2 cho kết quả điểm MAP trung bình tương ứng</p> <p>là 0.456 và 0.464. Đây là các kết quả khả quan đối với việc áp dụng học xếp hạng</p> <p>1</p> <p>2</p> <p>3</p> <p>4</p> <p>5</p> <p>0.51 0.5 0.49 0.48 0.47 0.46 0.45 0.44 0.43 0.42 0.41</p> <p>SC-1</p> <p>UC3-1</p> <p>SC-2</p> <p>UC3-2</p> <p>MART</p> <p>Coordinate Ascent</p> <p>Random Forests</p> <p>không giám sát.</p> <p>Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp</p> <p>Hình 5.5 thể hiện điểm MAP tương ứng với kết quả 5 lần huấn luyện. Có thể</p> <p>nhận thấy điểm số này khá ổn định đối với các phương án học máy UC3-1, UC3-2,</p> <p>SC-1 và SC-2 do tác giả đề xuất cũng như trong phương án sử dụng thuật toán</p> <p>Coordinate Ascent. Điểm MAP tương ứng 5 lần huấn luyện khác nhau đối với các</p> <p>- 124 -</p> <p>thuật toán MART và Random Forests biến động với biên độ rộng, cho thấy kết quả</p> <p>phụ thuộc nhiều vào dữ liệu huấn luyện.</p> <h4>5.5.3. Đánh giá</h4> <p></p> <p>Bảng kết quả cho thấy hiệu quả của phương pháp học xếp hạng dựa trên lập</p> <p>trình di truyền. Các cấu hình học máy có giám sát SC-1 và SC-2 cho kết quả tương</p> <p>ứng là 0.476 và 0.484, bằng 123,96% và 126,09% so với phương án sử dụng bản</p> <p>dịch thủ công.</p> <p>Điểm MAP trung bình của các cấu hình UC3-1 và UC3-2 không sử dụng dữ</p> <p>liệu huấn luyện tương ứng là 0.456 và 0.464, tăng tương ứng 7% và 7,7% so với</p> <p>điểm MAP của các cấu hình FW2_Top_three_all và FW2_Top_three_weight_B.</p> <h4>5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT</h4> <p></p> <p>Tại Bảng 5.7 liệt kê các cấu hình được xem xét và điểm MAP được xác định</p> <p>qua thực nghiệm nhằm đánh giá hiệu quả của việc lần lượt áp dụng các kỹ thuật</p> <p>dịch câu truy vấn, điều chỉnh câu truy vấn và xếp hạng lại do tác giả đề xuất.</p> <p>Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất</p> <p>Cấu hình Diễn giải MAP</p> <p>Baseline Các câu truy vấn được dịch thủ công 0.384</p> <p>Google Các câu truy vấn được dịch bằng cách 0.374</p> <p>sử dụng máy dịch Google</p> <p>Các phương pháp dịch câu truy vấn</p> <p>SMI Sử dụng thuật toán khử nhập nhằng 0.286</p> <p>SMI</p> <p>Top_one_all Sử dụng thuật toán chọn bản dịch một 0.325</p> <p>cách tuần tự, kết xuất chỉ một bản dịch</p> <p>tốt nhất cho mỗi từ khóa</p> <p>Top_three_all Sử dụng thuật toán chọn bản dịch một 0.392</p> <p>- 125 -</p> <p>cách tuần tự và công thức (2.20) để tính</p> <p>giá trị MI, kết xuất 3 bản dịch tốt nhất</p> <p>cho mỗi từ khóa, tạo lập câu truy vấn có</p> <p>cấu trúc một cách thủ công như trình</p> <p>bày tại phần 2.3.5.6</p> <p>Top_three_weight Sử dụng thuật toán chọn bản dịch một 0.399</p> <p>cách tuần tự và công thức (2.20) để tính</p> <p>giá trị MI, tạo lập câu truy vấn có cấu</p> <p>trúc với trọng số được xác định trong</p> <p>quá trình khử nhập nhằng như trình bày</p> <p>tại phần 2.3.5.7</p> <p>Các phương pháp điều chỉnh câu truy vấn</p> <p>FW2_Top_three_all Sử dụng thuật toán dịch câu truy vấn 0.427</p> <p>Top_three_all. Áp dụng công thức FW2</p> <p>phục vụ mở rộng câu truy vấn</p> <p>FW2_Top_three_weight_B Sử dụng thuật toán dịch câu truy vấn 0.431</p> <p>Top_three_weight. Áp dụng công thức</p> <p>FW2 phục vụ mở rộng câu truy vấn.</p> <p>Không thực hiện việc tính lại trọng số</p> <p>từ khóa truy vấn</p> <p>Áp dụng học máy</p> <p>UC3 FW2_Top_three_all Sử dụng câu truy vấn được tạo lập như 0.456</p> <p>cấu hình FW2_Top_three_all.</p> <p>Sử dụng hàm xếp hạng tổng hợp là kết</p> <p>quả học xếp hạng không giám sát</p> <p>SC FW2_Top_three_all Sử dụng câu truy vấn được tạo lập như 0.476</p> <p>cấu hình FW2_Top_three_all. Sử dụng</p> <p>- 126 -</p> <p>hàm xếp hạng tổng hợp là kết quả học</p> <p>xếp hạng có giám sát</p> <p>UC3 Sử dụng câu truy vấn được tạo lập như 0.464</p> <p>FW2_Top_three_weight cấu hình FW2_Top_three_weight.</p> <p>Sử dụng hàm xếp hạng tổng hợp là kết</p> <p>quả học xếp hạng không giám sát</p> <p>SC FW2_Top_three_weight Sử dụng câu truy vấn được tạo lập như 0.484</p> <p>cấu hình FW2_Top_three_weight.</p> <p>Sử dụng hàm xếp hạng tổng hợp là kết</p> <p>quả học xếp hạng có giám sát</p> <p>Các phương pháp dịch câu truy vấn chọn lựa một bản dịch tốt nhất cho mỗi</p> <p>từ khóa SMI và Top_one_all cho kết quả điểm MAP tương ứng là 0.286 và 0.325,</p> <p>bằng tương ứng 74,48% và 84,64% so với điểm MAP của cấu hình baseline sử</p> <p>dụng bản dịch thủ công.</p> <h2>MAP</h2> <p>0.55 0.5 0.45 0.4 0.35 0.3</p> <p></p> <p>Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all</p> <p>Khi áp dụng việc chọn lựa 3 bản dịch tốt nhất cho mỗi từ khóa, sau đó điều</p> <p>chỉnh câu truy vấn rồi áp dụng học xếp hạng, kết quả điểm MAP tiếp tục được nâng</p> <p>cao. Hình 5.6 và Hình 5.7 hiển thị điểm MAP tương ứng với 2 phương án dịch và</p> <p>tạo lập câu truy vấn ban đầu Top_three_all và Top_three_weight được trình bày tại</p> <p>phần 2.3.5.6 và 2.3.5.7, sau đó áp dụng các thuật toán điều chỉnh câu truy vấn và</p> <p>- 127 -</p> <p>học máy. Có thể nhận thấy qua mỗi bước áp dụng các kỹ thuật đề xuất, hiệu quả hệ</p> <p>thống (đo bằng điểm MAP) đều được cải thiện.</p> <h2>MAP</h2> <p>0.55 0.5 0.45 0.4 0.35 0.3</p> <p></p> <p>Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight</p> <h4>5.7. TIỂU KẾT CHƯƠNG</h4> <p></p> <p>Trong chương 5, một môi trường thực nghiệm thống nhất được xây dựng và</p> <p>sử dụng nhằm kiểm tra hiệu quả của việc áp dụng các đề xuất kỹ thuật của tác giả</p> <p>cũng như so sánh với một số các giải pháp kỹ thuật khác.</p> <p>Mục tiêu thứ nhất của thực nghiệm là nhằm so sánh hiệu quả của các giải</p> <p>pháp kỹ thuật đề xuất với các phương pháp của các tác giả khác. Bên cạnh đó, mục</p> <p>tiêu thứ hai của thực nghiệm là nhằm kiểm tra hiệu quả của việc áp dụng các đề</p> <p>xuất kỹ thuật của tác giả.</p> <p>Với việc kết hợp các kết quả nghiên cứu trong một hệ thống tìm kiếm web</p> <p>xuyên ngữ cho cặp ngôn ngữ Việt-Anh, hiệu quả tìm kiếm của hệ thống tốt hơn so</p> <p>với việc phương pháp tìm kiếm trên toàn văn, sử dụng bản dịch thủ công hay sử</p> <p>dụng máy dịch Google Translate. Qua mỗi bước áp dụng kỹ thuật dịch thuật, điều</p> <p>chỉnh câu truy vấn và học xếp hạng, hiệu quả của hệ thống (đo bằng điểm MAP)</p> <p>đều được cải thiện.</p> <p>Bên cạnh đó, kết quả thực nghiệm cũng cho thấy ưu thế của phương pháp</p> <p>học xếp hạng bằng lập trình di truyền so với các phương pháp học máy MART,</p> <p>Coordinate Ascent và Random Forests, được triển khai trong phần mềm RankLib.</p> <p>- 128 -</p> <h3>KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN</h3> <h4>1. KẾT LUẬN</h4> <h4>1.1. Tóm tắt nội dung luận án</h4> <p>Nội dung luận án trình bày kết quả nghiên cứu của tác giả về các phương</p> <p>pháp xếp hạng trong tìm kiếm các trang Web xuyên ngữ. Tác giả nghiên cứu cơ sở</p> <p>lý thuyết và các kết quả nghiên cứu về truy vấn thông tin, truy vấn thông tin xuyên</p> <p>ngữ và bài toán xếp hạng lại. Trên cơ sở sơ đồ xử lý của hệ thống truy vấn thông</p> <p>tin, tác giả đề xuất mô hình xếp hạng trang Web trong tìm kiếm xuyên ngữ và xác</p> <p>định các nội dung nghiên cứu.</p> <p>Lần lượt trong các chương 2, 3 và 4, tác giả đi sâu nghiên cứu các thành</p> <p>phần kỹ thuật về xử lý câu truy vấn, bài toán dịch tự động và xếp hạng lại và đề</p> <p>xuất các giải pháp kỹ thuật áp dụng tại các thành phần này, phục vụ mục tiêu nâng</p> <p>cao hiệu quả xếp hạng các trang Web của mô hình xếp hạng trang Web trong tìm</p> <p>kiếm xuyên ngữ. Trong chương 5, tác giả triển khai việc kiểm tra, đánh giá các kỹ</p> <p>thuật đề xuất trong một môi trường thực nghiệm thống nhất. Kết quả thực nghiệm</p> <p>cho thấy: qua mỗi bước áp dụng kỹ thuật dịch thuật, điều chỉnh câu truy vấn và học</p> <p>xếp hạng, hiệu quả của hệ thống (đo bằng độ đo MAP) đều được cải thiện.</p> <h4>1.2. Các kết quả đạt được</h4> <p></p> <p>Thông qua việc thực hiện quá trình nghiên cứu được trình bày, tác giả đã đạt</p> <p>được các kết quả về mặt lý thuyết và thực nghiệm.</p> <p>Lý thuyết</p> <p>Các kết quả lý thuyết do tác giả đề xuất bao gồm hai nhóm kỹ thuật được áp</p> <p>dụng tại các bước của mô hình tìm kiếm web xuyên ngữ.</p> <p>Nhóm thứ nhất bao gồm các đề xuất kỹ thuật phục vụ dịch thuật, bao gồm</p> <p>các kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn</p> <p>ngữ đích. Cụ thể:</p> <p>- 129 -</p> <p> Đề xuất một phương pháp tiền xử lý câu truy vấn tại ngôn ngữ nguồn.</p> <p>Một cách cụ thể, tác giả đã đề xuất thuật toán WLQS, được sử dụng cùng công cụ</p> <p>mã nguồn mở vnTagger, thực hiện việc phân đoạn câu truy vấn thành các cụm từ</p> <p>cần dịch, đi kèm với các danh sách bản dịch ứng viên.</p> <p> Đề xuất các phương pháp khử nhập nhằng trong mô-đun dịch thuật. Trên</p> <p>nền tảng của khái niệm Mutual Information về sự cùng xuất hiện của các thuật ngữ</p> <p>trong văn bản, tác giả đã giới thiệu hàm Summary Mutual Information phục vụ</p> <p>việc chọn bản dịch tốt nhất cho mỗi từ khóa truy vấn và thuật toán SQ chọn bản</p> <p>dịch một cách tuần tự nhằm xác định danh sách các bản dịch tốt nhất được xếp theo</p> <p>thứ tự cho mỗi từ khóa truy vấn.</p> <p> Đề xuất các phương pháp xây dựng và tối ưu câu truy vấn tại ngôn ngữ</p> <p>đích. Từ kết quả của bước tiền xử lý câu truy vấn và khử nhập nhằng, tác giả đầu</p> <p>tiên đề xuất phương án xây dựng câu truy vấn có cấu trúc tại ngôn ngữ đích dựa</p> <p>trên danh sách bản dịch của các từ khóa truy vấn và loại từ của các từ khóa truy vấn.</p> <p>Tiếp theo, tác giả đề xuất việc sử dụng kỹ thuật phản hồi ẩn, kết hợp với việc áp</p> <p>dụng các công thức khác nhau cho việc tính toán trọng số thuật ngữ chứa trong các</p> <p>văn bản, nhằm xây dựng lại câu truy vấn có cấu trúc và mở rộng câu truy vấn.</p> <p>Nhóm kỹ thuật thứ hai là các kỹ thuật phục vụ xếp hạng lại danh sách kết</p> <p>quả tìm kiếm trong truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web. Cụ</p> <p>thể:</p> <p> Đề xuất các mô hình lân cận xuyên ngữ. Trong đó, hai mô hình được xây</p> <p>dựng trên nền tảng của các mô hình lân cận đơn ngữ Büttcher [19] và Rasolofo</p> <p>[125]. Một mô hình khác do tác giả định nghĩa dựa trên việc giới hạn xem xét các</p> <p>câu trong tài liệu chứa nhiều từ khóa truy vấn. Các mô hình lân cận xuyên ngữ được</p> <p>đề xuất có thể được sử dụng kết hợp với các hàm xếp hạng khác phục vụ việc xếp</p> <p>hạng lại kết quả tìm kiếm.</p> <p> Đề xuất phương pháp xếp hạng lại kết quả tìm kiếm web. Trên cơ sở sử</p> <p>dụng máy tìm kiếm Solr, tác giả phân tích các tập tin HTML thành các trường và</p> <p>tạo lập đa chỉ mục cho các tài liệu. Một danh sách các hàm xếp hạng được định</p> <p>- 130 -</p> <p>nghĩa và được áp dụng như các hàm xếp hạng cơ sở đối với các tài liệu trong danh</p> <p>sách kết quả tìm kiếm ban đầu. Cuối cùng, kỹ thuật học máy ứng dụng lập trình di</p> <p>truyền được áp dụng nhằm xây dựng hàm xếp hạng tổng hợp cho từ các hàm xếp</p> <p>hạng cơ sở để xếp hạng lại danh sách tài liệu.</p> <p>Các đề xuất nêu trên được tích hợp như các thành phần trong mô hình tìm</p> <p>kiếm web xuyên ngữ được mô tả tại Hình 5.1 trang 112, đảm bảo việc hoàn thành</p> <p>kế hoạch nghiên cứu của tác giả .</p> <p>Thực nghiệm</p> <p>Các kết quả thực nghiệm được kiểm chứng và được trình bày tại các bài báo</p> <p>khoa học bao gồm:</p> <p> Kết quả thực nghiệm mô hình tìm kiếm áp dụng thuật toán phân đoạn</p> <p>WLQS và hàm Summary Mutual Information phục vụ việc khử nhập nhằng cho thấy</p> <p>hàm này có thể tạo kết quả tốt hơn so với việc áp dụng công thức nMI thường được</p> <p>sử dụng với cùng mục tiêu chọn bản dịch tốt nhất cho các từ khóa truy vấn [81].</p> <p> Kết quả thực nghiệm mô hình truy vấn xuyên ngữ kết hợp áp dụng thuật</p> <p>toán phân đoạn WLQS và công cụ vnTagger phục vụ phân đoạn câu truy vấn, quá</p> <p>trình chọn lọc các bản dịch tốt cho các từ khóa truy vấn dựa trên thuật toán chọn</p> <p>bản dịch một cách tuần tự tại bước khử nhập nhằng và xây dựng câu truy vấn có cấu</p> <p>trúc tại ngôn ngữ đích cho kết quả vượt trội so với việc sử dụng máy dịch Google</p> <p>Translate [83].</p> <p> Kết quả thực nghiệm việc áp dụng phản hồi ẩn để điều chỉnh và mở rộng</p> <p>câu truy vấn cho thấy kỹ thuật được đề xuất cho phép tăng hiệu quả của hệ thống</p> <p>truy vấn cả ở độ chính xác (precision) và độ bao phủ (recall) [84].</p> <p> Trên cơ sở kết quả thực nghiệm việc học xếp hạng với bộ dữ liệu thực</p> <p>nghiệm truyền thống LETOR của Microsoft [80] và kết quả thực nghiệm việc áp</p> <p>dụng mô hình lân cận trong truy vấn xuyên ngữ [85], tác giả đã tiến hành thực</p> <p>nghiệm hệ thống học xếp hạng phục vụ tìm kiếm web xuyên ngữ, trên cơ sở áp</p> <p>dụng kỹ thuật học máy dựa trên lập trình di truyền và các hàm xếp hạng cơ sở được</p> <p>định nghĩa cho các thành phần khác nhau của các tập tin HTML. Kết quả thực</p> <p>- 131 -</p> <p>nghiệm, hệ thống đề xuất có hiệu quả tốt hơn (với độ đo MAP) so việc áp dụng dịch</p> <p>thủ công [86].</p> <p>Một kết quả quan trọng của luận án là với việc áp dụng đồng thời các thành</p> <p>phần, chất lượng xếp hạng các trang Web trong tìm kiếm xuyên ngữ được nâng cao</p> <p>và vượt kết quả xếp hạng sử dụng phương pháp dịch thủ công trong thực nghiệm đã</p> <p>tiến hành.</p> <h4>2. HƯỚNG PHÁT TRIỂN</h4> <p></p> <p>Bên cạnh các kết quả đạt được, tác giả xác định hướng phát triển của luận án</p> <p>tập trung giải quyết các vấn đề sau:</p> <p> Các thuật toán xử lý câu truy vấn được trình bày trong luận án có thể rất</p> <p>nhạy cảm với loại ngôn ngữ, nội dung, kích thước câu truy vấn. Trong khuôn khổ</p> <p>giới hạn về thời gian, tác giả chỉ tập trung nghiên cứu mô hình tìm kiếm với câu</p> <p>truy vấn tiếng Việt và văn bản cần tìm kiếm tiếng Anh. Các câu truy vấn được chú</p> <p>trọng thực nghiệm là các câu truy vấn có độ dài trung bình, các trường hợp câu truy</p> <p>vấn ngắn và câu truy vấn dài chưa được xem xét. Hướng nghiên cứu tiếp theo là mở</p> <p>rộng, hoàn chỉnh việc đánh giá thực nghiệm với các cặp ngôn ngữ khác và với độ</p> <p>dài câu truy vấn khác nhau.</p> <p> Tối ưu hóa các thuật toán tiền xử lý câu truy vấn, khử nhập nhằng. Thời</p> <p>gian xử lý đối với các thuật toán xử lý câu truy vấn, khử nhập nhằng cần được cải</p> <p>thiện.</p> <p> Nghiên cứu việc áp dụng các kỹ thuật học máy khác, xây dựng các tổ hợp</p> <p>hàm xếp hạng cơ sở khác. Hạn chế của học máy dựa trên lập trình di truyền là chi</p> <p>phí thời gian khá lớn. Bên cạnh đó, luận án mới tập trung xem xét một danh sách</p> <p>các hàm cơ sở hạn chế. Hướng nghiên cứu tiếp theo là xem xét áp dụng các thuật</p> <p>toán học máy khác với một danh sách mở rộng các hàm cơ sở.</p> <p>- 132 -</p> <h3>TÀI LIỆU THAM KHẢO</h3> <p>[1] Adriani Mirna (2000), "Using Statistical Term Similarity for Sense Disambiguation in Cross-Language Information Retrieval". Information Retrieval, vol. 2, no. 1, pp. 69–80.</p> <p>[2] Al-dallal Ammar, Abdul-wahab Rasha Shaker (2009), "Genetic Algorithm Based Mining for HTML Document". In: Second International Conference on Developments in eSystems Engineering (DESE), pp. 343–348.</p> <p>[3] Angeline Peter J. (1994), "Genetic programming: On the programming of computers by means of natural selection,". Biosystems., MIT Press Cambridge.</p> <p>[4] Baeza-Yates Ricardo, Ribeiro-Neto Berthier (1999), "Modern Information Retrieval" [Internet]. 2nd ed. Baeza-Yates RA, Ribeiro-Neto B, editors. New York., Addison Wesley, 513 p. [5] Balasubramanian Niranjan, Drive Governors (2010), "Exploring Reductions for Long Web Queries". In: SIGIR’10, pp. 571–578.</p> <p>[6] Baliński Jaroslaw, Daniłowicz Czeslaw (2005), "Re-ranking method based on inter-document distances". Information Processing & Management, vol. 41, no. 4, pp. 759–775.</p> <p>information techniques retrieval".</p> <p>[7] Ballesteros Lisa, Croft W. Bruce (1997), "Phrasal translation and query expansion In: for cross-language Proceedings of the 20th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 84–91.</p> <p>[8] Ballesteros Lisa, Croft W. Bruc. (1998), "Statistical methods for cross language information retrieval". In: Statistical methods for cross language information retrieval, Kluwer Academic Publisher, pp. 23–40.</p> <p>[9] Ballesteros Lisa, Croft W. Bruce (1998), "Resolving ambiguity for cross- language retrieval". Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’98, ACM Press, pp. 64–71.</p> <p>[10] Bendersky Michael, Croft W. Bruce (2009), "Analysis of long queries in a large scale search log". In: Proceedings of the 2009 workshop on Web Search Click Data - WSCD ’09, ACM Press, pp. 8–14.</p> <p>[11] Berger Adam, Lafferty John (1999), "Information retrieval as statistical translation". In: Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’99, pp. 222–229.</p> <p>[12] Borlund Pia (2003), "The concept of relevance in information retrieval". Journal of the American Society for Information Science and Technology, vol. 54, no. 10, pp. 913–925.</p> <p>[13] Braschler Martin, Mateev Bojidar, Mittendorf Elke, Schauble Peter, Wechsler Martin (1999), "SPIDER Retrieval System at TREC7". In: NIST Special Publication, pp. 509–518.</p> <p>- 133 -</p> <p>[14] Breese John S., Heckerman D., Kadie Carl (1998), "Empirical analysis of predictive algorithms for collaborative filtering". Proceedings of the 14th conference on Uncertainty in Artificial Intelligence, vol. 461, no. 8, pp. 43–52. [15] Breiman Leo (2001), "Random Forests". Machine Learning, vol. 45, no. 1, pp. 5–32.</p> <p>[16] Brin Sergey, Page Lawrence (1998), "The anatomy of a large-scale hypertextual Web search engine". Computer Networks and ISDN Systems, vol. 30, no. 1–7, pp. 107–117.</p> <p>[17] Brown Peter F., Della Pietra Vincent J., Della Pietra Stephen A., Mercer Robert L. (1993), "The mathematics of statistical machine translation: Parameter estimation". Computational linguistics, vol. 19, pp. 262–311. [18] Bui Thanh Hung, Nguyen Le Minh, Shimazu Akira (2012), "Sentence splitting for Vietnamese-English machine translation". In: Proceedings - 4th International Conference on Knowledge and Systems Engineering, KSE 2012, IEEE, pp. 156–160.</p> <p>[19] Büttcher Stefan, Clarke Charles L.a., Lushman Brad (2006), "Term proximity scoring for ad-hoc retrieval on very large text collections". In: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’06, pp. 621–622. [20] Callan Jamie (2000), "Distributed Information Retrieval". In: Advances in Information Retrieval, pp. 127–150.</p> <p>[21] Callan J.P., Croft W.B., Harding S.M. (1992), "The INQUERY retrieval system". In: Proceedings of the third international conference on database and expert systems applications, pp. 78–83.</p> <p>[22] Cao Zhe, Qin Tao, Liu Tie-Yan, Tsai Ming-Feng, Li Hang (2007), "Learning to Rank : From Pairwise Approach to Listwise Approach". Proceedings of the 24th international conference on Machine learning, pp. 129–136.</p> <p>[23] Chen Jiangping, Bao Yu (2009), "Information access across languages on the web: From search engines to digital libraries". In: Proceedings of the American Society for Information Science and Technology, pp. 1–14. [24] Chidlovskii Boris, Glance Natalie S., Grasso M. Antonietta (2000), "Collaborative Re-Ranking of Search Results". In: Proceedings of the National Conference on Artificial Intelligence 2000 Workshop on AI for Web Search, pp. 18–23.</p> <p>[25] Chirita Paul Alexandru, Kohlsch Christian (2005), "Using ODP Metadata to Personalize Search Categories and Subject Descriptors". Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 178--185.</p> <p>[26] Cleverdon Cyril W., Keen Michael (1966), "ASLIB Cranfield Research Project: Factors determining the performance of indexing systems". College of Aeronautics, Cranfield.</p> <p>[27] Clinchant Stéphane, Gaussier Eric (2013), "A Theoretical Analysis of Pseudo-Relevance Feedback Models". Proceedings of the 2013 Conference on the Theory of Information Retrieval - ICTIR ’13, pp. 6–13.</p> <p>- 134 -</p> <p>[28] Clir Indian-language English (2012), "Handling OOV Words in Indian- language–English CLIR". In: Advances in Information Retrieval Springer Berlin Heidelberg, pp. 476–479.</p> <p>[29] Clough Paul, Sanderson Mark (2013), "Evaluating the performance of information retrieval systems using test collections". Information Research, vol. 18, no. 2, pp. 1–10. [30] Crammer Koby, Singer Yoram (2002), "Pranking with Ranking". Advances in Neural Information Processing Systems 14, vol. 14, pp. 641--647.</p> <p>[31] Crestani Fabio, Du Heather (2006), "Written versus spoken queries: A qualitative and quantitative comparative analysis". Journal of the American Society for Information Science and Technology, vol. 57, no. 7, pp. 881–890. [32] Croft Bruce, Turtle Howard, Lewis David (1991), "The use of phrases and structured queries in information retrieval". In: SIGIR ’91 Proceedings of the 14th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 32–45.</p> <p>[33] Cutler M., Shi Y., Meng W. (1997), "Using the Structure of HTML Documents the USENIX to Improve Retrieval". In: Proceedings of Symposium on Internet Technologies and Systems: December 8--11, 1997, Monterey, California, pp. 241–252.</p> <p>through web mining". In: 2007</p> <p>[34] Dang Van Bac, Ho Bao Quoc (2007), "Automatic construction of english- Vietnamese parallel corpus IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2007, Ieee, pp. 261–266.</p> <p>[35] Deerwester Scott, Furnas George W., Landauer Thomas K., Harshman Richard (1990), "Indexing by Latent Semantic Analysis". Journal of the American Society for Information Scienceation Science, vol. 41, no. 6, pp. 391–407.</p> <p>[36] Devi Pooja, Gupta Ashlesha, Dixit Ashutosh (2014), "Comparative Study of HITS and PageRank Link based Ranking Algorithms". International Journal of Advanced Research in Computer and Communication Engineering, vol. 3, no. 2, pp. 5749–5754.</p> <p>[37] Dinh Quang Thang, Le Hong Phuong, Nguyen Thi Minh Huyen, Nguyen Cam Tu, Rossignol Mathias, Vu Xuan Luong (2008), "Word segmentation of Vietnamese texts : a comparison of approaches". In: 6th international conference on Language Resources and Evaluation - LREC, pp. 1933–1936. [38] Dou Zhicheng, Song Ruihua, Wen Ji-Rong (2007), "A large-scale evaluation and analysis of personalized search strategies". Proceedings of the 16th international conference on World Wide Web - WWW ’07, pp. 581.</p> <p>[39] Fagan Joel L. (1987), "Experiments in Automatic Phrase Indexing For Document Retrieval:A Comparison of Syntactic and Non-Syntactic Methods". In: Proc tenth Ann Intl ACM SIGIR Conf on Research and Development in Information Retrieval, pp. 91–101.</p> <p>[40] Fan Weiguo, Fox Edward a., Pathak Praveen, Wu Harris (2004), "The effects of fitness functions on genetic programming-based ranking discovery for web</p> <p>- 135 -</p> <p>search". Journal of the American Society for Information Science and Technology, vol. 55, no. 7, pp. 628–636.</p> <p>[41] Fan Weiguo, Gordon Michael D., Pathak Praveen (2004), "A generic ranking function discovery framework by genetic programming for information retrieval". Information Processing and Management, vol. 40, pp. 587–602.</p> <p>[42] Ferro Nicola, Peters Carol (2009), "CLEF 2009 Ad Hoc Track Overview : TEL & Persian Tasks". In: Proceedings of the 10th Cross-language Information Access Evaluation Forum Conference on Multilingual Evaluation: Text Retrieval Experiments (CLEF’09), pp. 13–35. [43] Frakes William B., Baeza-yates Ricardo (1992), "Information Retrieval : Data Structures & Algorithms". 1st ed. Prentice Hall., Prentice Hall.</p> <p>[44] Freund Yoav, Iyer Raj, Schapire Robert E., Singer Yoram (2003), "An Efficient Boosting Algorithm for Combining Preferences". The Journal of Machine Learning Research, vol. 4, pp. 933–969. [45] Friedman J.H. (2001), "Greedy function approximation: A gradient boosting machine". Annals of Statistics, vol. 29, no. 5, pp. 1189–1232.</p> <p>[46] Gaillard Benoit, Bouraoui Jean-Leon, Guimier de Neef Emilie, Boualem Malek (2010), "Query expansion for Cross Language Information Retrieval Improvement". 2010 Fourth International Conference on Research Challenges in Information Science (RCIS), Ieee, pp. 337–342.</p> <p>[47] Gao Jianfeng, Nie Jian-Yun (2006), "A Study of Statistical Models for Query Translation : Finding a Good Unit of Translation". In: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 194–201.</p> <p>[48] Gao Jianfeng, Nie Jian-yun, He Hongzhao, Chen Weijun, Zhou Ming (2002), "Resolving Query Translation Ambiguity using a Decaying Co-occurrence Model and Syntactic Dependence Relations". In: 25th ACM SIGIR conference on Research and development in information retrieval, pp. 183–190.</p> <p>(2001), "Improving query translation</p> <p>[49] Gao Jianfeng, Nie Jian-Yun, Xun Endong, Zhang Jian, Zhou Ming, Huang Changning for cross-language information retrieval using statistical models". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’01, ACM Press, pp. 96–104.</p> <p>[50] Gey Fredric (2009), "Romanization – An Untapped Resource for Out-of- Vocabulary Machine Translation for CLIR". In: SIGIR Workshop on Information Access in a Multilingual World.</p> <p>[51] Gey Fredric, Aitao Chen (1998), "Phrase discovery for English and cross- language retrieval at TREC 6". In: Proceedings of the sixth text retrieval conference (TREC-6), pp. 637–648.</p> <p>[52] Ghorab M. Rami, Zhou Dong, Lawless Seamus, Wade Vincent (2012), "Multilingual user modeling for personalized re-ranking of multilingual web search results". CEUR Workshop Proceedings, vol. 872, pp. 1–4. [53] Grinstead Charles Miller, Snell James Laurie (2007), "Introduction to Probability" [Internet]. Swarthmore College., American Mathematical Society, 520 p.</p> <p>- 136 -</p> <p>[54] Hadjouni Myriam, Haddad Mohamed Ramzi, Baazaoui Hajer (2010), "Personalized Information Retrieval Approach". Information Retrieval. [55] Hawking David, Thistlewaite Paul (1995), "Proximity Operators - So Near And Yet So Far". In: Proceedings of TREC-4, pp. 295–304.</p> <p>[56] He Daqing, Ahn Jae-wook (2006), "Pitt at CLEF05: Data Fusion for Spoken Document Retrieval". Workshop of the Cross-Language Evalution Forum, CLEF 2005, vol. 4022, pp. 773–782.</p> <p>[57] He Daqing, Wu Dan (2008), "Translation enhancement: a new relevance feedback method for cross-language information retrieval". In: Proceedings of the 17th ACM conference on Information and knowledge management, pp. 729–738. [58] Helou Mamoun Abu, Palmonari Matteo, Jarrar Mustafa</p> <p>(2016), "Effectiveness of automatic translations for cross-lingual ontology mapping". Journal of Artificial Intelligence Research, vol. 55, pp. 165–208.</p> <p>[59] Herbert Benjamin, Szarvas Gyorgy, Gurevych Iryna (2011), "Combining information to improve cross-language techniques translation query retrieval". In: ECIR 2011, pp. 712–715.</p> <p>[60] Herbrich Ralf, Graepel Thore, Obermayer Klaus (2000), "Large Margin Rank Boundaries for Ordinal Regression". In: Advances in Large Margin Classifiers, MIT Press, pp. 115–132.</p> <p>[61] Hiemstra Djoerd, Kraaij Wessel, Pohlmann Ren´ee, Westerveld Thijs (2000), "Translation Resources , Merging Strategies , and Relevance Feedback for Cross-Language". CrossLanguage Information Retrieval and Evaluation Workshop of CrossLanguage Evaluation Forum CLEF 2000, pp. 102–115.</p> <p>Information</p> <p>[62] Hiemstra Djoerd, Mihajlovic Vojkan (2010), "A database approach to information retrieval: The remarkable relationship between language models and region models" [Internet]. Advances in Information Retrieval Theory. [63] Ho Bao Quoc, Dang Van Bac, Luong Minh Vy, Dong Thi Bich Thuy (2008), "English-Vietnamese Cross-Language Retrieval: An experimental study". In: 2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies, pp. 107–113.</p> <p>[64] Hoang Huu Hanh, Tjoa A. Min (2006), "The State of the Art of Ontology- based Query Systems : A Comparison of Existing Approaches". In: International Conference on Computing and Informatics ICOCI.</p> <p>from multilingual websites". In: Proceedings of</p> <p>[65] Huynh Cong Phap (2011), "New approach for collecting high quality parallel the 13th corpora International Conference on Information Integration and Web-based Applications and Services, ACM Press, pp. 341–344.</p> <p>[66] Javed A. Aslam, Montague Mark (2001), "Models for metasearch". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 276–284.</p> <p>[67] Jeh Glen, Widom Jennifer (2002), "SimRank : A Measure of Structural- the eighth ACM SIGKDD Context Similarity (cid:0)". Proceedings of international …, pp. 538–543.</p> <p>- 137 -</p> <p>[68] Joachims Thorsten (2002), "Optimizing search engines using clickthrough data". In: Kdd ’02, pp. 133–142.</p> <p>[69] Kanoulas Evangelos (2009), "Building Reliable Test and Training Collections in Information Retrieval". College of Computer and Information Science, Northeastern University Boston, Massachusetts.</p> <p>[70] Kent Chow Kok, Salim Naomie (2010), "Web Based Cross Language Plagiarism Detection". 2010 Second International Conference on Computational Intelligence, Modelling and Simulation, vol. 1, no. 1, pp. 199–204.</p> <p>[71] Kim S.U.N., Zhang Byoung-tak (2003), "Genetic Mining of HTML Structures for Effective Web-Document Retrieval". Applied Intelligence, vol. 18, pp. 243–256.</p> <p>[72] Kishida Kazuaki (2005), "Technical issues of cross-language information retrieval: a review". Information Processing & Management, vol. 41, no. 3, pp. 433–455. [73] Kleinberg Jon M. (1999), "Authoritative sources in a hyperlinked environment". Journal of the ACM, vol. 46, no. 5, pp. 604–632.</p> <p>[74] Klementiev Alexandre, Roth Dan, Small Kevin (2007), "An Unsupervised Learning Algorithm for Rank Aggregation". Proceedings of European Conference on Machine Learning.</p> <p>[75] Kraaij Wessel, Nie Jian-yun, Simard Michel (2003), "Embedding Web-Based Statistical Translation Models in Cross-Language". Comput Linguis, vol. 29, no. 3, pp. 381–419.</p> <p>[76] Kraft Donald H., Buell Duncan A. (1983), "Fuzzy sets and generalized Boolean retrieval systems". International Journal of Man-Machine Studies, vol. 19, no. 1, pp. 45–56.</p> <p>[77] Kumaran Giridhar, Carvalho Vitor R. (2009), "Reducing long queries using query quality predictors". In: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, ACM Press, pp. 564–571.</p> <p>[78] Lafferty John, Zhai Chengxiang (2001), "Document language models, query models, and risk minimization for information retrieval". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 111–119.</p> <p>[79] Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình truy vấn thông tin đa ngữ". In: Hội nghị quốc gia lần thứ VI Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, pp. 103–107.</p> <p>[80] Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền trong học xếp hạng". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, vol. 92, pp. 58–63.</p> <p>[81] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval". In: Proceedings of the Fourth Symposium on Information and Communication Technology - SoICT ’13, ACM Press, pp. 118–122. [82] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building</p> <p>- 138 -</p> <p>Evaluation Dataset in Vietnamese Information Retrieval". Journal of Science and Technology Danang University, vol. 12, no. 1, pp. 37–41.</p> <p>Information Retrieval Systems".</p> <p>[83] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building Structured Query in Target Language for Vietnamese – English Cross Language International Journal of Engineering Research & Technology (IJERT), vol. 4, no. 4, pp. 146–151. [84] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve Cross Language Information Retrieval with Pseudo-Relevance Feedback". In: FAIR 2015, pp. 315–320.</p> <p>[85] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building proximity models for Cross Language Information Retrieval". Issue on Information and Communication Technology- University of Danang, vol. 1, no. 1, pp. 8–12.</p> <p>[86] Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học máy dựa trên lập trình di truyền trong tìm kiếm Web xuyên ngữ". Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, vol. 1, no. 98, pp. 93–97. [87] Lavrenko Victor, Choquette Martin, Croft W. Bruce (2002), "Cross-lingual relevance models". In: SIGIR-2002, pp. 175–182.</p> <p>[88] Lavrenko Victor, Croft W. Bruce (2001), "Relevance-Based Language Models". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 120–127.</p> <p>[89] Le Hong Phuong, Roussanaly Azim, Nguyen Thi Minh Huyen, Rossignol Mathias (2010), "An empirical study of maximum entropy approach for part- of-speech tagging of Vietnamese texts". In: Traitement Automatique des Langues Naturelles-TALN 2010, pp. 19–23.</p> <p>[90] Lee Joon Ho (1995), "Combining multiple evidence from different properties of weighting schemes". In: Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’95, pp. 180–188.</p> <p>[91] Lee Chia-Jung, Croft W. Bruc. (2014), "Cross-Language Pseudo-Relevance Feedback Techniques for Informal Text". In: Advances in Information Retrieval, SE - 22, 36th European Conference on IR Research, ECIR 2014, Amsterdam, The Netherlands, April 13-16, 2014 Proceedings, pp. 260–272.</p> <p>[92] Lee Kyung Soon, Park Young Chan, Choi Key Sun (2001), "Re-ranking Information Processing and</p> <p>model based on document clusters". Management, vol. 37, no. 1, pp. 1–14. [93] Lehtokangas Raija, Keskustalo Heikki, Järvelin Kalervo</p> <p>(2008), "Experiments with transitive dictionary translation and pseudo-relevance feedback using graded relevance assessments". Journal of the American Society for Information Science and Technology, vol. 59, no. 3, pp. 476–488. [94] Levow Gina-Anne, Oard Douglas W., Resnik Philip (2005), "Dictionary- based techniques for cross-language information retrieval". Information Processing & Management, vol. 41, no. 3, pp. 523–547. [95] Lewandowski Dirk (2012), "New perspectives on web search engine</p> <p>- 139 -</p> <p>research". Web Search Engine Research, vol. 12, pp. 1–17.</p> <p>[96] Li Hang (2011), "Learning to Rank for Information Retrieval and Natural Language Processing" [Internet]. Synthesis Lectures on Human Language Technologies., Morgan & Claypool Publishers, 1-113 p. [97] Liu T.Y. (2011), "Learning to rank for information retrieval" [Internet]. Springer., Springer.</p> <p>[98] Liu Yu-Ting, Liu Tie-Yan, Qin Tao, Ma Zhi-Ming, Li Hang (2007), "Supervised rank aggregation". In: Proceedings of the 16th international conference on World Wide Web - WWW ’07, pp. 481–490.</p> <p>[99] Maeda Akira, Sadat Fatiha, Yoshikawa Masatoshi, Uemura Shunsuke (2000), "Query term disambiguation for Web cross-language information retrieval using a search engine". In: IRAL ’00, ACM Press, pp. 25–32.</p> <p>[100] Manning Christopher D., Raghavan Prabhakar, Schutze Hinrich (2008), "Introduction to Information Retrieval" [Internet]. Cambridge University Press.</p> <p>[101] Manoj M., Jacob Elizabeth (2008), "Information retrieval on Internet using meta-search engines : A review". Journal of Scientific & Industrial research, vol. 67, pp. 739–746. [102] Metzler D., Croft Wb (2007), "Linear feature-based models for information retrieval". Information Retrieval, vol. 10, no. 3, pp. 257–274.</p> <p>[103] Mirna Adriani Ihsan Wahyu (2006), "The Performance of a Machine Translation-Based English-Indonesian CLIR System". Accessing Multilingual Information Repositories, vol. 4022, pp. 151–154.</p> <p>[104] Mizzaro Stefano (1979), "Information retrieval: theory and practice". In: Proceedings of the Joint IBM/University of Newcastle upon Tyne Seminar on Data Base Systems, pp. 1–14. [105] Mizzaro Stefano (1998), "How many relevances in information retrieval?". Interacting with Computers, vol. 10, no. 3, pp. 303–320.</p> <p>[106] Moghadasi Shiva Imani, Ravana Sri Devi, Raman Sudharshan N. (2013), "Low-cost evaluation techniques for information retrieval systems: A review". Journal of Informetrics, Elsevier Ltd, vol. 7, no. 2, pp. 301–312. [107] Mukerjee Amitabha, Raina Achla M., Kapil Kumar, Goyal Pankaj, Shukla Pushpraj (2003), "Universal Networking Language: A Tool for Language- Independent Semantics". In: Indo UK Workshop on Language Engineering for South Asian Languages.</p> <p>[108] Ngo Quoc Hung, Winiwarter Werner, Wloka Bartholomaus (2013), "EVBCorpus - A Multi-Layer English-Vietnamese Bilingual Corpus for Studying Tasks in Comparative Linguistics". International Joint Conference on Natual Language Processing, , no. October, pp. 1–9.</p> <p>[109] Nguyen Han Doan (2007), "Vietnamese-English Cross-language information retrieval (CLIR) using bilingual dictionary". In: International Workshop on Advanced Computing and Applications Ho Chi Minh City.</p> <p>[110] Nguyen Dong (2008), "Query Translation for Cross-lingual Information Retrieval using Wikipedia". In: 9th Twente Student Conference on IT.</p> <p>- 140 -</p> <p>[111] Nguyen Dong, Overwijk Arnold, Hauff Claudia, Trieschnigg Dolf R.B., Hiemstra Djoerd, De Jong Franciska (2009), "WikiTranslate: query translation for cross-lingual information retrieval using only Wikipedia". Evaluating Systems for Multilingual and Multimodal Information Access, vol. 5706, pp. 58–65.</p> <p>[112] Nguyen Van Be Hai, Wilkinson Ross, Zobel Justin (1997), "Cross-language Retrieval In English and Vietnamese". AAAI Technical Report, pp. 143–145. [113] Nie Jian-Yun (2010), "Cross-Language Information Retrieval". Morgan & Claypool Publishers.</p> <p>[114] Nie Jian-Yun, Simard Michel, Isabelle Pierre, Durand Richard (1999), "Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web". Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’99, ACM Press, pp. 74–81.</p> <p>[115] Oard Douglas W., Wang Jianqiang (2001), "Comparing Pirkola’s Structured Queries and Balanced Translation". In: Proceedings of the 2nd NTCIR Workshop on Research in Chinese & Japanese, Text Retrieval and Text Summarization. [116] Page Lawrence, Brin Sergey, Motwani Rajeev, Winograd Terry (1998), "The PageRank Citation Ranking: Bringing Order to the Web" [Internet].</p> <p>[117] Pham Dang Duc, Tran Giang Binh, Pham Son Bao (2009), "A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags difficulties and challenges segmentation :". In: The 1st International Conference on Knowledge and Systems Engineering, pp. 154–161.</p> <p>[118] Pirkola Ari (1998), "The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval". In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 55–63.</p> <p>[119] Pirkola Ari, Hedlund Turid, Keskustalo Heikki, Järvelin Kalervo (2001), "Dictionary-Based Cross-Language Information Retrieval: Problems, Methods, and Research Findings". Information Retrieval, vol. 4, no. 3, pp. 209–230.</p> <p>[120] Ponte Jay, Croft Bruce (1998), "A Language Modeling Approach To Information Retrieval". Proceedings of the 21st annual international ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 275–281.</p> <p>[121] Pretschner Alexander, Universit Technische, Gauch Susan, Hall Snow (1999), "Ontology Based Personalized Search The University of Kansas". , no. 97, pp. 391–398.</p> <p>[122] Qin Tao, Liu Tie-Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark collection for research on learning to rank for information retrieval". Information Retrieval, vol. 13, no. 4, pp. 346–374.</p> <p>[123] Qin Tao, Liu Tie Yan, Xu Jun, Li Hang (2010), "LETOR: A benchmark collection for research on learning to rank for information retrieval". Information Retrieval, vol. 13, no. 4, pp. 346–374.</p> <p>- 141 -</p> <p>[124] Rahman Shihab, Chapa Dolon, Kabir Shaily (2014), "A New Weighted Keyword Based Similarity Measure for Clustering Webpages". International Journal of Computer and Information Technology, vol. 3, no. 5, pp. 929–933. [125] Rasolofo Yves, Savoy Jacques (2003), "Term Proximity Scoring for Keyword-Based Retrieval Systems". Lecture Notes in Computer Science, Springer, pp. 207–218.</p> <p>[126] Renda M. Elena, Straccia Umberto (2003), "Web Metasearch: Rank vs. Score the 2003 ACM Based Rank Aggregation Methods". Proceedings of symposium on Applied computing - SAC ’03, pp. 841–846. [127] Resnik Philip, Smith Noah A. (2003), "The Web as a Parallel Corpus". Computational Linguistics, vol. 29, pp. 349–380.</p> <p>[128] Rieh Hae-young, Rieh Soo Young (2005), "Web searching across languages: Preference and behavior of bilingual academic users in Korea". Library & Information Science Research, vol. 27, no. 2, pp. 249–263. [129] Robertson S. (2008), "On the history of evaluation in IR". Journal of Information Science, vol. 34, no. 4, pp. 439–456. [130] Robertson Stephen E., Jones Karen Sparck (1988), "Relevance weighting of search terms". Document retrieval systems, pp. 143–160.</p> <p>[131] Robertson Stephen E., Walker Stephen, Hancock-Beaulieu Micheline, Gull Aarron, Lau Marianna (1994), "Okapi at TREC-3". In: Proceedings of 3rd Text REtrieval Conference, pp. 109–126. [132] Rocchio J.J. (1971), "Relevance Feedback in Information Retrieval". In: SMART Retrieval System Experimens in Automatic Document Processing, pp. 313–323.</p> <p>[133] Sadat Fatiha (2010), "Research on Query Disambiguation and Expansion for Cross-Language Information Retrieval". Communications of the IBIMA. [134] Salton Gerard (1970), "Automatic processing of foreign</p> <p>language documents". Journal of the American Society for Information Science, vol. 21, no. 3, pp. 187–194.</p> <p>[135] Salton Gerard, Buckley Chris (1990), "Improving retrieval performance by relevance feedback". Journal of the American Society for Information Science, vol. 41, no. 4, pp. 288–297. [136] Salton G., Wong A., Yang C.S. (1975), "A vector space model for automatic indexing". Communications of the ACM., pp. 613–620. [137] Sanderson M., Clough P. (2004), "Measuring pseudo relevance feedback &</p> <p>CLIR". In: 27th ACM-SIGIR, pp. 484–485. Jumi, Kumar Shikhar [138] Sarmah towards an Initiative (2016), "Survey on Word Sense Indo-Aryan Language". Disambiguation : An International Journal of Engineering and Manufacturing, vol. 3, pp. 37–52.</p> <p>[139] Savoy Jacques, Le Calvé Anne, Vrajitoru Dana (1997), "Report on the TREC-S Experiment: Data Fusion and Collection Fusion". In: Proceedings of the TREC’5, pp. 489–502.</p> <p>[140] Schenkel Ralf, Broschart Andreas, Hwang Seungwon, Theobald Martin, Weikum Gerhard (2007), "Efficient Text Proximity Search". String Processing and Information Retrieval, pp. 287–299.</p> <p>- 142 -</p> <p>[141] Shao Yingxia, Cui Bin, Chen Lei, Liu Mingming, Xie Xing (2015), "An efficient similarity search framework for SimRank over large dynamic graphs". Proceedings of the VLDB Endowment, vol. 8, no. 8, pp. 838–849.</p> <p>[142] Sharma Vijay Kumar, Mittal Namita (2016), "Cross Lingual Information Retrieval (CLIR): Review of Tools, Challenges and Translation Approaches". Advances in Intelligent Systems and Computing, vol. 433, pp. 699–708. [143] Sharma Vijay Kumar, Mittal Namita (2016), "Exploiting Parallel Sentences and Cosine Similarity for Identifying Target Language Translation". Procedia Computer Science, The Author(s), vol. 89, pp. 428–433. [144] Shaw Joseph A., Fox Edward A., Tech Virginia (1994), "Combination of Multiple Searches". In: The Second Text REtrieval Conference (TREC-2), pp. 243–252. [145] Singh Manjit, Singh Dheerendra, Singh Surender (2015), "Use of HTML Tags in Web Search". IJITKM, vol. 8, no. 2, pp. 8–14. [146] Smiley David, Pugh Eric (2009), "Solr 1.4 Enterprise Search Server". Search., 336 p. [147] Spark Jones, Rijsbergen C.J. Van (1976), "Information retrieval test collections". Journal of Documentation, vol. 32, no. 1, pp. 59–75. [148] Spink Amanda, Zimmer Michael (2008), "Web Search : Multidisciplinary perspectives". Journal of Chemical Information and Modeling., Springer, 160 p.</p> <p>[149] Sun Jt, Zeng Hj, Liu Huan, Lu Yuchang (2005), "CubeSVD: a novel approach to personalized Web search". Proceedings of the 14th international conference on World Wide Web, pp. 382–390.</p> <p>[150] Svore K.M., Kanani P.H., Khan N. (2010), "How Good is a Span of Terms? Exploiting Proximity to Improve Web Retrieval". In: Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, pp. 154–161.</p> <p>[151] Taghizadeh Nasrin (2016), "Automatic Wordnet Development for Low- Resource Languages using Cross-Lingual WSD". Journal of Artificial Intelligence Research, vol. 56, pp. 61–87.</p> <p>[152] Tan Bin, Shen Xuehua, Zhai Chengxiang (2006), "Mining Long-Term Search History to Improve Search Accuracy". Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 718–723.</p> <p>[153] Tao Wenbo, Li Guoliang (2014), "Efficient top-K SimRank-based similarity join". Proceedings of the 2014 ACM SIGMOD international conference on Management of data - SIGMOD ’14, pp. 1603–1604.</p> <p>[154] Tao Tao, Zhai ChengXiang (2007), "An Exploration of Proximity Measures in Information Retrieval". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR 07, pp. 295–302.</p> <p>[155] Teufel Simone (2007), "An overview of evaluation methods in TREC ad hoc information retrieval and TREC question answering". In: Evaluation of Text and Speech systems, pp. 163–186. [156] Tsai Ming-Feng, Liu Tie-Yan, Qin Tao, Chen Hsin-Hsi, Ma Wei-Ying</p> <p>- 143 -</p> <p>(2007), "FRank: A Ranking Method with Fidelity Loss". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’07, pp. 383.</p> <p>[157] Ture Ferhan, Lin Jimmy, Oard Douglas W. (2012), "Combining Statistical Translation Techniques for Cross-Language Information Retrieval". Coling- 2012, vol. 3, pp. 2685–2702.</p> <p>[158] Wang Jue, Li Z., Yao Jinyi, Sun Zengqi, Li Mingjing, Ma Wei-ying (2006), "Adaptive user profile model and collaborative filtering for personalized news". Frontiers of WWW Research and Development-APWeb 2006, pp. 474–485. [159] Wu Shengli, Bi Yaxin, Zeng Xiaoqin (2011), "The linear combination data fusion method in information retrieval". In: 22nd International Conference Database and Expert Systems Applications, pp. 219–233.</p> <p>[160] Xu-wen Wang, Xiao-jie Wang, Jun-lian L.I. (2015), "Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment". In: 29th Pacific Asia Conference on Language, Information and Computation, pp. 529–534. [161] Xu Jinxi, Croft W. Bruce (1996), "Query expansion using local and global document analysis". Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’96, ACM Press, pp. 4–11.</p> <p>[162] Xu Jun, Li Hang (2007), "AdaRank: a boosting algorithm for information retrieval". In: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 391–398.</p> <p>[163] Xu Jinxi, Weischedel Ralph (2005), "Empirical studies on the impact of lexical resources on CLIR performance". Information Processing and Management, vol. 41, no. 3, pp. 475–487.</p> <p>[164] Yahya Zulaini, Abdullah Muhamad Taufik, Azman Azreen, Kadir Rabiah Abdul (2013), "Query Translation Using Concepts Similarity Based on Quran Ontology for Cross-Language Information Retrieval". Journal of Computer Science, vol. 9, no. 7, pp. 889–897.</p> <p>[165] Ye Zheng, He Ben, Huang Xiangji, Lin Hongfei (2010), "Revisiting Rocchio’s relevance feedback algorithm for probabilistic models". Lecture Notes in Computer Science, vol. 6458 LNCS, pp. 151–161.</p> <p>[166] Yeh Jen-yuan, Lin Jung-yi, Ke Hao-Ren, Yang Wei-Pang (2007), "Learning to Rank for Information Retrieval Using Genetic Programming". In: SIGIR 2007 workshop: Learning to Rank for Information Retrieval.</p> <p>[167] Yu Weiren, Lin Xuemin, Zhang Wenjie, Chang Lijun, Pei Jian (2013), "More is Simpler: Effectively and Efficiently Assessing Node-Pair Similarities Based on Hyperlinks". Proceedings of the VLDB …, vol. 7, no. 1, pp. 13–24. [168] Zhai Chengxiang, Lafferty John (2001), "A study of smoothing methods for language models applied to Ad Hoc information retrieval". In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’01, pp. 334–342. [169] Zhai ChengXiang, Lafferty John D. (2001), "Model-based Feedback In The Language Modeling Approach To Information Retrieval". Cikm, pp. 403–410.</p> <p>- 144 -</p> <p>[170] Zhang Ying, Huang Fei, Vogel Stephan (2005), "Mining translations of OOV terms from the web through cross-lingual query expansion". In: Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, ACM Press, pp. 669–670.</p> <p>[171] Zhou Dong, Truran Mark, Brailsford Tim, Ashman Helen (2008), "A Hybrid Technique for English-Chinese Cross Language Information Retrieval". ACM Trans Asian Lang Info Process, vol. 7, no. 2, pp. 1–35.</p> <p>[172] Zhou Dong, Truran Mark, Brailsford Tim, Wade Vincent, Ashman Helen (2012), "Translation techniques in cross-language information retrieval". ACM Computing Surveys, vol. 45, pp. 1–44.</p> <p>[173] Zukerman Ingrid, Road Blackburn (2003), "Query Expansion and Query Reduction in Document Retrieval". In: Tools with Artificial Intelligence, 2003 Proceedings 15th IEEE International Conference, pp. 552–559.</p> <p>- 145 -</p> <p>DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC Đà CÔNG BỐ</p> <p>[1] Giang L.T., Hùng V.T. (2012), "Các phương pháp xếp hạng lại trong trộn kết quả tìm kiếm". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, vol. 91, pp. 59–64.</p> <p>[2] Lâm Tùng Giang, Võ Trung Hùng (2013), "Đánh giá thực nghiệm mô hình truy vấn thông tin đa ngữ". In: Hội nghị quốc gia lần thứ VI Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, pp. 103–107.</p> <p>[3] Lâm Tùng Giang, Võ Trung Hùng (2013), "Ứng dụng lập trình di truyền trong học xếp hạng". Tạp chí Khoa học và Công nghệ các trường Đại học Kỹ thuật, vol. 92, pp. 58–63.</p> <p>[4] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Building Evaluation Dataset in Vietnamese Information Retrieval". Journal of Science and Technology Danang University, vol. 12, no. 1, pp. 37–41.</p> <p>[5] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2013), "Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval". In: Proceedings of the Fourth Symposium on Information and Communication Technology - SoICT ’13, ACM Press, pp. 118–122.</p> <p>Information Retrieval Systems". [6] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building Structured Query in Target Language for Vietnamese – English Cross Language International Journal of Engineering Research & Technology (IJERT), vol. 4, no. 04, pp. 146–151.</p> <p>[7] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Improve Cross Language Information Retrieval with Pseudo-Relevance Feedback". In: FAIR 2015, pp. 315–320.</p> <p>[8] Lam Tung Giang, Vo Trung Hung, Huynh Cong Phap (2015), "Building proximity models for Cross Language Information Retrieval". Issue on Information and Communication Technology- University of Danang, vol. 1, no. 1, pp. 8–12.</p> <p>[9] Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp (2016), "Áp dụng học máy dựa trên lập trình di truyền trong tìm kiếm Web xuyên ngữ". Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, vol. 1, no. 98, pp. 93–97.</p> <p>- 146 -</p> </div> </div></div><!----></div></div></div></div><div class="right" data-v-cf3f0e64><!----><div class="body" data-v-cf3f0e64><h2 class="title-box" data-v-cf3f0e64>Có thể bạn quan tâm</h2><!--[--><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-phan-tich-thiet-ke-he-thong-thong-tin-giao-duc-2919059.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/40031754040223.jpg" alt="Bài giảng Phân tích và thiết kế hệ thống thông tin giáo dục" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-phan-tich-thiet-ke-he-thong-thong-tin-giao-duc-2919059.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Phân tích và thiết kế hệ thống thông tin giáo dục</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>19 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-tong-quan-2919061.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/32001754036796.jpg" alt="Bài giảng Công nghệ phần mềm: Bài 1 - Tổng quan về phần mềm và công nghệ phần mềm" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-tong-quan-2919061.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Công nghệ phần mềm: Bài 1 - Tổng quan về phần mềm và công nghệ phần mềm</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>106 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-dac-ta-yeu-cau-2919062.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/54701754036796.jpg" alt="Bài giảng Công nghệ phần mềm: Bài 2 - Đặc tả yêu cầu phần mềm" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-dac-ta-yeu-cau-2919062.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Công nghệ phần mềm: Bài 2 - Đặc tả yêu cầu phần mềm</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>64 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-thiet-ke-phan-mem-2919063.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/59251754036795.jpg" alt="Bài giảng Công nghệ phần mềm: Bài 3 - Thiết kế phần mềm" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-thiet-ke-phan-mem-2919063.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Công nghệ phần mềm: Bài 3 - Thiết kế phần mềm</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>79 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-dam-bao-chat-luong-2919064.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/73961754036794.jpg" alt="Bài giảng Công nghệ phần mềm: Bài 4 - Đảm bảo chất lượng phần mềm" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-dam-bao-chat-luong-2919064.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Công nghệ phần mềm: Bài 4 - Đảm bảo chất lượng phần mềm</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>46 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-mo-hinh-cmmi-2919065.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/99571754036793.jpg" alt="Bài giảng Công nghệ phần mềm: Bài 5 - Mô hình CMMI" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/bai-giang-cong-nghe-phan-mem-mo-hinh-cmmi-2919065.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Bài giảng Công nghệ phần mềm: Bài 5 - Mô hình CMMI</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>32 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-yeu-to-anh-huong-phat-trien-nguon-nhan-luc-du-lich-ha-noi-2919066.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/59791754015698.jpg" alt="Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng đến sự phát triển nguồn nhân lực du lịch trong các cơ sở lưu trú tại Hà Nội" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-yeu-to-anh-huong-phat-trien-nguon-nhan-luc-du-lich-ha-noi-2919066.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng đến sự phát triển nguồn nhân lực du lịch trong các cơ sở lưu trú tại Hà Nội</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>293 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-phat-trien-nguon-nhan-luc-du-lich-ha-noi-2919067.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/52051754015697.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng đến sự phát triển nguồn nhân lực du lịch trong các cơ sở lưu trú tại Hà Nội" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-phat-trien-nguon-nhan-luc-du-lich-ha-noi-2919067.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu các yếu tố ảnh hưởng đến sự phát triển nguồn nhân lực du lịch trong các cơ sở lưu trú tại Hà Nội</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-giao-duc-dao-duc-sinh-thai-sinh-vien-hcm-2919068.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/26111754015696.jpg" alt="Luận án Tiến sĩ: Giáo dục đạo đức sinh thái cho sinh viên các trường đại học tại Thành phố Hồ Chí Minh hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-giao-duc-dao-duc-sinh-thai-sinh-vien-hcm-2919068.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Giáo dục đạo đức sinh thái cho sinh viên các trường đại học tại Thành phố Hồ Chí Minh hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>240 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/giao-duc-dao-duc-sinh-thai-sinh-vien-ho-chi-minh-2919069.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/18381754015695.jpg" alt="Tóm tắt Luận án Tiến sĩ: Giáo dục đạo đức sinh thái cho sinh viên các trường đại học tại Thành phố Hồ Chí Minh hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/giao-duc-dao-duc-sinh-thai-sinh-vien-ho-chi-minh-2919069.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Giáo dục đạo đức sinh thái cho sinh viên các trường đại học tại Thành phố Hồ Chí Minh hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>28 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-hoang-phap-dao-trang-phat-giao-lao-cai-2919070.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/52_luan-an-tien-si-cong-tac-hoang-phap-va-hoat-dong-cua-dao-trang-phat-giao-tinh-lao-cai-hien-nay.jpg" alt="Luận án Tiến sĩ: Công tác hoằng pháp và hoạt động của đạo tràng Phật giáo tỉnh Lào Cai hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-hoang-phap-dao-trang-phat-giao-lao-cai-2919070.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Công tác hoằng pháp và hoạt động của đạo tràng Phật giáo tỉnh Lào Cai hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>219 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-hanh-vi-nguy-co-suc-khoe-tam-than-hoc-sinh-ha-noi-2919071.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/68321754015694.jpg" alt="Luận án Tiến sĩ: Hành vi nguy cơ ảnh hưởng đến sức khỏe tâm thần của học sinh trung học phổ thông tại Hà Nội hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-hanh-vi-nguy-co-suc-khoe-tam-than-hoc-sinh-ha-noi-2919071.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Hành vi nguy cơ ảnh hưởng đến sức khỏe tâm thần của học sinh trung học phổ thông tại Hà Nội hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>226 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/hanh-vi-nguy-co-suc-khoe-tam-than-hoc-sinh-ha-noi-2919072.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/1511754016958.jpg" alt="Tóm tắt Luận án Tiến sĩ: Hành vi nguy cơ ảnh hưởng đến sức khỏe tâm thần của học sinh trung học phổ thông tại Hà Nội hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/hanh-vi-nguy-co-suc-khoe-tam-than-hoc-sinh-ha-noi-2919072.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Hành vi nguy cơ ảnh hưởng đến sức khỏe tâm thần của học sinh trung học phổ thông tại Hà Nội hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>26 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-dang-bo-dong-nai-bao-ton-di-tich-lich-su-2919073.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/7041754016958.jpg" alt="Luận án Tiến sĩ: Đảng bộ tỉnh Đồng Nai lãnh đạo công tác bảo tồn và phát huy giá trị các di tích lịch sử - văn hóa từ năm 1996 đến năm 2015" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-dang-bo-dong-nai-bao-ton-di-tich-lich-su-2919073.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Đảng bộ tỉnh Đồng Nai lãnh đạo công tác bảo tồn và phát huy giá trị các di tích lịch sử - văn hóa từ năm 1996 đến năm 2015</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>216 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-dang-bo-dong-nai-bao-ton-di-tich-2919074.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/77461754016957.jpg" alt="Tóm tắt Luận án Tiến sĩ: Đảng bộ tỉnh Đồng Nai lãnh đạo công tác bảo tồn và phát huy giá trị các di tích lịch sử - văn hóa từ năm 1996 đến năm 2015" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-dang-bo-dong-nai-bao-ton-di-tich-2919074.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Đảng bộ tỉnh Đồng Nai lãnh đạo công tác bảo tồn và phát huy giá trị các di tích lịch sử - văn hóa từ năm 1996 đến năm 2015</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>29 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-thuc-hien-phap-lenh-dan-chu-vung-dan-toc-quang-nam-2919075.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/13991754016956.jpg" alt="Luận án Tiến sĩ: Thực hiện Pháp lệnh thực hiện dân chủ ở xã, phường, thị trấn vùng dân tộc thiểu số tỉnh Quảng Nam hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-thuc-hien-phap-lenh-dan-chu-vung-dan-toc-quang-nam-2919075.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Thực hiện Pháp lệnh thực hiện dân chủ ở xã, phường, thị trấn vùng dân tộc thiểu số tỉnh Quảng Nam hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>232 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-dan-chu-xa-phuong-thi-tran-quang-nam-2919076.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/64021754017346.jpg" alt="Tóm tắt Luận án Tiến sĩ: Thực hiện Pháp lệnh thực hiện dân chủ ở xã, phường, thị trấn vùng dân tộc thiểu số tỉnh Quảng Nam hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-dan-chu-xa-phuong-thi-tran-quang-nam-2919076.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Thực hiện Pháp lệnh thực hiện dân chủ ở xã, phường, thị trấn vùng dân tộc thiểu số tỉnh Quảng Nam hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>28 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-hoang-phap-dao-trang-phat-giao-lao-cai-2919081.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/kimphuong1001/135x160/83731754017170.jpg" alt="Tóm tắt Luận án Tiến sĩ: Công tác hoằng pháp và hoạt động của đạo tràng Phật giáo tỉnh Lào Cai hiện nay" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-hoang-phap-dao-trang-phat-giao-lao-cai-2919081.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Công tác hoằng pháp và hoạt động của đạo tràng Phật giáo tỉnh Lào Cai hiện nay</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-chat-luong-dich-vu-vien-thong-viettel-2919133.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/vijiraiya/135x160/64861754040578.jpg" alt="Luận án Tiến sĩ: Nghiên cứu chất lượng dịch vụ viễn thông di động tại Tổng công ty viễn thông Viettel" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-chat-luong-dich-vu-vien-thong-viettel-2919133.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu chất lượng dịch vụ viễn thông di động tại Tổng công ty viễn thông Viettel</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>235 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/nang-cao-chat-luong-co-so-vat-chat-dai-hoc-tu-thuc-ha-noi-2919139.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250801/vijiraiya/135x160/20461754033037.jpg" alt="Luận án Tiến sĩ: Nâng cao chất lượng cơ sở vật chất các trường đại học tư thục trên địa bàn thành Hà Nội" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/nang-cao-chat-luong-co-so-vat-chat-dai-hoc-tu-thuc-ha-noi-2919139.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nâng cao chất lượng cơ sở vật chất các trường đại học tư thục trên địa bàn thành Hà Nội</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>217 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><!--]--></div><div class="body" data-v-cf3f0e64><h2 class="title-box" data-v-cf3f0e64>Tài liêu mới</h2><!--[--><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-thuat-toan-thich-nghi-robot-di-dong-mecanum-2920139.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/316_luan-an-tien-si-nghien-cuu-xay-dung-thuat-toan-thich-nghi-va-hoc-tang-cuong-cau-truc-actor-critic-d.jpg" alt="Luận án Tiến sĩ: Nghiên cứu xây dựng thuật toán thích nghi và học tăng cường cấu trúc Actor - Critic điều khiển bám quỹ đạo cho robot di động đa hướng mecanum" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-thuat-toan-thich-nghi-robot-di-dong-mecanum-2920139.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu xây dựng thuật toán thích nghi và học tăng cường cấu trúc Actor - Critic điều khiển bám quỹ đạo cho robot di động đa hướng mecanum</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>120 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-benh-tim-mach-chat-luong-cuoc-song-nguoi-cao-tuoi-suy-tim-rung-nhi-tp-hcm-2920138.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/421_luan-an-tien-si-co-cau-benh-tim-mach-va-chat-luong-cuoc-song-cua-nguoi-cao-tuoi-mac-suy-tim-rung-n.jpg" alt="Luận án Tiến sĩ: Cơ cấu bệnh tim mạch và chất lượng cuộc sống của người cao tuổi mắc suy tim, rung nhĩ điều trị tại Bệnh viện Thống Nhất, thành phố Hồ Chí Minh" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-benh-tim-mach-chat-luong-cuoc-song-nguoi-cao-tuoi-suy-tim-rung-nhi-tp-hcm-2920138.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Cơ cấu bệnh tim mạch và chất lượng cuộc sống của người cao tuổi mắc suy tim, rung nhĩ điều trị tại Bệnh viện Thống Nhất, thành phố Hồ Chí Minh</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>188 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-nghien-cuu-nut-dam-de-song-dong-bang-song-hong-2920124.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/64691754557653.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-nghien-cuu-nut-dam-de-song-dong-bang-song-hong-2920124.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-giai-phap-an-toan-thong-tin-hoc-lien-ket-mat-ma-2920123.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/16431754557517.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu xây dựng giải pháp đảm bảo an toàn thông tin cho quá trình học liên kết dựa trên mật mã" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-giai-phap-an-toan-thong-tin-hoc-lien-ket-mat-ma-2920123.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu xây dựng giải pháp đảm bảo an toàn thông tin cho quá trình học liên kết dựa trên mật mã</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/phat-trien-nang-luc-danh-gia-cong-nghe-hoc-sinh-thpt-2920122.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/103_tom-tat-luan-an-tien-si-phat-trien-nang-luc-danh-gia-cong-nghe-cho-hoc-sinh-trong-day-hoc-mon-cong-.jpg" alt="Tóm tắt Luận án Tiến sĩ: Phát triển năng lực đánh giá công nghệ cho học sinh trong dạy học môn Công nghệ 11 ở trường trung học phổ thông" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/phat-trien-nang-luc-danh-gia-cong-nghe-hoc-sinh-thpt-2920122.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Phát triển năng lực đánh giá công nghệ cho học sinh trong dạy học môn Công nghệ 11 ở trường trung học phổ thông</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>24 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/phan-loai-chi-cau-diep-bulbophyllum-tay-nguyen-hinh-thai-phan-tu-2920121.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/98051754557518.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu phân loại chi cầu diệp – Bulbophyllum Thouars (Orchidaceae) ở vùng Tây Nguyên bằng phương pháp hình thái và phân tử" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/phan-loai-chi-cau-diep-bulbophyllum-tay-nguyen-hinh-thai-phan-tu-2920121.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu phân loại chi cầu diệp – Bulbophyllum Thouars (Orchidaceae) ở vùng Tây Nguyên bằng phương pháp hình thái và phân tử</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-dac-diem-luong-cu-vuon-quoc-gia-ben-en-pu-luong-thanh-hoa-2920120.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/8481754557044.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu đặc điểm phân bố và dinh dưỡng của các loài lưỡng cư ở Vườn Quốc gia Bến En và Khu bảo tồn thiên nhiên Pù Luông, tỉnh Thanh Hóa" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/nghien-cuu-dac-diem-luong-cu-vuon-quoc-gia-ben-en-pu-luong-thanh-hoa-2920120.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu đặc điểm phân bố và dinh dưỡng của các loài lưỡng cư ở Vườn Quốc gia Bến En và Khu bảo tồn thiên nhiên Pù Luông, tỉnh Thanh Hóa</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>27 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-tong-hop-luat-dan-dieu-khien-ten-lua-doi-hai-mang-neuron-he-mo-2920119.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/46321754557045.jpg" alt="Luận án Tiến sĩ: Tổng hợp luật dẫn và điều khiển cho một lớp tên lửa đối hải trên cơ sở ứng dụng mạng nơ ron và hệ mờ" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-tong-hop-luat-dan-dieu-khien-ten-lua-doi-hai-mang-neuron-he-mo-2920119.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Tổng hợp luật dẫn và điều khiển cho một lớp tên lửa đối hải trên cơ sở ứng dụng mạng nơ ron và hệ mờ</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>143 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-nghien-cuu-he-dieu-khien-goc-pitch-tua-bin-gio-2920118.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/35061754556825.jpg" alt="Luận án Tiến sĩ: Nghiên cứu tổng hợp hệ điều khiển góc Pitch tua bin gió trong điều kiện có nhiễu tác động" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-nghien-cuu-he-dieu-khien-goc-pitch-tua-bin-gio-2920118.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu tổng hợp hệ điều khiển góc Pitch tua bin gió trong điều kiện có nhiễu tác động</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>122 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-nghien-cuu-hoa-hoc-lipid-san-ho-viet-nam-2920117.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/56811754556826.jpg" alt="Luận án Tiến sĩ: Nghiên cứu hóa học lipid của hai loài san hô thủy tức Millepora dichotoma và Millepora platyphylla ở Việt Nam" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-nghien-cuu-hoa-hoc-lipid-san-ho-viet-nam-2920117.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu hóa học lipid của hai loài san hô thủy tức Millepora dichotoma và Millepora platyphylla ở Việt Nam</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>213 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-kiem-soat-phan-phoi-cong-suat-keo-oto-abs-2920116.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/94061754556575.jpg" alt="Luận án Tiến sĩ: Nghiên cứu kiểm soát phân phối công suất kéo trên cầu chủ động của ô tô con bằng ABS" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-kiem-soat-phan-phoi-cong-suat-keo-oto-abs-2920116.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu kiểm soát phân phối công suất kéo trên cầu chủ động của ô tô con bằng ABS</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>146 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-ung-dung-phan-ung-domino-tong-hop-podophyllotoxin-pyrimidine-2920115.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/88651754556575.jpg" alt="Luận án Tiến sĩ: Ứng dụng phản ứng Domino vào tổng hợp các dẫn xuất Podophyllotoxin, Pyrimidine và đánh giá hoạt tính sinh học của các chất tổng hợp được" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-ung-dung-phan-ung-domino-tong-hop-podophyllotoxin-pyrimidine-2920115.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Ứng dụng phản ứng Domino vào tổng hợp các dẫn xuất Podophyllotoxin, Pyrimidine và đánh giá hoạt tính sinh học của các chất tổng hợp được</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>165 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-nghien-cuu-thanh-phan-hoa-hoc-chum-ngay-2920114.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/97881754556300.jpg" alt="Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và một số hoạt tính sinh học của cây chùm ngây (Moringa oleifera)" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-nghien-cuu-thanh-phan-hoa-hoc-chum-ngay-2920114.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và một số hoạt tính sinh học của cây chùm ngây (Moringa oleifera)</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>187 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-nghien-cuu-cao-loc-vung-uc-che-an-mon-thep-2920113.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/87971754556300.jpg" alt="Tóm tắt Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và ứng dụng ức chế ăn mòn cho thép của cao chiết xuất từ cây Lộc vừng thuộc họ Lecythidaceae" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/tom-tat-luan-an-tien-si-nghien-cuu-cao-loc-vung-uc-che-an-mon-thep-2920113.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Tóm tắt Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và ứng dụng ức chế ăn mòn cho thép của cao chiết xuất từ cây Lộc vừng thuộc họ Lecythidaceae</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>28 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><div data-v-cf3f0e64><div class="c-card-row" data-v-cf3f0e64 data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-nghien-cuu-nut-dam-de-song-dong-bang-song-hong-2920033.html" class="thumbnail" data-v-2d4abc0f><img loading="lazy" src="https://cdn.tailieu.vn/images/document/thumbnail/2025/20250807/vijiraiya/135x160/2381754537945.jpg" alt="Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê" data-v-2d4abc0f></a><div class="text" data-v-2d4abc0f><div class="content" data-v-2d4abc0f><a href="https://tailieu.vn/doc/luan-an-tien-si-nghien-cuu-nut-dam-de-song-dong-bang-song-hong-2920033.html" class="title clamp-5" data-v-2d4abc0f><h3 data-v-2d4abc0f>Luận án Tiến sĩ: Nghiên cứu hiện tượng nứt dăm đê sông vùng đồng bằng sông Hồng và dự báo khả năng bị nứt của một số đoạn đê</h3></a><div class="footer-card" data-v-2d4abc0f><div class="count-page" data-v-2d4abc0f>176 trang </div><div class="item" data-v-2d4abc0f><span class="svg-icon" style="width:16px;height:16px;color:#000;" data-v-571a9c9f><svg fill="currentColor" stroke="" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"> <path d="M19 22.87L12 18.2L5 22.87V5C5 3.9 5.9 3 7 3H17C18.1 3 19 3.9 19 5V22.87ZM12 15.8L17 19.13V5H7V19.13L12 15.8Z" /> </svg> </span><!----></div></div></div></div></div></div><!--]--></div></div></div></div><div data-v-cf3f0e64><!----><!----><div style="display:none;" class="modal-overlay" data-v-cf3f0e64><div class="modal-box" data-v-cf3f0e64><div class="header-modal" data-v-cf3f0e64><div class="block-header" data-v-cf3f0e64><h2 class="modal-title" data-v-cf3f0e64>AI tóm tắt</h2><span data-v-cf3f0e64> - Giúp bạn nắm bắt nội dung tài liệu nhanh chóng!</span></div><div class="close" data-v-cf3f0e64><svg fill="currentColor" stroke="" width="24" height="24" viewBox="0 0 24 24" xmlns="http://www.w3.org/2000/svg" role="img" aria-hidden="true" focusable="false" data-v-cf3f0e64><path fill-rule="evenodd" clip-rule="evenodd" d="m13.414 12 7.293-7.293-1.414-1.414L12 10.586 4.707 3.293 3.293 4.707 10.586 12l-7.293 7.293 1.414 1.414L12 13.414l7.293 7.293 1.414-1.414L13.414 12Z" fill="currentColor" data-v-cf3f0e64></path></svg></div></div><div class="modal-content" data-v-cf3f0e64><div data-v-cf3f0e64><h3 class="intro" data-v-cf3f0e64>Giới thiệu tài liệu</h3><div class="content" data-v-cf3f0e64></div></div><div data-v-cf3f0e64><h3 class="target_audience" data-v-cf3f0e64>Đối tượng sử dụng</h3><div class="content" data-v-cf3f0e64></div></div><div data-v-cf3f0e64><h3 class="target_audience" data-v-cf3f0e64>Từ khoá chính</h3><div class="content" data-v-cf3f0e64><div class="keywords" data-v-cf3f0e64><!--[--><!--]--></div></div></div><div data-v-cf3f0e64><h3 class="target_audience" data-v-cf3f0e64>Nội dung tóm tắt</h3><div class="content" data-v-cf3f0e64></div></div></div></div></div></div></div><div class="toast-container" data-v-1a6e0392><!--[--><!--]--></div><!--]--><div class="c-footer-desktop"><div class="container"><div class="body-footer"><div class="left"><div class="text"><a href="/ht/gioi-thieu.html" class="title"><h2>Giới thiệu</h2></a><a href="/ht/ve-chung-toi.html" aria-label="Về chúng tôi"><h3>Về chúng tôi</h3></a><a href="/ht/viec-lam.html" aria-label="Việc làm"><h3>Việc làm</h3></a><a href="/ht/quang-cao.html" aria-label="Quảng cáo"><h3>Quảng cáo</h3></a><a href="/ht/lien-he.html"><h3>Liên hệ</h3></a></div><div class="text"><a href="/ht/chinh-sach.html" class="title"><h2>Chính sách</h2></a><a href="/ht/thoa-thuan-su-dung.html" aria-label="Thoả thuận sử dụng"><h3>Thoả thuận sử dụng</h3></a><a href="/ht/chinh-sach-bao-mat.html" aria-label="Chính sách bảo mật"><h3>Chính sách bảo mật</h3></a><a href="/ht/chinh-sach-hoan-tien.html" aria-label="Chính sách hoàn tiền"><h3>Chính sách hoàn tiền</h3></a><a href="/ht/dmca.html" aria-label="DMCA"><h3>DMCA</h3></a></div><div class="text"><a href="/ht/ho-tro.html" class="title"><h2>Hỗ trợ</h2></a><a href="/ht/ho-tro.html" aria-label="Hướng dẫn sử dụng"><h3>Hướng dẫn sử dụng</h3></a><a href="/nang-cap-tai-khoan" aria-label="Đăng ký tài khoản VIP"><h3>Đăng ký tài khoản VIP</h3></a><div>Zalo/Tel: <a style="color:red;" href="https://zalo.me/176868989223783747" aria-label="email"><h3>093 303 0098</h3></a></div><div>Email: <a style="color:#1D76BB;" href="mailto:support@tailieu.vn" aria-label="email"><h3>support@tailieu.vn</h3></a></div></div><div class="text"><div class="title"><h2>Phương thức thanh toán</h2></div><div class="payment-method"><a href="/huong-dan-thanh-toan-vnpay"><svg width="32" height="32" xmlns="http://www.w3.org/2000/svg" xml:space="preserve" viewBox="0 0 268 256"><title>Layer 1

Theo dõi chúng tôi

Facebook

Youtube

TikTok