BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
ĐÀ NẴNG - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Võ Trung Hùng
2. PGS.TS. Huỳnh Công Pháp
ĐÀ NẴNG - 2017
- i -
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận án này công trình nghiên cứu thực sự củanhân
tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng
dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này
trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác.
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi.
Tác giả,
Lâm Tùng Giang
- ii -
MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
1. ĐẶT VẤN ĐỀ ....................................................................................................... 1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5
2.1. Mục tiêu ............................................................................................................ 5
2.2. Đối tượng .......................................................................................................... 5
2.3. Phạm vi ............................................................................................................. 5
3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6
4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8
CHƯƠNG 1:
TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9
1.1. TRUY VẤN THÔNG TIN .................................................................................. 9
1.1.1. Khái niệm ....................................................................................................... 9
1.1.2. Định nghĩa hình thức .................................................................................... 10
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin .................................................. 10
1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19
1.2.1. Khái niệm ..................................................................................................... 19
1.2.2. Các độ đo ..................................................................................................... 20
1.2.3. Môi trường thực nghiệm ............................................................................... 22
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ ........................................................ 24
1.3.1. Khái niệm ..................................................................................................... 24
1.3.2. Các hướng tiếp cận ....................................................................................... 24
1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25
- iii -
1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25
1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26
1.4.3. Học xếp hạng ............................................................................................... 28
1.4.4. Khai thác thông tin người sử dụng ................................................................ 30
1.5. XẾP HẠNG TRANG WEB .............................................................................. 31
1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31
1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37
1.6.1. Hạn chế ........................................................................................................ 37
1.6.2. Đề xuất nghiên cứu ....................................................................................... 37
1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41
CHƯƠNG 2:
DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ ................ 42
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42
2.1.1. Sử dụng máy dịch ......................................................................................... 42
2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43
2.1.3. Sử dụng từ điển ............................................................................................ 44
2.1.4. Sử dụng ngôn ngữ trung gian ........................................................................ 44
2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45
2.1.6. Đánh giá chung ............................................................................................ 45
2.2. KHỬ NHẬP NHẰNG....................................................................................... 46
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47
2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49
2.3.3. Các biến thể của công thức MI ..................................................................... 49
2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51