intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn tốt nghiệp "Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa"

Chia sẻ: Ngoc Hanh | Ngày: | Loại File: PDF | Số trang:133

369
lượt xem
143
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất hiện như một nhu cầu mới trong việc tìm kiếm thông tin...

Chủ đề:
Lưu

Nội dung Text: Luận văn tốt nghiệp "Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa"

  1.  LUẬN VĂN TỐT NGHIỆP HỆ THỐNG TÌM KIẾM THÔNG TIN XUYÊN NGÔN NGỮ VIỆT – ANH – HOA Giáo viên hướng dẫn : Ts Hồ Quốc Bảo & Ts Đinh Điền Sinh viên thực hiện : Nguyễn Thị Hồng Nhung & Nguyễn Thị Tuyết Mai
  2. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa MỤC LỤC MỤC LỤC ............................................................................................................ 1 MỞ ĐẦU .............................................................................................................. 3 Chương 1: TỔNG QUAN ................................................................................... 5 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):...............................9 1.2.1 Khái niệm:................................................................................................9 1.2.2 Các vấn đề của CLIR:...........................................................................10 1.3 Các hướng tiếp cận:......................................................................................11 1.3.1 Dịch máy (Machine Translation for Text Translation):....................11 1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):.............................14 1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22 1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30 1.4.1 Ở Việt Nam: ...........................................................................................30 1.4.2 Trên thế giới: .........................................................................................31 1.5 Kết luận: ........................................................................................................32 Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35 2.1 Giới thiệu về MRD (Machine Readable Dictionary).................................35 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới:....................................35 2.1.2 Vai trò và cấu trúc của MRD:..............................................................39 2.1.3 Khai thác tài nguyên từ điển:...............................................................41 2.1.4 Xây dựng từ điển tự động:....................................................................42 2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43 2.1.6 Một số từ điển MRD: ............................................................................43 2.2 Các phương pháp tách từ: ...........................................................................51 2.2.1 Mô hình WFST:.....................................................................................51 2.2.2 Mô hình MMSEG: ................................................................................57 2.3 Các phương pháp khử nhập nhằng: ...........................................................64 2.3.1 Giới thiệu: ..............................................................................................64 2.3.2 Khử nhập nhằng:...................................................................................65 2.4 Kết luận: ........................................................................................................70 Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72 3.1 Tổng quan hệ thống:.....................................................................................72 3.1.1 Phát biểu bài toán: ................................................................................72 3.1.2 Mô hình hệ thống: .................................................................................72 3.1.3 Phát sinh quản lý:..................................................................................73 3.2 Phân tích – thiết kế hệ thống: ......................................................................76 3.2.1 Mô hình Usecase:...................................................................................76 3.2.2 Đặc tả usecase: .......................................................................................77 3.2.3 Sơ đồ tuần tự: ........................................................................................78 3.2.4 Thiết kế lớp: ...........................................................................................81 3.2.5 Thiết kế giao diện: .................................................................................94 GVHD: TS. Hồ Bảo Quốc 1 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  3. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 3.3 Xây dựng hệ thống: ......................................................................................97 3.3.1 Tổ chức các MRD:.................................................................................97 3.3.2 Phương pháp tìm kiếm dựa trên MRD:............................................106 3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110 CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ............................................... 112 4.1 Cài đặt:.........................................................................................................112 4.1.1 Tiền xử lý: ............................................................................................112 4.1.2 Cấu trúc dữ liệu:..................................................................................112 4.1.3 Dịch từ từ điển:....................................................................................113 4.1.4 Khử nhập nhằng :................................................................................113 4.1.5 Tìm kiếm: .............................................................................................116 4.2 Thử nghiệm: ................................................................................................117 4.2.1 Module dịch và khử nhập nhằng:......................................................117 4.2.2 Chương trình demo trên web:............................................................117 4.3 Đánh giá :.....................................................................................................119 4.3.1 Module dịch và khử nhập nhằng:......................................................119 4.3.2 Chương trình tìm kiểm trên Web:.....................................................120 Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122 5.1 Kết luận: ......................................................................................................122 5.2 Huớng phát triển: .......................................................................................122 5.2.1 Đối với từ điển và ngữ liệu: ................................................................122 5.2.2 Đối với IR Engine:...............................................................................123 5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124 PHỤ LỤC ......................................................................................................... 125 TÀI LIỆU THAM KHẢO .............................................................................. 132 GVHD: TS. Hồ Bảo Quốc 2 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  4. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa MỞ ĐẦU Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross language IR). Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất (thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng. Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng tiếng Việt, chúng tôi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – GVHD: TS. Hồ Bảo Quốc 3 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  5. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ có thể thực thi trên hai loại hình ngôn ngữ khác nhau. Bố cục của luận văn gồm các chương sau: • Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm (IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận và các vấn đề cần giải quyết của hệ thống. • Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các phương pháp đã nghiên cứu trong luận văn. • Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ thống. • Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình. • Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai. • Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có liên quan được sử dụng trong luận văn. GVHD: TS. Hồ Bảo Quốc 4 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  6. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Chương 1: TỔNG QUAN Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm (Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho hệ thống của mình. Nội dung trình bày bao gồm: Giới thiệu mô hình tìm kiếm thông tin. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ. Một số công trình nghiên cứu trong và ngoài nước. Kết luận. 1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval - CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval - IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm kiếm thông tin như sau: • Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó. • Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn. • Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục. • Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục của các tài liệu đã được xử lý trước đó. • Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho người dùng. GVHD: TS. Hồ Bảo Quốc 5 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  7. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query), và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu. Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về diễn giải). Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó. [0,1] Xử lý của con người j Không gian câu Không gian truy vấn Câu truy vấn Tài liệu tài liệu Q D Hàm biểu diễn Hàm biểu câu truy vấn q diễn tài liệu d Không gian Biểu diễn 1 Biểu diễn 2 biểu diễn R c Hàm so sánh [0,1] GVHD: TS. Hồ Bảo Quốc 6 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  8. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Hình 1.1: Mô hình hệ thống tìm kiếm thông tin Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị của nó là R2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là [0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng: c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D, khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2 thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này. Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển sang nhị phân để quyết định liệu 1 tài liệu có thỏa biểu thức bool được xác định bởi câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở phần sau. Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo thứ tự giảm dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là [0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval status value”): • Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại. GVHD: TS. Hồ Bảo Quốc 7 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  9. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa • Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool. • Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm kiếm được tính bằng cách tính mức độ giống nhau của nội dung thông tin. Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác” (precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này. Selected as Actually is Relevant Not relevant Relevant Found False alarm Not Relevant Missed Found Pr ecision = Found + False alarm Found Re call = Found + Missed GVHD: TS. Hồ Bảo Quốc 8 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  10. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn. Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”. Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị bao phủ giữa 0 và 1. Phương pháp thường được sử dụng là phương pháp tính dựa trên 5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở rộng để tăng độ bao phủ. 1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR): 1.2.1 Khái niệm: Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) là: • Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó. • Những người gặp khó khăn khi đọc/ tìm kiếm các tài liệu tiếng nước ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ tập hợp các tài liệu. GVHD: TS. Hồ Bảo Quốc 9 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  11. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa • Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ bản xứ. 1.2.2 Các vấn đề của CLIR: Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất. Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản dịch khi có nhiều bản dịch được giữ lại. Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó. Vấn đề thứ ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất, thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhiều lựa chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy GVHD: TS. Hồ Bảo Quốc 10 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  12. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai. 1.3 Các hướng tiếp cận: Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng trong quá trình chuyển ngữ. 1.3.1 Dịch máy (Machine Translation for Text Translation): Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi. Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có thể được dùng để tạo ra các bản dịch được hiển thị trên màn hình cho phép người dùng chọn tài liệu. Khi cần một bản dịch tốt hơn thì các tài liệu được chọn có thể được chuyển cho dịch máy dưới sự hỗ trợ của con người. GVHD: TS. Hồ Bảo Quốc 11 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  13. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy. Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định. Một điểm yếu của hệ thống dịch tự động là nó chỉ có thể cung cấp việc dịch hiệu quả trong một vùng giới hạn nào đó. Các hệ thống tìm kiếm văn bản thường bỏ qua các lỗi dịch cú pháp hơn là các lỗi về ngữ nghĩa, nhưng độ chính xác về ngữ nghĩa sẽ giảm sút khi các thông tin không được mã hóa vào hệ thống dịch một cách đầy đủ. Vì việc mã hóa đầy đủ thông tin có thể sẽ mất chi phí khá cao nên tính hiệu quả của hệ thống tìm kiếm xuyên ngữ dựa trên dịch máy sẽ bị giới hạn, đặc biệt là khi dịch các câu truy vấn ngắn. Khuyết điểm này có thể được giảm bớt nếu chúng ta dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài liệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm GVHD: TS. Hồ Bảo Quốc 12 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  14. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa biểu diễn tài liệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q. Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một số lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản. Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào các từ có quan hệ gần1 trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi bởi q và d. Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được nghĩa dịch tốt nhất cho từ khi từ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả. Những nghiên cứu này cho thấy rằng khi thiết kế các hàm q và d cho hệ thống tìm kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình của chúng ta bằng khả năng của các kĩ thuật hiện có để sử dụng thông tin kết quả, hoặc chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ thuật dịch máy có thể cung cấp. Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào. 1 các từ có quan hệ gần là những từ ít mang nội dung và thường bị loại bỏ bởi danh sách các stopword trong một hệ thống truy xuất. GVHD: TS. Hồ Bảo Quốc 13 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  15. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Khuyết điểm: Hiệu quả dịch còn giới hạn. 1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri): Ở đây chúng ta định nghĩa một từ điển đồng nghĩa như là một công cụ để mã hóa thông tin tri thức cho một ứng dụng. Vì thế một từ điển đồng nghĩa là một bản thể mà đặc trưng là các thuật ngữ đã được tổ chức. Một từ điển đồng nghĩa đa ngữ là một từ điển tổ chức các thuật ngữ từ một hoặc nhiều thứ tiếng. Từ điển song ngữ, thường định nghĩa các cụm với chi tiết cho các cụm khác, cũng được gộp vào định nghĩa này. Từ vựng trong ngôn ngữ học máy tính, được mã hóa thông tin cú pháp và ngữ nghĩa, cũng nằm trong định nghĩa này. Các từ điển đồng nghĩa phức tạp, được sử dụng như là một danh mục cơ sở trong hệ thống tìm kiếm tự động, cũng nằm trong phạm vi của định nghĩa từ điển đồng nghĩa trên. Thậm chí một danh sách song ngữ đơn giản gồm các thuật ngữ kĩ thuật mà trong đó mỗi thuật ngữ được gán một cách dịch duy nhất cũng là một từ điển đồng nghĩa theo định nghĩa trên. Chúng ta nhận ra rằng đây là một định nghĩa mở rộng không bình thường cho từ “từ điển đồng nghĩa”. Nhưng vì không có một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niệm chúng ta mô tả nên chúng ta chọn cụm từ có quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại. Bảng 1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được trình bày ở phần sau. GVHD: TS. Hồ Bảo Quốc 14 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  16. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Kiểu từ điển Đặc trưng Từ điển đồng nghĩa theo Có mối quan hệ kế thừa và kết hợp. đề tài Một cụm duy nhất được gán cho 1 nút. Danh sách khái niệm Không gian của các cụm từ được chia thành các lớp khái niệm. Danh sách các cụm từ Danh sách các từ đồng nghĩa xuyên ngôn ngữ. Từ vựng Các cú pháp hoặc ngữ nghĩa mà máy có thể đọc được (Machine Readable) Bảng 1.2 Các kiểu từ điển đa ngữ Kĩ thuật dựa trên từ điển có một số ưu điểm và khuyết điểm nhất định. Vì từ điển có thể biểu diễn các mối quan hệ giữa các cụm từ và các khái niệm theo cách mà con người có thể hiểu được, nên việc tìm kiếm thông tin dựa trên từ điển cho phép người dùng khai thác lợi ích bên trong trong suốt quá trình tìm kiếm để hình thành một câu truy vấn tốt hơn. Hơn thế nữa, vì có một lượng các thông tin quan trọng được mã hóa trong từ điển, nên ở khía cạnh của một người dùng có kĩ năng, một hệ thống tìm kiếm dựa trên từ điển có thể là một công cụ rất mạnh. Mặt khác, việc sử dụng từ điển sẽ áp đặt mức độ giới hạn lên cả từ vựng mà người dùng sử dụng cũng như phạm vi mà hệ thống tìm kiếm có thể cung cấp. Các kỹ thuật hiện nay cho việc xây dựng và duy trì từ điển tập trung mạnh mẽ vào nguồn tài nguyên, và việc huấn luyện; và nỗ lực để sử dụng hiệu quả các mối quan hệ về khái niệm chứa đựng bên trong một từ điển phức tạp là rất trọng yếu. Một vài khía cạnh về tri thức có thể được mã hóa trong một từ điển. Đặc tính quan trọng của một từ điển xuyên ngữ là một đặc tả của đồng nghĩa xuyên ngữ 2. Các mối 2 Đặc tả của đồng nghĩa xuyên ngữ có thể không hoàn toàn vì có một số cụm từ có thể không có bản dịch trực tiếp trong một ngôn ngữ khác. GVHD: TS. Hồ Bảo Quốc 15 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  17. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa quan hệ kế thừa về khái niệm (cụm từ rộng hơn, hay hẹp hơn) và mối quan hệ kết hợp (cụm từ có liên quan hoặc đồng nghĩa) thường được thêm vào một từ điển phức tạp. Từ điển có thể được dùng tự động hoặc thủ công. Trong một hệ thống gọi là “vốn từ được quản lý” (“controlled vocabulary”), mỗi khái niệm được gán nhãn bằng một cụm từ có tính mô tả để người dùng có thể chỉ rõ những khái niệm thích hợp nhất cho câu truy vấn của họ. Khi các mối quan hệ về khái niệm được mã hóa trong một từ điển được sử dụng một cách tự động, thì kĩ thuật đó được gọi là “tìm kiếm theo khái niệm” (concept retrieval). Trong một hệ thống tìm kiếm theo khái niệm đơn giản, một danh sách các khái niệm được sử dụng để thay thế mỗi cụm từ bằng lớp khái niệm của nó để tăng độ bao phủ (dựa trên độ quyết định). Có một hướng tiếp cận phức tạp hơn, gọi là “mở rộng câu truy vấn” (query expansion) đã sử dụng mối quan hệ giữa các khái niệm được mã hóa để lựa chọn cụm từ có thể đáp ứng cả độ chính xác và độ bao phủ. Cả việc thay thế khái niệm lẫn việc mở rộng câu truy vấn đều thể hiện nỗ lực làm tăng độ bao phủ bằng cách làm giảm ảnh hưởng của vấn đề diễn giải. Độ chính xác có thể được tăng bằng cách thêm vào các thông tin về cú pháp và ngữ nghĩa trong từ điển để làm giảm nhẹ ảnh hưởng của từ đa nghĩa 3.Ví dụ, trong một hệ thống thông tin có vốn từ được quản lý thường được cung cấp một từ điển để người dùng có thể chọn ra cụm từ chính xác một cách thủ công. Một hệ thống tìm kiếm khái niệm có thể sử dụng ý tưởng này bằng cách đánh thẻ các từ dựa trên từ loại của chúng và sau đó chọn cách dịch nào có cùng từ loại. 1.3.2.1 Hệ thống vốn từ được quản lí: Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc thực thi bên trong một ngôn ngữ với cùng kỹ thuật. Trước năm 1977 đã có 4 hệ thống tìm kiếm xuyên ngữ được thực thi ở châu Âu. Từ các hệ thống này, nổi lên 6 tiêu chí 3 Giải pháp cho từ đa nghĩa thường được gọi là khử nhập nhằng nghĩa của từ. GVHD: TS. Hồ Bảo Quốc 16 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  18. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa căn bản của các nghiên cứu dựa trên từ điển xuyên ngữ : những tiêu chuẩn về thiết kế, các công cụ phát triển và duy trì, phần cứng chuyên dụng, các cặp và các lĩnh vực của ngôn ngữ mới, giao diện người dùng, và việc đánh giá nhu cầu của người dùng. Trong năm 1970, người ta thấy rõ ràng rằng việc tiêu chuẩn hóa sự phát triển các từ điển để ngăn chặn “việc tạo ra những đề tài lệch hướng và không phù hợp” là cần thiết, và năm 1971 UNESCO đã đề ra các tiêu chuẩn cho việc phát triển từ điển đa ngữ. Trong năm 1973 ISO đã xem xét vấn đề này, và trước năm 1976 bản thảo cho vấn đề này đã được phổ biến một cách rộng rãi. Được thông qua vào năm 1978 như là chuẩn ISO 5964 và được chỉnh sửa gần đây nhất vào năm 1985, tiêu chuẩn này đã mô tả phạm vi tri thức có thể được nội suy bên trong các từ điển đa ngữ như thế nào, và nhận diện những kỹ thuật khác nhau cho việc phát triển từ điển đa ngữ. Từ điển EUROVOC của quốc hội châu Âu là một ví dụ của một từ điển đa ngữ hiện đại theo chuẩn ISO 5964. Được thiết lập lần đầu vào năm 1984, EUROVOC hiện nay bao gồm 9 ngôn ngữ 4 chính thức của cộng đồng châu Âu, và một phần của nó đã được dịch sang nhiều ngôn ngữ khác. Việc thiết kế từ điển đòi hỏi chi phí cao, và điều này đã làm giới hạn lĩnh vực mà hệ thống tìm kiếm dựa trên vốn từ được quản lí có thể cung cấp. Nhưng EUROVOC chứng minh rằng một khi các mối liên hệ cơ bản về khái niệm được định nghĩa trong một pham vi nào đó thì việc mở rộng chuẩn từ điển đa ngữ ISO 5964 cho các ngôn ngữ khác là hoàn toàn thiết thực. Khi các từ điển đa ngữ gia tăng một cách nhanh chóng, thì các công cụ thiết kế và duy trì cũng trở nên quan trọng hơn. Trong những năm 1970, có rất nhiều các thủ tục cũng như các thuật toán đã được nghiên cứu để dùng cho việc trộn các từ điển đơn ngữ thành một từ điển đa ngữ. Ngày nay các hệ thống tìm kiếm văn bản xuyên ngữ đã được sử dụng một cách rộng rãi, nhưng hầu hết các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa trên so khớp chính xác. Các từ điển đa ngữ phức tạp đã và đang được phát triển trong 4 9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha. GVHD: TS. Hồ Bảo Quốc 17 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  19. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa nhiều ngôn ngữ và lĩnh vực, và các thủ tục dùng để thêm lĩnh vực và ngôn ngữ cũng được hiểu rõ. Có 3 nhân tố quan trọng khi xây dựng từ điển là : chi phí, những tiện lợi cho người dùng chưa được huấn luyện, và độ hiệu quả. Việc xây dựng từ điển là một việc tốn nhiều chi phí. Nhưng việc sử dụng từ điển có thể tốn nhiều chi phí hơn bởi vì trong một hệ thống có vốn từ được quản lí thì mỗi tài liệu phải được gán các cụm từ phản ánh các khái niệm chứa trong nó. Mặc dù các công cụ tự động có thể hỗ trợ giúp tăng năng suất của con người nhưng vì các hoạt động mang tính trí tuệ của con người đòi hỏi việc tái tổ chức và tổ chức thông tin nên chi phí sẽ vẫn rất cao. Một giới hạn quan trọng khác của hệ thống tìm kiếm văn bản dựa trên vốn từ được quản lý, và giới hạn này cũng xuất hiện trong kỹ thuật tìm kiếm văn bản dựa trên so khớp chính xác, là những người dùng không được huấn luyện dường như sẽ gặp khó khăn khi khai thác khả năng của từ điển. Những khác nhau quan trọng giữa người dùng có kĩ năng và người dùng không được huấn luyện đã được nghiên cứu dựa trên sự chọn lựa các cụm từ của họ, việc họ sử dụng những mối quan hệ của cụm từ được mã hóa trong một từ điển, và việc sử dụng các toán tử AND, OR hoặc NOT trong việc xây dựng câu truy vấn. Trong nhiều trường hợp người ta chứng minh rằng việc cung cấp những người trung gian được huấn luyện có lợi hơn việc cung cấp những huấn luyện đầy đủ cho mỗi người dùng. Kỹ thuật tìm kiếm dựa trên sắp xếp được mô tả ở phần trước cũng giới thiệu một hướng tiếp cận khác để giải quyết vấn đề này. Các hệ thống tìm kiếm dựa trên sắp xếp thường chấp nhận các câu truy vấn bằng ngôn ngữ tự nhiên và cho phép sự lựa chọn không ràng buộc các cụm từ. Nói chung, mục đích của việc tìm kiếm dựa trên sắp xếp không phải để thay thế kĩ thuật so khớp chính xác mà để làm mạnh thêm các hệ thống bằng những kỹ thuật cải thiện một cách hiệu quả việc tìm kiếm của những người dùng không được huấn luyện. 1.3.2.2 Tìm kiếm khái niệm: GVHD: TS. Hồ Bảo Quốc 18 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
  20. Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Một cách khác để biểu diễn các khái niệm trong R là biểu diễn các cụm từ bằng cách sử dụng từ điển đa ngữ dẫn dắt cho qui trình chọn lựa cụm từ. Đây là một biến thể của mở rộng câu truy vấn, một kỹ thuật đã được nghiên cứu rất kỹ trong tìm kiếm đơn ngữ 5 . Ý tưởng cơ bản của mở rộng câu truy vấn là cung cấp các biến thể sử dụng của cụm từ bằng cách gia tăng các cụm từ có liên quan trong câu truy vấn. Gần đây, trong [1] L.Ballesteros đã dùng phương pháp “phản hồi cục bộ ” (local feedback) để mở rộng câu truy vấn. Phương pháp này là sự kết hợp giữa hai phương pháp: sửa đổi câu truy vấn trước khi dịch (pre-translation query modification) và sửa đổi câu truy vấn sau khi dịch (post-translation query modification). Trong nghiên cứu của mình, ông giới hạn trong hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Các câu truy vấn tiếng Anh được lấy từ hệ thống TREC với chiều dài trung bình là 10.6 từ. Các câu truy vấn tiếng Tây Ban Nha cũng được rút trích từ hệ thống này với chiều dài trung bình là 4.3 từ. Việc đánh giá tính hiệu quả dựa trên các tài liệu tiếng Anh nằm trong tập Tipster (vol. 2) có độ lớn 2GB và tập 208M các bài báo tiếng Tây Ban Nha của báo “El Norte”. Ngữ liệu huấn luyện dùng cho việc phản hồi trước khi dịch là tập các bài báo này và tập 301 MB cơ sở dữ liệu tin tức của San Jose Mercury từ tập hợp Tipster. Toàn bộ câu truy vấn sẽ được thực hiện trên hệ thống INQUIRY. Qua thực nghiệm L.Ballesteros nhận thấy rằng việc sửa đổi câu truy vấn trước khi dịch tạo ra một cơ sở quan trọng cho việc dịch và nâng cao độ chính xác; việc sửa đổi câu truy vấn sau khi dịch dựa trên từ điển máy đọc sẽ nâng cao độ bao phủ của tìm kiếm. Và kỹ thuật này sẽ hiệu quả hơn đối với các câu truy vấn dài vì các câu truy vấn dài sẽ có nhiều ngữ cảnh hơn giúp giảm tính nhập nhằng. Kết hợp hai qui trình này giúp tăng độ chính xác trung bình lên 50%. Điều này cho thấy việc mở rộng câu truy vấn sẽ giúp gia tăng đáng kể độ hiệu quả của hệ tìm kiếm xuyên ngữ. 1.3.2.3 Mã hóa thông tin ngữ nghĩa: 5 Đặc trưng duy nhất của mở rộng câu truy vấn trong truy xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ GVHD: TS. Hồ Bảo Quốc 19 Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2