intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

LUẬN VĂN: PHƯƠNG PHÁP XÂY DỰNG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT DỰA TRÊN ONTOLOGY

Chia sẻ: Lan Lan | Ngày: | Loại File: PDF | Số trang:83

381
lượt xem
130
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Hỏi đáp (question answering) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngônngữ tự nhiên. Nghiên cứu các hệ thống hỏi đáp đang nhận được nhiều quan tâm trên thế giới. Các nghiên cứu hiện nay sử dụng nhiều phương pháp xử lý ngôn ngữ tự nhiêncùng với Ontology được sử dụng làm cơ sở tri thức. Nhu cầu tìm kiếm thông tin tiếngViệt dưới dạng hỏi đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn chưacó nhiều nghiên cứu ứng dụng cụ thể. Chúng tôi giới thiệu một hệ thống hỏi...

Chủ đề:
Lưu

Nội dung Text: LUẬN VĂN: PHƯƠNG PHÁP XÂY DỰNG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT DỰA TRÊN ONTOLOGY

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ -------- Nguyễn Quốc Đại PHƢƠNG PHÁP XÂY DỰNG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT DỰA TRÊN ONTOLOGY KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ -------- Nguyễn Quốc Đại PHƢƠNG PHÁP XÂY DỰNG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT DỰA TRÊN ONTOLOGY KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Công nghệ thông tin Ngành: Giảng viên hƣớng dẫn: TS. Phạm Bảo Sơn HÀ NỘI – 2009
  3. To My Family
  4. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Lời cảm ơn Đầu tiên, em xin gửi lời cám ơn chân thành nhất tới TS. Phạm Bảo Sơn. Thầy đã hướng dẫn, chỉ bảo và truyền đạt những kinh nghiệm giúp e m hoàn thành khóa luận. Em cũng xi n gửi lời cám ơn tới TS. Bùi Thế Duy. Thầy đã tạo điều kiện thuận lợi và có những ý kiến đóng góp cho em. Tôi xin cám ơn các bạn Nguyễn Quốc Đạt, Nguyễn Bá Đạt, Trần Bình Giang, P hạm Đức Đăng. C ác bạn đã giúp đỡ, cũng như chia sẻ những nghiên cứu để tôi có thể áp dụng trong khóa luận. Tôi cũng xin cám ơn các bạn Ngô Thị Thảo , Tạ Thị Bích Hiền, N guyễn Hà P hương đã giúp đỡ tôi khi khó khăn. Cuối cùng, con xin gửi lời cám ơn sâu sắc nhất tới bố mẹ. Bố mẹ đã sinh thành, nuôi dưỡng, quan tâm và chăm sóc cho con. Con xin cám ơn bố mẹ! Hà Nội, 2 4-5 -2009 Nguyễn Quốc Đại i
  5. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Tóm tắt Hỏi đáp (question answering) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. N ghiên cứu các hệ thống hỏi đáp đang nhận được nhiều quan tâm trên thế giới. C ác nghiên cứu hiện nay sử dụng nhiều phương pháp xử lý ngô n ngữ tự nhiên cùng với Ontology được sử dụng làm cơ sở tri thức. Nhu cầu tìm kiếm thông tin tiếng Việt dưới dạng hỏi đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn c hưa có nhiều nghiên cứu ứng dụng cụ thể. Chúng tôi giới t hiệu một hệ thống hỏi đáp tiếng Việt dựa trên Ontology. Hệ thống này có thể áp dụng đối với nhiều miền ứng dụng cụ thể. C húng tôi thiết kế một Ontology thử nghiệm. Sử dụng Ontology này, chúng tôi đưa ra cách trích rút câu trả lời cho hệ thống hỏi đáp này. Các đánh giá cho thấy hệ thống làm việc tốt khi trả lời các câu hỏi được đưa ra. Keywords: hỏi đáp, ánh xạ Ontology, trích chọn câu trả lời . ii
  6. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Mục lục Lời cảm ơ n ................................................................................................................................i Tóm tắt ..................................................................................................................................... ii Mục lục ................................................................................................................................... iii Danh sách từ viết tắt .............................................................................................................vi Danh sách hình vẽ ............................................................................................................... vii Danh sách bảng ......................................................................................................................ix Ch ƣơ ng 1. Giới thiệu ............................................................................................................1 Ch ƣơ ng 2. Tổng quan về hỏi đáp .......................................................................................3 2.1 Tổng quan về hệ thống hỏi đáp dựa trên Ontology ...................................................3 2.2 Khái niệm về hỏi đáp (Question Answering – QA) ...................................................6 2.2.1 Khái niệm hỏi đáp ..................................................................................................6 2.2.2 Kiến trúc hỏi đáp ....................................................................................................6 2.2.3 Các phươ ng pháp hỏi đáp ......................................................................................7 2.3 Giao diện ngôn ngữ tự nhiên miền đóng ....................................................................9 2.4 Các hệ thống QA miền mở ..........................................................................................10 2.5 Ontologies trong QA....................................................................................................12 Ch ƣơ ng 3. Ontology – Sesame ..........................................................................................14 3.1 Khái niệm về Ontology ................................................................................................14 3.1.1 Khái niệm ..............................................................................................................14 3.1.2 Tổng quan về Ontology .......................................................................................14 3.1.2.1 Các thành phần của Ontology ......................................................................15 3.1.2.2 Các thực thể ....................................................................................................15 3.1.2.3 Các lớp ............................................................................................................16 3.1.2.4 Thuộc tính ......................................................................................................17 iii
  7. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i 3.1.2.5 Các mối quan hệ ............................................................................................17 3.2 Ngôn ngữ Web Ontology (Web Ontology Language) ............................................19 3.2.1 OWL Ontology .....................................................................................................19 3.2.2 Mối quan hệ logic mô tả (Desc ription logics – DLs) .......................................20 3.2.3 Các dạng OWL .....................................................................................................20 3.3 Sesame ...........................................................................................................................21 3.3.1 Khái niệm về Sesame ...........................................................................................21 3.3.1.1 Sesame Server ................................................................................................21 3.3.1.2 Kho dữ liệu và suy luận (Repositories and Inferencing) ..........................22 3.3.1.3 Tổng quan kiến trúc Sesame ........................................................................22 3.3.2 Cài đặt Sesame ......................................................................................................23 3.3.2.1 Cài đặt th ư viện Sesame ...............................................................................23 3.3.2.2 Cài đặt máy c hủ Sesame ...............................................................................24 3.3.2.3 Quản trị máy chủ ...........................................................................................25 3.3.3 Giao diện web của Sesame ..................................................................................27 3.3.3.1 Đăng nhập ......................................................................................................27 3.3.3.2 Thêm dữ liệu vào một kho dữ ......................................................................28 Ch ƣơ ng 4. Hệ thống hỏi đáp tiếng Việt dựa trên Ontology.......................................29 4.1 Kiến trúc tổng quan của hệ thống..............................................................................29 4.2 Xử lý câu hỏi ngôn ngữ tự nhiên ................................................................................32 4.3 Thiết kế Onto logy bằng Protege ................................................................................34 4.3.1 Thiết kế các lớp trong Ontology .........................................................................35 4.3.2 Thiết kế thuộc tính trong Ontology ....................................................................36 4.4 Ánh xạ Ontology ..........................................................................................................38 4.4.1 Ánh xạ Ontology cho câu hỏi đơ n giản .............................................................39 4.4.1.1 Ánh xạ Ontology đối với loại câu hỏi NORMAL .....................................42 4.4.1.2 Ánh xạ Ontology đối với loại câu hỏi UNKN_REL .................................43 4.4.1.3 Ánh xạ Ontology đối với loại câu hỏi UNKN_TERM .............................44 4.4.1.4 Ánh xạ Ontology đối với loại câu hỏi AFFIRM_NEG ............................46 4.4.2 Ánh xạ Ontology đối với loại câu hỏi ―THREETERM‖ .................................47 4.5 Trích chọn câu trả lời ..................................................................................................51 iv
  8. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i 4.5.1 Trích chọn câu trả lời cho loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ ..........52 4.5.2 Trích chọn câu trả lời cho loại câu hỏi ―UNKN_TERM‖ ...............................54 4.5.3 Trích chọn câu trả lời cho loại câu hỏi ―AFFIRM_N EG‖ ..............................56 4.5.4 Trích chọn câu trả lời cho loại câu hỏi ―THREETERM‖ ................................57 Ch ƣơ ng 5. Kết quả thực nghiệm và thảo luận ...............................................................59 5.1 Kết quả thực nghiệm....................................................................................................59 5.2 Thảo luận ......................................................................................................................61 Ch ƣơ ng 6. Kết luận ..............................................................................................................62 P hụ lục A ................................................................................................................................63 Tài liệu tham khảo ...............................................................................................................66 v
  9. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Danh sách từ viết tắt Kí hiệu Từ tiếng Anh Ngữ nghĩa STT Xử lý ngôn ngữ tự nhiên Natural Language Processing 1 NLP Hỏi đáp Question Answering 2 QA Giao diện chương trình ứng dụng 3 API Application program inter face vi
  10. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Danh sách hình vẽ Hình 2.1. Tổng quan về hệ thống hỏi đáp dựa trên Ontologies [2] ...................................4 Hình 3.1 . Ví dụ về lớp trong Ontology [58] ......................................................................16 Hình 3.2. Ví dụ về lớp ô tô ....................................................................................................18 Hình 3.3. Sesame server [59] ................................................................................................21 Hình 3.4. Kiến trúc của Sesame [59] ...................................................................................22 Hình 3.5. Cấu hình Sesame ...................................................................................................25 Hình 3.6. Cấu hình kho dữ liệu có sẵn trong Sesame ........................................................26 Hình 3.7. Giao diệ n web c ủ a Sesame ..................................................................................28 Hình 4.1. Kiến trúc tổng quan của hệ thống hỏi đáp tiếng Việt dựa trên Ontology ......29 Hình 4.2. Kiến trúc của thành phần tìm kiếm câu trả lời ..................................................30 Hình 4.3. Các l ớp trong Ontology về tr ường đại học ........................................................36 Hình 4.4. Các thuộc tính trong Ontology về tr ường đại học ............................................37 Hình 4.5. Tổng quan về ánh xạ Ontology đối với câu hỏi đ ơn giản ................................40 Hình 4.6. Ví dụ hỏi đáp đối với loại câu hỏi ―NORMAL‖ ...............................................42 Hình 4.7. Ánh xạ Ontology t ương tác với ngư ời dùng đối với loại câu hỏi ―UNKN_REL‖ ........................................................................................................................43 Hình 4.8. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ .......................................44 Hình 4.9. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ .......................................45 Hình 4.10. Ví dụ hỏi đáp đối với loại câu hỏi AFFIRM_NEG ........................................46 Hình 4.11. Tổng quan ánh xạ Ontology với loại câu hỏi ―THREETERM‖ ...................47 Hình 4.12. Ví dụ hỏi đáp đối với câu hỏi về số l ượng .......................................................51 Hình 4.13. Trích chọ n câu tr ả lời đối với loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ ..52 Hình 4.14. Ví dụ hỏi đáp đối với loại câu hỏi ―NORMAL‖, ―UNKN_REL‖ ................53 Hình 4.15. Thành ph ần trích chọ n câu tr ả lời đối với loại câu hỏi ―UNKN_TERM‖ ...54 Hình 4.16. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ .....................................55 Hình 4.17. Ví dụ hỏi đáp đối với loại câu hỏi ―UNKN_TERM‖ .....................................55 Hình 4.18. Thành phần trích chọn câu trả lời đối vớ i lo ại câu hỏi ―AFFIRM_NEG‖ ..56 vii
  11. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Hình 4.19. Ví dụ hỏi đáp đối với loại câu hỏi ―AFFIRM_NEG‖ ....................................56 Hình 4.20. Thành phần trích chọn câu trả lời đối với loại câu hỏi ―THREETERM‖ ....57 Hình 4.21. Ví dụ hỏi đáp đối với loại câu hỏi ―THREETERM‖ ......................................58 viii
  12. Phương pháp x ây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology Nguyễn Quốc Đạ i Danh sách bảng Bảng 5.1. Đánh giá hệ thống đối với các câu hỏi trả lời đ ược .........................................59 Bảng 5.2. Đ ánh giá hệ t hống đố i với các câu hỏ i lỗ i .........................................................60 ix
  13. Chương 1. Giới thiệu Nguyễn Quốc Đại Chƣơng 1. Giới thiệu Trong tìm kiếm thông tin, hỏi đáp ( Question Answering – Q A) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. C ác câu hỏi trong một miền ứng dụng cụ thể có thể được trả lời thông qua các kỹ thuật xử lý ngôn ngữ tự nhiên. Nhưng các hệ thống gặp phải vấn đề : làm thế nào mô tả được tri thức trong miền ứng dụng. Các nghiên cứu hiện nay tập trung vào sử dụng Ontology làm cơ sở tri thức, do Ontology có khả năng mô tả một tập các khái niệm trong miền cụ thể và các mối quan hệ giữa các khái niệm. Hiện nay, nhu cầu tìm kiếm thông tin tiếng Việt dưới dạng hỏi đáp là rất lớn nhưng các hệ thống hỏi đáp cho tiếng Việt còn chưa có nhiều nghiên cứu ứng dụng cụ thể. Trong khó a luận này, chúng tôi đề xuất ―Phƣơng pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa trên Ontology‖. P hương pháp của chúng tôi có thể áp dụng cho nhiều miền tri thức. Dựa vào phương pháp của mình, chúng tôi xây dựng một hệ thống thử nghiệm trên miền tri thức trường đại học , mà cụ thể là miền tri thức về Đ ại học Công Nghệ . C húng tôi thiết kế một Ontology thử nghiệm cho miền tri thức này. Các câu hỏi liên quan đến miền này sau khi đã phân tích [1], được ánh xạ vào trong Ontology đã thiết kế. Rồi từ đó, chúng tôi hình thành nên các bộ mô tả tương ứng với Ontology. Tiếp đến, c húng tôi trích chọn ra câu trả lời ngữ nghĩa tốt nhất có thể cho câu hỏi của người dùng. N hững kết luận và đánh giá về hệ thống hỏi đáp tiếng Việt cho thấy hệ thống hoạt động tốt với các câu hỏi được hỏi. P hần còn lại của khóa luận được chia thành: Chƣơng 2: C húng tôi giới thiệu tổng quan về hệ t hống hỏi đáp dựa trên Ontology, và những khái niệm liên quan. Ngoài ra, c húng tôi đưa ra một vài tìm hiểu đối với các hệ thống hỏi đáp hiện nay. 1
  14. Chương 1. Giới thiệu Nguyễn Quốc Đại Chƣơng 3: C húng tôi giới thiệu các khái niệm cơ bản về Ontology, ngôn ngữ Web Ontology (Web Ontology Language – OWL). Đồng thời, chúng tôi cũng giới thiệu về Ses ame, được sử dụng để lưu trữ các Ontology OWL cho miền ứng dụng cụ thể. Chƣơng 4: Chúng tôi đưa ra kiến trúc của hệ thống, các thành phầ n xử lý cho hệ thống. Tiếp đến , chúng tôi giới thiệu cách thiết kế một Ontology OWL cho một miền tri thức trường Đại học Công Nghệ . Dựa vào Ontology này, chúng tôi mô tả chi tiết để trích rút câu trả lời ngữ nghĩa tốt nhất có thể cho một câu hỏi. Chƣơng 5: C húng tôi đưa ra những đ ánh giá thực nghiệm của hệ thống. Chƣơng 6: Kết luận lại nội dung khóa luận, và những kết quả mà hệ thống hỏi đáp tiếng Việt dựa trên Ontology đã đạt được. 2
  15. Chương 3. Ontology – Sesame Nguyễn Quốc Đại Chƣơng 2. Tổng quan về hỏi đáp 2.1 Tổng quan về hệ thống hỏi đáp dựa trên Ontolog y Trong tìm kiếm thông tin, hỏi đáp (Question Answering – Q A) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm câu trả lời cho một câu hỏi, một chương trình máy tính có thể sử dụng một cơ sở dữ liệu tiền cấu trúc hoặc sử dụng một tập các văn bản ngôn ngữ tự nhiên . Trong khoa học máy tính, Ontology là biểu diễn hình thức của một tập các khái niệm trong miền cụ thể và c ác mối quan hệ giữa các khái niệm. Ontology được dùng để suy luận các thuộc tính trong miền, có thể được dùng để định nghĩa miền [56]. Đa số các phương pháp phổ biến trong việc xác định thông tin cần thiết là sử dụng công cụ tì m kiếm. Với câu hỏi đ ầu vào, các công cụ này đ ưa ra câu trả lời đơn giản với việc so khớp các từ khóa. Xử lý ngôn ngữ tự nhiên (Natural Language P rocessing – NLP) được sử dụng để nhận ra cấu trúc cú pháp và ngữ nghĩa của câu hỏi, và c ác tài liệu thích hợp chứa đựng các câu trả lời cho câu hỏi sẽ được trả lại . Đấy là đối với các câu hỏi đơn giản, nhưng các công cụ này s ẽ khó có thể thực hiện được với các câu hỏi phức tạp gồm các câu hỏi how, why hoặc what . Vấn đề chính ở đây là các ứng dụng hỏi đáp duy trì việc hoàn thiện công cụ tìm kiếm dựa vào từ khóa cho đến khi đòi hỏi NLP hiểu cấu trúc ngữ nghĩa cũng như cấu trúc cú pháp của câu hỏi. Việc biểu diễn rõ ràng các ngữ nghĩa của dữ liệu trong miền ứng dụng cụ thể t ạo khả năng cung cấp một dịch vụ ở mức độ m ới. P hân tích và nghiên cứu những suy luận trong O ntology cho hệ thống hỏi đáp tạo khả năng mô tả ngữ nghĩa cho miền ứ ng dụng. Trong Ontology, c ác thuật ngữ cùng với quan hệ được định nghĩa rõ ràng trong miền cụ thể đã cho phép chia sẻ và sử dụng lại tri thức. Với ưu điểm được đưa ra, Ontology được sử dụng để miêu tả một miền 3
  16. Chương 3. Ontology – Sesame Nguyễn Quốc Đại ứng dụng c ụ thể. Các khái niệm và các mối quan hệ được định nghĩa trong miền c ùng với ý nghĩa của chúng được sử dụng một cách nhất quán trong miền cụ thể đó. Hình 2.1. Tổng quan về hệ thống hỏi đáp dựa t rên Ontologies [2] Dựa vào kiến trúc trong hình 2.1 , Ontology xác định các khái niệm có liên quan, bằng phương pháp tiếp cận lai, hoặc kết hợp các phương pháp cú pháp và các phương pháp thống kê được sử dụng để trích ra các khái niệm từ các tài liệu. P hương pháp dự a vào cú pháp phát hiện mẫu các danh từ ghép và miền cấu trúc cụ thể. Phát hiện mẫu phù hợp với các phương pháp trích chọn khái niệm khác. Các cách tiếp cận thống kê cho việc trích chọn khái niệm thường nhận biết sự xuất hiện của các từ vựng trong một hoặc nhiều tập các tài liệu xác định. Một khái niệm xuất hiện nhiều trong một tài liệu, t hì khái niệm này có ý nghĩa và được trích chọn. Gán nhãn từ loại được dùng để cải tiến việc nhận dạng các khái niệm. Các từ được gán nhãn luôn dựa vào độ ưu tiên được trích chọn. Các từ loại khác chẳng hạn như giới từ liên kết, giới từ nhận dạng sẽ bị loại trừ vì chúng không mang thông tin về miền khái niệm. Các khái niệm được hình thức hóa sẽ thích hợp để dễ dàng cấu trúc 4
  17. Chương 3. Ontology – Sesame Nguyễn Quốc Đại nên O ntology. Tuy nhiên, các khái niệm được tách riêng là vô nghĩa do không thể truyền đạt nội dung quan trọng. Do đó, việc trích chọn quan hệ giữa các khái niệm dưới dạng quan hệ chủ thể -quan hệ - đối tượng . Mối quan hệ ngữ nghĩa có thể được nhận biết với sự hỗ trợ của WordNet. WordNet là một cơ sở dữ liệu từ vựng trực tuyến cùng với một tập các nghĩa . Wordnet được sử dụng để tìm kiếm quan hệ (liên kết is-a và part-of) giữa các khái niệm đối với các từ đồng âm, các từ đồng ng hĩa để giảm sự dư thừa về nhãn. Quan hệ thường biểu diễn dưới dạng các động từ, và có thể được trích ra bởi so khớp động từ và các khái niệm trong câu. 5
  18. Chương 3. Ontology – Sesame Nguyễn Quốc Đại 2.2 K hái niệm về hỏi đáp (Question Answering – Q A) 2 .2.1 Khái niệm hỏi đáp Trong tìm kiếm thông tin, hỏi đáp (Q uestion Answering – Q A) là nhiệm vụ tự động trả lời câu hỏi dưới dạng ngôn ngữ tự nhiên. Để tìm câu trả lời cho một câu hỏi, một chương trình máy tính có thể sử dụng một cơ sở dữ liệu tiền cấu trúc hoặc sử dụng một tập các văn bản ngôn ngữ tự nhiên. Nghiên c ứu QA nhằm mục đích xử lý các loại c âu hỏi: sự kiện, danh sách, định nghĩa, các câu hỏi như thế nào, tại sao, các câu hỏi mang tính giả thuyết, các câu hỏi hạn chế về ngữ nghĩa và câu hỏi sử dụng đa ngôn ngữ. Có hai khái niệm trong hỏi đáp là hỏi đáp miề n đóng và hỏi đáp miền mở. Hỏi đáp miền đóng (closed -domain) xử lý các câu hỏi trong một miền cụ thể, và có thể xem như một nhiệm vụ đơn giản vì các hệ thống xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) có khả năng khai thác tri thức miền cụ thể được biểu diễn bởi O ntologies. Hỏi đáp miền mở (open -domain) xử lý các câu hỏi có nội dung về mọi thứ và chỉ có thể dựa trên các Ontology tổng qu át và tri thức tổng hợp từ khắp nơi trên thế giới. Nói cách khác, các hệ thống này thường lưu trữ một lượng lớn dữ diệu có sẵn để từ đó trích chọn ra đáp án cho câu hỏi tìm kiếm. Hỏi đáp (Question Answering – Q A) cần sử dụng nhiều phương pháp NLP phức tạp hơn các tìm kiếm thông tin phục hồi tài liệu. Do đó, các công cụ tìm kiếm ngôn ngữ tự nhiên được đánh giá vượt xa các công cụ tìm kiếm hiện nay. Trong mục 2.3, chúng tôi đưa ra tổng quan một số hệ thống hỏi đáp được phân loại dựa trên miền đóng và miền mở. 2 .2.2 Kiến trúc hỏi đáp Hệ thống QA đầu tiên phát triển vào những năm 1960 [64]. Các hệ thống này về cơ bản là các giao diện ngôn ngữ tự nhiên đối với các hệ chuyên gia - những hệ thống được xây dựng riêng cho từng miền ứ ng d ụng cụ thể. Nguợc lại, các hệ thống QA ngày nay lại sử dụng các tài liệu văn bản làm nguồn tri thức cơ bản và kết hợp với 6
  19. Chương 3. Ontology – Sesame Nguyễn Quốc Đại nhiều kỹ thuật NLP khác nhau để tìm ra các câu trả lời. C ác hệ thống QA hiện nay thường bao gồm một module phân loại câu hỏi, giúp xác định loại câu hỏi và loại câu trả lời tương ứng. Sau khi phân tích câu hỏi, hệ thống sẽ sử dụng một số module áp dụng các kỹ thuật NLP phức tạp lên một lượng văn bản đã được giảm bớt nhờ module phân tích câu hỏi. Tiếp theo , một module phục hồi tài liệu sử dụng các công cụ tìm kiếm, module này dùng để nhận dạng tài liệu hoặc đoạn văn bản trong tập tài liệu có khả năng chứa câu trả lời trong đó. Sau đó, một bộ lọc sẽ chọn sẵn một đoạn văn bản ngắn có chứa chuỗi kí tự cùng kiểu với câu trả lời được chờ đợi. Ví dụ, nếu câu hỏi là: “Who invented Penicillin?” Bộ lọc trả lại văn bản có chứa tên người. Cuối cùng, một module trích chọn câu trả lời tìm kiếm thêm các liên kết trong văn bản để quyết định xem trong số các đáp án đã đuợc lọc ra thì đâu là đáp án thực sự . 2 .2.3 Các phƣơng pháp hỏi đáp Hỏi đáp (Question Answering – Q A) phụ thuộc rất nhi ều vào t ập tài liệu tìm kiếm có tốt hay không. Nếu hệ thống không tìm ra được các tài liệu có chứa câu trả lời thì gần như không có hệ thống QA nào thực hiện được. Vì vậy, quy mô tập tài liệu càng lớn thì càng có ích cho quá trình trả lời câu hỏi, trừ trường hợp lĩnh vực mà câu hỏi đề cập đến khác hoàn toàn so với tài liệu sẵn có. Trong các tập dữ liệu lớn, k hái niệm về dư thừa dữ liệu là số lượng lớn thông tin có khả năng được diễn đạt theo nhiều cách khác nhau trong các tài liệu và ngữ cảnh khác nhau. Điều này dẫn đến 2 lợi ích sau: (1) Thông tin thích hợp xuất hiện duới nhiều hình thức khác nhau sẽ giúp hệ thống QA thực hiện các kỹ thuật NLP phức tạp một cách dễ dàng hơn. (2) Các câu trả lời đúng có thể được lọc ra bởi câu trả lời thích hợp sẽ xuất hiện nhiều lần hơn trong các tài liệu so với các trường hợp trả lời không chính xác . P hân tích bề nổi : Một vài phương pháp trả lời câu hỏi sử dụng các kỹ thuật dựa vào từ khóa để xác định vị trí của các đoạn văn bản hay câu đáng chú ý trong các tài liệu đuợc tìm kiếm . Sau đó, hệ thống tìm kiếm dựa trên sự có mặt của đáp án cần tìm đang nằm trong những đoạn văn bản hay câu đó. Việc sắp xếp các đáp án được thực hiện ngay sau đó dựa vào các đặc điểm cú pháp của câu hay đoạn văn bản, chẳng hạn 7
  20. Chương 3. Ontology – Sesame Nguyễn Quốc Đại dựa vào trật tự từ, vị trí của câu hay đoạn , và những điểm tương đồng khác của các câu hay đoạn này so với câu hỏi tìm kiếm. Khi sử dụng những tập dữ liệu lớn với sự dư thừa dữ liệu tốt, nhiều hệ thống dùng các mẫu để tìm ra đáp án cuối. Nếu đặt ra câu hỏi : “What is a cat?” Hệ thống sẽ tìm ra chuỗi con “What is a X?” và rồi thực hiện quá trình tìm kiếm các tài liệu bắt đầu với “ X is a Y” . Phương pháp này thường làm việc tốt đối với các câu hỏi đơ n giản nhằm tìm kiếm các thông tin thực tế như tên, ngày tháng, địa điểm và số luợng. P hân tích chiều sâu: N hững trường hợp p hương pháp dựa vào từ khóa không đáp ứng được , thì hệ thống dùng các xử lý phức tạp như phân tích cú pháp, phân tích ngữ nghĩa và n gữ cảnh của câu hỏi . D ựa vào đó, hệ thống tách ra hoặc cấu tạo nên câu trả lời. Những kỹ thuật này có thể bao gồm kỹ thuật nhận dạng thực thể có tên, phương pháp nhận biết mối quan hệ, phân tích từ đồng nghĩa, các kỹ thuật biến đổi cú pháp, phương pháp loại bỏ nhập nhằng về nghĩa của từ, phương pháp biến đổi hình thái logic ,… N hững hệ thống này cũng sử dụng tri thức trong các Ontology để suy luận thông qua các khái niệm và các liên kết ngữ nghĩa. Nhiều dạng câu hỏi khó như dạng câu hỏi why , how, các câu hỏi giả định, câu hỏi giới hạn về không gian và thời gian, các câu hỏi hội thoại, các câu hỏi nhập nhằng cần tất cả những phương pháp phân tích chiều sâu như trên để hệ thống nhận biết câu hỏi. Tương tự như vậy, những đoạn văn bản phức tạp hoặc nhập nhằng cũn g cần được áp dụng nhiều phương pháp NLP để nhận r a được nội dung văn bản. Hỏi đáp (QA) thống kê giới thiệu các module xử lý câu hỏi dựa vào t hống kê và trích chọn r a câu trả lời. Nhiều công cụ NLP như kỹ thuật nhận dạng t hực thể có tên, phân tích cú pháp, gán nhãn từ loại, nhận dạng ranh giới câu và phục hồi tài liệu có thể sử dụng như là các ứng dụng thống kê. Mục dưới đây, chúng tôi tìm hiểu một số hệ thống hỏi đáp dựa vào phân loại miền đóng, miền mở , giới thiệu vài hệ thống hỏi đáp có sử dụng Ontology. C húng tôi mô tả qua một số ưu nhược điểm của các hệ thống đó, đồng thời cũng giới thiệu qua các phương pháp mà các hệ thống này sử dụng để tìm kiếm câu trả lời cho câu hỏi. 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2