Luận văn Thạc sĩ Khoa học máy tính: Các thuật toán phân lớp dữ liệu và ứng dụng xây dựng hệ thống hỏi đáp tự động về một số bệnh thường gặp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:77

Thêm vào BST

Báo xấu

28
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài này là tìm hiểu các tri thức cơ bản của y khoa về các loại bệnh thông thường, thu thập tri thức để xây dựng một hệ thống hỏi đáp nhằm hổ trợ chẩn đoán và phân loại các bệnh thường gặp, cho người sử dụng những lời khuyên hữu ích trong việc phòng và điều trị bệnh. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Các thuật toán phân lớp dữ liệu và ứng dụng xây dựng hệ thống hỏi đáp tự động về một số bệnh thường gặp

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN DUY DŨNG Các thuật toán phân lớp dữ liệu và ứng dụng xây dựng hệ thống hỏi đáp tự động về một số bệnh thường gặp LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn là kết quả nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực. Được các tác giả cho phép tham khảo và sử dụng các tài liệu đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu tham khảo của luận văn. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
iii LỜI CẢM ƠN Tôi xin được gửi lời cảm ơn trân trọng và sâu sắc nhất đến thầy giáo PGS.TS. Đoàn Văn Ban – thầy đã tận tình giúp đỡ, hướng dẫn cho tôi trong suốt quá trình học tập và nghiên cứu, thực hiện đề tài này. Tôi cũng xin gửi lời biết ơn chân thành đến quý Thầy giáo, cô giáo Viện Công nghệ thông tin và quý Thầy cô trường Đại học Công nghệ thông tin & truyền thông Đại học Thái Nguyên đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập tại trường. Tôi cũng xin gửi lời biết ơn chân thành đến Ban giám hiệu, các phòng ban trường Cao đẳng Y tế Thanh Hóa đã tạo điều kiện cho tôi tham gia lớp học này. Tôi cũng xin gửi lời biết ơn chân thành đến cơ quan Bắc Trung Bộ đã giúp đỡ hỗ trợ cho tôi tham gia khóa học này. Tôi xin được cảm ơn, chia sẻ niềm vui này với gia đình, bạn bè đồng nghiệp và các y bác sĩ cùng anh chị em lớp Cao học K12G trường Đại học Công nghệ thông tin & truyền thông Đại học Thái Nguyên, những người đã luôn ở bên tôi, giúp đỡ và tạo điều kiện thuận lợi để cho tôi được học tập, nghiên cứu, hoàn thành luận văn. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
iv MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... i MỤC LỤC ................................................................................................................ iv DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vi DANH MỤC BẢNG BIỂU ..................................................................................... vi DANH MỤC CÁC HÌNH ........................................................................................ vi 1. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ..................................................2 2. PHƯƠNG PHÁP NGHIÊN CỨU ......................................................................2 3. HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI ............................................................2 4. BỐ CỤC LUẬN VĂN ........................................................................................2 5. Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI ..............................................................3 Chương 1. Giới thiệu về hệ thống hỏi đáp ...........................................................4 1.1. Hệ thống hỏi – đáp tự động ........................................................................... 4 1.2. Phân loại các hệ thống hỏi đáp tự động .......................................................... 6 1.2.1. Phân loại theo miền ứng dụng ........................................................... 6 1.2.2. Phân loại theo khả năng trả lời câu hỏi ............................................ 7 1.2.3. Phân loại theo hướng tiếp cận ........................................................... 8 1.3. Cơ sở tri thức và máy suy diễn ...................................................................... 8 1.3.1. Cơ sở tri thức ........................................................................................ 8 1.3.1.1. Khái niệm hệ cơ sở tri thức ......................................................... 8 1.3.1.2. Hệ phân loại tri thức .................................................................... 9 1.3.1.3. Các phương pháp biểu diễn tri thức ........................................ 10 1.3.2. Máy suy diễn ........................................................................................ 15 1.4. Kiến trúc hệ thống hỏi – đáp ........................................................................ 18 1.4.1. Giao diện người dùng ......................................................................... 19 1.4.2. Phân tích câu hỏi ................................................................................. 19 1.4.3. Tìm kiếm dữ liệu ................................................................................. 19 1.4.4. Rút trích câu trả lời ............................................................................ 20 1.4.5. Xác minh câu trả lời ........................................................................... 20 1.5. Kết chương 1 .................................................................................................. 20 Chương 2. Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu ..........................21 2.1. Khai phá dữ liệu và phát hiện tri thức .......................................................... 21 2.2. Khai phá luật kết hợp ..................................................................................... 24 2.3. Phân lớp, phân cụm dữ liệu ........................................................................... 25 2.4. Cây quyết định................................................................................................. 29 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
v 2.5. Các thuật toán phân lớp dữ liệu phổ biến .................................................... 30 2.5.1. Thuật toán cây quyết định ID3 .......................................................... 30 2.5.2. Thuật toán C4.5 ................................................................................... 33 2.5.3. Thuật toán SVM .................................................................................. 36 2.5.4. Thuật toán phân lớp K người láng giềng gần nhất .......................... 36 2.6. Các vấn đề liên quan đến phân lớp dữ liệu................................................... 37 2.6.1. Chuẩn bị dữ liệu cho việc phân lớp ................................................... 37 2.6.2. So sánh các mô hình phân lớp ............................................................ 38 2.6.3. Các phương pháp đánh giá độ chính xác của mô hình phân lớp ... 39 2.7. Kết chương 2 .................................................................................................... 40 Chương 3. Xây dựng hệ thống hỏi đáp tự động về một số bệnh thương gặp ..41 3.1. Các loại bệnh thường gặp ............................................................................. 41 3.1.1. Bệnh lao ................................................................................................ 41 3.1.2. Viêm phổi ............................................................................................. 46 3.2. Xây dựng cơ sở luật (KB) ............................................................................. 52 3.3. Xây dựng cơ chế suy diễn để khai thác, tìm câu trả lời ............................. 56 3.4. Thiết kế hệ thống hỏi đáp ............................................................................. 59 3.5. Cài đặt thử nghiệm hệ thống hỏi đáp .......................................................... 60 3.5.1. Môi trường phát triển hệ thống ......................................................... 60 3.5.2. Cấu trúc các thành phần để triển khai hệ thống .............................. 60 3.5.3. Cài đặt chương trình ........................................................................... 61 3.5.4. Thử nghiệm hệ thống .......................................................................... 61 3.5.4.1. Chức năng khai phá dữ liệu ...................................................... 61 3.5.4.2. Giao diện chẩn đoán bệnh ......................................................... 62 3.5.4.3. Danh mục các triệu chứng bệnh thông thường ....................... 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...............................................................65 DANH MỤC TÀI LIỆU THAM KHẢO ................................................................ 66 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
vi DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt Tiếng anh Tiếng việt Q&A Question Answering Hỏi - đáp CSDL Cơ sở dữ liệu DANH MỤC BẢNG BIỂU Tên bảng Trang Bảng 3.2a. Bảng dữ liệu da rám nắng 52 Bảng 3.2b. Phân hoạch 54 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
vii DANH MỤC CÁC HÌNH Hình 1.1. Xu hướng trong nghiên cứu về Q&A .........................................................7 Hình 1.2. Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa ...........................11 Hình 1.3. Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ mạng NN ...................................................................................................................................12 Hình 1.4. Mô hình biểu diễn tri thức nhờ bộ ba liên hợp O.A.V .............................14 Hình 1.5. Hệ thống tìm kiếm thông tin .....................................................................18 Hình 1.6. Kiến trúc hệ thống hỏi đáp .......................................................................19 Hình 2.1 Quá trình phát hiện tri thức ......................................................................21 Hình 2.2. Phân lớp dữ liệu .......................................................................................26 Hình 2.3. Phân cụm dữ liệu ......................................................................................28 Hình 2.4. Siêu phẳng h phân chia dữ liệu huấn luyện thành 2 lớp + và – với khoảng cách biên lớn nhất. Các biên gần h nhất là các vector hỗ trợ (Support Vector – được khoanh tròn) ....................................................................................................36 Hình 2.5. Ước lượng độ chính xác của mô hình phân lớp với phương pháp holdout ...................................................................................................................................39 Hình 3.1 Phân hoạch các thuộc tính ........................................................................54 Hình 3.2 Phân hoạch các thuộc tính ........................................................................55 Hình 3.3 Mô hình kiến trúc của hệ thống ................................................................59 Hình 3.4. Giao diện khai phá dữ liệu .......................................................................61 Hình 3.5 Chẩn đoán bệnh của hệ thống ...................................................................62 Hình 3.6 Chẩn đoán ................................................................................................62 Hình 3.7 Giao diện câu hỏi của hệ thống .................................................................63 Hình 3.8 Giao diện kết quả chẩn đoán của .............................................................63 Hình 3.9 Giao diện hỗ trợ của hệ thống .................................................................64 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
viii Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1 ĐẶT VẤN ĐỀ Ngày nay với sự phát triển mạnh mẽ của khoa học kỹ thuật từ lý thuyết đến ứng dụng, người ta đang cố gắng đưa công nghệ thông tin vào các ngành nghề như: khoa học kỹ thuật, giáo dục, y tế, v.v, trong đó lĩnh vực y tế ngày càng được nhiều người quan tâm. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Phân tích câu hỏi là phần đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các phần sau (trích chọn tài liệu, trích xuất câu trả lời, v.v). Vì vậy,việc phân tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời. Hệ thống hỏi - đáp tự động là một công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm trao đổi thông tin ngày càng cao của con người, trong hệ thống hỏi đáp có rất nhiều dạng câu hỏi như: Câu hỏi dạng định nghĩa (What), câu hỏi về nơi chốn (Where), câu hỏi như thế nào (How), câu hỏi đúng/sai (Yes/No). Nhưng hệ thống hỏi - đáp (Yes/No) lại mới chỉ được quan tâm trong vài năm gần đây. Như vậy,việc xây dựng một hệ thống hỏi - đáp (Yes/No) là một nhu cầu cần thiết. Hướng tới mục tiêu này, chúng tôi muốn xây dựng một mô hình hệ thống hỏi - đáp tự động (Yes/No) nhằm phục vụ cho một lĩnh vực cụ thể là hỗ trợ việc chẩn đoán và khuyến nghị điều trị các bệnh lý thông thường trong cuộc sống. Trong cuộc sống hằng ngày, có rất nhiều các loại bệnh thường xuyên đe dọa đến sức khỏe của con người chúng ta. Thường các loại bệnh này xuất phát từ các triệu chứng, nhưng không phải ai cũng biết. Cho nên yêu cầu của con người chúng ta cần có một hệ thống hỏi - đáp giúp họ chẩn đoán được các bệnh và giúp họ hướng giải quyết để đảm bảo được sức khỏe cho chính mình. Như vậy, mục tiêu của đề tài này là tìm hiểu các tri thức cơ bản của y khoa về các loại bệnh thông thường, thu thập tri thức để xây dựng một hệ thống hỏi đáp Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2 nhằm hổ trợ chẩn đoán và phân loại các bệnh thường gặp, cho người sử dụng những lời khuyên hữu ích trong việc phòng và điều trị bệnh. Nhận thấy tính thiết thực của vấn đề này và được sự gợi ý của giảng viên hướng dẫn, tôi đã chọn đề tài “Các thuật toán phân lớp dữ liệu và ứng dụng xây dựng hệ thống hỏi đáp tự động về một số bệnh thường gặp". 1. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU - Nghiên cứu kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu. - Tìm hiểu về các bệnh thường gặp và xây dựng cơ sở tri thức về các biểu hiện của bệnh dựa trên cơ sở dữ liệu thu thập được tại Bệnh viện Đa khoa tỉnh Thanh Hóa để phân lớp các loại bệnh. 2. PHƯƠNG PHÁP NGHIÊN CỨU  Phương pháp nghiên cứu lý thuyết: Nghiên cứu qua các tài liệu, sách, sách điện tử, các bài báo, thông tin tài liệu trên các website và các tài liệu liên quan và công nghệ liên quan, tổng hợp các tài liệu, phân tích và thiết kế hệ thống thông tin theo quy trình xây dựng ứng dụng phần mềm.  Phương pháp nghiên cứu thực nghiệm: Phân tích hiện trạng và yêu cầu thực tế của bài toán và xây dựng các bước phân tích hệ thống để hỗ trợ việc lập trình, xây dựng ứng dụng,vận dụng các vấn đề nghiên cứu về mã hóa thông tin trong tiến trình xây dựng hệ thống, đánh giá kết quả đạt được. 3. HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI - Nghiên cứu phương pháp phân lớp dữ liệu trong KPDL, các thuật toán liên quan đến quy nạp cây quyết định, tìm hiểu các ngôn ngữ mã lệnh siêu tìm kiếm. - Tìm hiểu hệ thống hỏi đáp tự động, ứng dụng công nghệ tri thức hỗ trợ phục vụ chẩn đoán và đưa ra khuyến nghị điều trị một số bệnh thường gặp. 4. BỐ CỤC LUẬN VĂN Sau phần mở đầu, nội dung chính của luận văn được chia thành 3 chương: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3 Chương 1 trình bày lý thuyết về hỏi đáp tự động, cơ sở tri thức, máy suy diễn và ứng dụng máy suy diễn trong hỏi đáp tự động. Chương 2 trình bày các thuật toán phân lớp dữ liệu và trình bày về khai phá dữ liệu. Trên cơ sở lý thuyết đã trình bày ở chương 1, xây dựng ứng dụng cho việc chẩn đoán và đưa ra lời khuyến nghị điều trị các loại bệnh thông thường. Chương 3 trình bày một số vấn đề liên quan đến việc chẩn đoán các loại bệnh thông thường, mô tả cài đặt và thử nghiệm ứng dụng. 5. Ý NGHĨA KHOA HỌC CỦA ĐỀ TÀI Đề tài đưa ra một phương thức ứng dụng cây quyết định, ID3 trong chẩn đoán được các loại bệnh,và đưa ra khuyến nghị điều trị các loại bệnh thông thường. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
4 Chương 1. Giới thiệu về hệ thống hỏi đáp 1.1. Hệ thống hỏi – đáp tự động Hệ thống hỏi đáp tự động là một hệ thống tự động trả lời câu hỏi của người dùng dựa trên quá trình tự động nhận diện, phân tích câu hỏi, trên cơ sở kết quả phân tích dữ liệu, hệ thống sẽ tìm kiếm các nội dung có liên quan đến câu hỏi và cuối cùng, hệ thống xử lý các nội dung này để trích chọn câu trả lời. Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của rất nhiều các nhà nghiên cứu từ các trường đại học, các viện nghiên cứu và cả các doanh nghiệp lớn trong ngành công nghệ thông tin, có ý nghĩa khoa học lẫn ý nghĩa thực tế. Một hệ thống hỏi đáp tự động (QA) thường gồm 3 bước chung như sau [7]:  Phân tích câu hỏi (Question Analysis).  Tìm kiếm tài liệu (Document Retrieval).  Lựa chọn câu trả lời (Answer Extraction). Bước 1. Phân tích câu hỏi: Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, v.v). Vì vậy,việc phân tích câu hỏi có vai trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ ảnh hưởng lớn đến chất lượng, sự thỏa mãn của người dùng về câu trả lời của hệ thống. Nếu các câu hỏi là độc lập lẫn nhau người ta thường dùng các kỹ thuật phân tích cú pháp và phân loại, giới hạn câu hỏi để xác định loại câu trả lời tương ứng. Tuy nhiên, trên thực tế, người sử dụng đặt các câu hỏi thường liên quan với nhau Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
5 (câu hỏi tình huống). Trong trường hợp này, tri thức, phạm vi của câu hỏi trước đó cần được lưu trữ và xử lý; hay nói cách khác các câu hỏi trước đó là cơ sở cho việc xử lý và lựa chọn câu trả lời phù hợp với câu hỏi đang hỏi. Vai trò của quá trình phân tích câu - Tạo ra các câu truy vấn thông tin làm cơ sở đáp ứng cho quá trình tìm kiếm tài liệu liên quan. - Xác định, phân loại câu hỏi giúp cho quá trình lựa chọn câu trả lời xác định đúng loại câu trả lời phù hợp. Bước 2. Tìm kiếm nguồn tài liệu liên quan Vai trò chính của thành phần tìm kiếm tài liệu liên quan là rút trích ra một tập con từ tập tài liệu cha. Tập tài liệu con này sẽ làm đầu vào cho bộ lựa chọn câu trả lời. Vấn đề chính ở đây là mô hình nào là phù hợp với khối lượng và cấu trúc của văn bản rút trích. Nhiều hướng tiếp cận sử dụng cơ chế sắp xếp các tài liệu đang được rất nhiều nghiên cứu quan tâm và cải tiến [8]. Với hướng tiếp cận này, kết quả trả về là một tập các tài liệu được sắp xếp giảm dần độ liên quan của chúng với câu hỏi đã cho. Để đánh giá kết quả tìm kiếm, hai thông số được sử dụng là độ chính xác và độ bao phủ. Gaizauskas [7] đã đưa ra nhận định: nếu tăng số lượng các tài liệu tìm kiếm được; tức là làm tăng độ bao phủ nhưng lại làm giảm độ chính xác của quá trình lựa chọn câu trả lời. Vì thế, trong quá trình tìm kiếm cần phải cân đối hai thông số này. Ngoài ra, hướng tiếp cận sử dụng mô hình logic để biểu diễn và rút trích tài liệu cho kết quả tìm kiếm rất khó để đánh giá mức độ liên quan với câu trả lời vì nó xem các thuật ngữ là tách biệt, không có quan hệ với nhau về mặt ngữ nghĩa. Tài liệu đầu vào của bộ lựa chọn câu trả lời có thể tồn tại ở nhiều cấu trúc khác nhau. Đối với hệ thống hoạt động tốt với số lượng văn bản nhỏ, nếu sử dụng tất cả nội dung của kết quả tìm kiếm thì rõ ràng không phù hợp và có thể cho kết quả không tốt mà lại mất nhiều thời gian xử lý hơn là trả về các đoạn ngắn của tài Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
6 liệu có liên quan [8]. Vì thế, nhiều bài báo đã nghiên cứu việc ngắt đoạn văn bản từ một tài liệu nguyên bản với mục đích có thể nâng cao độ bao phủ mà vẫn giữ được số lượng kết quả tìm kiếm ở mức nhỏ nhất, [5], [6] đề xuất cách thức chọn các đoạn trong tài liệu và sắp xếp chúng; trong khi [4] không dựa trên kích thước cố định của đoạn văn và chỉ chọn đoạn có kích thước nhỏ nhất có chứa các từ khóa của câu hỏi. Bước 3. Lựa chọn câu trả lời: Đầu vào của quá trình này bao gồm hai thành phần:  Tập các tài liệu có liên quan chứa câu trả lời ứng viên.  Loại câu trả lời mong đợi được trả về trong quá trình phân tích câu hỏi. Dựa trên các tài liệu đầu vào, quá trình lựa chọn câu trả lời sẽ thực hiện các xử lý như: tách câu, gán nhãn, nhận diện tên riêng, v.v. Việc lựa chọn các kỹ thuật và sự kết hợp các kỹ thuật tùy thuộc vào hướng tiếp cận và phương thức xử lý của từng hệ thống hỏi đáp cụ thể. Hướng tiếp cận sử dụng các mẫu để lựa chọn câu trả lời được rất nhiều bài báo đề xuất [6]. Theo đó, quá trình lựa chọn câu trả lời thường không đi sâu vào xử lý tài liệu mà chỉ so khớp mẫu. 1.2. Phân loại các hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo việc xử lý trên tài liệu rút trích nhiều hơn; vì thế tốn nhiều thời gian hơn. 1.2.1. Phân loại theo miền ứng dụng Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời bất kỳ câu hỏi nào được đưa vào. Khó khăn cho hệ thống miền mở đó chính là việc xây dựng các tri thức nên cho việc trả lời cũng như phân tích câu hỏi, các phương pháp hiện nay thường sử dụng một số các bản thể khái quát hay các mạng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
7 tri thức như: wikipedia, bách khoa từ điển, v.v. Tuy nhiên, dữ liệu cho việc trích rút câu trả lời là phong phú, dễ thu thập. Hệ thống hỏi đáp miền đóng (close domain Question answering): Hệ thống tập trung vào trả lời các câu hỏi liên quan đến một miền cụ thể (giáo dục, y tế, thể thao, v.v). Xây dựng hệ thống hỏi đáp miền đóng được coi là bài toán dễ hơn so với xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền (thường là ontology của miền cụ thể). Hệ thống hỏi đáp Miền đóng Miền mở Dữ liệu có cấu trúc Dữ liệu phi cấu trúc (Text) Web Tập dữ liệu lớn Một văn bản đơn Hình 1.1. Xu hướng trong nghiên cứu về Q&A Các nghiên cứu hiện nay về Q&A đang tập trung vào xây dựng hệ thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc (kho văn bản lớn hay dữ liệu web) để tìm câu trả lời. Các nghiên cứu mới và cải tiến những phương pháp cũ để có thể áp dụng cho nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng lặp đang rất được quan tâm (Hình 1.1). 1.2.2. Phân loại theo khả năng trả lời câu hỏi Hệ thống có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện tượng,v.v dựa trên việc trích ra câu trả lời có sẵn trong tập tài liệu. Câu trả lời là Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
8 các chuỗi ký tự trong một tài liệu. Kỹ thuật chính được sử dụng là xử lý chuỗi và từ khóa. Hệ thống có cơ chế lập luận đơn giản: Trích xuất các câu trả lời có sẵn trong tập tài liệu sau đó sử dụng các suy luận để tìm mối liên kết giữa câu trả lời và câu hỏi. Hệ thống sử dụng các nguồn tri thức như bản thể về từng miền cụ thể và bản thể chung. Hệ thống trả lời các câu hỏi yêu cầu khả năng tổng hợp: Các phần của câu trả lời được trích rút từ nhiều tài liệu sau đó được tổng hợp lại thành câu trả lời hoàn chỉnh. Câu hỏi thường là về danh sách, về cách thức, nguyên nhân, v.v. Hệ thống có khả năng giao tiếp với người dùng: Trả lời chuỗi các câu hỏi của người dùng về cùng một vấn đề. Ví dụ các câu hỏi của người dùng như: “Giáo sư A sinh năm nào? Ở đâu? Ông ấy đang công tác ở đâu?”. Hệ thống có khả năng lập luận tương tự: Có thể trả lời các câu hỏi có tính chất suy đoán, câu trả lời ẩn trong tập tài liệu. Hệ thống cần trích ra các luận chứng và sử dụng lập luận tương tự để tìm ra câu trả lời. 1.2.3. Phân loại theo hướng tiếp cận Hướng tiếp cận nông: Nhiều phương pháp sử dụng trong Q&A dùng các kĩ thuật dựa trên từ khóa để định vị các câu, đọan văn có khả năng chứa câu trả lời từ các văn bản được trích chọn về. Sau đó giữ lại các câu, đoạn văn có chứa chuỗi ký tự cùng loại với loại câu trả lời mong muốn (ví dụ các câu hỏi về tên người, địa danh, số lượng, v.v). Hướng tiếp cận sâu: Trong những trường hợp khi mà hướng tiếp cận bề mặt không thể tìm ra câu trả lời, những quá trình xử lý về ngữ pháp, ngữ nghĩa và ngữ cảnh là cần thiết để trích xuất hoặc tạo ra câu trả lời. Các kĩ thuật thường dùng như nhận dạng thực thể, trích xuất mối quan hệ, loại bỏ nhập nhằng ngữ nghĩa, v.v. Hệ thống thường sử dụng các nguồn tri thức như Wordnet, bản thể để làm giàu thêm khả năng lập luận thông qua các định nghĩa và mối liên hệ ngữ nghĩa. Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
9 1.3. Cơ sở tri thức và máy suy diễn 1.3.1 . Cơ sở tri thức 1.3.1.1 . Khái niệm hệ cơ sở tri thức Hệ cơ sở tri thức (CSTT) là chương trình máy tính được thiết kế để mô hình hoá khả năng giải quyết vấn đề của chuyên gia con người. Hệ CSTT là hệ thống dựa trên tri thức, cho phép mô hình hoá các tri thức của chuyên gia, dùng tri thức này để giải quyết vấn đề phức tạp thuộc cùng lĩnh vực. Hai yếu tố quan trọng trong Hệ CSTT là: tri thức chuyên gia và lập luận, tương ứng với hệ thống có hai khối chính là Cơ sở tri thức và mô tơ suy diễn. Hệ Chuyên gia là một loại cơ sở tri thức được thiết kế cho một lĩnh vực ứng dụng cụ thể. Ví dụ: Hệ Chuyên gia về chẩn đoán bệnh trong Y khoa, Hệ Chuyên gia chẩn đoán hỏng hóc của đường dây điện thoại, v.v. - Hệ Chuyên gia làm việc như một chuyên gia thực thụ và cung cấp các ý kiến dựa trên kinh nghiệm của chuyên gia con người đã được đưa vào Hệ Chuyên gia. - Cơ sở tri thức: Chứa các tri thức chuyên sâu về lĩnh vực như chuyên gia. Cơ sở tri thức bao gồm: các sự kiện, các luật, các khái niệm và các quan hệ. - Mô tơ suy diễn: bộ xử lý tri thức theo mô hình hoá theo cách lập luận của chuyên gia. Mô tơ hoạt động trên thông tin về vấn đề đang xét, so sánh với tri thức lưu trong cơ sở tri thức rồi rút ra kết luận. - Kỹ sư tri thức: người thiết kế, xây dựng và thử nghiệm Hệ Chuyên gia. 1.3.1.2 . Hệ phân loại tri thức Tri thức tồn tại dưới hai dạng cơ bản: 1. Tri thức định lượng: Thường gắn với các loại kinh nghiệm khác nhau. Ở đây chúng ta xét về tri thức định tính. 2. Tri thức định tính. Được chia làm 3 loại: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
10 Tri thức mô tả Cho những thông tin về một sự kiện, hiện tượng hay quá trình mà không đưa ra thông tin về cấu trúc bên trong cũng như phương pháp sử dụng bên trong của tri thức đó. Ví dụ: Khẳng định “Việt Nam là đất nước tươi đẹp”. Đây là một khẳng định bất biến, không phụ thuộc vào tình huống, không gian và thời gian. Các tri thức phụ thuộc không gian và thời gian đòi hỏi những mô hình biểu diễn đặc biệt, cho phép thể hiện các tương quan giữa các sự kiện, quá trình không gian và thời gian. Ngoài ra các tri thức mô tả còn cho phép miêu tả các mối liên hệ, các ràng buộc giữa các đối tượng, các sự kiện và các quá trình. Ví dụ: “Tôi muốn mua ô tô” miêu tả mối quan hệ giữa đối tượng “tôi” và “ô tô” thông qua quan hệ “muốn mua”. Tri thức thủ tục Mô tả cách thức giải quyết một vấn đề. Loại tri thức này đưa ra giải pháp để thực hiện một công việc nào đó. Các dạng tri thức thủ tục tiêu biểu thường là các luật, chiến lược, lịch trình và thủ tục. Tri thức điều khiển Dùng để điều khiển, phối hợp các nguồn tri thức thủ tục và tri thức mô tả khác nhau. 1.3.1.3 . Các phương pháp biểu diễn tri thức Biểu diễn tri thức nhờ logic Dựa vào các khái niệm cơ bản về logic mệnh đề và logic vị từ,với một số bài toán, các trạng thái được mô tả qua các biểu thức logic. Khi đó bài toán được phát biểu dưới dạng:  Chứng minh: Từ GT1  GT2  …  GTm suy ra một trong các kết luận: KL1,…, KLn. Ở đây: GTi, KLj là các biểu thức logic (mệnh đề hoặc vị từ)  Tìm ghép: Gán cho các biến tự do sao cho từ GT1,…, GTm suy ra một trong các kết luận KL1,…, KLn. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
11 Cơ sở tri thức gồm hai phần: Các sự kiện và Các luật. Các sự kiện được cho bởi các luật đặc biệt dạng: p  q1; p  q2; …… p  qk; Tập F = (p1,…, pn) tạo nên giả thiết cho quá trình suy diễn. Các luật ở dạng chuẩn Horn: p1  … pn  q Cơ sở tri thức được cấu tạo bởi hai phần: (1) Tập các sự kiện F. (2) Tập các luật R. Các sự kiện được cho bởi: p  qi (x,y,z,…), i = , ở đây qi (x,y,z, …) là các vị từ phụ thuộc vào các hạng thức x, y, z,… Logic vị từ cho phép biểu diễn hầu hết các khái niệm và các phát biểu định lý, định luật trong các bộ môn khoa học. Cách biểu diễn này khá trực quan và ưu điểm căn bản của nó là có một cơ sở lý thuyết vững chắc cho những thủ tục suy diễn nhằm tìm kiếm và sản sinh ra những tri thức mới, dựa trên các sự kiện và các luật đã cho. Biểu diễn tri thức nhờ mạng ngữ nghĩa Mạng ngữ nghĩa là một phương pháp biểu diễn tri thức dùng đồ thị trong đó nút biểu diễn đối tượng cung biểu diễn quan hệ giữa các đối tượng. Các nút và các cung đều được gắn nhãn. Ví dụ 1.1: để thể hiện tri thức “sáo là một loài chim có cánh và biết bay”, người ta vẽ một đồ thị (xem Hình 1.2): Có Cánh Là Sáo Loài chim Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Bay Biết
12 Hình 1.2. Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa Bằng cách thêm nút mới và các cung mới vào đồ thị người ta có thể mở rộng mạng ngữ nghĩa. Các cung mới được thêm thể hiện các đối tượng tương tự (với các nút đã có trong đồ thị), hoặc tổng quát hơn. Chẳng hạn để thể hiện “chim là một loài động vật đẻ trứng” và “cánh cụt là loài chim biết lặn”, người ta vẽ thêm (Hình 1.3): Có Cánh Là Sáo Loài chim Là Động vật Đẻ Trứng Là Bay Biết Cánh cụt Biết Lặn Hình 1.3. Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ mạng ngữ nghĩa Biểu diễn tri thức nhờ các luật Để có thể tận dụng những điểm mạnh trong suy diễn logic nhờ nguyên lý Modun Ponens, các hệ chuyên gia trí tuệ nhân tạo đưa ra các luật sản xuất có dạng: Nếu Điều kiện 1 Điều kiện 2 … Điều kiện m Thì Kết luận 1 … Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn