intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Công nghệ thông tin: Hỏi đáp tự động sử dụng nhiều nguồn tri thức

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:187

10
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Hỏi đáp tự động sử dụng nhiều nguồn tri thức" được hoàn thành với mục tiêu nhằm đề xuất phương pháp để đánh giá độ phù hợp của các câu trả lời trong hệ thống cQA; đề xuất phương pháp để tích hợp thêm nguồn tri thức vào mô hình học sâu để đánh giá độ tương tự giữa các câu hỏi.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Công nghệ thông tin: Hỏi đáp tự động sử dụng nhiều nguồn tri thức

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2022
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TÚ HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU NGUỒN TRI THỨC Chuyên ngành: Hệ thống thông tin Mã số: 9480104.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS.TS. Nguyễn Hà Nam 2. PGS.TS. Lê Anh Cường Hà Nội – 2022
  3. LÌi cam oan Tôi xin cam oan ây là công trình nghiên c˘u cıa riêng tôi. Các k∏t qu£ ˜Òc vi∏t chung vÓi các tác gi£ khác ∑u ˜Òc s¸ Áng ˛ cıa Áng tác gi£ tr˜Óc khi ˜a vào lu™n án. Các k∏t qu£ nêu trong lu™n án là trung th¸c và ch˜a t¯ng ˜Òc ai công bË trong các công trình nào khác. Tác gi£ Nguyπn V´n Tú i
  4. LÌi c£m Ïn Lu™n án ˜Òc th¸c hiªn t§i tr˜Ìng H Công nghª - HQG Hà NÎi, d˜Ói s¸ h˜Óng d®n cıa PGS.TS. Nguyπn Hà Nam, PGS.TS. Lê Anh C˜Ìng. Tôi xin bày t‰ lòng bi∏t Ïn sâu s≠c tÓi th¶y Nguyπn Hà Nam, th¶y Lê Anh C˜Ìng, nh˙ng ng˜Ìi ã có nh˙ng ‡nh h˜Óng giúp tôi thành công trong viªc nghiên c˘u cıa mình. Các th¶y cÙng ã Îng viên và chø b£o giúp tôi v˜Òt qua nh˙ng khó kh´n ∫ tôi hoàn thành ˜Òc lu™n án này. Tôi cÙng xin g˚i lÌi c£m Ïn tÓi các Th¶y, Cô thuÎc khoa Công nghª thông tin, tr˜Ìng H Công nghª, HQGHN, ã t§o mÂi i∑u kiªn thu™n lÒi giúp tôi trong quá trình làm nghiên c˘u sinh. CuËi cùng, tôi xin g˚i lÌi c£m Ïn sâu s≠c tÓi gia ình, b§n bè nÏi ã cho tôi i∫m t¸a v˙ng ch≠c ∫ tôi có ˜Òc thành công nh˜ ngày hôm nay. ii
  5. Mˆc lˆc LÌi cam oan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i LÌi c£m Ïn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii Thu™t ng˙ và t¯ vi∏t t≠t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi Danh sách hình v≥ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii Danh sách b£ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix M– ÜU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Ch˜Ïng 1. T NG QUAN Vó Hõ TH»NG HƒI ÁP . . . . . . . . . 12 1.1 TÍng quan v∑ hª thËng h‰i áp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2 Phân lo§i các hª thËng h‰i áp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.1 H‰i áp d¸a trên cÏ s tri th˘c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.2 H‰i áp tr¸c quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2.3 H‰i áp cÎng Áng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 MÎt sË hª thËng cQA thông dˆng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3.1 Yahoo!Answer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.2 StackOverflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3.3 Quora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3.4 MÎt sË cQA ti∏ng Viªt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.4 Tình hình nghiên c˘u v∑ cQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.1 Các nghiên c˘u liên quan v∑ tìm ki∏m và x∏p h§ng câu h‰i . . . . . 25 1.4.2 Các nghiên c˘u liên quan v∑ ánh giá Î phù hÒp cıa câu tr£ lÌi 29 1.5 Các ki∏n th˘c cÏ s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.5.1 T™p nhúng t¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.5.2 M§ng nÏ-ron tích ch™p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1.5.3 M§ng bÎ nhÓ dài-ng≠n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.5.4 Các Î o phân lo§i và x∏p h§ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 1.6 Các vßn ∑ nghiên c˘u cıa lu™n án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 1.7 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 iii
  6. Ch˜Ïng 2. TÌM VÀ XòP HÑNG CÁC CÂU HƒI LIÊN QUAN 49 2.1 GiÓi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2 Mô t£ bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3.1 Mô hình tìm ki∏m và x∏p h§ng các câu h‰i . . . . . . . . . . . . . . . . . . . . . 50 2.3.2 Trích rút t¯ (cˆm t¯) khóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.3 Bi∫u diπn d¸a trên mô hình word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.4 Bi∫u diπn d¸a trên lo§i câu h‰i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.5 Bi∫u diπn d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi . . . . . . . . . 57 2.3.6 Phân lo§i câu h‰i. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.3.7 X∏p h§ng câu h‰i. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.4 Th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.4.1 T™p d˙ liªu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.4.2 Cài ∞t th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.4.3 K∏t qu£ th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.4.4 ánh giá các k∏t qu£ th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.5 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Ch˜Ïng 3. ÁNH GIÁ À PHÙ H—P C’A CÂU TRÉ LÕI . . 70 3.1 GiÓi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2 Mô t£ bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.3 Các ∞c tr˜ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.1 Các ∞c tr˜ng n-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.2 Các ∞c tr˜ng d¸a trên thuÎc tính cıa câu h‰i . . . . . . . . . . . . . . . . . 72 3.3.3 ∞c tr˜ng d¸a trên thông tin ng˜Ìi dùng . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.4 ∞c tr˜ng d¸a trên t™p nhúng t¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.4 S˚ dˆng Wikipedia nh˜ nguÁn tài nguyên bên ngoài . . . . . . . . . . . . . . . . 75 3.4.1 Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4.2 S˚ dˆng Wikipedia cho ánh giá Î phù hÒp cıa câu tr£ lÌi . . . . 75 3.5 Th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.5.1 T™p d˙ liªu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.5.2 Cài ∞t th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.3 K∏t qu£ th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.5.4 ánh giá các k∏t qu£ th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.6 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 iv
  7. Ch˜Ïng 4. TÍCH H—P NHIóU NGU«N TRI THŸC TRONG MÔ HÌNH H≈C SÂU ö ÁNH GIÁ À T◊ÃNG T‹ . . . . . . . . . . . . 88 4.1 GiÓi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.2 Mô t£ bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.3.1 NguÁn tri th˘c bên ngoài (External Knowledge - EK). . . . . . . . . . . 91 4.3.2 Mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN . . . . . . . . . . . . . . . . . 95 4.3.3 Mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN tích hÒp thêm tri th˘c 100 4.3.4 Mô hình d¸a trên m§ng BLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.3.5 Mô hình d¸a trên m§ng BLSTM tích hÒp thêm tri th˘c . . . . . . . 103 4.3.6 Mô hình d¸a trên BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.4 Th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.4.1 T™p d˙ liªu và các Î o ánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.4.2 Các th¸c nghiªm trên t™p d˙ liªu SemEval 2016 . . . . . . . . . . . . . . . 107 4.4.3 Các th¸c nghiªm trên t™p d˙ liªu Quora. . . . . . . . . . . . . . . . . . . . . . . 111 4.4.4 So sánh vÓi các k∏t qu£ nghiên c˘u khác . . . . . . . . . . . . . . . . . . . . . . 115 4.5 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 KòT LUäN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Danh mˆc công trình khoa hÂc cıa tác gi£ liên quan ∏n lu™n án . . . 122 Tài liªu tham kh£o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 v
  8. Thu™t ng˙ và t¯ vi∏t t≠t T¯ vi∏t t≠t T¯ gËc Gi£i nghæa - T§m d‡ch BERT Bidirectional Encoder Mô hình mã hóa hai chi∑u d˙ Representations from liªu t¯ các khËi Transformer Transformers BLSTM Bi-directional Long Short-Term M§ng bÎ nhÓ dài-ng≠n hai Memory chi∑u CBOW Continuous Bag-Of-Word Mô hình túi t¯ liên tˆc CLEF Cross Language Evaluation Diπn àn ánh giá a ngôn ng˙ Forum CNN Convolutional Neural Networks M§ng nÏ-ron tích ch™p cQA community Question Answering H‰i áp cÎng Áng IE Information Extraction Trích rút thông tin IR Information Retrieval Truy hÁi thông tin KBQA Knowledge Base Question H‰i áp d¸a trên cÏ s tri th˘c Answering LSTM Long Short-Term Memory M§ng bÎ nhÓ dài-ng≠n MLP MultiLayer Perceptron Perceptron nhi∑u t¶ng NLP Natural Language Processing X˚ l˛ ngôn ng˙ t¸ nhiên QA Question Answering H‰i áp RNN Recurrent Neural Network M§ng nÏ-ron hÁi quy SVM Support Vector Machines Máy véc-tÏ hÈ trÒ TREC Text REtrieval Conference HÎi ngh‡ truy hÁi v´n b£n VQA Visual Question Answering H‰i áp tr¸c quan vi
  9. Danh sách hình v≥ 1 ThÌi gian trung bình ∫ ng˜Ìi dùng nh™n ˜Òc câu tr£ lÌi [75] . . . . 3 2 SË l˜Òng các câu h‰i và câu h‰i trùng l∞p trên cQA [77] . . . . . . . . 3 3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo! Answers [14] . . . . . 4 1.1 Minh hÂa cıa mÎt hª thËng KBQA . . . . . . . . . . . . . . . . . . . . 15 1.2 Minh hÂa cıa mÎt hª thËng VQA . . . . . . . . . . . . . . . . . . . . . 17 1.3 Minh hÂa cıa mÎt hª thËng cQA . . . . . . . . . . . . . . . . . . . . . 18 1.4 Minh hÂa cıa hª thËng cQA Quora . . . . . . . . . . . . . . . . . . . . 23 1.5 Ví dˆ v∑ bi∫u diπn phân tán t¯ . . . . . . . . . . . . . . . . . . . . . . 34 1.6 Ví dˆ v∑ mËi quan hª gi˙a các véc-tÏ . . . . . . . . . . . . . . . . . . . 34 1.7 Minh hÂa c˚a sÍ tr˜Òt trong mô hình CBOW . . . . . . . . . . . . . 36 1.8 Ki∏n trúc chung cıa mô hình CBOW và Skip-gram . . . . . . . . . . 36 1.9 Minh hÂa phép nhân véc-tÏ ¶u vào vÓi ma tr™n trÂng sË W 1 . . . . . 37 1.10 Minh hÂa tích ch™p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1.11 Minh hÂa ki∏n trúc CNN dùng trong phân lo§i câu [103] . . . . . . . 39 1.12 Các mô- un l∞p cıa m§ng RNN ch˘a mÎt t¶ng . . . . . . . . . . . . . 40 1.13 Các mô- un l∞p cıa m§ng LSTM ch˘a bËn t¶ng . . . . . . . . . . . . 40 1.14 ˜Ìng i cıa ô tr§ng thái trong m§ng LSTM . . . . . . . . . . . . . . 41 1.15 MÎt cÍng cıa hàm sigmoid trong LSTM . . . . . . . . . . . . . . . . . 41 1.16 T¶ng cÍng quên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.17 C™p nh™t giá tr‡ cho ô tr§ng thái . . . . . . . . . . . . . . . . . . . . . 42 1.18 Ô tr§ng thái mÓi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.19 i∑u chønh thông tin  ¶u ra thông qua hàm tanh . . . . . . . . . . 43 1.20 Minh hÂa BLSTM ([86]) . . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.21 Mô hình tÍng quát cıa hª thËng QA mà lu™n án x˚ l˛ . . . . . . . . 48 2.1 Mô hình tìm ki∏m và x∏p h§ng các câu h‰i . . . . . . . . . . . . . . . 51 2.2 So sánh k∏t qu£ mô hình có và không có mô- un phân lo§i câu h‰i . 66 2.3 So sánh Î o phân lo§i (Accuracy ) và Î o x∏p h§ng (M AP ) khi s˚ dˆng các bÎ phân lo§i khác nhau . . . . . . . . . . . . . . . . . 67 3.1 Mô hình ánh giá Î phù hÒp cıa câu tr£ lÌi . . . . . . . . . . . . . . 76 vii
  10. 3.2 Minh hÂa tìm ki∏m tài liªu Wikipedia liên quan . . . . . . . . . . . . 78 3.3 So sánh k∏t qu£ cıa các th¸c nghiªm . . . . . . . . . . . . . . . . . . . 85 4.1 Quan hª gi˙a d˙ liªu và hiªu sußt cıa các mô hình hÂc máy . . . . . 89 4.2 Mô hình d¸a trên CNN tính toán i∫m t˜Ïng Áng gi˙a q ⇤ và qi . . . 96 4.3 Mô hình d¸a trên CNN tích hÒp thêm tri th˘c tính toán i∫m t˜Ïng Áng gi˙a q ⇤ và qi . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.4 Mô hình d¸a trên BLSTM tính toán i∫m t˜Ïng Áng gi˙a q ⇤ và qi . 102 4.5 Minh hÂa mÎt BLSTM Âc chuÈi ¶u vào . . . . . . . . . . . . . . . . 103 4.6 Mô hình d¸a trên BLSTM tích hÒp thêm tri th˘c tính toán i∫m t˜Ïng Áng gi˙a q ⇤ và qi . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.7 Mô hình d¸a trên BERT ánh giá i∫m t˜Ïng Áng gi˙a hai câu h‰i 106 4.8 So sánh k∏t qu£ cıa các mô hình trong nhiªm vˆ tìm ki∏m và x∏p h§ng các câu h‰i trong cQA . . . . . . . . . . . . . . . . . . . . . . . . 112 4.9 So sánh k∏t qu£ cıa các mô hình khác nhau trên t™p d˙ liªu Quora . 115 viii
  11. Danh sách b£ng 1.1 So sánh gi˙a hª thËng IR và QA . . . . . . . . . . . . . . . . . . . . . 13 1.2 B£ng so sánh gi˙a hª thËng KBQA và cQA . . . . . . . . . . . . . . . 19 1.3 ThËng kê d˙ liªu trên StackOverflow . . . . . . . . . . . . . . . . . . . 22 1.4 Các k∏t qu£ d¸ oán cıa bÎ phân lo§i . . . . . . . . . . . . . . . . . . 44 2.1 Ví dˆ v∑ Î t˜Ïng t¸ ng˙ nghæa gi˙a các t¯ . . . . . . . . . . . . . . . 55 2.2 K∏t qu£ tìm t¯ có Î t˜Ïng t¸ ng˙ nghæa lÓn nhßt . . . . . . . . . . . 55 2.3 Ví dˆ v∑ tính toán Î t˜Ïng t¸ ng˙ nghæa gi˙a câu h‰i và câu tr£ lÌi 55 2.4 Ví dˆ v∑ s¸ bi∫u diπn n-gram t¯ cıa câu h‰i . . . . . . . . . . . . . . . 58 2.5 Ví dˆ v∑ tính toán Î t˜Ïng t¸ d¸a trên mô hình túi t¯ . . . . . . . . 59 2.6 Ví dˆ v∑ t™p d˙ liªu SemEval 2016 . . . . . . . . . . . . . . . . . . . . 61 2.7 MÎt sË thËng kê trên t™p d˙ liªu SemEval 2016 . . . . . . . . . . . . . 62 2.8 Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 1 . . . . . . . . . 63 2.9 Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 2 . . . . . . . . . 64 2.10 Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 3 . . . . . . . . . 64 2.11 Các k∏t qu£ phân lo§i và x∏p h§ng cıa th¸c nghiªm 4 . . . . . . . . . 65 2.12 So sánh vÓi các nghiên c˘u khác . . . . . . . . . . . . . . . . . . . . . 67 3.1 Ví dˆ v∑ mÎt sË ∞c tr˜ng n-gram . . . . . . . . . . . . . . . . . . . . 72 3.2 Ví dˆ v∑ Î t˜Ïng t¸ cosine gi˙a câu h‰i và câu tr£ lÌi . . . . . . . . 74 3.3 Ví dˆ v∑ Î t˜Ïng t¸ d¸a trên s¸ bi∫u diπn véc-tÏ t¯ gi˙a câu h‰i và các câu tr£ lÌi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4 Các m®u câu h‰i và câu tr£ lÌi ˜Òc s˚ dˆng cho câu h‰i ‡nh nghæa 77 3.5 MÎt sË thËng kê v∑ t™p d˙ liªu . . . . . . . . . . . . . . . . . . . . . . 82 3.6 Î chính xác cıa bÎ phân lo§i SVM khi s˚ dˆng k∏t hÒp nhi∑u lo§i ∞c tr˜ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.7 Î chính xác cıa bÎ phân lo§i SVM khi s˚ dˆng thêm thông tin t¯ Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.8 So sánh vÓi các nghiên c˘u khác . . . . . . . . . . . . . . . . . . . . . 85 4.1 Ví dˆ v∑ mÎt sË c∞p câu h‰i trong t™p d˙ liªu Quora . . . . . . . . . 107 4.2 MÎt sË thËng kê v∑ t™p d˙ liªu Quora . . . . . . . . . . . . . . . . . . 107 ix
  12. 4.3 Các tham sË cıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN . . . 108 4.4 Các tham sË cıa mô hình d¸a trên m§ng BLSTM . . . . . . . . . . . 109 4.5 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.6 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên m§ng BLSTM . . . . . . . . . . . . . . . . . . . . . 110 4.7 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên BERT . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.8 Các tham sË cıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN . . . 112 4.9 Các tham sË cıa mô hình d¸a trên m§ng BLSTM . . . . . . . . . . . 113 4.10 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên m§ng CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.11 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên m§ng BLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.12 Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.13 So sánh vÓi các nghiên c˘u khác trên t™p d˙ liªu SemEval 2016 . . . 116 4.14 So sánh vÓi các nghiên c˘u khác trên t™p d˙ liªu Quora . . . . . . . . 117 x
  13. M– ÜU 1. Tính cßp thi∏t cıa lu™n án fi t˜ng v∑ xây d¸ng hª thËng h‰i áp t¸ Îng ra Ìi t¯ nh˙ng n´m 1960. i∫m chung trong các hª thËng h‰i áp (Question Answering - QA) giai o§n này là s˚ dˆng cÏ s d˙ liªu ˜Òc thi∏t k∏ b¨ng tay bi các chuyên gia trong lænh v¸c ˜Òc chÂn ∫ trích rút câu tr£ lÌi. Giai o§n nh˙ng n´m 1970 - 1980, có nhi∑u d¸ án lÓn h˜Óng ∏n viªc “hi∫u v´n b£n” và xây d¸ng hª thËng QA d¸a trên các mô hình ngôn ng˙ thËng kê. HÎi ngh‡ TREC1 (Text REtrieval Conference) diπn ra hàng n´m (b≠t ¶u t¯ cuËi nh˙ng n´m 1990) thu hút s¸ tham gia cıa rßt nhi∑u các nhóm nghiên c˘u cÙng ã góp ph¶n rßt lÓn trong viªc thúc ©y các nghiên c˘u v∑ hª thËng QA. CuËi nh˙ng n´m 1990, World Wide Web (WWW) ra Ìi và nhanh chóng phát tri∫n bùng nÍ tr thành mÎt kho ng˙ liªu khÍng lÁ. Các nhà nghiên c˘u v∑ hª thËng QA cÙng b≠t ¶u khai thác web nh˜ là mÎt nguÁn thông tin h˙u ích cho viªc tìm ki∏m câu tr£ lÌi. Các kæ thu™t mÓi òi h‰i tËc Î cao, kh£ n´ng x˚ l˛ l˜Òng d˙ liªu web lÓn rßt ˜Òc quan tâm. Cùng vÓi thÌi gian, các câu h‰i cıa ng˜Ìi dùng dành cho các hª thËng QA ngày càng ph˘c t§p, ôi khi ng˜Ìi dùng ã không nh™n ˜Òc câu tr£ lÌi thích hÒp t¯ các hª thËng QA này. ∫ gi£i quy∏t nh˙ng khó kh´n này, các hª thËng h‰i áp d¸a trên cÎng Áng (community Question Answering - cQA) ã ˜Òc phát tri∫n. Thay vì ph£i trích rút các câu tr£ lÌi t¯ mÎt kho l˜u tr˙ ˜Òc xây d¸ng tr˜Óc, các cQA s˚ dˆng các câu tr£ lÌi t¯ các chuyên gia và cÎng Áng ng˜Ìi dùng cQA. Không nh˙ng v™y, cQA còn cho phép ng˜Ìi dùng ánh giá v∑ chßt l˜Òng cıa các câu tr£ lÌi cÙng nh˜ chÂn câu tr£ lÌi tËt nhßt cho mÈi câu h‰i. Hiªn nay, mÎt sË hª thËng cQA ã ˜Òc s˚ dˆng rßt rÎng rãi trên th∏ 1 https://trec.nist.gov/ 1
  14. giÓi nh˜ StackOverflow2 , WolframAlpha3 , Quora4 . Các cQA này ngày càng tr lên phÍ bi∏n do ng˜Ìi s˚ dˆng có th∫ g˚i câu h‰i  nhi∑u chı ∑ khác nhau, t¯ các câu h‰i s¸ th™t (factoid question) ∏n các câu h‰i ph˘c t§p cÙng nh˜ nh™n ˜Òc các câu tr£ lÌi chính xác hÏn t¯ các chuyên gia, ng˜Ìi s˚ dˆng. Tuy nhiên, viªc xây d¸ng các hª thËng cQA hiªn nay v®n g∞p nhi∑u khó kh´n nh˜: ng˜Ìi dùng ph£i mßt nhi∑u thÌi gian ∫ nh™n ˜Òc câu tr£ lÌi, có mÎt sË l˜Òng lÓn các câu h‰i trùng l∞p, có nhi∑u câu tr£ lÌi kém chßt l˜Òng. 1) ThÌi gian ng˜Ìi dùng nh™n ˜Òc câu tr£ lÌi: Trong các cQA, mÈi khi ng˜Ìi dùng g˚i mÎt câu h‰i, h ph£i mßt vài phút th™m chí vài ngày ∫ có th∫ nh™n ˜Òc câu tr£ lÌi t¯ nh˙ng ng˜Ìi dùng khác. Ngoài ra, do các câu h‰i ˜Òc trình bày d˜Ói d§ng ngôn ng˙ t¸ nhiên nên rßt có th∫ có nhi∑u câu h‰i t˜Ïng t¸ ã ˜Òc h‰i tr˜Óc ó. N∏u cQA có th∫ xác ‡nh và tr£ v∑ ˜Òc danh sách các câu h‰i t˜Ïng t¸ ã ˜Òc h‰i tr˜Óc ó thì khi ó ng˜Ìi dùng không mßt thÌi gian Òi câu tr£ lÌi cıa ng˜Ìi khác mà có th∫ tham kh£o câu tr£ lÌi cıa các câu h‰i t˜Ïng t¸ cho câu h‰i cıa mình. i∑u này không chø giúp ng˜Ìi h‰i có th∫ nh™n ˜Òc câu tr£ lÌi ngay l™p t˘c mà nó còn giúp hª thËng cQA tránh l˜u tr˙ d˜ th¯a d˙ liªu là các câu h‰i trùng l∞p. Trong nghiên c˘u cıa Xiaojun Quan và các cÎng s¸ [75] trên hÏn 200 nghìn câu h‰i trong Yahoo!Answers báo cáo r¨ng ph£i mßt trung bình hÏn n˚a giÌ ∫ ng˜Ìi h‰i nh™n ˜Òc câu tr£ lÌi ¶u tiên n∏u câu h‰i ˜Òc ˜a ra vào buÍi tËi, và thÌi gian là nhi∑u hÏn gßp ôi n∏u các câu h‰i ˜Òc ´ng vào buÍi sáng. Hình 1 cho bi∏t thÌi gian trung bình ∫ ng˜Ìi h‰i nh™n ˜Òc câu tr£ lÌi ¶u tiên/ th˘ hai khi g˚i câu h‰i vào các kho£ng thÌi gian khác nhau trong ngày trên Yahoo! Answers [75]. Ngoài ra, trên th¸c t∏, các cQA phÍ bi∏n nh˜ Yahoo!Answers hay StackOver- flow sË l˜Òng các câu h‰i trùng l∞p là rßt lÓn. Hình 2 cho thßy sË l˜Òng câu h‰i mÈi n´m, cÙng nh˜ sË l˜Òng câu h‰i trùng l∞p t¯ n´m 2011 ∏n n´m 2016 trên trang cQA StackOverflow. Viªc các cQA ph£i l˜u tr˙ mÎt l˜Òng rßt lÓn các câu h‰i trùng l∞p d®n ∏n: (1) £nh h˜ng ∏n kh£ n´ng l˜u tr˙ d˙ liªu cıa các cQA, (2) £nh h˜ng ∏n viªc tr£ lÌi câu h‰i cıa ng˜Ìi dùng, h có th∫ ph£i tr£ lÌi l§i mÎt câu h‰i t˜Ïng t¸. Viªc phát hiªn ra các câu h‰i trong kho l˜u tr˙ cıa cQA t˜Ïng t¸ vÓi câu h‰i 2 https://stackoverflow.com/ 3 https://www.wolframalpha.com 4 https://www.quora.com/ 2
  15. Hình 1: ThÌi gian trung bình ∫ ng˜Ìi dùng nh™n ˜Òc câu tr£ lÌi [75] Hình 2: SË l˜Òng các câu h‰i và câu h‰i trùng l∞p trên cQA [77] mÓi và x∏p h§ng các câu h‰i này theo Î t˜Ïng t¸ cıa chúng vÓi câu h‰i mÓi có th∫ gi£i quy∏t ˜Òc các vßn ∑ nêu trên. Viªc tìm ki∏m và x∏p h§ng các câu h‰i có th∫ coi nh˜ là mÎt nhiªm vˆ cıa viªc ánh giá Î t˜Ïng t¸ ng˙ nghæa gi˙a hai câu h‰i. ây là mÎt trong nh˙ng vßn ∑ th˜Ìng x£y ra nhßt và ã ˜Òc trình bày trong nhi∑u nghiên c˘u khác nhau v∑ cQA. Nó liên quan ∏n s¸ khác biªt trong viªc hình thành ngôn ng˙ t¸ nhiên cıa các câu h‰i. Nh˙ng ng˜Ìi dùng khác nhau h‰i v∑ cùng mÎt nÎi dung nh˜ng h l§i trình bày các câu h‰i theo nh˙ng cách khác nhau. i∑u này d®n ∏n viªc nhi∑u câu h‰i mang ng˙ nghæa t˜Ïng t¸ nh˜ng l§i ˜Òc trình bày khác nhau v∑ t¯ v¸ng. 2) Chßt l˜Òng cıa các câu tr£ lÌi: MÎt trong các thách th˘c lÓn nhßt khi xây d¸ng các hª thËng QA là làm sao ∫ xác ‡nh ˜Òc chßt l˜Òng cıa các câu tr£ lÌi cho mÈi câu h‰i. Ëi vÓi các hª thËng h‰i áp d¸a trên cÏ s tri th˘c (Knowledge Base Question Answering - KBQA), chßt l˜Òng cıa các câu tr£ lÌi phˆ thuÎc vào viªc xây d¸ng kho ng˙ liªu và các kˇ thu™t trích rút câu tr£ lÌi. Trong khi ó, Ëi vÓi các cQA, do câu tr£ lÌi ˜Òc g˚i bi ng˜Ìi s˚ dˆng nên 3
  16. chßt l˜Òng cıa các câu tr£ lÌi có s¸ chênh lªch rßt lÓn. MÈi câu h‰i có th∫ nh™n ˜Òc nhi∑u câu tr£ lÌi trong ó có nh˙ng câu tr£ lÌi không liên quan ho∞c có ch˘a rßt ít thông tin liên quan ∏n câu h‰i. Nhiªm vˆ cıa các hª thËng cQA là ph£i ánh giá ∫ tr£ v∑ cho ng˜Ìi dùng các câu tr£ lÌi chßt l˜Òng nhßt trong sË nhi∑u câu tr£ lÌi nh™n ˜Òc. Trên các cQA, ng˜Ìi tr£ lÌi câu h‰i có th∫ là các chuyên gia-nh˙ng ng˜Ìi có chuyên môn sâu v∑ lænh v¸c ˜Òc h‰i hay chø là nh˙ng ng˜Ìi quan tâm ∏n câu h‰i ó. Do ó chßt l˜Òng cıa các câu tr£ lÌi có s¸ thay Íi rßt lÓn. Trong bài báo cıa Chirag Shah [14], tác gi£ ã th¸c hiªn mÎt nghiên c˘u v∑ chßt l˜Òng cıa các câu tr£ lÌi trên t™p d˙ liªu trích rút t¯ cQA Yahoo! Answers. T™p d˙ liªu này gÁm 3.248.589 câu h‰i và 16.278.891 câu tr£ lÌi t˜Ïng ˘ng. Các câu tr£ lÌi này ˜Òc x∏p h§ng theo các m˘c t¯ 0 ∏n 5 (các câu tr£ lÌi x∏p h§ng 0 là các câu tr£ lÌi không ˜Òc chÂn, các câu tr£ lÌi x∏p h§ng 5 là các câu tr£ lÌi tËt nhßt). Hình 3 cho bi∏t sË l˜Òng câu tr£ lÌi  mÈi m˘c khác nhau. Hình 3: Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo! Answers [14] T¯ Hình 3 cho thßy sË l˜Òng các câu tr£ lÌi không ˜Òc chÂn chi∏m t lª rßt lÓn (84,3%), hay nói cách khác có rßt nhi∑u câu tr£ lÌi cıa ng˜Ìi dùng không liên quan ∏n câu h‰i. Các cQA hiªn nay th˜Ìng ánh giá chßt l˜Òng cıa các câu tr£ lÌi thông qua nh˙ng thông tin cung cßp bi ng˜Ìi dùng nh˜ sË l˜Òng bình chÂn (votes) cho câu tr£ lÌi, câu tr£ lÌi ˜Òc ng˜Ìi dùng chÂn là câu tr£ lÌi tËt nhßt ho∞c câu tr£ 4
  17. lÌi ˜Òc ánh giá là tËt n∏u nó ˜Òc g˚i bi các chuyên gia. ∫ gi£i quy∏t các khó kh´n v∑ thÌi gian chÌ Òi ∫ ng˜Ìi dùng nh™n ˜Òc câu tr£ lÌi, sË l˜Òng các câu h‰i trùng l∞p cÙng nh˜ chßt l˜Òng cıa các câu tr£ lÌi trong các cQA, ã có nhi∑u nghiên c˘u ˜a ra các gi£i pháp: 1) Tìm ki∏m và x∏p h§ng các câu h‰i liên quan ∏n câu h‰i mÓi: Gi£i pháp tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s d˙ liªu liên quan ∏n câu h‰i mÓi không chø giúp ng˜Ìi h‰i có th∫ nh™n ˜Òc câu tr£ lÌi ngày l™p t˘c mà còn giúp các cQA tránh l˜u tr˙ d˜ th¯a các câu h‰i trùng l∞p. Khi ng˜Ìi dùng g˚i mÎt câu h‰i mÓi, hª thËng cQA s≥ ánh giá Î t˜Ïng t¸ cıa câu h‰i này vÓi các câu h‰i ã ˜Òc h‰i tr˜Óc ó. Khi tìm ˜Òc danh sách các câu h‰i t˜Ïng t¸, hª thËng s≥ s≠p x∏p các câu h‰i này theo Î t˜Ïng t¸ cıa chúng vÓi câu h‰i mÓi và tr£ v∑ cho ng˜Ìi h‰i danh sách các câu h‰i này và các câu tr£ lÌi cıa chúng. Khi ó ng˜Ìi h‰i có th∫ tìm thßy câu tr£ lÌi cho câu h‰i cıa mình mà không c¶n chÌ Òi ng˜Ìi dùng khác g˚i câu tr£ lÌi. Vßn ∑ ánh giá Î t˜Ïng t¸ có liên quan ∏n viªc so khÓp ng˙ nghæa gi˙a hai câu h‰i. Cho ví dˆ hai câu h‰i sau: • What is the most populous state in India? • Which state in India has the highest population? C£ hai câu h‰i trên v∑ cÏ b£n ∑u h‰i cùng mÎt nÎi dung, t˘c là câu tr£ lÌi cho câu h‰i này có th∫ phù hÒp vÓi câu h‰i kia và ng˜Òc l§i. Phát hiªn nh˙ng câu h‰i nh˜ v™y s≥ có nhi∑u lÒi ích: tránh d˜ th¯a, t˘c là n∏u mÎt ng˜Ìi ã tr£ lÌi câu h‰i mÎt l¶n, anh ta không c¶n ph£i tr£ lÌi l§i câu h‰i t˜Ïng t¸ n˙a, Áng thÌi hª thËng cÙng tránh ˜Òc viªc l˜u tr˙ các câu h‰i t˜Ïng t¸. Ngoài ra, nó s≥ có lÒi cho ng˜Ìi h‰i, vì n∏u câu h‰i ¶u tiên ã nh™n ˜Òc các câu tr£ lÌi thì các câu h‰i t˜Ïng t¸ sau ó s≥ có câu tr£ lÌi ngay chính là các câu tr£ lÌi cıa câu h‰i t˜Ïng t¸ ã ˜Òc h‰i tr˜Óc ó. G¶n ây, có nhi∑u nghiên c˘u khác nhau ã ˜Òc ∑ xußt ∫ gi£i quy∏t vßn ∑ tìm ki∏m và x∏p h§ng các câu h‰i liên quan ∏n câu h‰i mÓi [56, 68, 72, 73, 97]. Nghiên c˘u cıa Florian Kunneman và các cÎng s¸ [56] phân tích tác Îng cıa các b˜Óc ti∑n x˚ l˛ (nh˜ bi∏n Íi các t¯ trong câu h‰i v∑ ch˙ th˜Ìng, lo§i b‰ dßu câu, lo§i b‰ các t¯ d¯ng (stop words)) và Î t˜Ïng t¸ ng˙ nghæa cıa t¯ (word2vec, fastText) Ëi vÓi viªc xác ‡nh Î t˜Ïng t¸ gi˙a các câu h‰i. Các k∏t qu£ th¸c nghiªm ã ch˘ng minh r¨ng các b˜Óc ti∑n x˚ l˛ và bi∫u diπn t¯ d¸a trên mô hình word2vec cho hiªu qu£ cao nhßt v∑ i∫m sË F1. 5
  18. Trong bài báo [68], các tác gi£ ã xây d¸ng mô hình tÍng hÒp so sánh phân cßp ∫ truy xußt câu h‰i trong cQA. Tr˜Óc tiên mÈi câu h‰i ˜Òc chia tách thành các câu (sentence), sau ó h th¸c hiªn so sánh mÂi c∞p câu trong hai câu h‰i s˚ dˆng mô hình so sánh m˘c t¯. Các k∏t qu£ th¸c nghiªm trên bÎ d˙ liªu SemEval cho thßy mô hình ∑ xußt trong [68] cho k∏t qu£ cao hÏn so vÓi mÎt sË mô hình tr˜Óc ó. Nghiên c˘u cıa Nouha Othman và các cÎng s¸ [72] ∑ xußt ph˜Ïng pháp d¸a trên t™p nhúng t¯ (word embedding) ∫ n≠m b≠t ˜Òc thông tin v∑ ng˙ nghæa và ng˙ c£nh cıa các câu h‰i, các tác gi£ s˚ dˆng Î t˜Ïng t¸ cosin ∫ o Î t˜Ïng t¸ gi˙a các véc-tÏ câu h‰i. Các tác gi£ ã xây d¸ng các th¸c nghiªm trên c£ t™p d˙ liªu ti∏ng Anh và ti∏ng Arabic và chø ra r¨ng ∑ xußt trong [72] cho k∏t qu£ tËt hÏn so vÓi nhi∑u nghiên c˘u tr˜Óc ó. Trong bài báo [73], các tác gi£ ã xây d¸ng các mô hình d¸a trên m§ng nÏ- ron, s˚ dˆng cách bi∫u diπn dày ∞c cıa d˙ liªu v´n b£n ∫ d¸ oán s¸ t˜Ïng Áng v∑ v´n b£n gi˙a các câu h‰i cÎng Áng. Nghiên c˘ ∑ xußt mÎt ph˜Ïng pháp hÂc sâu d¸a trên ki∏n trúc m§ng LSTM, ˜Òc t´ng c˜Ìng vÓi cÏ ch∏ chú ˛ (attention mechanism). Các nghiên c˘u trên ây ã xây d¸ng nhi∑u mô hình khác nhau d¸a trên các thông tin cung cßp bi câu h‰i, câu tr£ lÌi nh¨m ánh giá ˜Òc Î t˜Ïng t¸ gi˙a câu h‰i mÓi vÓi các câu h‰i trong kho l˜u tr˙ cıa hª thËng cQA. Viªc ánh giá Î t˜Ïng t¸ này có th∫ s˚ dˆng thêm nhi∑u ph˜Ïng pháp bi∫u diπn khác nhau (nh˜ bi∫u diπn d¸a trên t™p nhúng t¯) cÙng nh˜ bÍ sung thêm thông tin v∑ lo§i câu h‰i. Ngoài ra, trong vài n´m g¶n ây các mô hình hÂc sâu (deep learning) ã ˜Òc áp dˆng và cho thßy nhi∑u thành công trong lænh v¸c x˚ l˛ ngôn ng˙ t¸ nhiên nh˜: mô hình câu [52], tìm ki∏m thông tin [82], phân tích ng˙ nghæa [95], phân lo§i câu [103]. Trong nghiên c˘u này, lu™n án ã xây d¸ng các mô hình hÂc sâu d¸a trên CNN và LSTM cho bài toán o Î t˜Ïng t¸ gi˙a các câu h‰i. Nghiên c˘u tích hÒp thêm nguÁn tri th˘c bên ngoài vào mô hình hÂc sâu nh¨m gi£i quy∏t bài toán d˙ liªu th˜a, vËn là nh˜Òc i∫m cË h˙u trong các mô hình hÂc sâu. 2) ánh giá Î phù hÒp cıa câu tr£ lÌi: Chßt l˜Òng cıa mÎt hª thËng cQA phˆ thuÎc chính vào chßt l˜Òng cıa các câu tr£ lÌi. ∫ có ˜Òc các cQA tËt, thu hút ˜Òc s¸ tham gia cıa nhi∑u chuyên gia và ng˜Ìi dùng thì y∏u tË quan trÂng là các câu tr£ lÌi trong cQA ph£i là các câu tr£ lÌi có chßt l˜Òng. MÈi 6
  19. câu h‰i trong cQA th˜Ìng nh™n ˜Òc nhi∑u câu tr£ lÌi t¯ ng˜Ìi dùng, hª thËng cQA khi ó ph£i có kh£ n´ng lÂc ra các câu tr£ lÌi tËt nhßt ∫ tr£ v∑ cho ng˜Ìi dùng. ∫ xác ‡nh ˜Òc chßt l˜Òng cıa các câu tr£ lÌi cho mÈi câu h‰i, gi£i pháp ∑ ra là ph£i ánh giá ˜Òc Î phù hÒp cıa mÈi câu tr£ lÌi và ˜a ra cho ng˜Ìi dùng nh˙ng câu tr£ lÌi có Î chính xác cao nhßt. Hai ph˜Ïng pháp ˜Òc s˚ dˆng nhi∑u nhßt ∫ ánh giá Î phù hÒp cıa các câu tr£ lÌi là: (1) ánh giá d¸a trên thông tin cung cßp bi ng˜Ìi dùng [23, 60]: sË l˜Òng bình chÂn (votes) cho câu tr£ lÌi, câu tr£ lÌi ˜Òc chÂn là câu tr£ lÌi tËt nhßt, câu tr£ lÌi ˜Òc g˚i bi các chuyên gia. (2) ánh giá s˚ dˆng các kæ thu™t hÂc máy [32, 35, 59, 76, 94, 101]: s˚ dˆng các kæ thu™t ∫ trích rút các ∞c tr˜ng, sau ó áp dˆng các ph˜Ïng pháp hÂc máy trên t™p các ∞c tr˜ng này ∫ phân lo§i câu tr£ lÌi. Nghiên c˘u cıa Fengshi Jing và Qingpeng Zhang [23] k∏t hÒp thông tin cÎng Áng và phân tích v´n b£n câu h‰i và câu tr£ lÌi trong viªc l¸a chÂn câu tr£ lÌi tËt nhßt. Các thông tin cÎng Áng bao gÁm sË l˜Òng bình chÂn, chuyên môn, th©m quy∑n cıa ng˜Ìi tr£ lÌi. Các ∞c tr˜ng thông dˆng khác s˚ dˆng trong phân tích chßt l˜Òng là s˚ dˆng Î o phÍ bi∏n và t˜Ïng tác xã hÎi [60], chØng h§n nh˜ sË l˜Òng cıa câu tr£ lÌi tËt nhßt chÂn bi ng˜Ìi s˚ dˆng, i∫m ánh giá cho câu tr£ lÌi cıa ng˜Ìi s˚ dˆng, tø lª chßp nh™n cıa câu tr£ lÌi. Trong nghiên c˘u [35], các tác gi£ ã khám phá mô hình d˜a trên m§ng LSTM cho vßn ∑ l¸a chÂn câu tr£ lÌi trong cQA. Nghiên c˘u ∑ xußt tích hÒp s¸ chú ˛ có giám sát (supervised attention) vào m§ng LSTM. Cˆ th∫, nghiên c˘u ã t™n dˆng ng˙ nghæa t¯ v¸ng t¯ bên ngoài ∫ h˜Óng d®n viªc hÂc các trÂng sË cho các c∞p câu h‰i. Mô hình ∑ xußt hÂc ˜Òc nhi∑u ˛ nghæa hÏn cho phép th¸c hiªn tËt hÏn mô hình cÏ b£n. Nghiên c˘u cıa Lishuang Li và các cÎng s¸ [59] ∑ xußt khai thác m§ng t˜Ïng tác nhi∑u cßp Î m£nh (Multiple Fragment-level Interactive Network - MFIN) cho nhiªm vˆ này. MFIN có th∫ m rÎng không gian tìm ki∏m t¯ cßp Î t¯ ∏n cßp Î phân o§n, có lÒi cho viªc thu th™p thêm thông tin theo ng˙ c£nh. Trong MFIN, các tác gi£ áp dˆng cÏ ch∏ chú ˛ nhi∑u m˘c Î phân phËi ∫ chÂn các c∞p phân o§n chính và §t ˜Òc nhi∑u t˜Ïng tác cßp phân o§n. K∏t qu£ th˚ nghiªm ch˘ng minh r¨ng mô hình ∑ xußt trong [59] hiªu qu£ so vÓi nhi∑u ph˜Ïng pháp hiªn có trên bÎ d˙ liªu cQA WikiQA và SemEval. 7
  20. Nghiên c˘u cıa Qunbo Wang và các cÎng s¸ [76] ∑ xußt mÎt n∑n t£ng mÓi tích hÒp hÂc t™p tích c¸c (active learning) và t¸ hÂc (self-paced learning) trong viªc hußn luyªn các mô hình l¸a chÂn câu tr£ lÌi sâu. Nghiên c˘u ∑ xußt mÎt ph˜Ïng pháp ‡nh l˜Òng không ch≠c ch≠n d¸a trên m§ng th¶n kinh Bayes ∫ h˜Óng d®n hÂc t™p tích c¸c và t¸ hÂc theo nh‡p Î trong cùng mÎt quá trình l∞p l§i cıa hußn luyªn mô hình. Các k∏t qu£ th¸c nghiªm ch˘ng minh ph˜Ïng pháp ˜Òc ∑ xußt có th∫ §t ˜Òc hiªu sußt tËt hÏn so vÓi các ph˜Ïng pháp hÂc t™p tích c¸c sâu khác. HÏn n˙a, ph˜Ïng pháp này có th∫ dπ dàng ˜Òc m rÎng cho các nhiªm vˆ khác nh˜ truy xußt thông tin. Nghiên c˘u cıa Zhang và các cÎng s¸ [101] xây d¸ng các mô hình d¸a trên m§ng BLSTM (Bidirectional Long Short-Term Memory) và cÏ ch∏ chú ˛ (atten- tion) cho nhiªm vˆ l¸a chÂn câu tr£ lÌi trong các cQA. K∏t qu£ nghiên c˘u báo cáo r¨ng mô hình mÓi c£i thiªn Î chính xác 3,8% so vÓi mô hình m§ng LSTM truy∑n thËng. Các nghiên c˘u nói trên mÓi chø khai thác nguÁn thông tin h‰i- áp trong các cQA ∫ ánh giá chßt l˜Òng cıa các câu tr£ lÌi. Các nghiên c˘u t™p trung vào viªc xây d¸ng các mô hình ∫ ánh giá ˜Òc Î t˜Ïng t¸ gi˙a câu h‰i vÓi câu tr£ lÌi ho∞c d¸a vào các thông tin cung cßp bi ng˜Ìi dùng ∫ ánh giá chßt l˜Òng cıa các câu tr£ lÌi. Tuy nhiên, chßt l˜Òng cıa mÎt câu tr£ lÌi không chø d¸a trên Î t˜Ïng t¸ cıa nó vÓi câu h‰i cÙng nh˜ d¸a trên các thông tin cung cßp bi ng˜Ìi dùng. C¶n tìm ki∏m thêm mÎt nguÁn thông tin áng tin c™y nào ó ∫ ánh giá tính úng ≠n cıa các câu tr£ lÌi. Nh˜ v™y, vßn ∑ ánh giá Î phù hÒp cıa các câu tr£ lÌi trong các cQA hiªn v®n ch˜a ˜Òc gi£i quy∏t ¶y ı. Lu™n án s≥ ti∏p nËi các nghiên c˘u tr˜Óc ó nh¨m gi£i quy∏t nh˙ng h§n ch∏ ˜Òc nêu ra  trên. 2. Mˆc tiêu cıa lu™n án Tính cßp thi∏t cıa lu™n án ã ˜Òc phân tích  trên cho phép chúng tôi xác l™p lu™n án vÓi tên “H‰i áp t¸ Îng s˚ dˆng nhi∑u nguÁn tri th˘c”. Mˆc tiêu cˆ th∫ cıa lu™n án là ∑ xußt các ph˜Ïng pháp d¸a trên hÂc máy và tích hÒp nhi∑u nguÁn tri th˘c ∫ nâng cao chßt l˜Òng cıa các hª thËng cQA. ∫ th¸c hiªn ˜Òc mˆc tiêu này, lu™n án i vào gi£i quy∏t các bài toán sau: • Th˘ nhßt: Nghiên c˘u, ∑ xußt ph˜Ïng pháp ∫ tìm ki∏m và x∏p h§ng các 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
10=>1