HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
--------------------------------------
NGUYN MINH TRÍ
NG DNG MÁY HC TRONG TO SINH CÂU
TR LI CHO H THNG HI - ĐÁP
Chuyên ngành: H THNG THÔNG TIN
Mã s: 8.48.01.04
TÓM TT LUẬN VĂN THẠC SĨ
(Theo định hướng ng dng)
TP. H CHÍ MINH NĂM 2022
Luận văn được hoàn thành ti:
HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
Người ng dn khoa hc: PGS.TS NGUYN TUN ĐĂNG
Phn bin 1: .....................................................................................
Phn bin 2: .....................................................................................
Luận văn sẽ đưc bo v trước Hi đồng chm luận văn tại Hc vin
Công ngh Bưu chính Viễn Thông
Vào lúc: ........ gi ........ ngày ........ tháng .......... năm ............
Có th tìm hiu luận văn tại:
- Thư viện ca Hc vinng ngh Bưu Chính Viễn Thông.
1
MỞ ĐẦU
Các h thng tr li câu hi (Question-Answering System - QAS) nhng h
thng th t phân ch câu hi t đưa ra câu trả li. Các h thống QAS được
ng dụng trong kinh doanh và thương mại điện t có th h tr khách hàng mua sn
phm giúp doanh nghiệp tăng doanh thu. dụ, khi mua sm trên mạng, người
dùng th truy cp vào trang web ca các doanh nghiệp đặt câu hỏi để hiu
hơn về sn phm. Yêu cu ca ngưi mua hàng s được các chatbot trên các website
phân tích đưa ra nhng câu tr li với thông tin ích cho người mua hàng. Các
chatbot nhng h thng tr li t động, th giúp ci thin doanh thu bán hàng
đáng kể và là thành phn không th thiếu trong các website bán hàng ngày nay.
Đề tài luận văn nhằm mc tiêu nghiên cu s dng các hình y hc
học sâu để xây dng mt h thng tr li t động (chatbot) chức năng tạo sinh câu
tr li tiếng Vit trong một lĩnh vực ng dng c th. Phân lung câu hi (phân tích
câu hỏi) là pha đầu tiên trong kiến trúc chung ca mt h thng hỏi đáp, có nhiệm v
tìm ra các thông tin cn thiết làm đu vào cho quá trình x ca các pha sau (trích
chn tài liu, trích xut câu tr lời, …). vậy phân tích câu hi vai trò hết sc
quan trng, ảnh hưởng trc tiếp đến hoạt động ca toàn b h thng. Bài toán đt ra
nhiu thách thức để phát hiện ra được câu tr li phù hp nht, thông tin hu ích nht.
Luận văn gồm 5 chương chính với các ni dung sau:
Chương 1: Gii thiu tng quan v h thng tr li t động, các hình tr
li t động và các cơ sở lý thuyết cn thiết khi nghiên cứu đề tài.
Chương 2: Trình y v các công trình nghiên cứu trong ngoài nước liên
quan mt thiết tới đề tài
Chương 3: Gii thiu v cách xây dng nên b d liệu đầu vào để làm d liu
training cho hình t chuỗi văn bản. Bên cạnh đó nêu lên đề xut ca mình v
phương pháp thực hin y dng hình ca bài toán bng cách áp dụng các t
vin Keras, Tensorflow ca Machine Learning. Cuối cùng đánh giá kết qu th
nghim thc tế.
Chương 4: Trình bày chi tiết vic xây dng b d liu hun luyn và quá trình
c th cài đt mô hình cho thut toán.
2
Chương 5: Kết lun nội dung đã được trong đề tài, nêu những khó khăn, hạn
chế trong quá trình nghiên cứu đã gặp phải và đề xut hưng phát trin tiếp theo.
3
Đề tài: ỨNG DỤNG MÁY HỌC TRONG TẠO SINH CÂU TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP
Tóm tt luận văn
CHƯƠNG 1. CƠ S LÝ THUYT
1.1. Gii thiu chung
Bài toán y dng h thng hỏi đáp một bài toán khó thuộc lĩnh vực x
ngôn ng t nhiên. Chúng ta biết rng ngôn ng t nhiên vn nhp nhằng, đa nghĩa,
việc xác định được ng nghĩa của câu hỏi cũng như phát hin ra câu tr li mt
thách thc không nh. Không nhng vy, gia câu hi câu tr li còn tn ti các
quan h “ngầm” hay phụ thuc vào ng cnh. Bài toán đặt ra nhiu thách thức để
phát hiện ra được câu tr li phù hp nht, thông tin hu ích nht.
1.2. H thng tr li t động
H thng tr li t động (QA) [1] mt phm vi ca ngành khoa hc y
tính trong các lĩnh vực truy xut thông tin x ngôn ng t nhiên (Natural
Language Processing - NLP) mt h thng x tr li các câu hỏi do con người
đặt ra dưới dng ngôn ng t nhiên. QA thường được vn hành bi một chương trình
máy tính, y dng các câu tr li bng cách truy vấn đến một sở d liu cu
trúc cha các thông tin hoc kiến thc liên quan, thưng da trên kiến thc. ELIZA
mt trong nhng h thng tr li t động đầu tiên đưc phát triển vào năm 1964 có
s thành công vượt trội khi được công nhn mt ng dng hữu ích trong lĩnh vc
y tế. ELIZA được xem là một bác sĩ trong lĩnh vực y tế, nó có nhim v là tương tác
với người dùng qua mt giao din tin nhn, tr li các câu hi phn hồi đến hp
thoi tin nhn của người dùng theo cách “bắt chước” liệu pháp m lí ca khách hàng
trung tâm giữa khách hàng (người dùng) bác của h (chương trình máy tính chạy
ng dng ca một bác sĩ).
QA [1] [2] được thiết kế để m ra các câu tr li cho phm vi các câu hi trong
mt tp tài liu hoc to ra câu tr li t mt ngun d liu [3]. H thng cho phép
người dùng hi các câu hi bng ngôn ng t nhiên (Natural Language - NL), sau đó