Đ. K. Linh, T. Q. Huy / Hc biu din câu s dng mô hình LSTM trong bài toán tìm kiếm câu hi
16
HC BIU DIN CÂU S DNG MÔ HÌNH LSTM
TRONG BÀI TOÁN TÌM KIM CÂU HI
Đinh Khánh Linh*, Trần Quang Huy
Trường Đại hc Công ngh thông tin và Truyn thông, Đại hc Thái Nguyên, Vit Nam
ARTICLE INFORMATION
TÓM TT
Journal: Vinh University
Journal of Science
Natural Science, Engineering
and Technology
p-ISSN: 3030-4563
e-ISSN: 3030-4180
Hc biu diễn câu mang đầy đủ ng nghĩa của văn bn thách
thc trong các bài toán xngôn ng t nhiên bi vì nếu véc
biểu din ng nghĩa của câu tt thì s làm tăng hiệu năng
ca các bài toán d đoán. Trong bài báo này, chúng tôi đề xut
th nghim s dng mô hình LSTM vi các cách trích rút biu
din câu khác nhau và áp dng vào bài toán tìm câu hỏi tương
đồng vi mục đích khai thác ngữ nghĩa n của câu. Các phương
pháp này tng hp biu din câu t các lp n ca hình
LSTM. Kết qu ch ra rng k thut tng hp biu din câu
dùng kết hp c Max Pooling Mean Pooling cho kết qu cao
nht trên tp d liu SemEval 2017 cho bài toán tìm câu hi
tương đồng.
T khóa: LSTM; hc sâu; x ngôn ng t nhiên; h thng
hỏi đáp; học biu din câu; h thng hỏi đáp cộng đồng.
Volume: 53
Issue: 3A
*Correspondence:
dklinh@ictu.edu.vn
Received: 08 May 2024
Accepted: 27 June 2024
Published: 20 September 2024
Citation:
Dinh Khanh Linh, Tran Quang
Huy (2024). Sentence
representation using LSTM for
finding question
Vinh Uni. J. Sci.
Vol. 53 (3A), pp. 16-22
doi: 10.56824/vujs.2024a063a
1. Gii thiu
Tìm câu hỏi tương đồng trong h thng hỏi đáp cộng đồng
(CQA) mt trong nhng vấn đề nan gii trong x
ngôn ng t nhiên. Nhiu diễn đàn web như Stack
Overflow Qatar Living đang trở nên ph biến linh
hoạt để cung cấp thông tin cho người dùng [1]. Người
dùng th đăng câu hỏi và kh năng nhận được nhiu
câu tr li t những người khác. Để người dùng có th t
động nhận được câu tr li t nhng câu tr lời đã
trong sở d liu, bài toán m câu hỏi tương đồng đã
được đặt ra. Đây là lý do cần thiết để xây dng mt công
c t động tìm các câu hi liên quan t các câu hi mi.
Bài toán tìm kiếm câu hi liên quan được định nghĩa như
sau: Cho mt câu hi mi 𝑞 và mt tp các câu hỏi đã có
trong kho d liu {𝑞1, 𝑞2, , 𝑞𝑛}. Đầu ra yêu cu tr v
danh sách các câu hỏi tương đồng vi 𝑞 sao cho nhng
câu hi liên quan nht s đứng trước nhng câu hi kém
liên quan hơn.
Nghiên cứu [2] đã chỉ ra rng thách thc ln nht ca bài
toán này khong cách t vựng. Điều đó nghĩa cách
s dng các tcm t ca câu hi th nht khác so vi
tcm t ca câu hi th hai mc hai câu có cùng
ý nghĩa. Dưới đây dụ v hai câu hỏi được coi tương
đồng vi nhau mc dù cách s dng t ng khác nhau
được ly t tp d liu SemEval 2017 [3]-[4]:
OPEN ACCESS
Copyright © 2024. This is an
Open Access article distributed
under the terms of the Creative
Commons Attribution License (CC
BY NC), which permits non-
commercially to share (copy and
redistribute the material in any
medium) or adapt (remix,
transform, and build upon the
material), provided the original
work is properly cited.
Vinh University Journal of Science Vol. 53, No. 3A/2024
17
Câu hi 1: Where can I buy good oil for massage?
Câu hi 2: Hi there, I can see a lot of massage center here, but I dont which one is
better. Can someone help me which massage center is good…and how much will it cost
me? Tks.
Hai câu hi này cùng mt ý hỏi nhưng diễn gii khác nhau. Trong câu hi s 2 còn
nhiu ni dung gii thích cho câu hi mang giọng điệu ca dạng văn nói, cha
nhiu t viết tt. Mt thách thc chính ca nhim v này nm quan h ng nghĩa phức
tp và linh hoạt được quan sát gia câu hi và câu hỏi đoạn văn. Trong ví dụ trên, câu hi
1 ch 08 t, trong khi câu hi 2 s dng 34 t để gii thích. Mt khác, câu hi s 2 cha
mt nhóm t bao gm thông tin không liên quan trc tiếp đến câu hi. Ngoài ra, trong khi
mt câu tr li hay phải liên quan đến câu hỏi, chúng thường không chia s các đơn vị t
vng chung. Vấn đ này th gây nhm ln cho các h thng kết hp t đơn giản. Do
đó, những thách thứcy làm cho các tính năng th công ít được mong đợi hơn nhiu so
với phương pháp học sâu. Hơn na, các h thng kết hp t cũng cần hc cách phân bit
các phn hu ích vi các phn không liên quan và tp trung nhiều hơn vào phần hu ích.
Bài toán này thường được tiếp cn như một bài toán xếp hng theo cp, chiến lược
tt nhất để nm bt mi liên h gia các câu hỏi đã có với câu hi mi vn còn là mt vn
đề đang được nghiên cứu. Các phương pháp tiếp cận được thiết lập thường mc phải đim
yếu sau: Đầu tiên, các nghiên cứu trước đây, chng hạn như [5]-[6] s dng mạng nơ-ron
tích t (CNN) hoc mạng nơ-ron lp lại (RNN) tương ứng. Tuy nhiên CNN nhn mnh s
tương tác cục b trong n-gram, trong khi RNN được thiết kế để nm bt thông tin tm xa
và quên thông tin cc b không quan trọng qua véc tơ ẩn lp cui cùng.
Bài báo này đ xut mt phương pháp sử dng các hình hc máy thông dng
để gii quyết những đim yếu trên. Nghiên cu s bắt đầu vi hình Long Short-Term
Memory (LSTM) cơ bn s dụng véc tơ ẩn ti lp cuối cùng để đưa ra biểu din câu. Sau
đó, biểu diễn câu được tng hp bng cách s dng các chiến lược Max Pooling và Mean
Pooling qua các lp n trong mng LSTM, và cuối cùng hình được đánh giá khi kết
hp c hai đặc trưng Max và Mean Pooling.
2. Tng quan v vấn đề nghiên cu
Trong những năm gần đây, nhiu nghiên cứu liên quan đã được đề xuất để gii
quyết bài toán tìm câu hi tương đồng đạt được nhiu kết qu kh quan. C th như sau:
Công việc trước đây về bài toán tìm câu hỏi thường được s dụng đặc trưng kỹ
thut, các công c v ngôn ng tri thc t bên ngoài. dụ, các tính năng ngữ nghĩa
được xây dng da vào Wordnet [7]. hình này ghép các t liên quan đến ng nghĩa
da trên quan h ng nghĩa của t.
Trong hi ngh SemEval 2017, hình đứng đầu trong cuc thi trên tp d liu
SemEval s dụng các đặc trưng kỹ thut rt phc tp như thăm dò hàm nhân hoặc trích rút
đặc trưng nhân cây từ việc đi phân tích các cây cú pháp [8]. Mt nghiên cu khác khai thác
các đặc trưng độ tương t khác nhau như độ đo Cosine, độ đo Euclidean về khong cách
t vng, cú pháp và ng nghĩa [5] để biu din câu hc t mô hình SVM.
Các nghiên cu trên bài toán tìm câu tr li [9]-[12] trong h thng CQA mang li
hiu qu tt hơn với vic s dng mạng nơ ron mà không cn phi s dụng các đặc trưng
được trích rút th công. Các hình này hc ra biu diễn câu, sau đó thc hiện đo độ
tương tự ca câu hi vi câu hi và câu hi vi câu tr li [10].
Đ. K. Linh, T. Q. Huy / Hc biu din câu s dng mô hình LSTM trong bài toán tìm kiếm câu hi
18
Nghiên cu này nhm th nghim mô hình LSTM cơ bản s dụng véc tơ n ti lp
cuối cùng để biu diễn câu. Sau đó, các chiến lược Max Pooling và Mean Pooling s được
s dng để tng hp biu din câu qua các lp n đó và đánh giá mô hình khi kết hp c
hai đặc trưng trên.
3. Các mô hình đề xut
3.1. Mô hình gc LSTM
LSTM mt dng mạng -ron RNN đc bit da vào d liu dng chui [13].
LSTM s dng một vài vectơ cổng ti mi v trí để kim soát vic truyn thông tin dc
theo trình t do đó cải thin hình hóa các ph thuc phm vi dài. Trong khi các
biến th khác nhau ca LSTM. X = (x1, x2,..., xN) được s dng để biu th mt chuỗi đầu
vào, trong đó xk RL (1 k N). Xác định vectơ này được s dụng cùng nhau đ to ra
mt chiu d-chiu trng thái n hk như sau [11]:
( )
( )
( )
( )
( )
1
1
1
11
W,
W,
W,
tanh W
tanh
i i i
k k k
f f f
k k k
o o f
k k k
c c c
k k k k k k
k k k
i x V h b
f x V h b
o x V h b
c f c i x V h b
h o c
= + +
= + +
= + +
= + + +
=
(1)
trong đó: i, f, o cng vào, cng quên cổng ra tương ng, ma trn W, V b
là ma trn hc t mô hình.
3.2. Các phương pháp biểu din câu
Hình 1 t cách ly biu din câu s dng lp n cui cùng trong bài toán m
câu hỏi tương đồng.
Hình 1: Mô hình LSTM s dụng véc tơ ẩn ti lp cuối cùng dùng để biu din câu
Hình 2 t phương pháp ly biu din câu s dng phép toán Max Pooling ca
các lp n. Max Pooling nghĩa thc hin ly giá tr ln nht ca tng thành phn
trong các lp n.
Vinh University Journal of Science Vol. 53, No. 3A/2024
19
Hình 2: Mô hình LSTM s dng phép toán Max Pooling để ly biu din câu
Hình 3 dưới đây tả phương pháp lấy biu din câu s dng phép toán Mean
Pooling ca các các lp n. Mean Pooling thc hin tính giá tr trung bình ca tng
thành phn trong các lp n.
Hình 3: Mô hình LSTM s dng phép toán Mean Pooling để ly biu din câu.
Cui cùng, hai k thut ly Mean và Max kết hợp để đưa ra dự đoán câu.
Hàm mt mát là hàm cross entropy [14]:
𝐿𝑚𝑜𝑑𝑒𝑙 = 1
𝑆∑(𝑦log 𝑦 + (1 𝑦)log(1 𝑦))+𝛾
2𝑆 𝑾2
2 (2)
Trong đó, S số ng cp câu hi trong tp hun luyện, γ tham s điều chnh
ca mô hình, W là b ma trn trng s ca mô hình.
Đ. K. Linh, T. Q. Huy / Hc biu din câu s dng mô hình LSTM trong bài toán tìm kiếm câu hi
20
4. Kết qu và tho lun
4.1. Tp d liu
Tp d liu SemEval 2017 được s dng để đánh giá các mô hình đề xut. Tp d
liu này được ly t diễn đàn Qatar living [11]. Đây diễn đàn trao đổi v mi vấn đ
dành cho người nước ngoài sng ti Qatar. Tp d liệu được gán nhãn và được chia thành
3 tp: tp hun luyn, tp phát trin và tp kim th. Bng 1 thng kê s ng cp câu hi
trong tp d liu.
Bng 1: Bng thng kê cp câu hi trong tp d liu SemEval 2017 [11]
Cp câu hi
Tp hun luyn
3170
Tp phát trin
700
Tp kim th
880
Độ đo MAP và MRR [9] được s dng để đánh giá hiệu qu của mô hình đề xut.
MAP = 1
|𝑁|1
𝑚𝑗
|𝑁|
𝑗=1 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
|𝑚𝑗|
𝑘=1 (𝑅𝑗𝑘) (3)
4.2. Tham s ca mô hình
Nghiên cu s dng biu din t Glove 300 chiều đưa vào mô hình ở lớp đu vào.
Các t OOV không nm trong tp t điển được khi to mt cách ngu nhiên. S chiu
lp ẩn trong mô hình LSTM được thiết lp là 400 chiu. Thut toán tối ưu Adam được s
dng vi tốc độ học được thiết lp là 0,0001, tham s γ được chn là 0,0001, batch-size
64, drop-out 30%. hình đưc thc thi trên tensorflow chy trên google colab.
Hiệu năng của hình được đánh giá trên tp phát trin chn tham s được chn tt
nht trên tp phát triển và sau đó được thiết lp tham s th nghim trên tp kim th.
4.3. Kết qu
Kết qu th nghim trên các mô hình được th hin Bng 2, cho thy rng khi s
dng k thuật Max Mean Pooling đ đo Map tăng lên từ 40% lên 40,5%. Điều đó chứng
t rằng, khi véc tơ biểu diễn câu được tng hp t các lp n có kh năng khai thác nhiều
thông tin ng nghĩa của câu hơn so vi s dng lp n cuối cùng. Hơn nữa, khi tng hp
biu din câu kết hp c Mean và Max Pooling thì kết qu MAP tăng lên 41,07%. Như
vy, khi nối hai véc tơ Mean và Max Pooling làm cho việc cha thông tin tng hp câu tt
hơn. Do vậy kết qu d đoán của mô hình tốt hơn.
Bng 2: Kết qu của mô hình đề xut
Mô hình
LSTM s dng lp n cui
LSTM-Max Pooling
LSTM-Mean Pooling
LSTM-Mean+Max Pooling