1
M ĐẦU
1. Tính cp thiết ca lun án
S ng bài báo khoa học được công b ngày nay đang gia tăng với tốc độ chưa từng
có, dẫn đến thách thức đáng kể cho các nhà nghiên cứu, đặc bit những người tr thiếu
kinh nghim, trong việc xác định các tài liu liên quan cht lượng cao để trích dn.
Trưc tình trng quá ti thông tin t hàng lot n phm khoa học được công b mỗi năm, các
h thng khuyến ngh trích dn t động có tiềm năng giảm bt gánh nng này. Nhng h thng
này có th cung cấp các đề xut phù hp, h tr các nhà nghiên cu định hướng hiu qu trong
khi lưng thông tin khng l.
Các phương pháp tiếp cn hiện nay đối vi bài toán khuyến ngh trích dn vn tn ti
mt s hn chế. Hn chế đầu tiên nm vic các hình khuyến ngh chưa tận dụng đầy đủ
thông tin t các bài báo khoa hc. Mt trong nhng nghiên cứu tiên phong trong lĩnh vc này
được thc hin bởi Ebesu [10] Färber [11], trong đó họ đề xut mt kiến trúc linh hot da
trên chế hóa-gii (encoder-decoder) tên mng -ron trích dn (Neural
Citation Network - NCN). Mặc hình này đã đạt hiu qu vượt tri so vi các phương
pháp cùng thi trên c b d liu RefSeer arXiv CS, vn còn nhng hn chế đáng kể,
đặc bit việc chưa ch hợp toàn din các thông tin quan trng t bài báo vào quá trình hun
luyn mô hình, chng hạn như tiêu đề, tác giả, năm xuất bản và nơi công bố.
Hn chế th hai liên quan đến vic các hình khuyến ngh hin tại chưa tận dng
nhng tiến b mi nhất trong lĩnh vực hc sâu. Chng hn, các hình khuyến ngh kp như
DualLCR [12] DualLCR-design [13], được nhóm Medić Šnajder giới thiu lần lượt vào
năm 2020 2022, vẫn da trên chế B nh dài-ngn hai chiu (Bidirectional Long-Short
Term Memory, BiLSTM) [14]. Tương tự, hình BERT-GCN do nhóm nghiên cu Jeong
[15] phát triển cũng chưa tích hợp các tiến b mi nht v x ngôn ng t nhiên đồ th
liên kết trích dn trong các bài báo khoa hc.
Hn chế th ba liên quan đến vic các hình khuyến ngh trích dn hin nay ch yếu
tp trung o ng cnh trích dn ni dung ca bài báo ng viên [16] [17], trong khi chưa
khai thác hiu qu siêu d liu ca bài báo, bao gm tên tác giả, năm xuất bản và nơi công bố.
Nhng yếu t y vai trò quan trng trong việc định hình xu ng trích dn ca các nhà
khoa hc, bi l h thường ưu tiên trích dẫn các tác gi uy tín, các công b mi hoc các bài
báo đăng tải ti các tp chí hoc hi ngh hàng đầu trong lĩnh vực nghiên cu ca mình.
2. Mc tiêu ca lun án
p dng các tiến b mi nht t c mô hình học sâu để phát trin mt hình hoàn
toàn mi hoặc đề xut các gii pháp ci thin hiệu năng cho các hình khuyến ngh trích dn
tiên tiến.
3. Đối tưng và phm vi nghiên cu ca lun án
Lun án tp trung nghiên cu và phân tích mt s khía cạnh liên quan đến bài toán
khuyến ngh trích dn, bao gm:
- Các mô hình hc sâu tiên tiến hin có dành cho bài toán khuyến ngh trích dn.
- Các ci tiến trong hình hc sâu, nhng tiến b ni bt trong x ngôn ng t nhiên,
cùng các phương pháp biu din d liu khác nhau t bài báo khoa hc.
- Các ch s đánh giá hiệu sut các b d liu thường đưc s dng trong các mô hình
khuyến ngh trích dn tiên tiến hin nay.
4. Phương pháp nghiên cứu
Nghiên cu lý thuyết: Tp trung nghiên cu và phân tích các kết qu hin có ca các h
thng khuyến ngh trích dn tiên tiến hin nay, đánh giá ưu nhược điểm ca các h thng này
và đề xuất các phương án ci tiến nhm nâng cao hiu suất và đ chính xác ca kết qu khuyến
2
ngh thông qua vic ng dng các k thut hình học sâu. Đồng thi, xem xét các ch s
đánh giá hiệu sut các b d liu ph biến đưc s dng trong các hình khuyến ngh
trích dn.
Nghiên cu thc nghim: Thc hiện cài đặt trin khai các ngun trên các b d
liu ph biến trên môi trường thc nghim, nhằm đo lường và đánh giá các kết qu đạt được t
các phương án đề xut.
5. Các đóng góp của lun án
Vi mc tiêu ci thin hiu sut ca các mô hình khuyến ngh trích dn hiện đại, lun án
đã có những đóng góp đáng k như sau:
- Theo hướng tiếp cp lc nội dung, đưa ra các gii pháp nâng cao hiu sut cho mô hình
mạng nơ-ron trích dn NCN [10] [11] (công b trong công trình CT1).
- Theo hưng tiếp cn lc ni dung kết hp lọc đồ th, phát trin mt hình mi có tên
RHN-DualLCR, bao gm các gii pháp ci thin hiu sut cho hình khuyến ngh
trích dn kp DualLCR đã được Medić Šnajder công b trước đó [12] [13] (công bố
trong công trình CT2 và CT4).
- Theo hướng tiếp cn lc ni dung và lọc đồ thi, gii thiu hình khuyến ngh trích
dn mi tên SciBERT-GraphSAGE, bng cách kết hp hai tiến b gần đây trong x
ngôn ng t nhiên cho bài báo khoa hc SciBERT [18] và cu trc đồ th
GraphSAGE [19] (công b trong công trình CT3 và CT5).
6. B cc ca lun án
Lun án bao gm phn m đầu các chương nội dung chính đưc sp xếp như sau:
Chương 1 trình y tổng quan các nghiên cu liên quan, phân tích nhng hn chế ca các kết
qu nghiên cu trước đây. Các chương 2, 3 4 tp trung vào các đóng góp chính của lun án,
mỗi chương trình bày các phương pháp được đề xut nhm ci thin hiu qu ca các mô hình
khuyến ngh hiện đại. Phn kết lun tng hp những đóng góp chính của luận án, đề xut các
hướng nghiên cu phát triển trong tương lai nêu nhng vấn đề quan m ca NCS. Cui
cùng, lun án lit kê danh mục các công trình đã công b ca NCS và tài liu tham kho.
Chương 1. TNG QUAN NGHIÊN CU
1.1. Gii thiu bài toán khuyến ngh trích dn
Bài toán khuyến ngh trích dn (citation recommendation) được nhóm nghiên cu ca
McNee đưa ra ln đầu vào năm 2002 [1]. Theo nghiên cu này, hoạt động ca mô hình khuyến
ngh trích dẫn điển hình như đưc mô t trong Hình 1.1 như sau:.
Hình 1.1 Sơ đồ lung x l ca mô hình khuyến ngh trích dn
Nhìn chung, mc tiêu hình khuyến ngh trích dn đề xut các bài báo/trích dn
cho ngưi dùng bng cách khai thác s thích và mi quan tâm nghiên cu ca h. V mt hình
thc, mô hình khuyến ngh trích dn có th được định nghĩa: (P) mt tp hp các bài báo
th được đ xut cho các nhà nghiên cu (U) (Γ) mt hàm tiện ích đo lưng mức độ hu
3
ích ca mt bài báo (pi) (P) đi vi một người dùng c th (ui) (U). V mt toán hc,
th được biu diễn dưới dng (Γ) = (U) × (P) (K), trong đó (K) tp hp khuyến ngh.
Đối với người dùng (u) (U), hình đề xut mt s bài báo (pi) (P) tối đa hóa (Γ)
cho người dùng, thường được biu din thông qua xếp hng do người dùng đưa ra.
1.2. Tng quan các nghiên cu liên quan hin nay
Nhóm ca Beel [6] đã phân loại các mô hình khuyến ngh trích dn da trên các phương
pháp mà hình áp dng: lc cng tác (collaborative filtering, CF), lc ni dung (content-
based filtering, CB), lc da trên đồ th (graph-based filtering, GB) hình kết hp
(hybrid).
Hình 1.2. Mô hình khuyến ngh trích dẫn trong đó nội dung bài báo và h sơ người dùng được
khai thác bằng các phương pháp lọc thông tin khác nhau
1.2.1. Mô hình lc cng tác
hình lc cộng tác đưa ra các khuyến ngh bng cách tn dng xếp hng trước đây
của người dùng xếp hng t những người dùng khác. S ơng đồng giữa người dùng
hng mục được xác định thông qua ma trn xếp hạng người dùng-hng mc (user-item matrix),
được duy trì cp nhật thường xuyên đ đảm bo tính chính xác ca các khuyến ngh. Tuy
nhiên, các hình này thưng gặp kkhăn trong trường hp d liệu thưa thớt, khi quá ít
thông tin đánh giá v các tài liu nghiên cu [7][8][9].
1.2.2. Mô hình lc ni dung
hình CB phân ch ni dung ca tài liu truy vn tìm các tài liệu tương tự. Mô
hình y thc hiện theo các bước: Nhúng tài liu (embedding): chuyển đổi văn bản thành
vectơ số đại din cho ni dung ca bài báo (Doc2vec) ⇒②Tìm hàng xóm gn nhất: xác định
hàng xóm gn nht (trích dn tim năng) ca nó trong không gian vectơ ⇒③Xếp hng li trích
dn tiềm năng (Okapi BM25) Khuyến ngh: theo danh sách đã xếp hng
hình CB hoàn toàn tp trung vào ni dung ca bài báo không yêu cu các siêu d
liệu như địa điểm, thi điểm công b hay s ln trích dẫn. Điều này làm cho hình đặc bit
hữu ích trong trường hp siêu d liệu không đầy đủ hoc b thiếu [10][11][12][13][14]. Tuy
nhiên, hình y cũng tồn ti mt s hn chế như: không tn dng siêu d liệu; chưa ng
dụng đầy đủ các thành tu mi trong x ngôn ng t nhiên; chưa khai thác toàn b các
thông tin không phi siêu d liu, chng hạn như tiêu đề bài báo.
1.2.3. Mô hình lc da trên đ th
Mô hình lc dựa trên đ th tn dng liên kết trích dẫn để khuyến ngh các bài báo có liên
quan [15][16][17][18][19][20]. hình này thc hiện các bước Xây dựng đồ th: xây dng
4
các nt trong đó biểu th các bài báo các cnh biu th liên kết trích dn gia chúng ⇒②
Nhng nt (node embedding): Các bài báo được nhng vào không gian vectơ bng các k
thuật như GCN, HIN, GAT, GraphSAGE…⇒③Tính toán độ tương tự giữa các vectơ nhng
để xác định các trích dn tiềm năng⇒④Xếp hng dựa trên điểm tương đồng các xếp hng
cao đưc đề xut làm trích dn.
Phương pháp này khai thác hiệu qu các mi quan h trích dn gia các bài báo, cung cp
thông tin sâu sc v mc đ liên quan và tác đng của bài báo trong lĩnh vực nghiên cu.
1.2.4. Mô hình kết hp
Mi loại mô hình đều có những ưu nhược điểm riêng, do đó, việc kết hp các k thut
t hình lc cng tác (CF), lc ni dung (CB) lc dựa trên đồ th (GB) xu hướng tt
yếu nhm khai thác tối đa thông tin từ các bài báo. Các nghiên cu tiêu biu theo hướng tiếp
cn y bao gồm các hình như DualLCR (CB+CF) [21][22], BERT-GCN (CB+GB) [23],
MP-BERT4CR (CB+GB) [24], và RecCite (CB+CF) [25]. Tuy nhiên, các mô hình kết hp này
vn tn ti mt s hn chế, chng hạn nchưa tn dng triệt để các thông tin b sung ca bài
báo hoặc chưa khai thác đầy đủ các thành tu mi nht trong học sâu, đặc bit trong x
ngôn ng t nhiên và mng tích chập đồ th.
Chương 2. MÔ HNH ENHANCED-NCN B SUNG THÊM THÔNG
TIN TIÊU Đ VÀ S DNG PHÉP NHÚNG BERT
2.1. M đầu
Chương 2 trình y chi tiết v đề xut ci tiến hình NCN ca hai nhóm nghiên cu
Ebesu [10] Färber [11] bng cách b sung thêm thông tin ca bài báo s dng phép
nhúng BERT. Các kết qu trong chương này đưc công b trong công trình CT1.
2.2. Phân tích vấn đề tn ti ca mô hình NCN
hình mạng -ron trích dn (Neural Citation Network - NCN) mt trong nhng
mô hình đầu tiên được công b để gii quyết bài toán khuyến ngh trích dn. NCN lần đầu tiên
được gii thiệu vào năm 2017 bởi nhóm nghiên cu của Ebesu Yi Fang [10], sau đó
được ci tiến vào năm 2020 bi nhóm nghiên cu của Färber [11]. Như t trong Hình 2.1,
mô hình NCN bao gm ba thành phn chính: b mã hóa, b giải mã, và cơ chế chú ý.
Hình 2.1. Kiến trúc tng th ca mô hình NCN
2.2.1. B mã hóa
B hóa trong hình NCN đưc thiết kế nhm chuyển đổi ng cnh trích dn
tên tác gi được trích dn hoặc đang được trích dẫn thành các đặc trưng đại din cha thông tin
quan trng v ng cnh tác gi tương ng. B hóa này bao gm hai thành phn chính:
mã hóa ng cnh trích dn (citation context encoding) và mã hóa tác gi (author encoding).
5
hóa ng cnh trích dn chu trách nhim a bi cnh trích dn trong các bài
báo khoa hc. Thành phn y s dng mạng -ron độ tr thi gian (Time-Delay Neural
Network - TDNN) do nhóm nghiên cu Collobert [64] gii thiu. TDNN cho phép lan truyn
song song qua mng, giúp tính toán đồng thi tt c các ánh x đặc trưng (feature maps).
Trong hình NCN, TDNN bao gm mt lp chp (convolutional layer), tiếp theo lp gp
(pooling layer) và lp kết ni đy đủ (fully connected layer).
Để tạo ra các đề xut trích dn bao gm thông tin tác giả, NCN cũng tích hợp mt b
hóa tác gi, kiến trc tương tự như b hóa ng cnh. B hóa tác gi được áp
dng cho (1) phn nhúng tên tác gi (Aq) ca tài liu t ng cnh truy vn (2) phn nhúng
tên tác gi (Ad) ca tt c các i báo trong sở d liu. Quá trình hóa tác gi được thc
hin nhiu ln bng cách s dng TDNN với các ch thước b lc vùng khác nhau trong lp
chp. Biu din cui cùng của văn bản được hiu kết qu ca vic tích hp mã hóa ng
cnh và mã hóa tác gi.
sj = [f(Xq) f(Aq) f(Ad)]j
(2.1)
trong đó (Xq) biu din cho mt ng cnh trích dn.
2.2.2. B gii mã
B gii mã trong mô hình NCN là mt mạng nơ-ron hi quy (Recurrent Neural Network
- RNN) s dụng đơn vị hi quy có kim soát (Gated Recurrent Units - GRU) [65] m chế
kim soát (gating mechanism) và tích hợp cơ chế chú ý [66]. B giải mã này được áp dng cho
tiêu đề ca tt c các tài liu tiềm năng thể được s dng làm trích dn cho ng cnh truy
vn. Chức ng chính ca b gii tạo ra điểm s cho mi tài liệu trong sở d liu
nhằm xác định mc đ phù hp ca tài liệu đó như một trích dn cho mt ng cnh truy vn c
thể. Các điểm s y sau đó thể được s dụng để đề xut trích dn phù hp vi ng cnh
truy vn.
2.2.3. Cơ chế chú ý
NCN s dụng chế ch ý được gii thiệu ban đầu bi nhóm ca Bahdanau [66]. Vi
chế chú ý này, các hóa (sj) bt ngun t b hóa ng cnh tác gi được gán cho
các trng s ph thuộc vào đầu ra (hi−1) ca b gii cho t đứng trước (i). Kết qu mt
vectơ ngữ cnh (ci) được to thành t tng trng s của đầu ra b hóa (sj) theo mức độ
liên quan của chng. Cơ chế ch ý được s dụng để nhn mạnh vào các hóa đc bit quan
trọng đối với bước thi gian hin ti. chế ch ý được xây dựng dưới dng mạng -ron
truyn thng FNN kết thúc bng lớp softmax để chuyển đổi vectơ chý (aij) thành điểm chú ý
(αij). Những điều này cho thy tm quan trng của đầu ra b mã hóa (sj) đối vi t th (i) trong
tiêu đ ca bài báo hiện đang đưc gii mã.
hình NCN s dụng chế ch ý được gii thiu lần đầu bi nhóm nghiên cu ca
Bahdanau [66]. chế này gán trng s cho các mã hóa (sj) được to ra bi b mã hóa ng
cnh tác gi, dựa trên đầu ra (hi−1) ca b gii t thời điểm trước (i1). Kết qu của
chế chú ý một vectơ ngữ cnh (ci), được tính toán i dng tng có trng s của các đầu ra
t b mã hóa (sj) da trên mức độ liên quan ca chúng. chế ch ý này được thiết kế để tp
trung vào các mã hóa quan trng nht đi vi thi đim hin ti trong chui thi gian. Nó đưc
triển khai dưới dng mt mạng -ron truyn thng (Feedforward Neural Network - FNN)
kết thúc bng mt lp softmax, nhm chuyển đổi vectơ ch ý (aij) thành các điểm chú ý (αij).
Những điểm này th hin mc đ quan trng ca mỗi đầu ra t b mã hóa (sj) đối vi t th (i)
trong tiêu đ của bài báo đang đưc gii mã.
2.2.4. Hn chế ca mô hình NCN
Mc NCN mt trong nhng hình khuyến ngh trích dn ni tiếng đã được
trích dn trong hơn 170 công trình nghiên cu, nhưng hình y vn tn ti mt s hn chế
đáng kể như sau:
(1) Biến đổi nhúng d liệu văn bản: