Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
116
MÔ HÌNH HÓA CHỦ ĐỀ
CHO CÁC ĐỐI TƯỢNG BIBLIOGRAPH
Trần Hồng Diệp, Trần Hữu Hiếu, Mai Ánh Dương, Nguyễn Huy Hoàng
Trường Đại hc Thy li, email: diepthd@tlu.edu.vn
1. TÓM TẮT
Hàng năm, một khối lượng khổng lồ các
ấn bản khoa học ở nhiều hình thức khác nhau
được công bố trên toàn thế giới. Đây kho
lưu trữ tri thức quan trọng của loài người,
cho phép chúng ta được câu trả lời thỏa
đáng trong rất nhiều vấn đề khác nhau. Tuy
nhiên, các ấn bản này khối lượng quá lớn
không thuần nhất về thể loại, cấu trúc.
Điu này làm cho vic tìm ra được câu tr li
thỏa đáng trở nên không hề dễ dàng.
Trong thực tế, câu hỏi thường gặp: trong
lĩnh vực L nào đó những nhà nghiên cứu
uy tín nào? Hoặc ngược lại, một nhà nghiên
cứu A làm việc trong lĩnh vực nào? Ông ta có
uy tín như thế nào trong lĩnh vực đó? Trả lời
câu hỏi này bằng một công cụ tự động, trên
phương diện thuyết rất nhiều nghiên
cứu đã tìm hiểu đưa ra các hình khác
nhau, tuy nhiên để áp dụng được trong thực
tế, vấp phải hai vấn đề. Thứ nhất, dữ liệu
đủ thông tin, đủ lớn mà sẵn dùng, xử lý được.
Thứ hai, hình hóa các đối tượng như thế
nào từ các dữ liệu có được đó?
2. XÂY DỰNG MÔ HÌNH
Trong hệ thống xuất bản khoa học i
chung, các tập đối tượng cơ bản được biết đến
là: nhà xuất bản, tạp chí, báo, hội thảo khoa
học chuyên ngành, nhà nghiên cứu, ấn phẩm,
bài báo. Mỗi đối tượng đây đều một
trường phạm vi giới hạn về lĩnh vực khoa học
mà đối tượng đó hoạt động. Lấy ví dụ, tạp chí
J chuyên xuất bản các ấn phẩm trong lĩnh vực
trí tuệ nhân tạo, hay nhà nghiên cứu R làm
việc trong lĩnh vực an ninh mạng.
Tuy nhiên, việc phân chia số lượng hay
ranh giới giữa các lĩnh vực khoa học nói
chung hay các chuyên ngành hẹp hơn
không có hoặc không rõ ràng. Thậm chí là để
gọi tên một lĩnh vực chuyên ngành hẹp bằng
tên gọi với một vài từ không đủ để tả
nó. Để giải quyết vấn đề này, chúng tôi dự
định đề cập đến một lĩnh vực bởi một tập từ
với số lượng nhất định với trọng số đại
diện cho mức độ quan trọng của mỗi từ trong
tổng thể.
Chúng ta đều biết rằng, nội dung của các
ấn phẩm được công bố chỉ ra lĩnh vực nghiên
cứu của chính nó, của (các) tác giả của
của tạp chí xuất bản ra nó… Một cách tổng
thể, nội dung tổng hợp của tất cả các bài báo
được đăng trong một tạp chí chính là lĩnh vực
hoạt động của tạp chí đó. Tương tự, nội dung
tổng hợp của tất cả các bài báo được công bố
bởi một nhà nghiên cứu chính lĩnh vực
nghiên cứu của ông ta. Tuy nhiên, việc lựa
chọn toàn bộ nội dung các ấn phẩm liên quan
đến một đối tượng để hình hóa lĩnh vực
hoạt động của gặp phải một vấn đề lớn đó
là nội dung toàn văn của các ấn phẩm thường
không sẵn dùng, do lớn nhất do phí bản
quyền. Hơn nữa, việc sử dụng tất cả các ấn
phẩm toàn văn đòi hỏi không gian lưu trữ
cấu hình thiết bị xử cao. Điều này ràng
gây trở ngại lớn cho việc đưa vào ứng
dụng thực tế.
Trong nghiên cứu [2], tác giả đã đề xuất
việc sử dụng chỉ các tiêu đề của bài báo thay
sử dụng nội dung toàn văn của bài viết.
Điều này cho phép c dữ liệu cần thiết
miễn phí nhỏ gọn hơn rất nhiều. Phương
pháp này đã chứng minh được tính đúng đắn
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
117
của nó, song hiệu quả truy hồi chưa được
cao. Đặc biệt trong những trường hợp, dụ,
khi có một nhà nghiên cứu mới, số lượng các
bài báo của ông ta chưa nhiều, sẽ khó mà xác
định chuyên môn của ông ta với vài tiêu đề
bài báo mà ông ta đã công bố. Giải quyết vấn
đề này, chúng tôi đề xuất sử dụng tập các tóm
tắt bài báo (abstract), đây cũng dữ liệu
miễn phí sẵn dùng, để hình hóa lĩnh vực
nghiên cứu của đối tượng.
Theo cách thức đã trình bày, chúng tôi sử
dụng các bài báo làm đối tượng đại diện cho
lĩnh vực hoạt động của các đối tượng khác
trong hệ thống xuất bản học thuật. Cụ thể
chúng tôi đề xuất hình hóa cho hai đối
tượng: Nhà nghiên cu - Researcher và Nơi
xut bn - VENUE (Journal, Conference,…)
như sau:
Chúng tôi xác định rằng, với mỗi nhà
nghiên cứu R, tập tất cả n các bài báo A
ông ta tác giả hoặc đồng tác giả sẽ đại
diện hoàn hảo cho lĩnh vực nghiên cứu của
ông ấy.
R A(a1, a2, … an)
Song, như đã đề cập, chúng tôi không sử
dụng nội dung toàn văn của các bài báo đó,
chúng tôi chọn sử dụng tất cả các tiêu đề
ai.title tất cả các tóm tắt ai.abstract của
các bài báo đó. Thực tế những thông tin này
được chính các tác giả viết ra nhằm tả
chính xác ngắn gọn về nghiên cứu đó.
như vậy, chúng tôi thiết lập một văn bản
MegaText d từ việc ghép nối liên tục tất cả
các tiêu đề các tóm tắt của tập. Đây là đối
tượng đại diện cho nhà nghiên cứu R về lĩnh
vực hoạt động:
R d (a1.title + a2.title + … + an.title)
+ (a1.abstract + a2. abstract + … + an. abstract)
Đối với văn bản d của mỗi nhà nghiên cứu
R, dựa trên phương pháp véc-tơ không gian
[3], chúng tôi xác định một véc-tơ không
gian TR của m từ xuất hiện trong d:
TR (t1, t2, …, tm)
Từ đây véc-tơ VR được xây dựng theo cách:
V
R (w1R, w2R,…, wmR)
trong đó, wiR trọng số của mỗi từ tương
ứng. Giá trị trọng số này được tính toán dựa
trên s lần xuất hiện ni ca t đó trong d.
Nhằm chuẩn hóa khoảng giá trị của ni và giảm
mức đảnh hưởng của các tphổ biến trong
ngôn ngữ, chúng tôi tính giá trị tf và idf [4]:
wiR = tf(ti,d).idf(ti)
Đây chính là véc-tơ đặc trưng cho lĩnh vực
nghiên cứu của nhà nghiên cứu R.
Tương tự như vậy, chúng tôi cũng mô hình
hóa Nơi xut bn bằng tập bài báo đã
in ấn. Tuy nhiên đây, chúng tôi cho rằng,
theo thời gian, nội dung các công bố thể
những định hướng khác nhau cho mỗi
năm. Do vậy, chúng tôi xác định véc-tơ
không gian véc-tơ đặc trưng cho một nơi
xuất bản, tại một phiên bản năm P:
TP (t1, t2, …, tz)
và: V P (w1P, w2P,…, wzP)
trong đó, z số từ xuất hiện trong văn bản
MegaText d của P; wiP trọng số của từ ti.
Giá trị trọng số này cũng được tính theo công
thức tương tự:
wiP = tf(ti,d).idf(ti)
3. THỰC NGHIỆM
Để có thể thực hiện được thực nghiệm đầu
tiên, chúng tôi sử dụng bộ dữ liệu được trích
xuất từ thư viện số DBLP [5]. Đây là thư viện
số bibliograph khá uy tín cập nhật nhanh
của các nghiên cứu trong lĩnh vực khoa học
máy tính. Chúng tôi sử dụng bản dữ liệu đưa
ra năm 2020 với tổng số gần 5 triệu bài báo
được liệt kê.
Chúng tôi thực hiện trích và xây dựng véc-
đặc trưng cho một số lượng ban đầu các
nhà nghiên cứu các nơi xuất bản. Việc
trích xuất này được chúng tôi thực hiện hoàn
toàn bằng các mô-đun tự xây dựng. Kết quả
thu được tập các MegaText của các nhà
nghiên cứu nơi xuất bản được lưu dưới
định dạng tệp JSON có cấu trúc lần lượt:
{
“ID researcher”, “Name”, “MegaText”
}
Và:
{
“ID venue”, “Name”, “Year”, “MegaText”
}
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
118
Việc xử tính toán để được tập các
véc-tơ đặc trưng cũng được chúng tôi thực
hiện hoàn toàn bằng các mô-đun tự xây dựng.
Dữ liệu bài báo đây bằng tiếng Anh, do
đó việc xử mỗi MegaTexxt được thực hiện
theo cách:
1. Cắt chuỗi (tokenized) thành c từ
(word) dựa trên tập các ký tự ngắt. Loại bỏ t
trong danh sách từ dừng (stop word). Sau đó,
cắt các từ để lấy gốc từ (bởi có nhiều từ
cùng gốc ý nghĩa nhưng được viết dưới các
dạng thức khác nhau của ngôn ngữ tự nhiên
như động từ, động danh từ, động tính từ…).
2. Thu thập các từ riêng biệt khác nhau để
xây dựng không gian véc-tơ
3. Đếm tần suất xuất hiện của các từ
tính giá trị tf và idf. Từ đây, xây dựng c-tơ
đặc trưng.
Toàn bộ công việc thu thập, làm sạch
xử dữ liệu như đã trình bày trên đây được
chúng tôi thực hiện, kết quả được lưu thành
các tệp định dạng JSON.
Toàn bộ các dữ liệu kết quả thu được cuối
cùng cũng như các bước trung gian là khá lớn
được coi đã làm sạch tiền xử để
dùng cho thử nghiệm của các nghiên cứu đã
định hướng tiếp theo của chúng tôi, dụ
nghiên cứu về xếp hạng học thuật.
Với các véc-tơ đặc trưng của các nhà
nghiên cứu của các nơi xuất bản, chúng ta
thể, định hình được nội dung nghiên cứu
của họ. Như một dụ để thể phần nào
đánh giá kết quả thu được, chúng tôi sử dụng
véc-tơ đặc trưng của các phiên bản hội nghị
SIGIR từ 2011 đến 2017, đây là diễn đàn
quốc tế lớn trình bày các kết quả nghiên cứu
mới về các hthống kỹ thuật mới trong
lĩnh vực rộng lớn về truy xuất thông tin.
Chúng tôi xác định 10 từ khóa xuất hiện hàng
đầu từ chủ đề Call for papers. Từ đó, so sánh
để xác định tần suất xuất hiện các từ này
trong danh sách top 20 từ có tần xuất lớn nhất
của mỗi phiên bản. Kết quả ghi trong Bảng 1.
Bảng 1.
Tần suất xuất hiện các từ chủ đề
trong top 20 của các phiên bản SIGIR
Words Appear
rate (%) Words Appear
rate (%)
system 86 search 100
model 100 retrieval 100
recommendation 100 infomation 100
analysis 43 graph 100
knowlrdge 71 learn 100
4. KẾT LUẬN
Nghiên cứu của chúng tôi đề xuất việc mô
hình hóa các đối tượng trong hệ thống xuất
bản các ấn phẩm khoa học bởi tập các dữ liệu
miễn phí sẵn dùng, cho phép trả lời câu hỏi
về nội dung/lĩnh vực nghiên cứu của đối
tượng. Việc đánh giá đầy đủ kết quả này cần
các nghiên cứu chuyên sâu đối với từng
ứng dụng cụ thể của trong bài toán thực
tế. Ngoài ra, kết quả của nghiên cứu này cũng
cho phép tập dữ liệu tốt sẵn sàng chia sẻ
cho các nghiên cứu khác tiếp sau của chính
chúng tôi cũng như các nhà nghiên cứu khác
cần đến, dụ thể bộ dữ liệu dùng
cho các nghiên cứu hình trí tuệ nhân tạo
trong truyền thông học thuật.
Đây là liên kết cung cấp Dữ liệu kết quả.
5. TÀI LIỆU THAM KHẢO
[1] D. Bouyssou. 2013. Should we use
bibliometric indices to evaluate research.
Journées d'Intelligence Artificielle
Fondamentale (JIAF).
[2] G. Cabanac. 2011. Accuracy of inter-
researcher similarity measures based on
topical and social clues. Scientometrics
(2011) 87:597-620.
[3] G. Salton, A. Wong, C.S. Yang. 1975. A
vector space model for automatic indexing.
Communications of ACM, Volume 18,
Issue 11.
[4] G. Salton, C. Buckley. 1988. Term-weighting
approaches in automatic text retrieval.
Information Processing & Management,
Volume 24, Issue 5, 1988, 513-523.