Mô hình hóa chủ đề cho các đối tượng bibliograph

Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5

116

MÔ HÌNH HÓA CHỦ ĐỀ

CHO CÁC ĐỐI TƯỢNG BIBLIOGRAPH

Trần Hồng Diệp, Trần Hữu Hiếu, Mai Ánh Dương, Nguyễn Huy Hoàng

Trường Đại học Thủy lợi, email: diepthd@tlu.edu.vn

1. TÓM TẮT

Hàng năm, một khối lượng khổng lồ các

ấn bản khoa học ở nhiều hình thức khác nhau

được công bố trên toàn thế giới. Đây là kho

lưu trữ tri thức quan trọng của loài người, nó

cho phép chúng ta có được câu trả lời thỏa

đáng trong rất nhiều vấn đề khác nhau. Tuy

nhiên, các ấn bản này có khối lượng quá lớn

và không thuần nhất về thể loại, cấu trúc.

Điều này làm cho việc tìm ra được câu trả lời

thỏa đáng trở nên không hề dễ dàng.

Trong thực tế, câu hỏi thường gặp: trong

lĩnh vực L nào đó có những nhà nghiên cứu

uy tín nào? Hoặc ngược lại, một nhà nghiên

cứu A làm việc trong lĩnh vực nào? Ông ta có

uy tín như thế nào trong lĩnh vực đó? Trả lời

câu hỏi này bằng một công cụ tự động, trên

phương diện lý thuyết có rất nhiều nghiên

cứu đã tìm hiểu và đưa ra các mô hình khác

nhau, tuy nhiên để áp dụng được trong thực

tế, vấp phải hai vấn đề. Thứ nhất, dữ liệu có

đủ thông tin, đủ lớn mà sẵn dùng, xử lý được.

Thứ hai, mô hình hóa các đối tượng như thế

nào từ các dữ liệu có được đó?

2. XÂY DỰNG MÔ HÌNH

Trong hệ thống xuất bản khoa học nói

chung, các tập đối tượng cơ bản được biết đến

là: nhà xuất bản, tạp chí, báo, hội thảo khoa

học chuyên ngành, nhà nghiên cứu, ấn phẩm,

bài báo. Mỗi đối tượng ở đây đều có một

trường phạm vi giới hạn về lĩnh vực khoa học

mà đối tượng đó hoạt động. Lấy ví dụ, tạp chí

J chuyên xuất bản các ấn phẩm trong lĩnh vực

trí tuệ nhân tạo, hay nhà nghiên cứu R làm

việc trong lĩnh vực an ninh mạng.

Tuy nhiên, việc phân chia số lượng hay

ranh giới giữa các lĩnh vực khoa học nói

chung hay các chuyên ngành hẹp hơn là

không có hoặc không rõ ràng. Thậm chí là để

gọi tên một lĩnh vực chuyên ngành hẹp bằng

tên gọi với một vài từ là không đủ để mô tả

nó. Để giải quyết vấn đề này, chúng tôi dự

định đề cập đến một lĩnh vực bởi một tập từ

với số lượng nhất định và với trọng số đại

diện cho mức độ quan trọng của mỗi từ trong

tổng thể.

Chúng ta đều biết rằng, nội dung của các

ấn phẩm được công bố chỉ ra lĩnh vực nghiên

cứu của chính nó, của (các) tác giả của nó và

của tạp chí xuất bản ra nó… Một cách tổng

thể, nội dung tổng hợp của tất cả các bài báo

được đăng trong một tạp chí chính là lĩnh vực

hoạt động của tạp chí đó. Tương tự, nội dung

tổng hợp của tất cả các bài báo được công bố

bởi một nhà nghiên cứu chính là lĩnh vực

nghiên cứu của ông ta. Tuy nhiên, việc lựa

chọn toàn bộ nội dung các ấn phẩm liên quan

đến một đối tượng để mô hình hóa lĩnh vực

hoạt động của nó gặp phải một vấn đề lớn đó

là nội dung toàn văn của các ấn phẩm thường

không sẵn dùng, lý do lớn nhất là do phí bản

quyền. Hơn nữa, việc sử dụng tất cả các ấn

phẩm toàn văn đòi hỏi không gian lưu trữ và

cấu hình thiết bị xử lý cao. Điều này rõ ràng

gây trở ngại lớn cho việc đưa nó vào ứng

dụng thực tế.

Trong nghiên cứu [2], tác giả đã đề xuất

việc sử dụng chỉ các tiêu đề của bài báo thay

vì sử dụng nội dung toàn văn của bài viết.

Điều này cho phép các dữ liệu cần thiết là

miễn phí và nhỏ gọn hơn rất nhiều. Phương

pháp này đã chứng minh được tính đúng đắn

Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5

117

của nó, song hiệu quả truy hồi chưa được

cao. Đặc biệt trong những trường hợp, ví dụ,

khi có một nhà nghiên cứu mới, số lượng các

bài báo của ông ta chưa nhiều, sẽ khó mà xác

định chuyên môn của ông ta với vài tiêu đề

bài báo mà ông ta đã công bố. Giải quyết vấn

đề này, chúng tôi đề xuất sử dụng tập các tóm

tắt bài báo (abstract), đây cũng là dữ liệu

miễn phí sẵn dùng, để mô hình hóa lĩnh vực

nghiên cứu của đối tượng.

Theo cách thức đã trình bày, chúng tôi sử

dụng các bài báo làm đối tượng đại diện cho

lĩnh vực hoạt động của các đối tượng khác

trong hệ thống xuất bản học thuật. Cụ thể

chúng tôi đề xuất mô hình hóa cho hai đối

tượng: Nhà nghiên cứu - Researcher và Nơi

xuất bản - VENUE (Journal, Conference,…)

như sau:

Chúng tôi xác định rằng, với mỗi nhà

nghiên cứu R, tập tất cả n các bài báo A mà

ông ta là tác giả hoặc đồng tác giả sẽ là đại

diện hoàn hảo cho lĩnh vực nghiên cứu của

ông ấy.

R ↔ A(a1, a2, … an)

Song, như đã đề cập, chúng tôi không sử

dụng nội dung toàn văn của các bài báo đó,

chúng tôi chọn sử dụng tất cả các tiêu đề

ai.title và tất cả các tóm tắt ai.abstract của

các bài báo đó. Thực tế những thông tin này

được chính các tác giả viết ra nhằm mô tả

chính xác và ngắn gọn về nghiên cứu đó. Và

như vậy, chúng tôi thiết lập một văn bản

MegaText d từ việc ghép nối liên tục tất cả

các tiêu đề và các tóm tắt của tập. Đây là đối

tượng đại diện cho nhà nghiên cứu R về lĩnh

vực hoạt động:

R ↔ d (a1.title + a2.title + … + an.title)

+ (a1.abstract + a2. abstract + … + an. abstract)

Đối với văn bản d của mỗi nhà nghiên cứu

R, dựa trên phương pháp véc-tơ không gian

[3], chúng tôi xác định một véc-tơ không

gian TR của m từ xuất hiện trong d:

TR (t1, t2, …, tm)

Từ đây véc-tơ VR được xây dựng theo cách:

R (w1R, w2R,…, wmR)

trong đó, wiR là trọng số của mỗi từ tương

ứng. Giá trị trọng số này được tính toán dựa

trên số lần xuất hiện ni của từ đó trong d.

Nhằm chuẩn hóa khoảng giá trị của ni và giảm

mức độ ảnh hưởng của các từ phổ biến trong

ngôn ngữ, chúng tôi tính giá trị tf và idf [4]:

wiR = tf(ti,d).idf(ti)

Đây chính là véc-tơ đặc trưng cho lĩnh vực

nghiên cứu của nhà nghiên cứu R.

Tương tự như vậy, chúng tôi cũng mô hình

hóa Nơi xuất bản bằng tập bài báo mà nó đã

in ấn. Tuy nhiên ở đây, chúng tôi cho rằng,

theo thời gian, nội dung các công bố có thể

có những định hướng khác nhau cho mỗi

năm. Do vậy, chúng tôi xác định véc-tơ

không gian và véc-tơ đặc trưng cho một nơi

xuất bản, tại một phiên bản năm P:

TP (t1, t2, …, tz)

và: V P (w1P, w2P,…, wzP)

trong đó, z là số từ xuất hiện trong văn bản

MegaText d của P; wiP là trọng số của từ ti.

Giá trị trọng số này cũng được tính theo công

thức tương tự:

wiP = tf(ti,d).idf(ti)

3. THỰC NGHIỆM

Để có thể thực hiện được thực nghiệm đầu

tiên, chúng tôi sử dụng bộ dữ liệu được trích

xuất từ thư viện số DBLP [5]. Đây là thư viện

số bibliograph khá uy tín và cập nhật nhanh

của các nghiên cứu trong lĩnh vực khoa học

máy tính. Chúng tôi sử dụng bản dữ liệu đưa

ra năm 2020 với tổng số gần 5 triệu bài báo

được liệt kê.

Chúng tôi thực hiện trích và xây dựng véc-

tơ đặc trưng cho một số lượng ban đầu các

nhà nghiên cứu và các nơi xuất bản. Việc

trích xuất này được chúng tôi thực hiện hoàn

toàn bằng các mô-đun tự xây dựng. Kết quả

thu được là tập các MegaText của các nhà

nghiên cứu và nơi xuất bản được lưu dưới

định dạng tệp JSON có cấu trúc lần lượt:

{

“ID researcher”, “Name”, “MegaText”

}

Và:

{

“ID venue”, “Name”, “Year”, “MegaText”

}

Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5

118

Việc xử lý tính toán để có được tập các

véc-tơ đặc trưng cũng được chúng tôi thực

hiện hoàn toàn bằng các mô-đun tự xây dựng.

Dữ liệu bài báo ở đây bằng tiếng Anh, do

đó việc xử lý mỗi MegaTexxt được thực hiện

theo cách:

1. Cắt chuỗi (tokenized) thành các từ

(word) dựa trên tập các ký tự ngắt. Loại bỏ từ

trong danh sách từ dừng (stop word). Sau đó,

cắt các từ để lấy gốc từ (bởi có nhiều từ có

cùng gốc ý nghĩa nhưng được viết dưới các

dạng thức khác nhau của ngôn ngữ tự nhiên

như động từ, động danh từ, động tính từ…).

2. Thu thập các từ riêng biệt khác nhau để

xây dựng không gian véc-tơ

3. Đếm tần suất xuất hiện của các từ và

tính giá trị tf và idf. Từ đây, xây dựng véc-tơ

đặc trưng.

Toàn bộ công việc thu thập, làm sạch và

xử lý dữ liệu như đã trình bày trên đây được

chúng tôi thực hiện, kết quả được lưu thành

các tệp định dạng JSON.

Toàn bộ các dữ liệu kết quả thu được cuối

cùng cũng như các bước trung gian là khá lớn

và được coi là đã làm sạch và tiền xử lý để

dùng cho thử nghiệm của các nghiên cứu đã

định hướng tiếp theo của chúng tôi, ví dụ

nghiên cứu về xếp hạng học thuật.

Với các véc-tơ đặc trưng của các nhà

nghiên cứu và của các nơi xuất bản, chúng ta

có thể, định hình được nội dung nghiên cứu

của họ. Như một ví dụ để có thể phần nào

đánh giá kết quả thu được, chúng tôi sử dụng

véc-tơ đặc trưng của các phiên bản hội nghị

SIGIR từ 2011 đến 2017, đây là diễn đàn

quốc tế lớn trình bày các kết quả nghiên cứu

mới về các hệ thống và kỹ thuật mới trong

lĩnh vực rộng lớn về truy xuất thông tin.

Chúng tôi xác định 10 từ khóa xuất hiện hàng

đầu từ chủ đề Call for papers. Từ đó, so sánh

để xác định tần suất xuất hiện các từ này

trong danh sách top 20 từ có tần xuất lớn nhất

của mỗi phiên bản. Kết quả ghi trong Bảng 1.

Bảng 1.

Tần suất xuất hiện các từ chủ đề

trong top 20 của các phiên bản SIGIR

Words Appear

rate (%) Words Appear

rate (%)

system 86 search 100

model 100 retrieval 100

recommendation 100 infomation 100

analysis 43 graph 100

knowlrdge 71 learn 100

4. KẾT LUẬN

Nghiên cứu của chúng tôi đề xuất việc mô

hình hóa các đối tượng trong hệ thống xuất

bản các ấn phẩm khoa học bởi tập các dữ liệu

miễn phí sẵn dùng, cho phép trả lời câu hỏi

về nội dung/lĩnh vực nghiên cứu của đối

tượng. Việc đánh giá đầy đủ kết quả này cần

có các nghiên cứu chuyên sâu đối với từng

ứng dụng cụ thể của nó trong bài toán thực

tế. Ngoài ra, kết quả của nghiên cứu này cũng

cho phép có tập dữ liệu tốt sẵn sàng chia sẻ

cho các nghiên cứu khác tiếp sau của chính

chúng tôi cũng như các nhà nghiên cứu khác

cần đến, ví dụ nó có thể là bộ dữ liệu dùng

cho các nghiên cứu mô hình trí tuệ nhân tạo

trong truyền thông học thuật.

Đây là liên kết cung cấp Dữ liệu kết quả.

5. TÀI LIỆU THAM KHẢO

[1] D. Bouyssou. 2013. Should we use

bibliometric indices to evaluate research.

Journées d'Intelligence Artificielle

Fondamentale (JIAF).

[2] G. Cabanac. 2011. Accuracy of inter-

researcher similarity measures based on

topical and social clues. Scientometrics

(2011) 87:597-620.

[3] G. Salton, A. Wong, C.S. Yang. 1975. A

vector space model for automatic indexing.

Communications of ACM, Volume 18,

Issue 11.

[4] G. Salton, C. Buckley. 1988. Term-weighting

approaches in automatic text retrieval.

Information Processing & Management,

Volume 24, Issue 5, 1988, 513-523.

Mô hình hóa chủ đề cho các đối tượng bibliograph

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi