
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
116
MÔ HÌNH HÓA CHỦ ĐỀ
CHO CÁC ĐỐI TƯỢNG BIBLIOGRAPH
Trần Hồng Diệp, Trần Hữu Hiếu, Mai Ánh Dương, Nguyễn Huy Hoàng
Trường Đại học Thủy lợi, email: diepthd@tlu.edu.vn
1. TÓM TẮT
Hàng năm, một khối lượng khổng lồ các
ấn bản khoa học ở nhiều hình thức khác nhau
được công bố trên toàn thế giới. Đây là kho
lưu trữ tri thức quan trọng của loài người, nó
cho phép chúng ta có được câu trả lời thỏa
đáng trong rất nhiều vấn đề khác nhau. Tuy
nhiên, các ấn bản này có khối lượng quá lớn
và không thuần nhất về thể loại, cấu trúc.
Điều này làm cho việc tìm ra được câu trả lời
thỏa đáng trở nên không hề dễ dàng.
Trong thực tế, câu hỏi thường gặp: trong
lĩnh vực L nào đó có những nhà nghiên cứu
uy tín nào? Hoặc ngược lại, một nhà nghiên
cứu A làm việc trong lĩnh vực nào? Ông ta có
uy tín như thế nào trong lĩnh vực đó? Trả lời
câu hỏi này bằng một công cụ tự động, trên
phương diện lý thuyết có rất nhiều nghiên
cứu đã tìm hiểu và đưa ra các mô hình khác
nhau, tuy nhiên để áp dụng được trong thực
tế, vấp phải hai vấn đề. Thứ nhất, dữ liệu có
đủ thông tin, đủ lớn mà sẵn dùng, xử lý được.
Thứ hai, mô hình hóa các đối tượng như thế
nào từ các dữ liệu có được đó?
2. XÂY DỰNG MÔ HÌNH
Trong hệ thống xuất bản khoa học nói
chung, các tập đối tượng cơ bản được biết đến
là: nhà xuất bản, tạp chí, báo, hội thảo khoa
học chuyên ngành, nhà nghiên cứu, ấn phẩm,
bài báo. Mỗi đối tượng ở đây đều có một
trường phạm vi giới hạn về lĩnh vực khoa học
mà đối tượng đó hoạt động. Lấy ví dụ, tạp chí
J chuyên xuất bản các ấn phẩm trong lĩnh vực
trí tuệ nhân tạo, hay nhà nghiên cứu R làm
việc trong lĩnh vực an ninh mạng.
Tuy nhiên, việc phân chia số lượng hay
ranh giới giữa các lĩnh vực khoa học nói
chung hay các chuyên ngành hẹp hơn là
không có hoặc không rõ ràng. Thậm chí là để
gọi tên một lĩnh vực chuyên ngành hẹp bằng
tên gọi với một vài từ là không đủ để mô tả
nó. Để giải quyết vấn đề này, chúng tôi dự
định đề cập đến một lĩnh vực bởi một tập từ
với số lượng nhất định và với trọng số đại
diện cho mức độ quan trọng của mỗi từ trong
tổng thể.
Chúng ta đều biết rằng, nội dung của các
ấn phẩm được công bố chỉ ra lĩnh vực nghiên
cứu của chính nó, của (các) tác giả của nó và
của tạp chí xuất bản ra nó… Một cách tổng
thể, nội dung tổng hợp của tất cả các bài báo
được đăng trong một tạp chí chính là lĩnh vực
hoạt động của tạp chí đó. Tương tự, nội dung
tổng hợp của tất cả các bài báo được công bố
bởi một nhà nghiên cứu chính là lĩnh vực
nghiên cứu của ông ta. Tuy nhiên, việc lựa
chọn toàn bộ nội dung các ấn phẩm liên quan
đến một đối tượng để mô hình hóa lĩnh vực
hoạt động của nó gặp phải một vấn đề lớn đó
là nội dung toàn văn của các ấn phẩm thường
không sẵn dùng, lý do lớn nhất là do phí bản
quyền. Hơn nữa, việc sử dụng tất cả các ấn
phẩm toàn văn đòi hỏi không gian lưu trữ và
cấu hình thiết bị xử lý cao. Điều này rõ ràng
gây trở ngại lớn cho việc đưa nó vào ứng
dụng thực tế.
Trong nghiên cứu [2], tác giả đã đề xuất
việc sử dụng chỉ các tiêu đề của bài báo thay
vì sử dụng nội dung toàn văn của bài viết.
Điều này cho phép các dữ liệu cần thiết là
miễn phí và nhỏ gọn hơn rất nhiều. Phương
pháp này đã chứng minh được tính đúng đắn