intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Mô hình hóa chủ đề cho các đối tượng bibliograph

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu này phát triển phương pháp mô hình hóa chủ đề để phân loại và tổ chức các đối tượng bibliographic, nhằm hỗ trợ việc tìm kiếm và truy xuất tài liệu nghiên cứu hiệu quả hơn. Các mô hình chủ đề giúp khai thác các mối liên hệ giữa các bài báo khoa học, sách, bài giảng và các tài liệu học thuật khác, từ đó cải thiện khả năng tổ chức và phân loại thông tin trong các cơ sở dữ liệu thư viện số.

Chủ đề:
Lưu

Nội dung Text: Mô hình hóa chủ đề cho các đối tượng bibliograph

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 MÔ HÌNH HÓA CHỦ ĐỀ CHO CÁC ĐỐI TƯỢNG BIBLIOGRAPH Trần Hồng Diệp, Trần Hữu Hiếu, Mai Ánh Dương, Nguyễn Huy Hoàng Trường Đại học Thủy lợi, email: diepthd@tlu.edu.vn 1. TÓM TẮT Tuy nhiên, việc phân chia số lượng hay ranh giới giữa các lĩnh vực khoa học nói Hàng năm, một khối lượng khổng lồ các chung hay các chuyên ngành hẹp hơn là ấn bản khoa học ở nhiều hình thức khác nhau không có hoặc không rõ ràng. Thậm chí là để được công bố trên toàn thế giới. Đây là kho gọi tên một lĩnh vực chuyên ngành hẹp bằng lưu trữ tri thức quan trọng của loài người, nó tên gọi với một vài từ là không đủ để mô tả cho phép chúng ta có được câu trả lời thỏa nó. Để giải quyết vấn đề này, chúng tôi dự đáng trong rất nhiều vấn đề khác nhau. Tuy định đề cập đến một lĩnh vực bởi một tập từ nhiên, các ấn bản này có khối lượng quá lớn với số lượng nhất định và với trọng số đại và không thuần nhất về thể loại, cấu trúc. diện cho mức độ quan trọng của mỗi từ trong Điều này làm cho việc tìm ra được câu trả lời tổng thể. thỏa đáng trở nên không hề dễ dàng. Chúng ta đều biết rằng, nội dung của các Trong thực tế, câu hỏi thường gặp: trong ấn phẩm được công bố chỉ ra lĩnh vực nghiên lĩnh vực L nào đó có những nhà nghiên cứu cứu của chính nó, của (các) tác giả của nó và uy tín nào? Hoặc ngược lại, một nhà nghiên của tạp chí xuất bản ra nó… Một cách tổng cứu A làm việc trong lĩnh vực nào? Ông ta có thể, nội dung tổng hợp của tất cả các bài báo uy tín như thế nào trong lĩnh vực đó? Trả lời được đăng trong một tạp chí chính là lĩnh vực câu hỏi này bằng một công cụ tự động, trên hoạt động của tạp chí đó. Tương tự, nội dung phương diện lý thuyết có rất nhiều nghiên tổng hợp của tất cả các bài báo được công bố cứu đã tìm hiểu và đưa ra các mô hình khác bởi một nhà nghiên cứu chính là lĩnh vực nhau, tuy nhiên để áp dụng được trong thực nghiên cứu của ông ta. Tuy nhiên, việc lựa tế, vấp phải hai vấn đề. Thứ nhất, dữ liệu có chọn toàn bộ nội dung các ấn phẩm liên quan đủ thông tin, đủ lớn mà sẵn dùng, xử lý được. đến một đối tượng để mô hình hóa lĩnh vực Thứ hai, mô hình hóa các đối tượng như thế hoạt động của nó gặp phải một vấn đề lớn đó nào từ các dữ liệu có được đó? là nội dung toàn văn của các ấn phẩm thường không sẵn dùng, lý do lớn nhất là do phí bản 2. XÂY DỰNG MÔ HÌNH quyền. Hơn nữa, việc sử dụng tất cả các ấn Trong hệ thống xuất bản khoa học nói phẩm toàn văn đòi hỏi không gian lưu trữ và chung, các tập đối tượng cơ bản được biết đến cấu hình thiết bị xử lý cao. Điều này rõ ràng là: nhà xuất bản, tạp chí, báo, hội thảo khoa gây trở ngại lớn cho việc đưa nó vào ứng học chuyên ngành, nhà nghiên cứu, ấn phẩm, dụng thực tế. bài báo. Mỗi đối tượng ở đây đều có một Trong nghiên cứu [2], tác giả đã đề xuất trường phạm vi giới hạn về lĩnh vực khoa học việc sử dụng chỉ các tiêu đề của bài báo thay mà đối tượng đó hoạt động. Lấy ví dụ, tạp chí vì sử dụng nội dung toàn văn của bài viết. J chuyên xuất bản các ấn phẩm trong lĩnh vực Điều này cho phép các dữ liệu cần thiết là trí tuệ nhân tạo, hay nhà nghiên cứu R làm miễn phí và nhỏ gọn hơn rất nhiều. Phương việc trong lĩnh vực an ninh mạng. pháp này đã chứng minh được tính đúng đắn 116
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 của nó, song hiệu quả truy hồi chưa được trên số lần xuất hiện ni của từ đó trong d. cao. Đặc biệt trong những trường hợp, ví dụ, Nhằm chuẩn hóa khoảng giá trị của ni và giảm khi có một nhà nghiên cứu mới, số lượng các mức độ ảnh hưởng của các từ phổ biến trong bài báo của ông ta chưa nhiều, sẽ khó mà xác ngôn ngữ, chúng tôi tính giá trị tf và idf [4]: định chuyên môn của ông ta với vài tiêu đề wiR = tf(ti,d).idf(ti) bài báo mà ông ta đã công bố. Giải quyết vấn Đây chính là véc-tơ đặc trưng cho lĩnh vực đề này, chúng tôi đề xuất sử dụng tập các tóm nghiên cứu của nhà nghiên cứu R. tắt bài báo (abstract), đây cũng là dữ liệu Tương tự như vậy, chúng tôi cũng mô hình miễn phí sẵn dùng, để mô hình hóa lĩnh vực hóa Nơi xuất bản bằng tập bài báo mà nó đã nghiên cứu của đối tượng. in ấn. Tuy nhiên ở đây, chúng tôi cho rằng, Theo cách thức đã trình bày, chúng tôi sử theo thời gian, nội dung các công bố có thể dụng các bài báo làm đối tượng đại diện cho có những định hướng khác nhau cho mỗi lĩnh vực hoạt động của các đối tượng khác năm. Do vậy, chúng tôi xác định véc-tơ trong hệ thống xuất bản học thuật. Cụ thể không gian và véc-tơ đặc trưng cho một nơi chúng tôi đề xuất mô hình hóa cho hai đối xuất bản, tại một phiên bản năm P: tượng: Nhà nghiên cứu - Researcher và Nơi TP (t1, t2, …, tz) xuất bản - VENUE (Journal, Conference,…) và: V P (w1P, w2P,…, wzP) như sau: trong đó, z là số từ xuất hiện trong văn bản Chúng tôi xác định rằng, với mỗi nhà MegaText d của P; wiP là trọng số của từ ti. nghiên cứu R, tập tất cả n các bài báo A mà Giá trị trọng số này cũng được tính theo công ông ta là tác giả hoặc đồng tác giả sẽ là đại thức tương tự: diện hoàn hảo cho lĩnh vực nghiên cứu của wiP = tf(ti,d).idf(ti) ông ấy. R ↔ A(a1, a2, … an) 3. THỰC NGHIỆM Song, như đã đề cập, chúng tôi không sử Để có thể thực hiện được thực nghiệm đầu dụng nội dung toàn văn của các bài báo đó, tiên, chúng tôi sử dụng bộ dữ liệu được trích chúng tôi chọn sử dụng tất cả các tiêu đề xuất từ thư viện số DBLP [5]. Đây là thư viện ai.title và tất cả các tóm tắt ai.abstract của số bibliograph khá uy tín và cập nhật nhanh các bài báo đó. Thực tế những thông tin này của các nghiên cứu trong lĩnh vực khoa học được chính các tác giả viết ra nhằm mô tả máy tính. Chúng tôi sử dụng bản dữ liệu đưa chính xác và ngắn gọn về nghiên cứu đó. Và ra năm 2020 với tổng số gần 5 triệu bài báo như vậy, chúng tôi thiết lập một văn bản được liệt kê. MegaText d từ việc ghép nối liên tục tất cả Chúng tôi thực hiện trích và xây dựng véc- các tiêu đề và các tóm tắt của tập. Đây là đối tơ đặc trưng cho một số lượng ban đầu các tượng đại diện cho nhà nghiên cứu R về lĩnh nhà nghiên cứu và các nơi xuất bản. Việc vực hoạt động: trích xuất này được chúng tôi thực hiện hoàn R ↔ d (a1.title + a2.title + … + an.title) toàn bằng các mô-đun tự xây dựng. Kết quả + (a1.abstract + a2. abstract + … + an. abstract) thu được là tập các MegaText của các nhà Đối với văn bản d của mỗi nhà nghiên cứu nghiên cứu và nơi xuất bản được lưu dưới R, dựa trên phương pháp véc-tơ không gian định dạng tệp JSON có cấu trúc lần lượt: [3], chúng tôi xác định một véc-tơ không { gian TR của m từ xuất hiện trong d: “ID researcher”, “Name”, “MegaText” TR (t1, t2, …, tm) } Từ đây véc-tơ VR được xây dựng theo cách: Và: V R (w1R, w2R,…, wmR) { R trong đó, wi là trọng số của mỗi từ tương “ID venue”, “Name”, “Year”, “MegaText” ứng. Giá trị trọng số này được tính toán dựa } 117
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5 Việc xử lý tính toán để có được tập các Bảng 1. Tần suất xuất hiện các từ chủ đề véc-tơ đặc trưng cũng được chúng tôi thực trong top 20 của các phiên bản SIGIR hiện hoàn toàn bằng các mô-đun tự xây dựng. Appear Appear Words Words Dữ liệu bài báo ở đây bằng tiếng Anh, do rate (%) rate (%) đó việc xử lý mỗi MegaTexxt được thực hiện system 86 search 100 theo cách: model 100 retrieval 100 1. Cắt chuỗi (tokenized) thành các từ recommendation 100 infomation 100 (word) dựa trên tập các ký tự ngắt. Loại bỏ từ analysis 43 graph 100 trong danh sách từ dừng (stop word). Sau đó, knowlrdge 71 learn 100 cắt các từ để lấy gốc từ (bởi có nhiều từ có cùng gốc ý nghĩa nhưng được viết dưới các 4. KẾT LUẬN dạng thức khác nhau của ngôn ngữ tự nhiên như động từ, động danh từ, động tính từ…). Nghiên cứu của chúng tôi đề xuất việc mô 2. Thu thập các từ riêng biệt khác nhau để hình hóa các đối tượng trong hệ thống xuất xây dựng không gian véc-tơ bản các ấn phẩm khoa học bởi tập các dữ liệu miễn phí sẵn dùng, cho phép trả lời câu hỏi 3. Đếm tần suất xuất hiện của các từ và về nội dung/lĩnh vực nghiên cứu của đối tính giá trị tf và idf. Từ đây, xây dựng véc-tơ tượng. Việc đánh giá đầy đủ kết quả này cần đặc trưng. có các nghiên cứu chuyên sâu đối với từng Toàn bộ công việc thu thập, làm sạch và ứng dụng cụ thể của nó trong bài toán thực xử lý dữ liệu như đã trình bày trên đây được tế. Ngoài ra, kết quả của nghiên cứu này cũng chúng tôi thực hiện, kết quả được lưu thành cho phép có tập dữ liệu tốt sẵn sàng chia sẻ các tệp định dạng JSON. cho các nghiên cứu khác tiếp sau của chính Toàn bộ các dữ liệu kết quả thu được cuối chúng tôi cũng như các nhà nghiên cứu khác cùng cũng như các bước trung gian là khá lớn cần đến, ví dụ nó có thể là bộ dữ liệu dùng và được coi là đã làm sạch và tiền xử lý để cho các nghiên cứu mô hình trí tuệ nhân tạo dùng cho thử nghiệm của các nghiên cứu đã trong truyền thông học thuật. định hướng tiếp theo của chúng tôi, ví dụ Đây là liên kết cung cấp Dữ liệu kết quả. nghiên cứu về xếp hạng học thuật. 5. TÀI LIỆU THAM KHẢO Với các véc-tơ đặc trưng của các nhà nghiên cứu và của các nơi xuất bản, chúng ta [1] D. Bouyssou. 2013. Should we use có thể, định hình được nội dung nghiên cứu bibliometric indices to evaluate research. Journées d'Intelligence Artificielle của họ. Như một ví dụ để có thể phần nào Fondamentale (JIAF). đánh giá kết quả thu được, chúng tôi sử dụng [2] G. Cabanac. 2011. Accuracy of inter- véc-tơ đặc trưng của các phiên bản hội nghị researcher similarity measures based on SIGIR từ 2011 đến 2017, đây là diễn đàn topical and social clues. Scientometrics quốc tế lớn trình bày các kết quả nghiên cứu (2011) 87:597-620. mới về các hệ thống và kỹ thuật mới trong [3] G. Salton, A. Wong, C.S. Yang. 1975. A lĩnh vực rộng lớn về truy xuất thông tin. vector space model for automatic indexing. Communications of ACM, Volume 18, Chúng tôi xác định 10 từ khóa xuất hiện hàng Issue 11. đầu từ chủ đề Call for papers. Từ đó, so sánh [4] G. Salton, C. Buckley. 1988. Term-weighting để xác định tần suất xuất hiện các từ này approaches in automatic text retrieval. trong danh sách top 20 từ có tần xuất lớn nhất Information Processing & Management, của mỗi phiên bản. Kết quả ghi trong Bảng 1. Volume 24, Issue 5, 1988, 513-523. 118
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
44=>2