i
MỤC LỤC
MỤC LỤC ............................................................................................................... i
DANH MỤC HÌNH ................................................................................................ ii
DANH MỤC BẢNG ............................................................................................... ii
CHƯƠNG 1. GIỚI THIỆU .................................................................................. 3
1.1. Lý do chọn đề tài ...................................................................................... 3
1.2. Mục tiêu nghiên cứu của đồ án ................................................................. 3
CHƯƠNG 2. THU THẬP VÀ XỬ LÝ DỮ LIỆU ............................................... 4
2.1. Thu thập dữ liệu ........................................................................................ 4
2.2. Tiền xử lý dữ liệu ...................................................................................... 5
2.3. Phân tích Wordcloud của tóm tắt .............................................................. 7
CHƯƠNG 3. XÂY DỰNG VÀ PHÂN TÍCH MẠNG ........................................ 9
3.1. Cấu trúc đồ th ........................................................................................... 9
3.2. Các tiêu chí đánh giá mạng ..................................................................... 10
3.3. Phân tích mạng ........................................................................................ 10
CHƯƠNG 4. KẾT LUẬN ................................................................................... 16
4.1. Kết quả đạt được ..................................................................................... 16
4.2. ớng phát triển ..................................................................................... 16
TÀI LIỆU THAM KHẢO ................................................................................... 17
ii
DANH MỤC HÌNH
Hình 1. Nội dung mẫu dliệu dùng để thực nghiệm ............................................... 5
Hình 2. Dữ liệu các bài báo bị loại ........................................................................... 6
Hình 3. Thống kê số bài báo bị loại và đạt yêu cầu ................................................. 6
Hình 4. Dữ liệu dùng để tạo đồ th ........................................................................... 7
Hình 5. Danh sách stopword được sử dụng ............................................................. 7
Hình 6. Wordcloud của tất cả các tóm tắt................................................................. 8
Hình 7. Wordcloud của 20 từ nổi bật ....................................................................... 8
Hình 7. Giao diện làm việc của Gephi ..................................................................... 9
Hình 8. Minh họa dữ liu đỉnh ................................................................................. 9
Hình 9. Minh họa dữ liu cạnh ............................................................................... 10
Hình 10. Cấu trúc mạng tổng th ........................................................................... 11
Hình 11. Sự phân bố bậc của nút ............................................................................ 12
Hình 12. Độ trung tâm của nút theo độ trung tâm ở giữa ...................................... 13
Hình 13. Độ trung tâm của nút dựa trên sự gần gũi ............................................... 13
Hình 14. Độ trung tâm dựa trên sự gần gũi từ 0 đến 0.5 ........................................ 14
Hình 15. Các cộng đồng trong mạng ..................................................................... 14
Hình 16. Top 6 cộng đồng trong mạng ................................................................... 15
DANH MỤC BẢNG
Bảng 1. Thống kê số tác giả của bài báo .................................................................. 7
Bảng 2. Các số liệu tổng thể của mạng .................................................................. 11
Bảng 3. Các số liệu về bậc trong mạng .................................................................. 12
3
CHƯƠNG 1. GIỚI THIỆU
1.1. Lý do chn đề tài
Ngày nay, với sự bùng nổ của công nghệ thông tin, đặc biệt là trí thông minh nhân
tạo (Artificial Intelligence - AI), các công cụ hỗ trcông việc hằng ngày cho con người dựa
trên AI ra đời ngày càng nhiều phát triển nhanh chóng. Trong đó, ChatGPT (Chat
Generative Pre-training Transformer) được đánh là công cụ phổ biến nhất và là “chatbot trí
tunhân tạo tốt nhất[1]. ChatGPT một chatbot được công ty OpenAI phát triển ra
mắt lần đầu tiên vào tháng 11 năm 2022. ChatGPT một ứng dụng AI được phát triển từ
mô hình GPT-3.5, một mô hình ngôn ngữ lớn của OpenAI được huấn luyện đồng thời bằng
cả hai kỹ thuật học giám sát (supervised learning) lẫn học tăng cường (reinforcement).
Sự phối hợp của hai kỹ thuật này nhằm đưa ra câu trả lời giống nmột cuộc trò chuyện
với người thật. Theo số liệu của công ty phân tích Similarweb Ltd., hiện nay có khoảng 1.8
tỷ ợt truy cp vào trang web chat.openai.com hàng tháng [2]. Với khả năng xngôn
ngữ tự nhiên vượt trội và kho dữ liệu huấn luyện khổng lồ, ChatGPTthể hỗ trợ tốt trong
giáo dục, giúp tìm kiếm thông tin, xử lý và giải quyết vấn đề một cách hiệu quả. Theo Chen
cộng sự [3], ChatGPT khả năng tự động tạo ra câu trả lời sinh văn bản, phục vụ
cho nhiều mục đích như trlời câu hỏi, dịch thuật các ứng dụng khác. Ngoài ra, ChatGPT
cũng có khả năng viết các bài viết với các chủ đề khác nhau [4], hoặc m tắt văn bản, tạo
nội dung, tạo mã, và sáng tác các câu chuyện, vở kịch, và nhiều hình thức văn bản khác [5].
Như vậy, có thể thấy rằng, ChatGPT đã và đang được ứng dụng rộng rãi trong hầu hết các
lĩnh vực của đời sống. Tuy nhiên, để có cái nhìn chi tiết hơn về ứng dụng của ChatGPT
trong lĩnh vực giáo dục, cthtrong nghiên cứu khoa học, tôi chọn đề tài “Phân tích
mạng các bài báo ChatGPT” nhằm phân tích tìm ra những nhà khoa học nhiều bài
báo mà có sử dụng hoặc có nghiên cứu liên quan đến ChatGPT.
1.2. Mục tiêu nghiên cứu của đồ án
Trong đồ án này, mục tiêu chính thu thập c bài báo ứng dụng hoặc liên
quan đến ChatGPT để thực hiện các nhiệm vụ sau:
Phân tích wordcloud [6] dựa trên tóm tắt của các bài báo để xác định các từ
khóa quan trọng trong các bài báo đó.
Xây dựng phân tích mạng từ dữ liệu các bài báo để xác định các tác giả
có nhiều ảnh hưởng hoặc ít ảnh hưởng trong mạng.
4
CHƯƠNG 2. THU THẬP VÀ XỬ LÝ DỮ LIỆU
2.1. Thu thp dliu
Trong đề tài này, tôi sử dụng tập dữ liệu thu được từ sở dliệu Semantic Scholar
(https://www.semanticscholar.org/). Dữ liệu được thu thập bằng cách sử dụng API
(Application Programming Interface) được viết bằng ngôn ngữ lập trình Python để thu thp
các nội dung như tiêu đề, các tác giả, tóm tắt,… của các bài báo chứa từ khChatGPT,
GPT-3.5 hoặc GPT-4 trong tiêu đ[7]. Dữ liệu sau khi thu thập mt tập tin dạng *jsonl
cấu trúc như sau:
Item paper: loại bài báo, có thể là bài báo hoặc bài báo cáo hội thảo
Authors: các tác giả của bài báo
Title: tiêu đề bài báo
Journal: tên tạp chí xuất bản
Pulication year: năm xuất bản
URLs: địa chỉ web của bài báo
DOI: mã định danh của bài báo
PMID: mã định danh của bài báo trên thư viện Pubmed
Abstract: tóm tắt của bài báo
Hình 1 minh họa cấu trúc một mẫu dữ liệu sau khi thu thập. Trong đề tài này, tôi đã thu
thập được bộ dữ liệu gồm 1192 bài báo với tiêu đề chứa từ khoá ChatGPT, GPT-3.5 hoặc
GPT-4. Mỗi bài báo trong bộ dữ liệu thu được có hơn 10 trường, Tuy nhiên, tôi chỉ quan tâm
sử dụng các trường gồm title, authors và abstract cho việc xây dựng và phân tích mạng.
5
Hình 1. Nội dung mẫu dữ liệu dùng để thực nghiệm
2.2. Tin xử lý dữ liệu
Do do dữ liệu được thu thập tự động nên trong 1192 kết quả thu thập có một số kết quả
không đúng như yêu cầu. Vì vậy, trước khi xây dựng mạng, ngoài một số dòng dữ liệu bị lỗi,
tôi cũng tiến hành loại bỏ thêm các dòng dữ liệu không đạt yêu cầu với 3 tiêu chí loại như sau:
Tiêu đề bài báo không có chứa từ khóa ChatGPT, GPT-3.5 hoặc GPT-4;
Bài báo không thu thập được tóm tắt để sử dụng cho việc tạo đám mây từ khóa
(wordcloud);
Bài báo được viết bằng tiếng Tây Ban Nha, Bồ Đào Nha, Slovakia, Thổ Nhĩ Kỳ,
Bosnia, Ukraina,…
Hình 2 minh họa cho các bài báo bloại bởi 3 tiêu chí như đề cập trên. Sau khi tiến
hành loại bỏ, bộ dữ liệu còn lại 766 bài báo