Nhận diện đặc điểm ngôn ngữ AI và con người: Đánh giá hiệu suất công cụ phát hiện văn bản AI viết

204 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

NHẬN DIỆN ĐẶC ĐIỂM NGÔN NGỮ TRONG VĂN BẢN

ĐƯỢC VIẾT BỞI TRÍ TUỆ NHÂN TẠO (AI) VỚI VĂN BẢN

ĐƯỢC VIẾT BỞI CON NGƯỜI VÀ ĐÁNH GIÁ HIỆU SUẤT

CỦA CÔNG CỤ PHÁT HIỆN VĂN BẢN DO AI VIẾT

TRỊNH KHÁNH HIỀN*

Tóm tắt. Trong bối cảnh trí tuệ nhân tạo (AI) phát triển nhanh chóng và học sinh, sinh

viên có xu hướng lạm dụng các công cụ chatbot như ChatGPT để tạo lập văn bản, vấn đề phân

biệt văn bản do con người viết và văn bản do AI viết càng trở nên cấp thiết. Nghiên cứu được

thực hiện bằng phương pháp thu thập dữ liệu với ba nhóm ngữ liệu như sau: (1) 30 văn bản do

người viết, (2) 90 văn bản do AI viết, (3) 30 văn bản do AI viết trong lần tạo sinh thứ hai đã

được chỉnh sửa bởi con người; sau đó, chúng tôi sử dụng phần mềm R để xử lí số liệu và tạo

ra các biểu đồ, hình ảnh mang tính trực quan. Kết quả nghiên cứu cho thấy một số đặc điểm

ngôn ngữ không có giá trị phân biệt văn bản do người viết và AI, đồng thời chỉ ra các đặc điểm

ngôn ngữ nhận diện hai loại văn bản này bao gồm: từ chỉ ngôi, từ chỉ yếu tố bản địa, câu đơn,

câu phức, câu ghép và câu tỉnh lược, câu hỏi tu từ, hình thức đoạn văn, phương tiện liên kết

câu, lỗi chính tả và lỗi ngữ pháp. Trong giới hạn nghiên cứu, chúng tôi nhận thấy GPTZero

đạt hiệu suất cao nhất và là công cụ hỗ trợ đáng tin cậy trong việc phát hiện văn bản AI.

Từ khóa: AI, ChatGPT, tạo sinh văn bản, văn bản tiếng Việt

1. Mở đầu

ChatGPT được sử dụng ngày càng rộng rãi và hỗ trợ người dùng trong việc tạo lập văn

bản với các chủ đề đa dạng, phong phú. Haleem và cộng sự (2022) đã đánh giá cao khả năng

của ChatGPT: “Nó có thể tạo ra các bài luận, câu chuyện hư cấu, thơ haiku và thậm chí cả thư

xin việc cho đơn xin việc. ChatGPT có thể cung cấp giải pháp cho những vấn đề quan trọng

lẫn những vấn đề nhỏ nhặt nhất trong cuộc sống” [11, tr.7]. Črček và Patekar (2023) [8] đã

khảo sát mức độ phổ biến của việc sử dụng ChatGPT để làm bài tập viết đối với sinh viên đại

học ở Croatia. Hơn một nửa số sinh viên sử dụng công cụ này để làm bài tập viết với mục đích

chủ yếu là tìm ý tưởng, trong khi nhiều sinh viên sử dụng nó để tóm tắt, diễn giải hoặc viết

một phần bài tập; từ đó, tác giả cũng đặt ra vấn đề đạo đức khi sử dụng ChatGPT trong học

tập. Trong bối cảnh học sinh, sinh viên lạm dụng và phụ thuộc vào ChatGPT, vấn đề phân biệt

và nhận diện đặc điểm văn bản do con người viết và văn bản do trí tuệ nhân tạo (AI) viết càng

trở nên cấp thiết.

* SV, Trường Đại học Sư phạm Hà Nội; Email: khanhhien816@gmail.com

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 205

...................................................................................................................................................................................

Trước tình hình đó, các công cụ nhận diện văn bản AI đã được phát triển và sử dụng

trong thực tiễn. Tuy vậy, các công cụ phát hiện văn bản do AI viết không đưa ra kết quả chính

xác tuyệt đối. Ladha và cộng sự (2023) [14] đã thử nghiệm quét 4 bài báo nghiên cứu trên

công cụ phát hiện AI và kết quả cho thấy công cụ này không thể xác định chính xác tất cả nội

dung AI viết, thậm chí có thể bị thao túng để đưa ra kết quả sai. Các công cụ phát hiện nội

dung AI phổ biến trên thế giới chưa được điều chỉnh để phù hợp với văn bản tiếng Việt, do

đó, cần có những nghiên cứu và thử nghiệm kĩ lưỡng hơn để đánh giá các công cụ này.

Trong bài viết này, chúng tôi khảo sát, thống kê đặc điểm ngôn ngữ của văn bản do

con người viết và văn bản do AI viết, đồng thời đánh giá hiệu suất các công cụ phát hiện văn

bản AI, từ đó góp phần dự đoán và lí giải các quyết định phân loại của các công cụ trên.

2. Tổng quan nghiên cứu

2.1. ChatGPT và một số công cụ nhận diện văn bản AI

Theo Kirmani, ChatGPT là một công cụ công cộng do OpenAI phát triển dựa trên công

nghệ mô hình ngôn ngữ GPT [13]. OpenAI đã phát triển và phát hành một số mô hình AI nổi

bật, bao gồm dòng GPT (Generative Pre-training Transformer) là các mô hình ngôn ngữ lớn

có khả năng hiểu và tạo ra văn bản giống con người. ChatGPT tạo ra phản hồi dựa trên thông

tin đầu vào nhận được, từ đó cung cấp các câu trả lời phù hợp và mạch lạc cho các câu hỏi/

câu lệnh của người dùng. Sự phát triển của ChatGPT gắn với những cải tiến liên tục trong

chuỗi mô hình GPT, thúc đẩy sự thích ứng với nhu cầu ngày càng đa dạng của người dùng.

Để đối phó với sự gia tăng của các công cụ tạo văn bản AI như ChatGPT, một số công

cụ phát hiện văn bản AI đã được phát triển nhằm phân biệt văn bản do con người và AI tạo ra.

Một trong những công cụ đầu tiên là Scribbr [20], ra mắt vào năm 2012 và đã mở rộng khả

năng của mình từ kiểm tra đạo văn sang nhận diện văn bản AI vào năm 2020. GPTZero [10]

được thiết kế để xác định văn bản do AI tạo ra ở nhiều cấp độ khác nhau, từ cụm từ đến toàn

bộ tài liệu. Mô hình GPTZero được đào tạo trên nhiều loại văn bản do con người viết và do

AI tạo ra, tập trung vào văn bản tiếng Anh. Công cụ phát hiện nội dung AI của Quillbot [17]

được đào tạo với các thuật toán nâng cao để xác định các từ lặp lại, cụm từ khó hiểu và thiếu

mạch lạc. Hiện tại, Quillbot chỉ có thể nhận diện nội dung dưới dạng văn bản, chưa thể thực

hiện với nội dung hình ảnh, video. Plagiarism Detector [16] sử dụng trình kiểm tra ChatGPT

đào sâu và trích xuất các tính năng của nội dung, bao gồm cấu trúc câu, từ vựng và bố cục để

xác định tỉ lệ nội dung AI trong văn bản. ZeroGPT [23], với sự hỗ trợ của các thuật toán học

máy và kỹ thuật xử lí ngôn ngữ tự nhiên, dự đoán nguồn gốc văn bản hoặc cụm từ với độ chính

xác cao dựa trên dữ liệu lớn. Các công cụ trên đóng vai trò quan trọng trong việc nhận diện và

phân biệt văn bản do AI viết. Tuy vậy, chính những nhà phát triển công cụ cũng thừa nhận hạn

chế của nó và khuyến nghị cần kết hợp với đánh giá của con người để đưa ra kết quả chính

xác nhất.

206 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

2.2. Những nghiên cứu về việc nhận diện văn bản do AI và con người viết và công

cụ phát hiện văn bản do AI viết

Các xu hướng nghiên cứu hiện nay về sự phân biệt văn bản do AI và con người viết

cho thấy sự quan tâm ngày càng tăng về các dấu hiệu nhận diện và khả năng phân biệt giữa

hai loại văn bản này trong các ngữ cảnh, đối tượng khác nhau. Một số nghiên cứu đã tập trung

vào khả năng phân biệt giữa văn bản do con người viết và văn bản do AI tạo ra, với kết quả

chỉ ra rằng cả người dùng thông thường lẫn chuyên gia đều gặp khó khăn trong việc nhận diện.

Waltzer và cộng sự (2023) [21] phát triển Bài kiểm tra nhận dạng AI và ghi nhận rằng giáo

viên và học sinh chỉ đạt độ chính xác lần lượt là 70% và 62% khi phân biệt giữa các bài luận

do học sinh và ChatGPT viết, cho thấy tính phức tạp của việc nhận diện. Giáo viên có xu

hướng nhận diện văn bản của AI thông qua đặc điểm ngôn ngữ như các từ liên kết và cho rằng

khó phân biệt các bài luận được viết tốt của học sinh với các văn bản ChatGPT. Tương tự,

nghiên cứu của Ramu và cộng sự (2023) [18] cho thấy thế hệ Z gặp khó khăn trong việc phân

biệt nội dung do AI và con người viết trên nền tảng Discord, đặc biệt là những người có mức

độ quen thuộc thấp hơn với Discord và AI lại có khả năng nhận diện tốt hơn so với những

người có kinh nghiệm.

Khi so sánh chất lượng văn bản do AI tạo ra với văn bản do con người viết, các nhà

nghiên cứu chỉ ra rằng văn bản của AI thường có cấu trúc rõ ràng hơn nhưng thiếu sự tinh tế

về ngữ pháp và nội dung. Özçelik (2023) [15] đã so sánh khả năng hiệu đính và chỉnh sửa của

ChatGPT với con người. Kết quả cho thấy ChatGPT hữu ích trong việc sửa lỗi chính tả, quy

tắc chấm câu và viết hoa nhưng không thể thay thế con người trong việc hiệu đính văn bản về

nội dung và độ chính xác ngữ pháp. Herbold và cộng sự (2023) [12] đã so sánh đặc điểm ngôn

ngữ giữa các bài luận do con người viết và do ChatGPT tạo ra. Tác giả cũng phát hiện rằng

các bài luận do ChatGPT tạo ra có cấu trúc chặt chẽ nhưng lại tuân thủ một cách cứng nhắc,

còn bài viết của con người có tính linh hoạt và sáng tạo hơn. Nghiên cứu của Sandler và cộng

sự (2024) [19] mở rộng phân tích này bằng cách so sánh các cuộc đối thoại giữa con người và

ChatGPT, nhấn mạnh cuộc đối thoại giữa con người với nhau có tính xác thực và đa dạng hơn,

nhưng ChatGPT lại có ưu thế xử lí xã hội, phong cách phân tích, nhận thức, sự tập trung chú

ý và cảm xúc tích cực.

Nhiều nhà nghiên cứu đã quan tâm đến việc đánh giá hiệu suất các công cụ có sẵn hiện

nay và hướng đến xây dựng những công cụ mới, với tính năng hoàn thiện và khả năng nhận

diện ngôn ngữ đa dạng, phong phú hơn. Elkhatat và cộng sự (2023) [9] đánh giá hiệu suất của

5 công cụ phát hiện văn bản AI, các công cụ này đều xác định tốt nội dung do GPT 3.5 tạo ra

nhưng lại gặp khó khăn với nội dung do GPT 4 tạo ra, chứng minh hiệu suất của các công cụ

có thể thay đổi đáng kể tùy thuộc vào độ phức tạp của mô hình AI. Alshammari và cộng sự

(2024) [5] đã giới thiệu một công cụ phát hiện văn bản AI mới dành cho tiếng Ả Rập, đạt độ

chính xác 81%, cao hơn đáng kể so với GPTZero và OpenAI Text Classifier. Weber-Wulff và

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 207

...................................................................................................................................................................................

cộng sự (2023) [22] khẳng định rằng hầu hết các công cụ phát hiện văn bản AI hiện nay đều

không chính xác, với độ chính xác dưới 80%. Các công cụ này thường gán nhầm tài liệu do

con người viết là do AI tạo ra và ngược lại. Chaka (2023) [6] đã kiểm tra tính chính xác của 5

công cụ phát hiện văn bản AI để phát hiện nội dung do AI tạo ra trong các phản hồi được tạo

bởi ChatGPT, YouChat và Chatsonic. Tác giả kết luận rằng các công cụ phát hiện hiện tại

chưa đủ khả năng phát hiện chính xác và thuyết phục văn bản do AI tạo ra, đặc biệt là khi văn

bản này được dịch sang các ngôn ngữ khác nhau.

Ở Việt Nam, vấn đề ứng dụng trí tuệ nhân tạo và ChatGPT trong giáo dục thu hút sự

quan tâm của nhiều nhà nghiên cứu. Những nghiên cứu đánh giá khả năng, vai trò của

ChatGPT trong việc hỗ trợ giảng dạy, học tập các môn học cụ thể của Trương Hana (2023)

[3], Lê Anh Vinh (2023) [4], Thái Thị Cẩm Trang (2023) [2] … đều đánh giá cao khả năng tư

duy của ChatGPT nhưng cũng chỉ rõ những hạn chế, nhược điểm của công cụ này. Tuy vậy,

còn thiếu những nghiên cứu về mối quan hệ giữa trí tuệ nhân tạo và lĩnh vực ngôn ngữ, sự

thích nghi của trí tuệ nhân tạo với ngôn ngữ tiếng Việt. Do đó, nghiên cứu về đặc điểm ngôn

ngữ giữa văn bản do con người viết và văn bản do AI viết cũng như đánh giá hiệu suất các

công cụ phát hiện văn bản AI vẫn là một khoảng trống cần lấp đầy.

3. Phương pháp nghiên cứu

Chúng tôi thu thập và phân loại ngữ liệu theo ba nhóm, bao gồm: (1) Văn bản do con

người viết, (2) Văn bản do ChatGPT viết, (3) Văn bản do ChatGPT viết đã được người chỉnh

sửa. Chúng tôi đưa ra ba câu hỏi đối với con người và ChatGPT, các câu hỏi lần lượt là:

(1) Viết đoạn văn (8 câu) giới thiệu về một sản phẩm thuộc văn hóa đại chúng ngày

nay. (2) Viết đoạn văn (8 câu) chỉ ra biểu hiện cho thấy sự ảnh hưởng của suy thoái kinh tế

đến hành vi tiêu dùng.

(3) Viết đoạn văn (8 câu) trình bày suy nghĩ của bản thân về một vấn đề cần khắc phục

trong giáo dục hiện nay.

Nhóm ngữ liệu 1 được thu thập bằng phương pháp phỏng vấn và khảo sát thông qua

bảng câu hỏi. 30 người thực hiện khảo sát thuộc các độ tuổi khác nhau: dưới 18 tuổi, từ 18 đến

30 tuổi và trên 30 tuổi. Những người tham gia thực hiện viết các đoạn văn ngắn, mỗi đoạn có

thời gian chuẩn bị và viết trong 10 phút. Nhóm ngữ liệu này được gán mã từ A1 đến C30.

Nhóm ngữ liệu 2 được thu thập bằng cách đưa ra lần lượt các câu hỏi trên cho ChatGPT.

Tuy nhiên, khác với câu hỏi đặt ra câu hỏi cho người, chúng tôi đặt câu lệnh cho ChatGPT ở

mỗi phản hồi cần viết 10 đoạn văn. Đối với mỗi chủ đề, chúng tôi sẽ tạo lần thứ nhất 10 văn

bản, sau đó nhấn nút tạo lại (regenerate) 2 lần để tiếp tục thu thập 20 văn bản. Chúng tôi dự

kiến những văn bản sau khi được ChatGPT tạo lại sẽ có sự cải thiện về ý tưởng và cách diễn

đạt. Nhóm ngữ liệu này được gán mã từ Aa1 đến Cc30.

208 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

Nhóm ngữ liệu thứ 3 được lấy từ 30 văn bản được tạo lại lần thứ 2 (10 văn bản/1 chủ

đề). Chúng tôi thực hiện chỉnh sửa các văn bản này với 5 dấu hiệu: thêm từ nối, thêm hư từ,

ghép câu, thêm lỗi chính tả và thêm lỗi ngữ pháp. Mục đích của việc chỉnh sửa văn bản là tạo

ra văn bản mới có đặc điểm gần với văn bản con người hơn và đánh giá khả năng nhận diện

của các công cụ phát hiện nội dung AI. Nhóm ngữ liệu này được gán mã từ Aa1s đến Cc30s.

Sau khi thu thập ngữ liệu, chúng tôi sử dụng phần mềm R để xử lí số liệu và tạo ra các

biểu đồ, hình ảnh mang tính trực quan, cho thấy các xu hướng sử dụng ngôn ngữ của con người

và AI. Chúng tôi tiến hành gán nhãn dữ liệu và xử lí sơ bộ dữ liệu bằng cách phân chia nguồn

và chủ đề, làm sạch dữ liệu thừa hoặc lặp lại. Cuối cùng, chúng tôi trực quan hóa dữ liệu bằng

các package (gói) có sẵn.

4. Kết quả nghiên cứu

4.1. Nhận diện đặc điểm ngôn ngữ của văn bản do con người viết và văn bản do

AI viết Trong giới hạn của nghiên cứu, chúng tôi chỉ khảo sát một số đặc điểm ngôn ngữ của

văn bản do con người viết và văn bản do trí tuệ nhân tạo viết, bao gồm: đặc điểm âm tiết, đặc

điểm từ, đặc điểm câu và tổ chức văn bản. Chúng tôi diễn giải, phân tích kết quả thu được và

kết luận kết quả âm tính (những yếu tố không có giá trị phân biệt văn bản do người viết và văn

bản do AI viết), kết quả dương tính (những yếu tố nhận diện sự khác biệt giữa hai loại văn

bản).

i) Đặc điểm âm tiết

Chúng tôi nhận thấy có sự khác biệt rõ ràng giữa văn bản do AI viết và văn bản do

người viết về số lượng âm tiết, trong đó số lượng âm tiết trung bình trong văn bản do người

viết thường cao hơn (Hình 1). Đối với chủ đề giáo dục, số lượng âm tiết trong văn bản do con

người viết có giá trị trung bình cao nhất (mean = 221,2) còn số lượng âm tiết trong văn bản do

AI viết có giá trị trung bình thấp nhất (mean = 178,4). Con người có xu hướng tạo ra văn bản

có số lượng âm tiết nhiều hơn so với văn bản của AI. Kết quả khảo sát cho thấy số âm tiết

trong văn bản của con người có độ lệch chuẩn khá lớn (77,7 - 88,7). Văn bản do người viết

linh hoạt, đa dạng về số lượng âm tiết; mỗi người với vốn kiến thức, trải nghiệm khác nhau sẽ

tạo ra những văn bản có độ dài khác nhau. Ngược lại, số lượng âm tiết trong văn bản do AI

viết có độ lệch chuẩn thấp, dao động từ 21 đến 28,1. AI được đào tạo dựa trên kho dữ liệu có

sẵn, do vậy, AI có thể xử lí các chủ đề khác nhau nhưng không có sự phân hóa rõ rệt.

Văn bản do con người tạo ra có xu hướng phức tạp hơn văn bản do AI tạo ra với số

lượng âm tiết trên câu cao hơn (Hình 2). Biểu đồ thể hiện giá trị số âm tiết trên câu ở nhóm

văn bản con người có biến động khá lớn, đặc biệt ở chủ đề xã hội (sd = 12,2). Điều này cho

thấy con người sử dụng các loại câu với độ dài phong phú, không cứng nhắc và phụ thuộc vào

yếu tố cá nhân. Ngược lại, văn bản do AI viết có độ lệch chuẩn thấp (2,4 - 3,2), cho thấy số

lượng âm tiết trên câu trong nhóm văn bản này tương đối đồng đều. Việc các câu do AI tạo ra

Nhận diện đặc điểm ngôn ngữ trong văn bản được viết bởi trí tuệ nhân tạo (AI) với văn bản được viết bởi con người và đánh giá hiệu suất của công cụ phát hiện văn bản do AI viết

Bài viết trình bày nghiên cứu nhận diện đặc điểm ngôn ngữ văn bản AI so với văn bản người viết, đánh giá công cụ phát hiện. GPTZero hiệu suất cao nhất.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi