TRAO ĐỔI THÔNG TIN KHOA HỌC<br />
<br />
<br />
<br />
Xây dựng ứng dụng phát hiện đạo văn<br />
TRONG NGHIÊN CỨU KHOA HỌC<br />
Đinh Thái Sơn, Nguyễn Thị Hảo<br />
Bộ môn CNPM, Khoa Kỹ thuật–Công nghệ, Trường Đại học Hùng Vương<br />
<br />
<br />
TÓM TẮT<br />
<br />
<br />
N gày nay, có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài<br />
liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo<br />
văn nói chung và sao chép luận văn, đồ án nói riêng có thể nói là những mặt tiêu cực<br />
phổ biến hiện nay cần được phát hiện và ngăn chặn.<br />
Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện ra tập tiềm năng<br />
có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các<br />
cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát<br />
hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế<br />
số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép.<br />
Từ khóa: Đạo văn, hội thảo khám phá đạo văn, tác quyền và lạm dụng phần mềm xã hội,<br />
tính toán song song, …<br />
<br />
<br />
1. Đặt vấn đề Ngày nay, đã có nhiều phần mềm hỗ trợ<br />
1.1. Vấn nạn đạo văn cho việc phát hiện đạo văn. Đa phần là các<br />
Vấn đề (hay vấn nạn) sao chép tài liệu phần mềm thực hiện kiểm tra sao chép một<br />
(đạo văn) ngày nay đang là một vấn đề tài liệu từ “kho tài liệu” trên internet, tức<br />
nghiêm trọng trong môi trường giáo dục. là kiểm tra với tài liệu nguồn từ internet.<br />
Với sự phát triển mạnh mẽ của công nghệ Các phần mềm này có ưu điểm là kiểm<br />
thông tin và các kỹ thuật lưu trữ của các tra với một nguồn hết sức phong phú. Tuy<br />
công cụ tìm kiếm như Google, Bing,… thì vậy, ở nước ta không có nhiều phần mềm<br />
việc sao chép sẽ được thực hiện một cách dễ được biết rõ hỗ trợ kiểm tra trên một cơ<br />
dàng hơn. Sự sao chép ngày càng phổ biến sở dữ liệu đóng của một tổ chức, ví dụ thư<br />
ở mọi cấp độ: từ đồ án, tiểu luận, luận văn viện của một trường hay kho luận văn của<br />
tốt nghiệp đại học cho đến luận văn tiến một trường.<br />
sĩ. Nhiều sao chép khác như giáo trình, bài 1.2. Các hình thức đạo văn<br />
giảng cũng còn khá phổ biến. Có rất nhiều Meuschke và Gipp (Meuschke and Gipp,<br />
bài viết trên các báo có uy tín công khai tình 2013) [3] phân loại các hình thức đạo văn<br />
trạng sao chép bừa bãi luận văn. học như sau:<br />
<br />
Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 87<br />
TRAO ĐỔI THÔNG TIN KHOA HỌC<br />
<br />
<br />
• Đạo văn hoàn toàn: được mô tả như Workshop) gọi tắt là PAN Workshop (http://<br />
là một loại sao chép gần như không pan.webis.de) đều tổ chức cuộc tranh tài<br />
thay đổi so với tài liệu nguồn. Nó bao quốc tế về phát hiện sao chép văn bản<br />
gồm các hình thức “sao chép và dán” (International Competition on Plagiarism<br />
(Maurer, Kappe et al., 2006); “trộn và Detection). Cuộc thi thu hút nhiều nhà<br />
dán” (Weber-Wulff, 2010). “Sao chép và nghiên cứu từ nhiều lĩnh vực liên quan đến<br />
dán” là hình thức sao phép hoàn toàn phát hiện sao chép văn bản tự động. Để đánh<br />
nội dung mà không có một sự thay đổi giá được các giải pháp dự thi, PAN phát triển<br />
nào. “Trộn và dán” là hình thức sao một lớp thư viện (framework) đánh giá bao<br />
chép có một vài thay đổi rất nhỏ so với gồm một cơ sở dữ liệu mẫu rất lớn gồm Dq,<br />
tài liệu nguồn. D và S trong đó Dq là tập hợp các tài liệu nghi<br />
• Giả tạo đạo văn: được mô tả như là ngờ có đạo văn, D là tập hợp các tài liệu gốc<br />
một loại diễn giải, ngụy trang kỹ thuật, và S là tập hợp các ghi chú về từng trường<br />
hay dịch từ ngôn ngữ này sang ngôn hợp sao chép giữa Dq và D. Ngoài ra, lớp thư<br />
ngữ khác. viện này cũng đề ra các độ đo hiệu suất phát<br />
• Đạo văn cấu trúc và ý tưởng: đề cập đến hiện (detection performance measure) để có<br />
hình thức sử dụng cấu trúc của người thể so sánh độ chính xác của các giải thuật<br />
khác, khái niệm rộng hơn mà không phát hiện đạo văn.<br />
đưa ra trích dẫn nguồn phù hợp. Một cách tổng quát, một hệ thống phát<br />
• Tự đạo văn: đề cập đến một loại tái sử hiện sao chép thông thường sẽ được cài đặt<br />
dụng câu hay đoạn văn của riêng mình trên ba bước xử lý cơ bản:<br />
mà không ghi nguồn phù hợp. ■■ Thứ nhất, từ một tài liệu kiểm tra d và<br />
Theo những quan sát của chúng tôi, đạo kho dữ liệu các tài liệu nguồn D, hệ thống<br />
văn theo dạng “sao chép và dán” xảy ra khá sẽ tìm ra một tập tài liệu tiềm năng Dd ⊂ D<br />
phổ biến. Đây là loại đạo văn xảy ra trong được xác định sao cho Dd là nhỏ nhất có thể<br />
cả hai chương trình đại học và sau đại học. nhưng chứa nhiều nhất các tài liệu nguồn<br />
Nghiêm trọng hơn, có một số trường hợp chính xác mà d sao chép.<br />
trong đó sinh viên sao chép một số chương, ■■ Thứ hai, mỗi tài liệu tiềm năng được so<br />
hay thậm chí toàn bộ nội dung luận văn của sánh với d, trích xuất tất cả các đoạn văn bản<br />
người khác. Các loại khác của đạo văn hiếm có mức độ tương tự cao.<br />
khi được phát hiện và ghi nhận. Điều đó ■■ Thứ ba, các cặp đoạn văn bản đã phát<br />
không có nghĩa là không xảy ra tại Việt Nam. hiện được lọc lại dựa trên các quy tắc nào<br />
đó và có thể được biểu diễn trực quan cho<br />
2. Phương pháp nghiên cứu người dùng. Ví dụ cho bước xử lý này gồm<br />
2.1. Phát hiện sao chép theo giải pháp có loại bỏ các phát hiện quá ngắn, chồng<br />
PAN chéo hoặc gộp các phát hiện liền kề thành<br />
Từ năm 2009 đến nay, hàng năm hội thảo một phát hiện duy nhất,...<br />
khám phá đạo văn, tác quyền và lạm dụng Qua việc tìm hiểu các giải pháp được đề<br />
phần mềm xã hội (Uncovering Plagiarism, xuất tại hội thảo PAN, chúng tôi thấy rằng<br />
Authorship and Social Software Misuse giải pháp được đề xuất tại PAN năm 2010<br />
<br />
88 Tạp chí Khoa học & Công nghệ số 3 (8) – 2017<br />
TRAO ĐỔI THÔNG TIN KHOA HỌC<br />
<br />
<br />
[2] có thể làm mô hình tham khảo cơ sở cho phát hiện chồng chéo nhau sau đó biểu diễn<br />
nghiên cứu. Các bước chính của giải pháp: cho người dùng.<br />
■■ Tiền xử lý văn bản: 2.2. Mô hình phát hiện sao chép tích<br />
• Các tập tin văn bản được tách từ đơn, hợp giải thuật tách giá trị đơn<br />
loại bỏ những từ quá phổ biến, chung 2.2.1.Mô hình đề xuất<br />
chung (stopword). Mặc dù giải pháp [3] của PAN Workshop<br />
• Các tài liệu nguồn được phân tích và được đánh giá cao nhưng vẫn còn tồn tại<br />
lưu trữ dưới dạng chỉ mục đảo ngược. một số vấn đề cần được giải quyết. Theo giải<br />
Cách khá phổ biến trong hội thảo PAN pháp của PAN đã được trình bày ở phần<br />
là tách thành cụm 4-gram và lập chỉ trên, nhược điểm của giải pháp này xảy ra<br />
mục trên các 4-gram. tại giai đoạn tìm ra tập tài liệu tiềm năng.<br />
■■ Tìm kiếm các tài liệu nguồn tiềm năng: Thứ nhất con số 20 4-gram chung do [3]<br />
• Vì số lượng tập tài liệu nguồn thường đề xuất hay tổng quát hơn là n 4-gram chung<br />
là rất lớn nên trước hết phải có một đó chỉ là dựa vào kinh nghiệm, có thể không<br />
giải thuật nào đó “lọc” để giới hạn việc có hiệu quả trên nhiều trường hợp, nhất là<br />
so sánh phát hiện sao chép chỉ trên trong các thư viện đóng với chủ đề gần nhau,<br />
một tập nhỏ các tài liệu tiềm năng. chăng hạn như kho luận văn ngành công<br />
Cách thức lọc trong các giải pháp đưa nghệ thông tin.<br />
ra trong PAN là “có ít nhất 20 4-gram Sau khi tìm ra tập tài liệu có số n 4-gram<br />
chung”. Các tập tin trong tài liệu chung. Nếu tập này lớn thì làm sao để ưu<br />
nguồn có từ 20 4-gram chung với tài tiên xét các tập tiềm năng nhất? Không có<br />
liệu kiểm tra được coi là “tiềm năng” cơ sở để sắp xếp (ranking) giảm dần theo số<br />
và được giữ lại để thực hiện việc phân 4-gram chung và ấn định một số lượng giới<br />
tích so sánh kỹ hơn. hạn tập tiềm năng. Ví dụ sắp xếp giảm dần<br />
• Số lượng tài liệu nguồn tiềm năng theo con số 4-gram chung rồi lấy 100 tài liệu<br />
cho mỗi tài liệu kiểm tra có thể giới đầu tiên làm tập tiềm năng. Chứng tỏ không<br />
hạn (ví dụ 100 tài liệu chẳng hạn) phải cứ nhiều 4-gram chung hơn thì có khả<br />
bằng cách sắp xếp giảm dần theo số năng bị sao chép cao hơn.<br />
lượng từ 4-gram chung và chọn từ Xuất phát từ những cơ sở trên, trong bài<br />
cao xuống thấp. Con số 20 4-gram báo này chúng tôi đề ra giải pháp mới cải<br />
chung là một con số mang tính tiến cho giai đoạn tìm tập tài liệu tiềm năng<br />
thực nghiệm. này. Đề xuất sử dụng việc phân tích Singular<br />
■■ So sánh chi tiết các cặp tài liệu: Đối với Value Decomposition (SVD) [7] kết hợp với<br />
mỗi tài liệu kiểm tra, sau khi tìm được một không gian vector để áp dụng cho giai đoạn<br />
tập tài liệu nguồn tiềm năng, tiến hành so tìm tập tài liệu tiềm năng.<br />
sánh chi tiết giữa các cặp tài liệu để xác định Bước đầu là sử dụng mô hình không<br />
các đoạn văn bản giống nhau. gian vector: mỗi tài liệu trong tập tài liệu<br />
■■ Tinh lọc kết quả: Các đoạn văn bản hợp nguồn sẽ được mô hình hóa thành một<br />
lệ được xem như các đoạn văn bản sao chép. vector đặc trưng. Và mỗi tài liệu kiểm tra<br />
Bước cuối cùng bao gồm việc loại bỏ các sau khi qua bước tiền xử lý tách từ, loại<br />
<br />
Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 89<br />
TRAO ĐỔI THÔNG TIN KHOA HỌC<br />
<br />
<br />
bỏ các stop-word, lập thành ma trận từ– 2.2.2. Mô hình không gian vector (Vector<br />
tài liệu. Ma trận này có số chiều khá lớn, Space Model)<br />
do đó sẽ áp dụng giải thuật SVD để làm Mô hình không gian vector được đề xuất<br />
giảm số chiều, loại bỏ những giá trị nhiễu, năm 1975 bởi Salton và cộng sự. Mô hình<br />
giữ lại những giá trị đặc trưng nhất và làm không gian vector sẽ làm nhiệm vụ đưa tất<br />
tăng hiệu quả. cả các văn bản trong tập văn bản được mô tả<br />
Tiếp theo, các tài liệu sẽ được đo độ tương bởi một tập các từ khoá hay còn gọi là các từ<br />
đồng theo độ đo cosin và đó là cơ sở để trích chỉ mục (index terms) sau khi đã loại bỏ các<br />
lọc ra tập tài liệu tiềm năng. Nói cách khác từ ít có ý nghĩa (stop-word).<br />
các tài liệu trong thư viện sẽ được tính 1 độ Mỗi văn bản d được biểu diễn bằng một<br />
tương đồng (độ đo cosin) với tài liệu kiểm vector một chiều của các từ chỉ mục d = (t1,<br />
tra và dựa theo độ tương đồng đó sẽ sắp xếp t2,…, tn) với ti là từ chỉ mục thứ i (1 ≤ i ≤ n)<br />
(ranking) cũng như ấn định ngưỡng xem xét trong văn bản d. Tương tự tài liệu truy vấn<br />
theo độ tương đồng chứ không theo số lượng cũng được biểu diễn bằng một vector q =<br />
tập tin. Điều này sẽ tự nhiên hơn, nếu tập tin (q1, q2,…,qn). Lúc đó độ đo tương tự của văn<br />
kiểm tra bị sao chép từ nhiều tập thì sẽ có bản d và tài liệu truy vấn q chính là độ đo<br />
nhiều tập tiềm năng, nếu không bị sao chép cosin của chúng.<br />
gì cả thì số lượng tập tiềm năng nhỏ hoặc có<br />
thể là 0.<br />
Các bước tiếp theo để phân tích các tài<br />
liệu tiềm năng và phát hiện sao chép vẫn như<br />
giải pháp của PAN ở trên.<br />
Vấn đề phát sinh là việc tính toán SVD<br />
có thể mất thời gian do ma trận từ–tài liệu<br />
cho 4-gram là rất lớn. Để khắc phục điểm<br />
này, chúng tôi đề xuất sử dụng việc phân<br />
tích SVD trên nền tính toán song song. Do Hình 1. Góc giữa vector truy vấn và vector văn bản<br />
vậy, đề xuất cũng sẽ bao gồm xây dựng giải<br />
pháp song song, mỗi máy (hay cụm máy) 2.2.3. Giải thuật tách giá trị đơn<br />
sẽ đảm nhận một công việc riêng biệt, tăng (Singular Value Decomposition – SVD)<br />
hiệu suất tối đa xử lý. Giải thuật SVD được Golub và Kahan giới<br />
Do đó trong bài báo này chúng tôi đề xuất thiệu năm 1965 [7], đó là một công cụ phân<br />
việc dựa trên mô hình tổng thể của PAN để rã ma trận hiệu quả được sử dụng để giảm<br />
xây dựng ứng dụng và đề xuất dùng SVD hạng (hay số chiều) của ma trận. Kỹ thuật<br />
trên nền tính toán song song phân tán, một này được áp dụng vào nhiều bài toán xử lý<br />
mặt tận dụng các ưu điểm của PAN đưa ra văn bản khác nhau như tóm tắt văn bản,<br />
mặt khác sẽ cải tiến mô hình nhằm cải thiện phát hiện sao chép, lập chỉ mục và truy vấn.<br />
hiệu năng xử lý của hệ thống, hỗ trợ cho việc SVD cho phép phân tích một ma trận phức<br />
dò tìm phát hiện sao chép được thực hiện tạp thành ba ma trận thành phần. Mục đích<br />
một cách nhanh nhất. nhằm đưa việc giải quyết bài toán liên quan<br />
<br />
90 Tạp chí Khoa học & Công nghệ số 3 (8) – 2017<br />
TRAO ĐỔI THÔNG TIN KHOA HỌC<br />
<br />
<br />
đến ma trận lớn, phức tạp về những bài toán Giảm lược số chiều, lựa chọn k là tới hạn.<br />
nhỏ hơn. Đúng như ý tưởng, chúng ta muốn một giá<br />
A= USVT trị k đủ lớn để phù hợp mọi đặc tính cấu trúc<br />
thực của dữ liệu, đủ nhỏ để lọc ra các chi tiết<br />
Trong đó: không phù hợp hay không quan trọng.<br />
• U là ma trận trực giao cấp m × r (m số Việc tính toán phân rã ma trận với SVD<br />
từ chỉ mục)—các vector dòng của U là đòi hỏi thời gian tính toán cao, vì vậy để rút<br />
các vector từ chỉ mục. ngắn thời gian tính toán có thể dùng giải<br />
• S là ma trận đường chéo cấp r × r có pháp tính toán song song. Trong cài đặt cụ<br />
các giá trị suy biến (singular value) σ1 thể, có thể dùng một khung phát triển tính<br />
≥σ2 ≥…≥σr với r= rank(A) toán song song như JPPF.<br />
• V là ma trận trực giao cấp r × n (n số<br />
văn bản trong tập văn bản)—các vector 3. Kết quả nghiên cứu<br />
cột của V là các vector văn bản. Để kiểm tra hệ thống ở yếu tố độ chính<br />
• Hạng của ma trận A là các số dương xác, chúng tôi tạo ra một số tài liệu cần kiểm<br />
trên đường chéo của ma trận S. Giả sử tra từ 145 tài liệu nguồn (dữ liệu lấy từ khóa<br />
hạng của ma trận A là r hay rank(A) luận tốt nghiệp của sinh viên Đại học Hùng<br />
r<br />
<br />
= r thì số Frobenius của A là A = ∑ σ F<br />
i =1<br />
i Vương). Bảng 1 trình bày cách tạo ra các<br />
Ta có thể sử dụng SVD để xấp xỉ ma trận tài liệu cần kiểm tra và số lượng tài liệu cần<br />
A với n giá trị đơn: A ≈ Ak = U k S kVkT kiểm tra. Các kết quả thử nghiệm trên tập dữ<br />
Ma trận xấp xỉ Ak = U k SkVkT có hạng là liệu được thể hiện trong bảng 2. Chúng tôi<br />
k với k