
i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Hồng
PHÁT HIỆN SỰ TRÙNG LẶP
NỘI DUNG CỦA CÁC BÀI BÁO
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2013

ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Hồng
PHÁT HIỆN SỰ TRÙNG LẶP
NỘI DUNG CỦA CÁC BÀI BÁO
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: TS. Phan Xuân Hiếu
Cán bộ đồng hƣớng dẫn: ThS. Trần Mai Vũ
HÀ NỘI – 2013

iii
PHÁT HIỆN SỰ TRÙNG LẶP NỘI DUNG CỦA CÁC BÀI BÁO
Phạm Thị Hồng
Khóa QH-2009-I/CQ, ngành hệ thống thông tin
Tóm tắt Khóa luận tốt nghiệp:
Hiện nay sự phát triển nhanh chóng của báo Điện tử đã dẫn đến một loạt các bài
báo có nội dung giống nhau xuất hiện ở nhiều trang web. Do đó bài toán phát hiện sự
trùng lặp của các bài báo là bài toán thời sự, có ý nghĩa, đặc biệt trong các hệ thống
tìm kiếm.
Bản sao của các bài báo trên Web là khá nhiều. Các bài báo là bản sao của nhau
có sự khác nhau trong phần quảng cáo, font chữ, cỡ chữ, nhãn thời gian… sự khác biệt
như vậy là không thích hợp đối với các trang tìm kiếm. Trên cơ sở phân tích và tìm
hiểu một số hướng tiếp cận bài toán về so sánh hai tài liệu, khóa luận áp dụng phương
pháp lấy dấu vân của tài liệu và so sánh dấu vân để phát hiện sự giống nhau. Dữ liệu
được thu thập từ web được lưu trữ trong các file text và tiến hành quá trình xử lý dữ
liệu, từ đó làm dữ liệu đầu vào cho mô hình học dữ liệu để tìm ra dấu vân đặc trưng
cho từng bài báo. Khóa luận đưa ra mô hình thử nghiệm dựa trên mô hình lấy dấu vân
simhash, tìm ra được tập đặc trưng và trọng số của chúng của mỗi bài báo. Kết quả
bước đầu cho thấy, mô hình là khả quan và có thể tiếp tục thực nghiệm các pha xử lý
tiếp theo.
Từ khóa: Trùnglặp, đạo văn, sao chép, phát hiện, Simhash, Rabin, dấu vân, chữ
ký

iv
LỜI CAM ĐOAN
Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em,
dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và TS. Phan Xuân Hiếu cùng ThS.
Trần Mai Vũ, không sao chép từ các công trình nghiên cứu khác. Em đã trích dẫn đầy
đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong nước và quốc tế.
Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của ĐHQH Hà Nội và
Nhà trường.
Hà Nội, ngày 19 tháng 5 năm 2013
Sinh viên
Phạm Thị Hồng

v
LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà
Quang Thụy và TS.Phan Xuân Hiếu cùng ThS.Trần Mai Vũ những người đã tận tình
hướng dẫn em suốt quá trình nghiên cứu khoa học và thực hiện khóa luận tốt nghiệp.
Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dạy em trong bốn năm học
qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp
em vững bước trong tương lai.
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí
nghiệm KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình
nghiên cứu.
Em xin gửi lời cảm ơn tới các bạn trong lớp K54CD đã ủng hộ khuyến khích em
trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn được gửi lời cảm ơn sâu sắcđến tất cả bạn bè, và đặc biệt là
ba mẹ và các chị - những người thân yêu luôn kịp thời động viện và giúp đỡ em vượt
qua những khó khăn trong học tập cũng như trong cuộc sống.
Hà Nội, ngày 19 tháng 05 năm 2013
Sinh viên
Phạm Thị Hồng

