i
ĐẠI HC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phm Th Hng
PHÁT HIỆN S TRÙNG LẶP
NI DUNG CỦA CÁC BÀI BÁO
KHOÁ LUẬN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NỘI 2013
ii
ĐẠI HC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phm Th Hng
PHÁT HIỆN S TRÙNG LẶP
NI DUNG CỦA CÁC BÀI BÁO
KHOÁ LUẬN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán bộ ng dẫn: TS. Phan Xuân Hiếu
Cán bộ đồng hƣớng dn: ThS. Trần Mai
HÀ NỘI 2013
iii
PHÁT HIỆN S TRÙNG LẶP NI DUNG CỦA CÁC BÀI BÁO
Phm Th Hng
Khóa QH-2009-I/CQ, ngành hệ thng thông tin
Tóm tắt Khóa lun tt nghip:
Hin nay s phát triển nhanh chóng của báo Điện t đã dẫn đến mt loạt các bài
báo nội dung ging nhau xut hin nhiu trang web. Do đó bài toán phát hiện s
trùng lặp của các bài o bài toán thời sự, ý nghĩa, đặc biệt trong các h thng
tìm kiếm.
Bn sao của các bài báo trên Web knhiều. Các bài báo bản sao ca nhau
có sự khác nhau trong phần quảng cáo, font ch, c ch, nhãn thời gian… sự khác biệt
như vậy không thích hợp đi với các trang tìm kiếm. Trên sở phân tích và m
hiu mt s hướng tiếp cn bài toán v so sánh hai tài liệu, khóa luận áp dụng phương
pháp lấy dấu vân của tài liệu và so sánh dấu vân để phát hiện s ging nhau. D liu
được thu thp t web được lưu trữ trong các file text tiến hành quá trình x dữ
liu, t đó m dữ liệu đầu vào cho hình hc d liệu để m ra dấu vân đặc trưng
cho từng bài báo. Khóa luận đưa ra hình th nghim dựa trên hình ly dấu vân
simhash, tìm ra được tập đặc trưng trng s ca chúng của mỗi bài báo. Kết qu
bước đầu cho thấy, mô hình khả quan và có thể tiếp tc thc nghiệm c pha xử
tiếp theo.
T khóa: Trùnglặp, đạo văn, sao chép, phát hiện, Simhash, Rabin, dấu vân, ch
iv
LỜI CAM ĐOAN
Em xin cam đoan đây phần nghiên cứu thực hiện khóa luận của riêng em,
dưới s hướng dn của PTS.TS Quang Thy TS. Phan Xuân Hiếu cùng ThS.
Trần Mai Vũ, không sao chép từ các công trình nghiên cứu khác. Em đã trích dẫn đầy
đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan trong nước và quốc tế.
Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mi k lut của ĐHQH Nội
Nhà trường.
Hà Nội, ngày 19 tháng 5 năm 2013
Sinh viên
Phm Th Hng
v
LI CM ƠN
Trước tiên, em mun gi li cảm ơn sâu sắc nhất đến các thầy giáo PGS.TS Hà
Quang Thụy và TS.Phan Xuân Hiếu cùng ThS.Trần Mai Vũ những người đã tận tình
hướng dn em suốt quá trình nghiên cứu khoa học và thực hiện khóa lun tt nghip.
Em xin chân thành cảm ơn các thầy, cô giáo đã giảng dy em trong bốn năm học
qua, nhng kiến thức mà em nhận được trên giảng đường đại hc s hành trang giúp
em vững bước trong tương lai.
Em cũng xin gửi li cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí
nghim KT-Sislab đã cho em những lời khuyên bổ ích về chuyên môn trong quá trình
nghiên cứu.
Em xin gi li cảm ơn tới các bạn trong lp K54CD đã ng h khuyến khích em
trong suốt quá trình hc tp tại trường.
Cuối cùng, em muốn được gi li cảm ơn sâu sắến tt c bạn bè, và đặc biệt
ba m và các chị - những người thân yêu luôn kịp thời động viện và giúp đ em vượt
qua những khó khăn trong học tập cũng như trong cuộc sng.
Hà Nội, ngày 19 tháng 05 năm 2013
Sinh viên
Phm Th Hng