
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
VONGSAVANH VANPHATH
NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN THAY ĐỔI NỘI DUNG
BẢNG KẾT QUẢ CỦA TRANG TIN XỔ SỐ KIẾN THIẾT
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI – NĂM 2020
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

---------------------------------------
VONGSAVANH VANPHATH
NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN THAY ĐỔI NỘI DUNG
BẢNG KẾT QUẢ CỦA TRANG TIN XỔ SỐ KIẾN THIẾT
Chuyên ngành : HỆ THỐNG THÔNG TIN
Mã số : 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
Người hướng dẫn khoa học: PGS.TSKH. HOÀNG ĐĂNG HẢI
HÀ NỘI – NĂM 2020

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và dưới sự hướng
dẫn của PGS.TSKH. Hoàng Đăng Hải. Các số liệu, kết quả nêu trong luận văn là
trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tác giả luận văn
VONGSAVANH VANPHATH

ii
LỜI CẢM ƠN
Học viên xin chân thành cảm ơn các thầy cô trong Khoa Đào tạo Sau Đại
học, Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho học
viên trong quá trình học tập và nghiên cứu. Học viên xin chân thành cảm ơn
PGS.TSKH. Hoàng Đăng Hải là người đã trực tiếp tận tình hướng dẫn học viên
hoàn thành luận văn này.
Học viên xin chân thành cảm ơn các bạn bè đã sát cánh giúp học viên có
được những kết quả như ngày hôm nay.
Đề tài nghiên cứu của luận văn có nội dung bao phủ rộng. Tuy nhiên, thời
gian nghiên cứu còn hạn hẹp. Vì vậy, luận văn có thể có những thiếu sót. Học viên
rất mong nhận được sự đóng góp ý kiến của các thầy cô và các bạn.
Xin chân thành cảm ơn!
Tác giả luận văn
VONGSAVANH VANPHATH

iii
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... I
LỜI CẢM ƠN ........................................................................................................ II
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ................................................... V
DANH MỤC HÌNH VẼ ...................................................................................... VII
DANH MỤC BẢNG BIỂU ................................................................................ VIII
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU. .............................. 4
1.1. Vấn đề an toàn thông tin: cần nêu các mối nguy cơ, tác động đến trang thông
tin điện tử nói chung ........................................................................................... 4
1.2. Các hình thức tấn công mạng phổ biến ....................................................... 6
1.2.1. Tấn công bằng phần mềm độc hại (Malware attack) ........................... 6
1.2.2. Tấn công giả mạo (Phishing attack)..................................................... 6
1.2.3. Tấn công trung gian (Man-in-the-middle attack) ................................. 6
1.2.4. Tấn công từ chối dịch vụ (DoS và DDoS) ........................................... 6
1.2.5. Tấn công cơ sở dữ liệu (SQL injection) ............................................... 7
1.2.6. Khai thác lỗ hổng Zero-day (Zero day attack) ..................................... 7
1.2.7. Các loại khác ....................................................................................... 7
1.3. Vấn đề bảo đảm an toàn trang TTĐT nói chung.......................................... 7
1.4. Nguy cơ thay đổi, giả mạo nội dung trang TTĐT nói chung. .................... 12
1.5. Các mô hình, phương pháp, kỹ thuật liên quan đến thu thập thông tin, trích
chọn dữ liệu. ..................................................................................................... 13
1.5.1. Web Crawler ...................................................................................... 16
1.5.2. Web Scraper ...................................................................................... 17
1.5.3. Phân biệt Web Crawling và Web Scraping ........................................ 18
1.6. Một số thuật toán kiểm tra phát hiện thay đổi nội dung trang TTĐT ........ 19
1.6.1. Hàm băm ........................................................................................... 19
1.6.2. Thuật toán đối sánh chuỗi .................................................................. 22
1.6.3. Dấu vân tay tài liệu (Document Fingerprint) ..................................... 22
1.6.4. Thuật toán Rabin Fingerprint............................................................. 23
1.6.5. Thuật toán Rabin Fingerprint cải tiến ................................................ 24
1.6.6. Thuật toán tìm sự khác nhau của hai văn bản "An O(ND) Difference
Algorithm" .................................................................................................... 26
1.6.7. Thuật toán tìm sự khác nhau của hai hình ảnh ................................... 27
1.7. Kết luận chương ........................................................................................ 27
CHƯƠNG 2. NGHIÊN CỨU PHƯƠNG PHÁP KIỂM TRA PHÁT HIỆN THAY
ĐỔI NỘI DUNG TRANG TIN XỔ SỐ ................................................................ 28
2.1. Khái quát về kiến trúc chung, cơ chế hoạt động của các trang TTĐT. ...... 28

