
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI VĂN MINH
KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT
CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN
MẠNG XÃ HỘI FACEBOOK
LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN
Hà Nội, tháng 12/2021

2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI VĂN MINH
KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT
CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN
MẠNG XÃ HỘI FACEBOOK
Ngành: Công nghệ thông tin
Chuyên ngành: An toàn thông tin
Mã số: 8480202.01
LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Đình Thanh
Hà Nội, tháng 12/2021

3
LỜI CAM ĐOAN
Tôi cam đoan rằng, luận văn “Kiểm duyệt bài viết và bình luận tiếng Việt
có nội dung không phù hợp trên mạng xã hội Facebook” là công trình nghiên
cứu của riêng tôi. Những số liệu được sử dụng trong luận văn là trung thực được
chỉ rõ nguồn trích dẫn. Kết quả nghiên cứu này chưa được công bố trong bất kỳ
công trình nghiên cứu nào từ trước đến nay.
Tôi hoàn toàn chịu trách nhiệm với lời cam đoan của mình.
Hà Nội, ngày tháng 12 năm 2021
Người cam đoan
Bùi Văn Minh

4
LỜI CẢM ƠN
Để hoàn thành luận văn này, ngoài sự cố gắng của bản thân, tôi đã nhận
được sự giúp đỡ của nhiều tập thể, cá nhân trong và ngoài trường.
Tôi xin bày tỏ lòng biết ơn đến TS. Lê Đình Thanh đã luôn tận tình hướng
dẫn, động viên tôi thực hiện luận văn này.
Tôi xin bày tỏ lòng biết ơn tới các quý thầy cô Ngành An toàn thông tin,
Khoa Công nghệ Thông tin nói riêng và trong Trường Đại học Công nghệ -
ĐHQGHN nói chung đã tạo điều kiện tốt nhất cho tôi trong quá trình học tập,
nghiên cứu và hoàn thiện luận văn này.
Cuối cùng, tôi xin cảm ơn gia đình, đồng nghiệp, bạn bè, người thân đã
động viên, khích lệ tôi trong quá trình học tập và nghiên cứu.
Mặc dù bản thân đã có rất nhiều cố gắng nhưng luận văn không tránh khỏi
những khiếm khuyết, hạn chế. Vì vậy, tôi rất mong được sự góp ý chân thành
của quý thầy cô, đồng nghiệp và bạn đọc để luận văn được hoàn thiện hơn.
Xin trân trọng cảm ơn!
Hà Nội, tháng 12 năm 2021
Tác giả luận văn
Bùi Văn Minh

5
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 3
LỜI CẢM ƠN ....................................................................................................... 4
MỤC LỤC ............................................................................................................. 5
DANH SÁCH CÁC HÌNH ................................................................................... 7
DANH SÁCH CÁC BẢNG ................................................................................ 10
DANH SÁCH CHỮ VIẾT TẮT ......................................................................... 11
LỜI MỞ ĐẦU ..................................................................................................... 12
CHƯƠNG 1: CƠ SỞ KHOA HỌC .................................................................... 14
1.1. Nội dung phản động trên Facebook ......................................................... 14
1.2. Tác hại của nội dung phản động trên Facebook ...................................... 17
1.3. Kiểm duyệt nội dung phản động trên Facebook ...................................... 19
1.4. Mục tiêu nghiên cứu của luận văn ........................................................... 20
1.5. Cấu trúc của luận văn ............................................................................... 21
CHƯƠNG 2: ĐỀ XUẤT PHƯƠNG PHÁP ....................................................... 23
2.1. Danh sách đen .......................................................................................... 23
2.1.1. User Facebook phản động ................................................................... 23
2.1.2. Fanpage Facebook phản động............................................................. 24
2.1.3. Group Facebook phản động ................................................................ 24
2.1.4. Website, blog phản động .................................................................... 24
2.2. Phương pháp học máy .............................................................................. 25
2.2.1. Trích chọn đặc trưng nội dung phản động .......................................... 25
2.2.2. Mô hình, thuật toán phân loại phổ biến .............................................. 39
2.3. Sử dụng Hệ số tương quan Matthews ...................................................... 44
CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM ........................................................... 46
3.1. Mô hình kiểm duyệt nội dung phản động ................................................ 46
3.2. Xây dựng các blacklist phản động ........................................................... 47
3.3. Xây dựng tập dữ liệu mẫu ........................................................................ 51
3.3.1. Thu thập dữ liệu .................................................................................. 51
3.3.2. Gán nhãn dữ liệu ................................................................................. 54
3.4. Xây dựng bộ từ điển phản động ............................................................... 55
3.5. Xây dựng vector đặc trưng ....................................................................... 56