Luận văn Thạc sĩ An toàn thông tin: Kiểm duyệt bài viết và bình luận tiếng Việt có nội dung không phù hợp trên mạng xã hội Facebook

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:89

Thêm vào BST

Báo xấu

26
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn của tôi tập trung nghiên cứu cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên (NLP-Natural Language Processing); các thuật toán học máy, mô hình mạng nơ-ron nhân tạo áp dụng cho phát hiện nội dung phản động như SVM (Support Vector Machine), MLP (Multi-layer Perceptron) và các phương pháp trích trọn đặc trưng của bài viết và bình luận tiếng Việt có nội dung phản động trên Facebook.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ An toàn thông tin: Kiểm duyệt bài viết và bình luận tiếng Việt có nội dung không phù hợp trên mạng xã hội Facebook

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI VĂN MINH KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN MẠNG XÃ HỘI FACEBOOK LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN Hà Nội, tháng 12/2021
2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI VĂN MINH KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN MẠNG XÃ HỘI FACEBOOK Ngành: Công nghệ thông tin Chuyên ngành: An toàn thông tin Mã số: 8480202.01 LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Đình Thanh Hà Nội, tháng 12/2021
3 LỜI CAM ĐOAN Tôi cam đoan rằng, luận văn “Kiểm duyệt bài viết và bình luận tiếng Việt có nội dung không phù hợp trên mạng xã hội Facebook” là công trình nghiên cứu của riêng tôi. Những số liệu được sử dụng trong luận văn là trung thực được chỉ rõ nguồn trích dẫn. Kết quả nghiên cứu này chưa được công bố trong bất kỳ công trình nghiên cứu nào từ trước đến nay. Tôi hoàn toàn chịu trách nhiệm với lời cam đoan của mình. Hà Nội, ngày tháng 12 năm 2021 Người cam đoan Bùi Văn Minh
4 LỜI CẢM ƠN Để hoàn thành luận văn này, ngoài sự cố gắng của bản thân, tôi đã nhận được sự giúp đỡ của nhiều tập thể, cá nhân trong và ngoài trường. Tôi xin bày tỏ lòng biết ơn đến TS. Lê Đình Thanh đã luôn tận tình hướng dẫn, động viên tôi thực hiện luận văn này. Tôi xin bày tỏ lòng biết ơn tới các quý thầy cô Ngành An toàn thông tin, Khoa Công nghệ Thông tin nói riêng và trong Trường Đại học Công nghệ - ĐHQGHN nói chung đã tạo điều kiện tốt nhất cho tôi trong quá trình học tập, nghiên cứu và hoàn thiện luận văn này. Cuối cùng, tôi xin cảm ơn gia đình, đồng nghiệp, bạn bè, người thân đã động viên, khích lệ tôi trong quá trình học tập và nghiên cứu. Mặc dù bản thân đã có rất nhiều cố gắng nhưng luận văn không tránh khỏi những khiếm khuyết, hạn chế. Vì vậy, tôi rất mong được sự góp ý chân thành của quý thầy cô, đồng nghiệp và bạn đọc để luận văn được hoàn thiện hơn. Xin trân trọng cảm ơn! Hà Nội, tháng 12 năm 2021 Tác giả luận văn Bùi Văn Minh
5 MỤC LỤC LỜI CAM ĐOAN .................................................................................................. 3 LỜI CẢM ƠN ....................................................................................................... 4 MỤC LỤC ............................................................................................................. 5 DANH SÁCH CÁC HÌNH ................................................................................... 7 DANH SÁCH CÁC BẢNG ................................................................................ 10 DANH SÁCH CHỮ VIẾT TẮT ......................................................................... 11 LỜI MỞ ĐẦU ..................................................................................................... 12 CHƯƠNG 1: CƠ SỞ KHOA HỌC .................................................................... 14 1.1. Nội dung phản động trên Facebook ......................................................... 14 1.2. Tác hại của nội dung phản động trên Facebook ...................................... 17 1.3. Kiểm duyệt nội dung phản động trên Facebook ...................................... 19 1.4. Mục tiêu nghiên cứu của luận văn ........................................................... 20 1.5. Cấu trúc của luận văn ............................................................................... 21 CHƯƠNG 2: ĐỀ XUẤT PHƯƠNG PHÁP....................................................... 23 2.1. Danh sách đen .......................................................................................... 23 2.1.1. User Facebook phản động................................................................... 23 2.1.2. Fanpage Facebook phản động............................................................. 24 2.1.3. Group Facebook phản động ................................................................ 24 2.1.4. Website, blog phản động .................................................................... 24 2.2. Phương pháp học máy .............................................................................. 25 2.2.1. Trích chọn đặc trưng nội dung phản động .......................................... 25 2.2.2. Mô hình, thuật toán phân loại phổ biến .............................................. 39 2.3. Sử dụng Hệ số tương quan Matthews ...................................................... 44 CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM........................................................... 46 3.1. Mô hình kiểm duyệt nội dung phản động ................................................ 46 3.2. Xây dựng các blacklist phản động ........................................................... 47 3.3. Xây dựng tập dữ liệu mẫu ........................................................................ 51 3.3.1. Thu thập dữ liệu .................................................................................. 51 3.3.2. Gán nhãn dữ liệu ................................................................................. 54 3.4. Xây dựng bộ từ điển phản động ............................................................... 55 3.5. Xây dựng vector đặc trưng ....................................................................... 56
6 3.6. Các mô hình thử nghiệm .......................................................................... 58 3.6.1. SVM-3f ............................................................................................... 59 3.6.2. SVM-2f ............................................................................................... 60 3.6.3. MLP-2f ................................................................................................ 60 3.6.4. MLP-3f ................................................................................................ 61 3.6.5. SVM-BERT ........................................................................................ 61 3.6.6. MLP-BERT ......................................................................................... 62 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................... 72 4.1. Kết luận .................................................................................................... 72 4.2. Hướng phát triển ...................................................................................... 72 TÀI LIỆU THAM KHẢO .................................................................................. 74 PHỤ LỤC............................................................................................................ 78 Mục 1: Trích xuất dữ liệu bình luận vào CSDL ............................................. 78 Mục 2: Xây dựng vector đặc trưng ................................................................. 78 Mục 3: Một số kết quả thực nghiệm ............................................................... 85 Mục 4: Kiểm duyệt nội dung phản động trên Facebook................................. 88
7 DANH SÁCH CÁC HÌNH Hình 2.1: Quy trình NLP ..................................................................................... 26 Hình 2.2. Kết quả thử nghiệm các mô hình phân loại văn bản tiếng Việt của nhóm Underthesea............................................................................................... 32 Hình 2.3. Kiến trúc mô hình BERT ..................................................................... 34 Hình 2.4. Mô hình chung của Word2Vec ............................................................ 38 Hình 2.5. Support Vectors trong SVM ................................................................ 41 Hình 2.6. Margin trong SVM .............................................................................. 41 Hình 2.7: Cấu tạo mạng MLP cơ bản ................................................................. 43 Hình 2.8: Sử dụng mô hình MLP cho bài toán phân loại văn bản ..................... 43 Hình 3.1: Mô hình kiểm duyệt 02 lớp đối với bài viết, bình luận phản động ..... 46 trên Facebook ...................................................................................................... 46 Hình 3.2: Minh họa thu thập bài viết bằng Selenium ......................................... 52 Hình 3.3: Minh họa thu thập bình luận bằng Selenium ...................................... 53 Hình 3.4: Mẫu dữ liệu bài viết thu thập được..................................................... 54 Hình 3.5: Mẫu dữ liệu bình luận thu thập được ................................................. 54 Hình 3.6: Mẫu dữ liệu bình luận sau khi được gán nhãn ................................... 55 Hình 3.7: Danh sách từ điển phản động đã xây dựng ........................................ 56 Hình 3.8: Tham số C tốt nhất .............................................................................. 59 Hình 3.9: Kết quả thử nghiệm bộ vector đặc trưng bao gồm Blacklist word phản động, hình thái, n-gram với thuật toán SVM ...................................................... 60 Hình 3.10: Kết quả thử nghiệm bộ vector đặc trưng bao gồm Blacklist word phản động, hình thái với thuật toán SVM ........................................................... 60 Hình 3.11: Kết quả huấn luyện bộ vector đặc trưng bao gồm Blacklist word phản động và hình thái với mô hình MLP........................................................... 60 Hình 3.12: Kết quả huấn luyện bộ vector đặc trưng bao gồm Blacklist word phản động, hình thái và n-gram với mô hình MLP ............................................. 61 Hình 3.13: Kết quả huấn luyện mô hình sử dụng pretrained PhoBERT kết hợp với thuật toán SVM .............................................................................................. 61 Hình 3.14: Kết quả huấn luyện mô hình sử dụng pretrained PhoBERT kết hợp với mô hìnhMLP .................................................................................................. 62
8 Hình 3.15: Kết quả thực nghiệm các mô hình .................................................... 62 Hình 3.16: Cấu trúc thư mục extension .............................................................. 64 Hình 3.17: File manifest.json .............................................................................. 64 Hình 3.18: Giao diện extension Chrome ............................................................ 66 Hình 3.19: Cài đặt extension thành công ........................................................... 66 Hình 3.20: Trước khi sử dụng extension ............................................................. 67 Hình 3.21: Extension chặn các nhóm độc hại, chống phá.................................. 68 Hình 3.22: Extension chặn các người dùng có hành vi phản động .................... 68 Hình 3.23: Extension chặn các trang mạng có hành vi phản động .................... 69 Hình 3.24: Kết quả hoạt động của extension trên bài viết ................................. 69 Hình 3.25: Sau khi hiện ra bài viết bị ẩn (bài viết sẽ vẫn bị làm mờ). ............... 70 Hình 3.26: Kết quả hoạt động của extension trên bình luận .............................. 71 Hình 3.27: Sau khi hiện ra bình luận bị ẩn. ........................................................ 71 Hình 3.28: Code tách comment json bằng Python.............................................. 78 Hình 3.29: Mã nguồn đọc bộ dữ liệu bao gồm 20.000 bài viết, bình luận trên Facebook từ nhiều user, fanpage, group khác nhau. .......................................... 78 Hình 3.30: Mẫu dữ liệu sử dụng cho huấn luyện và kiểm tra mô hình .............. 79 Hình 3.31: Mã nguồn tính toán độ phản động của các bài viết, bình luận ........ 79 Hình 3.32: Hàm tính toán tỉ lệ ký tự viết hoa trong bình luận, bài viết ............. 80 Hình 3.33: Hàm tính độ dài bài viết ................................................................... 80 Hình 3.34: Hàm tính tần suất sử dụng các ký tự không phải alphabet .............. 80 Hình 3.35: Hàm tính tần suất sử dụng các ký tự đặc biệt................................... 81 Hình 3.36: Hàm tính độ dài trung bình các từ.................................................... 81 Hình 3.37: Hàm tính tần suất sử dụng các từ viết tắt ......................................... 82 Hình 3.38: Sử dụng bigram và trigram mức ký tự cho bài viết, bình luận. ........ 82 Hình 3.39: Đặc trưng về độ phản động .............................................................. 83 Hình 3.40: Đặc trưng về hình thái ...................................................................... 83 Hình 3.41: Đặc trưng n-gram ............................................................................. 83 Hình 3.42: Phân chia dữ liệu và tính toán vector đặc trưng .............................. 83 Hình 3.43: Thuật toán GridSearchCV tìm tham số C tối ưu .............................. 84 Hình 3.44: Load pretrained PhoBERT model và tiền xử lý văn bản .................. 84 Hình 3.45: Tạo features từ PhoBert .................................................................... 85
9 Hình 3.46: Kết quả huấn luyện SVM-3f .............................................................. 86 Hình 3.47: Kết quả huấn luyện SVM-2f .............................................................. 86 Hình 3.48: Kết quả huấn luyện MLP-2f .............................................................. 86 Hình 3.49: Kết quả huấn luyện MLP-3f .............................................................. 87 Hình 3.50: Kết quả huấn luyện SVM-BERT ....................................................... 87 Hình 3.51: Kết quả huấn luyện MLP-BERT ....................................................... 87 Hình 3.52: Mã nguồn Server backend ................................................................ 88 Hình 3.53: Kiểm tra sự xuất hiện của các đường link URL đến website, blog phản động trong nội dung bài viết, bình luận trên Facebook. ........................... 89 Hình 3.54: Một số thẻ div được sử dụng để lấy thông tin từ bài viết, bình luận 89
10 DANH SÁCH CÁC BẢNG Bảng 3.1: Danh sách một số user Facebook phản động .................................... 47 Bảng 3.2: Danh sách một số fanpage Facebook phản động .............................. 48 Bảng 3.3: Danh sách một số group Facebook phản động.................................. 49 Bảng 3.4: Danh sách một số website, blog phản động ....................................... 50
11 DANH SÁCH CHỮ VIẾT TẮT CH-CĐCT Cơ hội, chống đối chính trị CNN Convolution Neural Network DOM Document Object Model Extension Thành phần mở rộng Layer Tầng MXH Mạng xã hội MLP Multi-layer Perceptron MCC Matthews Correlation Coefficient NLP Natural Language Processing URL Uniform Resource Locator SVM Support Vetor Machines
12 LỜI MỞ ĐẦU Facebook là một website mạng xã hội (MXH) truy cập miễn phí do Công ty Facebook, Inc điều hành và sở hữu tư nhân. Người dùng có thể tham gia các mạng lưới được tổ chức theo thành phố, nơi làm việc, trường học và khu vực để liên kết và giao tiếp với người khác. Hiện nay, Facebook là MXH có số lượng người sử dụng nhiều nhất, với khoảng 2,8 tỷ người dùng hàng tháng và 1,84 tỷ người dùng hàng ngày (số liệu tháng 12/2020) [1]. Trong đó, Việt Nam xếp thứ 7 trong top 10 quốc gia sử dụng MXH Facebook đông nhất thế giới, với 69,28 triệu người dùng (số liệu tháng 6/2020) [2]. Về mặt tích cực, MXH Facebook đang là công cụ truyền thông phổ biến và gần gũi với mọi người, đặc biệt là giới trẻ; cho phép kết nối người dùng trên khắp thế giới tới gần nhau hơn; mang đến cho người dùng nhiều tính năng vượt trội, hiện đại, đáp ứng nhu cầu giao tiếp trong xã hội như: Trò chuyện, xem phim ảnh, nhật kí cá nhân, thành lập hội nhóm, tìm kiếm thông tin, kinh doanh trực tuyến… Qua quá trình nghiên cứu, tìm hiểu về MXH Facebook, tôi nhận thấy rằng, bên cạnh những nội dung tích cực, cũng có rất nhiều những nội dung tiêu cực, không phù hợp trên Facebook, như: Các nội dung về bạo hành/đe dọa trực tuyến (cyberbullying), nội dung về lời nói căm thù (hate speech), nội dung ngôn ngữ xúc phạm (offensive language), nội dung tin giả, tin đầu độc, nội dung phản động… thuộc các thể loại, lĩnh vực khác nhau, như: Chính trị, sắc tộc, tôn giáo, giới tính, khủng bố,… Để kiểm duyệt tất cả các thể loại nội dung không phù hợp thuộc các lĩnh vực khác nhau trên MXH Facebook là điều rất khó. Trong giới hạn phạm vi nghiên cứu của luận văn, tôi chọn một chủ đề nghiên cứu nhỏ hơn là về nội dung phản động trong lĩnh vực chính trị, nhằm làm nổi bật về phương pháp, cách thức trong kiểm duyệt các nội dung không phù hợp trên MXH Facebook, từ đó có thể làm nền tảng để áp dụng trên các MXH khác. Việc nghiên cứu các nội dung liên quan đến vấn đề chính trị mặc dù rất nhạy cảm, ít người làm, nhưng tôi vẫn lựa chọn là bởi vì: Thực trạng hiện nay, nhiều đối tượng xấu đã và đang lợi dụng MXH Facebook để tuyên truyền, kích động bạo lực, chiến tranh, gây thù hằn dân tộc, đòi lật đổ chế độ; xúc phạm nhân phẩm, bôi nhọ danh dự cá nhân, tổ chức; chia rẽ dân tộc tôn giáo;… Tại Việt Nam, nhiều đối tượng cơ hội, chống đối chính trị (CH-CĐCT) ở trong và ngoài nước đã và đang sử dụng Facebook để tạo lập, kêu gọi nhiều đối tượng khác
13 tham gia các trang cộng đồng (fanpage), hội/nhóm (group) chống đối chính trị, như: Việt Tân, Nhật ký yêu nước, VOA Tiếng Việt, Đài Á Châu Tự Do, BBC News Tiếng Việt, Quân Đội Việt Nam Cộng Hòa,… Bên cạnh đó, nhiều đối tượng tinh vi hơn còn lập ra rất nhiều fanpage núp dưới những tên gọi nghiêm túc, chính thống, như: “Đảng Cộng sản Việt Nam Vinh quang”, hay trang “Nhật ký tin tức thể hiện lòng yêu nước”… để đăng tải những thông tin xuyên tạc, bịa đặt về tình hình chính trị ở Việt Nam, xen vào những nội dung phản động, chống phá Đảng, Nhà nước rất quyết liệt [3]. Với nhiều thủ đoạn khác nhau, các đối tượng này tập trung tuyên truyền, xuyên tạc chủ trương, đường lối của Đảng, chính sách và pháp luật của Nhà nước; chống phá, đòi lật đổ chế độ XHCN; mạo danh, nói xấu các lãnh đạo cấp cao của Đảng, Nhà nước… Việc đăng tải, tán phát các bài viết, bình luận có nội dung phản động, chống phá trên MXH Facebook đã trở thành vấn đề nhức nhối nhiều năm qua. Các cơ quan chức năng của Nhà nước Việt Nam cũng đã đề ra những quy định nghiêm ngặt nhằm hạn chế việc sử dụng các nền tảng MXH trực tuyến để tuyên truyền chống phá Đảng, Nhà nước, chế độ. Tuy nhiên, việc theo dõi, giám sát, phát hiện và xử lý các đối tượng lợi dụng MXH Facebook để tuyên truyền, chống phá Đảng, Nhà nước vẫn còn nhiều hạn chế nhất định cả về con người, phương tiện, cũng như cơ chế hợp tác của nhà phát triển Facebook với Chính phủ Việt Nam.Vì vậy, rất cần có một giải pháp công nghệ để hỗ trợ để phát hiện và kịp thời ngăn chặn các thông tin phản động đến với người dùng Facebook. Luận văn được thực hiện với mục tiêu nghiên cứu giải pháp phát hiện, loại bỏ bài viết và bình luận tiếng Việt có nội dung phản động trước khi tiếp cận đến các người dùng Facebook. Trong toàn bộ nội dung của luận văn, tôi sẽ tập trung làm rõ thế nào là các nội dung phản động và phương pháp để phát hiện, kiểm duyệt các nội dung phản động trước khi tiếp cận người dùng. Luận văn của tôi tập trung nghiên cứu cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên (NLP-Natural Language Processing); các thuật toán học máy, mô hình mạng nơ-ron nhân tạo áp dụng cho phát hiện nội dung phản động như SVM (Support Vector Machine), MLP (Multi-layer Perceptron) và các phương pháp trích trọn đặc trưng của bài viết và bình luận tiếng Việt có nội dung phản động trên Facebook. Luận văn đã phát triển một mô-đun dịch vụ phát hiện nội dung phản động trong bài viết và bình luận tiếng Việt trên MXH Facebook. Với mô- đun này, các bài viết, bình luận tiếng Việt có nội dung phản động sẽ được kiểm duyệt và ẩn khỏi trang Facebook của người dùng.
14 CHƯƠNG 1: CƠ SỞ KHOA HỌC 1.1. Nội dung phản động trên Facebook Trong những năm gần đây, sự ra đời, phát triển của internet và MXH đã thay đổi một cách đáng kể cách sống, suy nghĩ và hành động của người dân trên toàn thế giới, đặc biệt là giới trẻ. Ở Việt Nam, Facebook là MXH được sử dụng nhiều nhất và đã trở thành một phần không thể thiếu trong cuộc sống hiện đại. Nhờ có MXH nói chung và Facebook nói riêng, không thể phủ nhận rằng, nếu sử dụng một cách hợp lý và đúng đắn nó mang lại những lợi ích to lớn. Đầu tiên phải kể đến giúp con người dễ dàng chia sẻ, trao đổi thông tin với nhau thông qua việc nhắn tin, trò chuyện trực tuyến, chia sẻ âm thanh, hình ảnh, bày tỏ cảm xúc, bình luận..., mà không bị giới hạn về không gian và địa lý. Đặc biệt, tất cả đều miễn phí, do vậy, giúp tiết kiệm tài chính và tạo điều kiện lí tưởng để kết nối mọi người lại gần nhau hơn. Các thông tin trên Facebook được cập nhật nhanh chóng theo thời gian thực, từ những chia sẻ của cá nhân, gia đình, bạn bè, nhà trường cho đến những sự kiện chính trị trong nước và trên thế giới. Qua đó, giúp người dùng nắm bắt nhanh thông tin và xu thế phát triển của xã hội. Những nội dung thông tin được đăng tải trên Facebook không chỉ đa dạng mà còn là kho kiến thức khổng lồ, góp phần làm phong phú đời sống tinh thần, nâng cao nhu cầu hưởng thụ, trao đổi thông tin trong xã hội. Thông qua những thông tin được đăng tải, chia sẻ dưới dạng bài viết, hình ảnh, video cũng là cách mà mọi người thể hiện nhận thức và hành động. Khi mà thông tin ngày càng trở thành nhân tố quan trọng trong việc nắm bắt thời cơ, cơ hội để hợp tác và phát triển, thì những tiện ích mà Facebook mang lại còn giúp cho kinh tế, xã hội ngày càng phát triển hơn thông qua các hoạt động trao đổi, kinh doanh, buôn bán… góp phần làm phong phú hơn đời sống vật chất và tinh thần của người dân. Bên cạnh những mặt tích cực, MXH Facebook cũng tồn tại thực trạng xuất hiện nhiều thông tin giả, thông tin xấu độc, đặc biệt là những thông tin phản động, chống phá Đảng, Nhà nước ảnh hưởng tiêu cực đến tình hình kinh tế, chính trị, văn hóa - xã hội, an ninh quốc phòng… của đất nước; đặt ra nguy cơ mất an ninh chính trị, trật tự và an toàn xã hội. Với đặc tính lan truyền nhanh, có khả năng mở rộng phạm vi tác động, vượt qua rào cản ngôn ngữ, khoảng cách địa lý, gây tác hại trên diện rộng hơn bất cứ hình thức chống phá nào khác của các thế lực thù địch, việc lợi dụng MXH Facebook để tuyên truyền, xuyên tạc, chống phá Đảng, Nhà nước được
15 coi là thủ đoạn có tổ chức phổ biến hiện nay, có tính chất phức tạp và ngày càng tinh vi. Tại Việt Nam, để thực hiện âm mưu chống phá Đảng, Nhà nước, các tổ chức phản động lưu vong cùng nhiều đối tượng CH-CĐCT trong và ngoài nước đã lợi dụng chính sách quản lý còn lỏng lẻo của Facebook để tạo lập, kêu gọi nhiều đối tượng tham gia các fanpage, group chống đối chính trị (cả group công khai và group kín) để cùng trao đổi, bàn bạc các thủ đoạn tuyên truyền, chống phá chính quyền, như: Việt Tân, Nhật ký yêu nước, Khối 8406, VOA Tiếng Việt, Đài Á Châu Tự Do, BBC News Tiếng Việt, Quân Lực Việt Nam Cộng Hòa… Thủ đoạn của các thế lực thù địch là lợi dụng các sự kiện chính trị nóng của đất nước để tuyên truyền xuyên tạc chủ trương, đường lối của Đảng, chính sách và luật pháp của Nhà nước. Bản chất của những thông tin có nội dung phản động trên MXH Facebook là những thông tin bịa đặt, bóp méo sự thật, xuyên tạc vấn đề, “đổi trắng, thay đen”, cố tình đưa tin với dụng ý xấu, phân tích và định hướng dư luận bằng luận điệu thù địch. Các thông tin bị xuyên tạc thuộc đa dạng các thể loại, chủ đề, lĩnh vực khác nhau, từ kinh tế, chính trị, văn hóa, ngoại giao, an ninh - quốc phòng cho tới việc nói xấu tổ chức, lãnh đạo cấp cao của Đảng, Nhà nước… Tất cả đều nhằm định hướng dư luận để chống phá Đảng, Nhà nước, hòng lật đổ chế độ XHCN tại Việt Nam… Đáng chú ý, việc chống phá sự lãnh đạo của Đảng Cộng sản Việt Nam là một trong những mục tiêu hàng đầu thường được các thế lực thù địch nhắc tới mối khi tuyên truyền chống phá. Hoạt động của các thế lực thù địch thường diễn ra dưới nhiều thủ đoạn tinh vi, như: Lợi dụng sai sót nhỏ của chính quyền để thổi phồng vụ việc, vu cáo, đổ lỗi cho sự lãnh đạo của Đảng, nhằm bôi nhọ, hạ thấp uy tín của Đảng; lợi dụng các thành phần có dân trí thấp, dễ bị tác động, để kích động biểu tình, bạo loạn, làm mất trật tự an ninh, an toàn xã hội… Điển hình như thời gian gần đây, trên MXH xuất hiện rất nhiều thông tin sai lệch về công tác phòng, chống dịch Covid-19 tại Việt Nam, như: “Từ 0h ngày 15/7, TP.HCM sẽ giới nghiêm người dân, ngưng tất cả các ngành nghề, cấm người dân di chuyển ra ngoài”, “lãnh đạo TP.HCM đã nhiễm Covid-19”, hay bức ảnh nhiều thi thể nạn nhân trong bệnh viện, được chụp ở Indonesia thì lại bị các đối tượng gán là “chụp ở bệnh viện Chợ Rẫy, TP.HCM” [4]; lợi dụng vụ việc liên quan đến sự kiện quân nhân Trần Đức Đô tử vong tại Trường Quân sự thuộc Quân khu 1, các phần tử CH-CĐCT đã đăng tải các bài viết, hình ảnh về khám nghiệm tử thi, cảnh tang thương của gia đình quân nhân, kèm những bình luận phê phán nhằm bóp méo sự thật, kích động hận thù, gây chia rẽ mối quan hệ Quân - Dân, xuyên tạc bản chất, truyền thống Quân đội và phẩm chất “Bộ đội Cụ Hồ”. Bên cạnh đó, gần đây vào ngày 08/09/2021,
16 Trương Châu Hữu Danh và nhóm “Báo Sạch” đã bị Viện Kiểm sát nhân dân huyện Thới Lai, TP. Cần Thơ truy tố về các hành vi đăng tải, chia sẻ bài viết, hướng cộng đồng mạng tham gia bình luận tiêu cực, cố ý xâm phạm đến lợi ích của Nhà nước, cơ quan tổ chức tại tỉnh Cần Thơ [5]… Ngoài những thông tin đăng tải trên bài viết (post), nhiều user, fanpage, group Facebook tận dụng triệt để tính năng chia sẻ bài viết từ các website, blog khác để thu hút bình luận (comment) của người dùng, tạo dư luận trái chiều, qua đó thu thập thông tin, tiếp tục tuyên truyền, kích động chống phá… Điển hình là các blog “Dân Làm Báo”, “Báo Tiếng Dân”, “Anh Ba Sàm”, “Việt Nam Thời Báo”, “VOA Tiếng Việt”,... Các website, blog này thường được các đối tượng xấu, đối tượng chống phá tạo lập ẩn danh hoặc sử dụng những dịch vụ tạo blog miễn phí của Google, WordPress…, đăng ký tên miền và đặt máy chủ lưu trữ dữ liệu tại Mỹ để tránh bị lực lượng chức năng của Việt Nam bóc gỡ. Những thông tin từ các website, blog phản động này đang ngày càng đa dạng, phong phú, tổ chức dưới nhiều hình thức, có lực lượng đăng tải thông tin hàng ngày lên các MXH (nhất là Faccebook) để thu hút người đọc, gây hoang mang dư luận, ảnh hưởng xấu đến tư tưởng chính trị của người dân trong xã hội. Các bài viết, bình luận tiếng Việt có nội dung phản động được đăng tải trên MXH Facebook dưới nhiều thể loại, hình thức khác nhau, từ văn bản, âm thanh, hình ảnh đến các video-clip (bao gồm cả trực tuyến-livestream). Do giới hạn về khả năng, công nghệ, cũng như lực lượng thực hiện, phạm vi của luận văn này chỉ tập trung nghiên cứu phát hiện các nội dung phản động dưới dạng văn bản, chưa xét đến các nội dung hình ảnh, âm thanh, video-clip trên MXH Facebook. Để xác định các nội dung phản động trên Facebook, bản thân tôi đã tự tìm hiểu, nghiên cứu các điều khoản của Luật An ninh mạng 2018 và Nghị định 174/2013/NĐ-CP của Chính phủ Việt Nam công khai trên không gian mạng [7,8,9,10], từ đó rút ra 11 nội dung sau đây được coi là nội dung phản động, bao gồm: (1) Tổ chức, hoạt động, câu kết, xúi giục, mua chuộc, lừa gạt, lôi kéo, đào tạo, huấn luyện người chống Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam; (2) Xuyên tạc lịch sử, phủ nhận thành tựu cách mạng, phá hoại khối đại đoàn kết toàn dân tộc, xúc phạm tôn giáo, phân biệt đối xử về giới, phân biệt chủng tộc; (3) Thông tin sai sự thật gây hoang mang trong Nhân dân, gây thiệt hại cho hoạt động kinh tế - xã hội, gây khó khăn cho hoạt động của cơ quan nhà nước
17 hoặc người thi hành công vụ, xâm phạm quyền và lợi ích hợp pháp của cơ quan, tổ chức, cá nhân khác; (4) Tuyên truyền xuyên tạc, phỉ báng chính quyền nhân dân; (5) Chiến tranh tâm lý, kích động chiến tranh xâm lược, chia rẽ, gây thù hận giữa các dân tộc, tôn giáo và nhân dân các nước; (6) Xúc phạm dân tộc, quốc kỳ, quốc huy, quốc ca, vĩ nhân, lãnh tụ, danh nhân, anh hùng dân tộc; (7) Kêu gọi, vận động, xúi giục, đe dọa, gây chia rẽ, tiến hành hoạt động vũ trang hoặc dùng bạo lực nhằm chống chính quyền nhân dân; (8) Kêu gọi, vận động, xúi giục, đe dọa, lôi kéo tụ tập đông người gây rối, chống người thi hành công vụ, cản trở hoạt động của cơ quan, tổ chức gây mất ổn định về an ninh, trật tự; (9) Tuyên truyền chống Nhà nước Cộng hòa xã hội chủ nghĩa Việt Nam; phá hoại khối đại đoàn kết toàn dân tộc mà chưa đến mức truy cứu trách nhiệm hình sự; (10) Tuyên truyền kích động chiến tranh xâm lược, gây hận thù giữa các dân tộc và nhân dân các nước; kích động bạo lực; truyền bá tư tưởng phản động mà chưa đến mức truy cứu trách nhiệm hình sự; (11) Xuyên tạc sự thật lịch sử, phủ nhận thành tựu cách mạng; xúc phạm dân tộc, danh nhân, anh hùng dân tộc mà chưa đến mức truy cứu trách nhiệm hình sự. Ngoài 11 nội dung tổng hợp nêu trên, có thể còn nhiều nội dung khác chưa được liệt kê hết. Tuy nhiên, trong phạm vi luận văn, tôi sử dụng 11 nội dung này làm căn cứ để đánh giá, huấn luyện mô hình học máy phục vụ cho thử nghiệm hoạt động của dịch vụ kiểm duyệt bài viết và bình luận tiếng Việt có nội dung phản động trên MXH Facebook. 1.2. Tác hại của nội dung phản động trên Facebook Những nội dung mang tính chất phản động, chống phá Đảng, Nhà nước, chống phá chế độ… trên MXH Facebook đã và đang gây ảnh hưởng tiêu cực mạnh mẽ đến nhận thức, suy nghĩ và hành động của nhiều người, thuộc mọi thành phần, lứa tuổi. Hiện nay, những thông tin phản động được lan truyền, tán phát với tần suất lớn, tức thời, kèm theo là tính chất phản động rất tinh vi khiến người dùng MXH Facebook khó nhận ra được đâu là thông tin chính thống/không chính thống, đâu là thông tin thật/giả. Thông tin phản động sẽ dần làm ảnh hưởng lớn tới nhận thức của người dùng; càng tiếp cận nhiều thông tin
18 phản động thì càng làm cho người dùng có cách nhìn nhận lệch chuẩn. Từ đó, có những hành vi đi ngược lại với các chuẩn mực thông thường. Việc cân bằng giữa quyền tự do ngôn luận và sự tôn trọng cá nhân là điều vô cùng khó kiểm soát đối với những thông tin được đưa ra trên MXH Facebook. Đối với người trẻ nói chung, trong đó có thiếu niên và trẻ em, là một trong những đối tượng chính sử dụng Facebook với tần suất lớn. Lợi dụng điều này, những đối tượng xấu sẽ tiêm nhiễm dần các thông tin xấu độc, nhằm lan truyền tư tưởng chống phá từ khi còn trẻ. Ở một bộ phận người trung niên, cao tuổi tại Việt Nam, trong những năm gần đây đang có xu hướng sử dụng Facebook làm phương tiện liên lạc, chia sẻ thông tin song hành cùng các phương tiện thông tin đại chúng khác. Với đặc điểm, dễ bị lôi kéo và không thông thạo cách sử dụng Facebook, không am hiểu về tình hình chính trị của Việt Nam, có thể chính là nguyên nhân gián tiếp tiếp tay cho những hành động tán phát thông tin phản động. Đặc biệt, có nhiều đối tượng vì thiếu bản lĩnh, thiếu niềm tin vào Đảng, Nhà nước, vì lợi ích bản thân, suy thoái về tư tưởng, chính trị, đạo đức, lối sống, dễ bị các đối tượng xấu trên MXH Facebook mua chuộc, tác động, dẫn đến “tự diễn biến”, “tự chuyển hóa”, quay lại đối đầu với Đảng, Nhà nước. Hiện nay, ngoài các trang diễn đàn cũng như các MXH khác, tại Việt Nam, các thế lực thù địch, lực lượng phản động, CH-CĐCT trong và ngoài nước đã và đang triệt để lợi dụng MXH Facebook làm công cụ để tuyên truyền, tán phát các nội dung phản động, chống phá Đảng, Nhà nước, chống phá chế độ... Có thể nhận thấy rằng, việc tạo lập một tài khoản cũng như một trang cộng đồng trên Facebook rất dễ dàng và đơn giản. Các trang cộng đồng thường giả danh các cơ quan, tổ chức của Đảng, Nhà nước nhưng lại đăng các thông tin đi ngược với các chủ trương, đường lối của Đảng, chính sách và pháp luật của Nhà nước. Đặc biệt, trước những sự kiện nóng diễn ra trong nước, các trang cộng đồng này thường thu hút được số lượng lớn thành viên, từ đó lôi kéo người dùng Facebook tham gia các hoạt động chống phá. Do vậy, cần thiết phải có giải pháp để hạn chế nguồn thông tin có tác động xấu đối với người dùng Facebook. Trước thực trạng đó, các cơ quan chức năng của Việt Nam cũng đã đề ra những quy định nghiêm ngặt về việc sử dụng các nền tảng MXH, tiêu biểu như: Luật An toàn thông tin mạng năm 2015; Luật An ninh mạng Việt Nam năm 2018, có hiệu lực từ 01/01/2019 hay quy định của Bộ Thông tin và Truyền thông về việc yêu cầu các MXH phải thực hiện các yêu cầu của cơ quan quản lý để ngăn chặn, gỡ các tài khoản giả mạo, bài viết xuyên tạc, đưa thông tin sai lệch [6]. Tuy nhiên, việc giám sát, theo dõi, phát hiện và xử lý các đối tượng lợi dụng MXH Facebook để chống phá Đảng, Nhà nước vẫn còn nhiều hạn chế nhất định cả về
19 nhân lực, phương tiện thực hiện, cũng như sự hợp tác của nhà phát triển Facebook với Chính phủ Việt Nam. Bên cạnh đó, MXH Facebook hiện nay không có tính năng cho phép người dùng báo cáo (report) đối với các bài viết, bình luận có nội dung phản động (các nước phương Tây chỉ coi đây là quan điểm chính trị bình thường của người dùng), mà chỉ tập trung vào các vấn đề như bạo hành, bạo lực, khủng bố, phân biệt giới tính, sắc tộc, tôn giáo… Từ đó, những nội dung phản động thường không nằm trong các thể loại mà Facebook cho phép người dùng report, cho nên việc report các bài viết, bình luận phản động (nhất là các nội dung phản động bằng tiếng Việt) thường không hiệu quả. Với những đặc điểm, tình hình và hệ lụy nêu trên, việc nghiên cứu giải pháp kiểm duyệt nội dung bài viết, bình luận tiếng Việt có nội dung phản động trên MXH Facebook hiện nay là hết sức cần thiết. 1.3. Kiểm duyệt nội dung phản động trên Facebook Qua tìm hiểu, tôi nhận thấy, hiện có nhiều nghiên cứu về phát hiện nội dung bạo hành/đe dọa trực tuyến (cyberbullyingdetection), lời nói căm thù (hate speechdetection), ngôn ngữ xúc phạm (offensive languagedetection) trên các nền tảng MXH như Facebook, YouTube, Twitter, Instagram... với ngôn ngữ phổ biến là tiếng Anh. Ngoài ra còn một số nghiên cứu khác trên các ngôn ngữ không phổ biến như tiếng Ý, tiếng Hà Lan… Với tiếng Việt, nhiều tác giả người Việt cũng đã có những nghiên cứu liên quan đến các vấn đề nêu trên. Tuy nhiên, chưa có nghiên cứu cụ thể nào về việc phát hiện bài viết, bình luận tiếng Việt có nội dung phản động trên các MXH, nhất là MXH Facebook. Để thực hiện luận văn về nghiên cứu phát hiện nội dung phản động trên MXH Facebook, bản thân tôi đã tự tìm hiểu về nội dung, quy trình các bước và kết quả của các nghiên cứu trước đây về phát hiện bạo hành, xúc phạm, căm thù trên các nền tảng MXH. Các vấn đề mà tôi đã tìm hiểu, như: Vấn đề NLP tiếng Việt; tiền xử lý dữ liệu; trích chọn đặc trưng; xây dựng danh sách đen (blacklist word); áp dụng các phương pháp, thuật toán học máy, để huấn luyện mô hình… Một số bài báo mà tôi đã nghiên cứu, tìm hiểu, bao gồm: Nghiên cứu của Ying Chen [15] đã ứng dụng kiến trúc đặc trưng cú pháp từ vựng (LSF-Lexical Syntactic Feature) để phát hiện nội dung xúc phạm, đồng thời xác định người dùng có khả năng đưa ra nội dung xúc phạm trên MXH. Kết quả là, khung kiến trúc LSF hoạt động tốt hơn những phương pháp hiện tại trong việc phát hiện nội dung xúc phạm. Đạt độ chính xác (precision) 98,24% và độ hồi tưởng (recall) 94,34% khi phát hiện nội dung xúc phạm; đạt độ chính xác
20 77,9% và recall 77,8% đối với xác định người dùng có khả năng đưa ra nội dung xúc phạm trên MXH. Nghiên cứu của Chikashi Nobata [16] đã đề cập đến khả năng phát hiện ngôn ngữ lạm dụng (abusive language) trong nội dung của người dùng trực tuyến bằng cách sử dụng đặc trưng n-gram, các đặc trưng ngôn ngữ (chiều dài câu, chiều dài trung bình của từ, số lượng dấu chấm câu, dấu chấm hỏi, ngoặc kép…), đặc trưng về cú pháp, đặc trưng về ngữ nghĩa; tiến hành huấn luyện đối với từng loại đặc trưng riêng rẽ và gộp tất cả các đặc trưng để so sánh kết quả. Nghiên cứu đạt được độ chính xác 79,5% đối với tập dữ liệu về tài chính và 81,7% đối với tập dữ liệu về tin tức. Nghiên cứu của Anna Schmidt [17] về một khảo sát việc phát hiện lời nói căm thù bằng NLP. Tác giả đã sử dụng các đặc trưng bề mặt đơn giản như đặc trưng túi từ BoW (bag of words - một túi các từ không phân biệt thứ tự), đặc trưng n-gam (cấp độ từ và cấp độ ký tự); tổng quát hóa từ (word generalization) bổ sung cho BoW; đề cập đến phân tích sắc thái câu (sentiment analysis), tài nguyên từ vựng (lexical resources), các đặc trưng ngôn ngữ, đặc trưng về siêu dữ liệu (meta-data) khác… Nghiên cứu của Theodora Chu [18] sử dụng các mô hình thuật toán học sâu như LSTM (mạng nơ-ron hồi quy RNN với ô nhớ ngắn hạn và dài hạn) và CNN (mạng nơ-ron tích chập kết hợp với word embedding và character embedding). Kết quả, đối với CNN kết hợp character embedding cho F1 score là 0,73 với 50.000 bước; còn CNN kết hợp word embedding cho F1 score là 0,70 với chỉ 5.000 bước. LSTM thực hiện gần giống với CNN kết hợp word embedding, cho F1 score là 0,69 với 5.000 bước để huấn luyện. 1.4. Mục tiêu nghiên cứu của luận văn Nhằm xây dựng giải pháp tự động phát hiện, loại bỏ các bài viết và bình luận tiếng Việt có nội dung phản động trước khi đến với người dùng Facebook; thử nghiệm xây dựng công cụ/dịch vụ (extension) triển khai trên máy tính người dùng nhằm ngăn chặn các bài viết, bình luận có nội dung phản độngtiếp cận người dùng Facebook. Tuy nhiên, hai mục tiêu này cũng không hề đơn giản, nhất là việc chưa có một bộ từ điển phản động nào được xây dựng trước đây dùng để phát hiện các nội dung phản động. Đây cũng chính là mục tiêu thứ ba của luận văn, nhằm xây dựng một bộ từ điển các từ ngữ phản động. Bộ từ điển này sẽ thường xuyên được cập nhật, thay đổi cùng thời gian theo sự phát triển của xã hội, cách mà các đối tượng đăng tải bài viết, bình luận có nội dung phản động. Bên cạnh đó, luận văn còn đề cập đến danh sách các user, fanpage, group