intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:119

3
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Hệ thống thông tin "Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt" trình bày các nội dung chính sau: Giới thiệu tổng quan về tin nhắn SMS; Nghiên cứu mức độ ảnh hưởng của độ dài tin nhắn tới hiệu quả của mô hình phát hiện tin nhắn rác tiếng Việt; Đề xuất 2 phương án tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt

  1. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- VŨ MINH TUẤN NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT Chuyên ngành: Hệ thống thông tin Mã số: 9.48.01.04 LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN HÀ NỘI - 2024
  2. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- VŨ MINH TUẤN NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT Chuyên ngành: Hệ thống thông tin Mã số: 9.48.01.04 LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN Người hướng dẫn khoa học: PGS.TS. Trần Quang Anh TS. Nguyễn Xuân Thắng HÀ NỘI - 2024
  3. MỤC LỤC MỤC LỤC ............................................................................................................... i LỜI CAM ĐOAN ................................................................................................... v LỜI CẢM ƠN ........................................................................................................ vi DANH MỤC KÝ HIỆU VÀ VIẾT TẮT ............................................................. vii DANH MỤC CÁC BẢNG .................................................................................... ix DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .................................................................... x MỞ ĐẦU ................................................................................................................ 1 1. LÝ DO LỰA CHỌN ĐỀ TÀI .................................................................... 1 2. MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU 4 2.1. Mục tiêu nghiên cứu ................................................................................. 4 2.2. Đối tượng và phạm vi nghiên cứu ............................................................ 4 2.3. Phương pháp nghiên cứu .......................................................................... 5 3. Ý NGHĨA CỦA ĐỀ TÀI ............................................................................ 5 3.1. Ý nghĩa khoa học ...................................................................................... 5 3.2. Ý nghĩa thực tiễn....................................................................................... 6 4. NHIỆM VỤ NGHIÊN CỨU VÀ KẾT QUẢ ĐẠT ĐƯỢC ....................... 6 4.1. Nhiệm vụ nghiên cứu ................................................................................ 6 4.2. Các kết quả đạt được................................................................................. 7 5. BỐ CỤC LUẬN ÁN................................................................................... 8 Chương 1 TỔNG QUAN VỀ TIN NHẮN SMS VÀ PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT....................................................................... 10 1.1. TIN NHẮN SMS .................................................................................. 10 1.1.1. Khái niệm tin nhắn SMS ............................................................... 10 i
  4. 1.1.2. Cấu trúc tin nhắn SMS .................................................................. 11 1.1.3. Cơ chế hoạt động cơ bản của tin nhắn SMS.................................. 12 1.2. TIN NHẮN RÁC VÀ CÁC ĐẶC TRƯNG.......................................... 12 1.2.1. Định nghĩa tin nhắn rác ................................................................. 12 1.2.2. Quy định về tin nhắn rác ............................................................... 13 1.2.3. Đặc trưng của tin nhắn rác ............................................................. 15 1.3. TẬP DỮ LIỆU TIN NHẮN TIẾNG VIỆT .......................................... 22 1.3.1. Nghiên cứu về tập dữ liệu tin nhắn................................................ 22 1.3.2. Xây dựng tập dữ liệu tin nhắn tiếng Việt ...................................... 24 1.3.3. Mô tả và phân tích tập dữ liệu ....................................................... 29 1.4. BÀI TOÁN PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT ................. 35 1.4.1. Phân tích mức độ ảnh hưởng của độ dài tin nhắn đến hiệu quả của mô hình phát hiện tin nhắn rác ............................................................................. 35 1.4.2. Xây dựng mô hình phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt 36 1.5. NGHIÊN CỨU TỔNG QUAN VỀ PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT ..................................................................................... 38 1.5.1. Nghiên cứu về mức độ ảnh hưởng của độ dài tin nhắn với hiệu quả của mô hình phát hiện tin nhắn rác ...................................................................... 38 1.5.2. Nghiên cứu về phương pháp phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt .......................................................................................... 40 1.6. CÁC ĐỘ ĐO ĐÁNH GIÁ PHÂN LỚP NHỊ PHÂN............................ 43 1.6.1. Accuracy ........................................................................................ 44 1.6.2. Precision và Recall ........................................................................ 44 1.6.3. F1 Score ......................................................................................... 45 ii
  5. 1.7. TỔNG KẾT CHƯƠNG ........................................................................ 45 Chương 2 PHÂN TÍCH MỨC ĐỘ ẢNH HƯỞNG CỦA ĐỘ DÀI TIN NHẮN TỚI HIỆU QUẢ CỦA MÔ HÌNH PHÁT HIỆN TIN NHẮN RÁC .................................. 47 2.1. MỞ ĐẦU............................................................................................... 47 2.1.1. Vai trò của độ dài tin nhắn trong ngôn ngữ tiếng Việt .................. 47 2.1.2. Vấn đề tồn tại và hướng giải quyết bài toán .................................. 48 2.2. PHÂN TÍCH ẢNH HƯỞNG CỦA ĐỘ DÀI TIN NHẮN TỚI HIỆU QUẢ CỦA MÔ HÌNH PHÁT HIỆN TIN NHẮN RÁC ......................................... 53 2.2.1. Dữ liệu thử nghiệm ........................................................................ 53 2.2.2. Thiết kế thử nghiệm ....................................................................... 54 2.3. SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ................................................ 68 2.4. TỔNG KẾT CHƯƠNG ........................................................................ 70 Chương 3 PHƯƠNG PHÁP PHÁT HIỆN TIN NHẮN RÁC VỚI ĐẶC ĐIỂM ĐA BIẾN THỂ CỦA TIẾNG VIỆT .................................................................................. 72 3.1. MỞ ĐẦU............................................................................................... 72 3.1.1. Đặc điểm đa biến thể của tiếng Việt .............................................. 72 3.1.2. Vấn đề tồn tại và hướng giải quyết bài toán .................................. 73 3.2. MÔ HÌNH SỬ DỤNG HỌC SÂU PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT ĐƠN THỂ ......................................................................................... 75 3.2.1. Giới thiệu mô hình ......................................................................... 75 3.2.2. Thử nghiệm mô hình ..................................................................... 75 3.3. MÔ HÌNH HỌC SÂU KẾT HỢP KĨ THUẬT VECTOR HOÁ PHÁT HIỆN TIN NHẮN RÁC TIẾNG VIỆT ĐA BIẾN THỂ ......................................... 79 3.3.1. Giới thiệu mô hình ......................................................................... 79 3.3.2. Thử nghiệm mô hình ..................................................................... 82 iii
  6. 3.4. ĐÁNH GIÁ VÀ SO SÁNH KẾT QUẢ................................................ 89 3.5. TỔNG KẾT CHƯƠNG ........................................................................ 92 KẾT LUẬN .......................................................................................................... 94 A. Kết quả đạt được của luận án.................................................................... 94 B. Những khó khăn tồn tại của luận án ......................................................... 95 C. Định hướng phát triển ............................................................................... 95 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ............................................ 97 TÀI LIỆU THAM KHẢO .................................................................................... 98 iv
  7. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. Tác giả Vũ Minh Tuấn v
  8. LỜI CẢM ƠN Luận án Tiến sĩ này được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông dưới sự hướng dẫn khoa học của PGS. TS Trần Quang Anh và TS. Nguyễn Xuân Thắng. Tôi xin bày tỏ lòng biết ơn sâu sắc tới các Thầy về định hướng khoa học, liên tục quan tâm, tạo điều kiện thuận lợi trong suốt quá trình nghiên cứu hoàn thành cuốn luận án này. Tôi xin được chân thành cảm ơn các nhà khoa học, tác giả các công trình công bố đã trích dẫn trong luận án vì đã cung cấp nguồn tư liệu quý báu, những kiến thức liên quan, quan trọng trong quá trình nghiên cứu hoàn thành luận án. Tôi xin trân trọng cảm ơn Lãnh đạo Học viện Công nghệ Bưu chính Viễn thông, Hội đồng Khoa học, Hội đồng Tiến sĩ của Học viện vì đã tạo điều kiện để nghiên cứu sinh được thực hiện và hoàn thành chương trình nghiên cứu của mình. Xin chân thành cảm ơn Khoa Đào tạo sau đại học và các nhà khoa học thuộc Học viện Công nghệ Bưu chính Viễn thông cũng như các nghiên cứu sinh khác về sự hỗ trợ trên phương diện hành chính, hợp tác có hiệu quả trong suốt quá trình nghiên cứu khoa học của mình. Tôi xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại học Hà Nội và các bạn đồng nghiệp, bạn bè thân hữu, vì đã tạo nhiều điều kiện thuận lợi trong suốt quá trình học tập. Cuối cùng là sự biết ơn tới gia đình và những người bạn thân thiết vì đã liên tục động viên để duy trì nghị lực, sự cảm thông, chia sẻ về thời gian, sức khỏe và các khía cạnh của cuộc sống trong cả quá trình để hoàn thành luận án. Hà Nội, tháng năm 2024 Tác giả Vũ Minh Tuấn vi
  9. DANH MỤC KÝ HIỆU VÀ VIẾT TẮT Kí hiệu Tiếng Anh Tiếng Việt 3GPP Third Generation Partnership Project Dự án các đối tác thế hệ 3 Bidirectional Encoder Biểu diễn mã hóa hai chiều từ BERT Representations from Transformers transformers BOW Bag of Words Túi từ CBOW Continuos Bag of Words Túi từ liên tục Đa người dùng phân chia theo CDMA Code Division Multiple Access mã CMS Content Management System Hệ thống quản lý nội dung CNN Convolutional Neural Network Mạng nơ ron tích chập DT Decision Tree Thuật toán cây quyết định European Telecommunications Viện tiêu chuẩn Viễn thông ETSI Standards Institute Châu Âu FN False Negatives Âm tính giả FP False Positives Dương tính giả GB Gradient Boosting Tên một thuật toán học máy Improved Adaptive Artificial Hệ thống miễn dịch nhân tạo IA-AIS Immune System thích ứng cải thiện IM Instant Message Tin nhắn tức thì k-NN k-Nearest Neighbor Tên một thuật toán học máy LIWC Linguistic Inquiry and Word Count Truy vấn ngôn ngữ và đếm từ LR Logistic Regression Tên một thuật toán học máy LSTM Long-Short Term Memory Network Mạng trí nhớ ngắn-dài hạn vii
  10. ML Machine Learning Học máy MTM Message Topic Model Mô hình chủ đề tin nhắn NB Naïve Bayes Tên một thuật toán học máy NCS Nghiên cứu sinh NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OTT Over The Top Ứng dụng lớp trên RF Random Forest Tên một thuật toán học máy RNN Recurrent Neural Network Mạng nơ-ron quy hồi SGD Stochastic Gradient Descent Tên một thuật toán Thiết bị định danh người dùng SIM Subscriber Identity Module di động SMS Short Service Message Dịch vụ tin nhắn ngắn Trung tâm dịch vụ tin nhắn SMSC Short Service Message Center ngắn SVM Support Vector Machine Tên một thuật toán học máy TDMA Time Division Multiple Access Đa truy cập theo thời gian Term Frequency – Inverse Document Tần suất thuật ngữ - Tần suất TF-IDF Frequency tài liệu nghịch đảo TN True Negatives Âm tính thật TP True Positives Dương tính thật TP-PID Protocol Identifier Mã định danh giao thức viii
  11. DANH MỤC CÁC BẢNG Bảng 1-1Danh sách đặc tính của SMS ....................................................................................................... 17 Bảng 1-2 Danh sách 20 đặc trưng kết hợp LIWC ...................................................................................... 19 Bảng 1-3 Bảng thống kê nguồn cung cấp dữ liệu tin nhắn......................................................................... 30 Bảng 1-4 Số lượng tin nhắn sau khi xử lý trùng lặp ................................................................................... 31 Bảng 1-5 Danh sách thông số trong độ đo đánh giá phân lớp nhị phân .................................................... 43 Bảng 2-1 Mô tả tập dữ liệu tin nhắn có độ dài khác nhau ......................................................................... 54 Bảng 2-2 Kết quả tại các ngưỡng khác nhau của bộ luật cho tin nhắn SMS ............................................. 58 Bảng 2-3 Kết quả mô hình sử dụng bộ luật với ngưỡng 1.25 ..................................................................... 59 Bảng 2-4 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Short .................................... 61 Bảng 2-5 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Medium ................................ 61 Bảng 2-6 Kết quả thí nghiệm với học máy truyền thống với tập dữ liệu DS-Long ..................................... 62 Bảng 2-7 Mô tả cấu trúc và tham số mạng CNN ........................................................................................ 64 Bảng 2-8 Mô tả cấu trúc và tham số mạng LSTM ..................................................................................... 66 Bảng 2-9 Kết quả thí nghiệm mô hình học sâu với ba tập dữ liệu tin nhắn có độ dài khác nhau .............. 67 Bảng 2-10 Bảng so sánh kết quả của các mô hình với 3 tập dữ liệu tin nhắn có độ dài khác nhau........... 68 Bảng 3-1 Kết quả thí nghiệm mô hình CNN với 3 tập dữ liệu tin nhắn biến thế ........................................ 77 Bảng 3-2 Tham số mạng CNN kết hợp cùng với các kĩ thuật vector hóa ................................................... 83 Bảng 3-3 Tham số mạng LSTM kết hợp cùng với các kĩ thuật vector hóa ................................................. 85 ix
  12. DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1-1 Cấu trúc tin nhắn SMS ................................................................................................................ 11 Hình 1-2 Form thu thập tin nhắn rác ......................................................................................................... 26 Hình 1-3 Phân bổ số lượng tin nhắn theo độ dài ....................................................................................... 32 Hình 1-4 Phân bổ số lượng tin nhắn rác theo độ dài ................................................................................. 33 Hình 2-1 Quy trình triển khai và so sánh hiệu quả mô hình phát hiện tin nhắn rác tiếng Việt đơn thể ..... 51 Hình 2-2 Mô tả dữ liệu thí nghiệm ............................................................................................................. 54 Hình 2-3 Mô hình triển khai phát hiện tin nhắn rác với bộ luật thống kê .................................................. 55 Hình 2-4 Giao diện phần mềm trên thiết bị di động ................................................................................... 57 Hình 2-5 Biểu đồ kết quả bộ luật ở ngưỡng 1.25 ....................................................................................... 60 Hình 2-6 Mô hình phát hiện tin nhắn rác với mạng CNN và các kĩ thuật vector hóa văn bản .................. 65 Hình 2-7 Kết quả so sánh Accuracy và F1 Score của 2 thuật toán CNN & LSTM trên 3 tập dữ liệu ........ 68 Hình 2-8 So sánh mức độ phụ thuộc của các mô hình và độ dài tin nhắn.................................................. 69 Hình 3-1 So sánh kết quả của mô hình CNN trên 3 tập dữ liệu ................................................................. 78 Hình 3-2 So sánh kết quả mô hình CNN khi kết hợp với các phép vector hoá ........................................... 84 Hình 3-3 So sánh kết quả mô hình LSTM khi kết hợp với các phép vector hoá ......................................... 86 Hình 3-4 Mô hình BERT NER [45] ............................................................................................................ 88 Hình 3-5 So sánh kết quả mô hình BERT NER chạy trên tập dữ liệu tiếng Anh và tiếng Việt đa biến thể. 89 Hình 3-6 So sánh kết quả các mô hình CNN và LSTM khi kết hợp với PhoBERT và BERT NER trên tập dữ liệu tiếng Việt đa biến thể ................................................................................................................................... 90 x
  13. MỞ ĐẦU 1. LÝ DO LỰA CHỌN ĐỀ TÀI Trong thế giới phẳng ngày nay, ứng dụng công nghệ thông tin để có thể giao tiếp nhanh chóng, thuận tiện và hiệu quả là điều tất yếu. Cùng với điện thoại và thư điện tử, tin nhắn (SMS) đã tạo nên một cuộc cách mạng về trao đổi thông tin. Mặc dù ra đời sau thư điện tử nhưng tin nhắn SMS lại đang phát triển rất nhanh và đang có xu hướng chiếm ưu thế do một số đặc điểm đặc thù. Tin nhắn đã trở thành một phương tiện giao tiếp không thể thiếu, mang lại nhiều lợi ích đối với cả người dùng và các tổ chức. Khả năng truyền tải thông điệp nhanh chóng và hiệu quả đã biến tin nhắn thành công cụ quan trọng trong việc duy trì liên lạc cá nhân, kết nối kinh doanh và thậm chí là quảng cáo sản phẩm, dịch vụ thông qua chiến dịch marketing. Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn mở ra những cơ hội kinh doanh mới. Từ việc thông báo khuyến mãi đến việc xác nhận giao dịch, tin nhắn ngày càng chứng minh vai trò quan trọng trong cuộc sống hàng ngày của mọi người. Theo một báo cáo gần đây của Slicktext, trên 5 tỷ người trên thế giới – chiếm 65% dân số toàn cầu đang sử dụng dịch vụ tin nhắn SMS [1]. Tuy nhiên, sự lạm dụng của tin nhắn, đặc biệt là tin nhắn rác, đã đặt ra một thách thức đối với tính hữu ích của nó. Sự xuất hiện ngày càng nhiều của tin nhắn rác đã gây ảnh hưởng tiêu cực đến trải nghiệm người dùng. Không chỉ làm mất thời gian và tạo ra sự phiền hà, tin nhắn rác còn gây ảnh hưởng tới tính hợp pháp và độ tin cậy của tin nhắn. Ngoài ra, việc lạm dụng tin nhắn rác còn có thể gây nguy cơ về an toàn thông tin cá nhân, tạo ra sự lo ngại về quyền riêng tư, gây hại đến thiết bị của người dùng thông qua các liên kết độc hại và cả những hậu quả nghiêm trọng về tài chính cho cá nhân và doanh nghiệp [2]. Năm 2020, sau đại dịch Covid 19, chứng kiến sự tăng vọt của sự phát tán tin nhắn rác và các cuộc tấn công lừa đảo qua tin nhắn SMS (smishing), với tổng thiệt hại ở Mỹ đạt 86 triệu USD. Các cuộc tấn công này không chỉ nhắm vào cá nhân mà còn ảnh hưởng đến doanh nghiệp, với 76% doanh nghiệp trên toàn cầu báo cáo rằng họ đã nhận 1
  14. được tin nhắn smishing1. Năm 2021, ước tính có tổng cộng hơn 10 tỷ USD thiệt hại do tin nhắn rác2. Đáng chú ý, số lượng nạn nhân của các cuộc tấn công smishing và phishing đã tăng đáng kể, với hơn 240.000 trường hợp được báo cáo vào năm 2020, gây ra hơn 54 triệu USD thiệt hại3. Điều này cũng không quá khó giải thích. Về xu hướng sử dụng SMS, một khảo sát cho thấy 75% người tiêu dùng thích nhận được tin nhắn quảng cáo qua SMS. SMS marketing cũng được chứng minh là có hiệu quả với tỷ lệ mở 98% và tỷ lệ phản hồi 45%, cao hơn nhiều so với email. Điều này chứng tỏ SMS vẫn là một công cụ quảng cáo quan trọng và hiệu quả cho các doanh nghiệp4. Với số lượng người dùng khổng lồ, liên tục gia tăng trên toàn thế giới, người dùng điện thoại đã và đang trở thành những “con mồi béo bở” để những kẻ phát tán tin nhắn rác, những nhà cung cấp dịch vụ quảng cáo, marketing tha hồ tấn công, lợi dụng để truyền tải thông tin, giới thiệu dịch vụ, sản phẩm. Theo thống kê của Trung tâm cứu hộ máy tính Việt Nam5, mỗi ngày có hàng triệu tin nhắn rác được gửi đi, tương đương với hàng triệu thuê bao bị tấn công bởi những thông tin không có giá trị; đồng thời gây ra áp lực rất lớn lên hạ tầng viễn thông di động trong nước. Theo báo cáo của Bộ Thông tin và truyền thông Việt Nam6, từ tháng 11/2022 đến giữa tháng 4/2023, các doanh nghiệp viễn thông đã phát hiện và ngăn chặn 243 triệu tin nhắn rác nhưng cũng chỉ chiếm một phần số lượng tin nhắn rác thực tế đang được phát tán tới người dùng di động. Để giải quyết mối đe dọa trên, cần phải kết hợp rất nhiều biện pháp mới có thể xử lý triệt để như chính sách quản lý đối với các công ty viễn thông, các công ty cung cấp dịch vụ quảng cáo, nâng cao ý thức người dùng về bảo mật thông tin cá nhân (địa chỉ thư điện tử, số điện thoại) và các giải pháp kĩ thuật. Đối với giải pháp kĩ thuật, bài toán đặt ra cho 1 https://techreport.com/statistics/smishing-statistics/ 2 https://www.slicktext.com/blog/2022/10/17-spam-text-statisitics-for-2022/ 3 https://www.safetydetectives.com/blog/what-is-smishing-sms-phishing-facts/ 4 https://marketsplash.com/sms-statistics/ 5 http://www.vncert.gov.vn 6 https://vietnamnet.vn/doanh-nghiep-vien-thong-da-chan-243-trieu-tin-nhan-rac-2142763.html 2
  15. các nhà nghiên cứu là làm sao để có thể phát hiện và ngăn chặn việc phát tán tin rác hiệu quả và kịp thời nhất. Đã có rất nhiều nghiên cứu được thực hiện trong những năm qua đề xuất các phương pháp phát hiện tin nhắn rác nhằm giảm thiểu những ảnh hưởng mà tin nhắn rác gây ra cho người dùng. Các nghiên cứu được chia thành 2 hướng tiếp cận: Phương pháp dựa trên nội dung tin nhắn và phương pháp dựa trên những đặc điểm phi nội dung. Ngoài ra, có một số nghiên cứu kết hợp cả hai hướng trên để nâng cao hiệu quả. Trong phạm vi của luận án, nghiên cứu sinh (NCS) tập trung khảo sát các nghiên cứu phát hiện tin nhắn rác tiếng Việt dựa trên đặc điểm nội dung tin nhắn. Đối với bài toán phát hiện tin nhắn rác tiếng Việt, NCS nhận thấy còn tồn tại một số vấn đề sau mà các nghiên cứu hiện tại chưa xử lý triệt để: (i) Các nghiên cứu sử dụng các tập dữ liệu cũ, mất cân bằng với số lượng hạn chế. Đặc biệt, chưa có một tập dữ liệu tiếng Việt được sử dụng cho việc phát hiện tin nhắn rác tiếng Việt; (ii) Chưa có nghiên cứu đánh giá về mức độ phụ thuộc của hiệu quả của phương pháp phát hiện tin nhắn rác vào độ dài của tin nhắn – đặc biệt là với ngôn ngữ tiếng Việt. Từ đó, đề xuất mô hình phát hiện tin nhắn rác tiếng Việt cho hiệu quả “ổn định” khi độ dài tin nhắn thay đổi; (iii) Đối với những ngôn ngữ có nhiều biến thể như tiếng Việt, chưa có một mô hình phù hợp và hiệu quả để phát hiện tin nhắn rác. Nghiên cứu sinh (NCS) nhận thấy việc nghiên cứu, thử nghiệm và cải tiến các kĩ thuật phát hiện tin nhắn rác phổ biến hiện nay để để xử lý các tồn tại trên là hết sức cần thiết. Kết quả khảo sát các nghiên cứu liên quan đến 03 tồn tại trên được NCS đề cập chi tiết trong phần tiếp theo khi trình bày về các nhiệm vụ nghiên cứu của đề tài. Đề tài nghiên cứu không chỉ hỗ trợ tốt hơn công tác quản lý mà còn góp phần thúc đẩy sự phát triển bền vững của ngành viễn thông và trải nghiệm người dùng. Điều này càng thể hiện tính cấp thiết và ý nghĩa của việc nghiên cứu trong lĩnh vực này để tạo ra môi trường truyền thông an toàn, hiệu quả và thú vị hơn cho tất cả chúng ta. Chính vì vậy, NCS đã 3
  16. quyết định chọn đề tài “Nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt” cho luận án tiến sĩ. 2. MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Mục tiêu nghiên cứu Mục tiêu chung của đề tài là nghiên cứu để tìm ra phương pháp hiệu quả và phù hợp phát hiện tin nhắn rác tiếng Việt, giúp người dùng tránh được những phiền phức, ảnh hưởng xấu do những đối tượng phát tán tin rác gây ra; đồng thời, đề xuất phương pháp để các nhà cung cấp dịch vụ viễn thông có thể thử nghiệm và ứng dụng chặn tin nhắn rác từ nguồn phát tán. Việc phát hiện tin nhắn rác được thực hiện với nhiều cách tiếp cận và cần được thử nghiệm với các mô hình khác nhau để lựa chọn ra phương pháp phù hợp nhất với ngữ cảnh và hành vi của người dùng tại Việt Nam, sử dụng tiếng Việt. Để thực hiện được mong muốn đó, đề tài có những mục tiêu nghiên cứu cụ thể như sau: - Xây dựng tập dữ liệu tin nhắn rác và tin nhắn thường bằng tiếng Việt. - Phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn. - Đề xuất phương pháp phát hiện tin nhắn rác thích hợp cho đặc thù đa biến thể của ngôn ngữ tiếng Việt. NCS hướng tới việc triển khai thành công mô hình cùng với những cải tiến để góp phần tích cực giảm thiểu việc lạm dụng công cụ thông tin liên lạc là tin nhắn vào các mục đích xấu, hỗ trợ nhà cung cấp dịch vụ tin nhắn ngăn chặn tin nhắn rác, giảm lãng phí tài nguyên mạng viễn thông do việc phát tán tin nhắn rác gây ra. 2.2. Đối tượng và phạm vi nghiên cứu Đối tượng NCS tập trung nghiên cứu là các phương pháp phát hiện tin nhắn rác tiếng Việt. Đề tài nghiên cứu các kiến thức thuộc về ngành học máy và nhánh học sâu – chính là cơ sở đề xây dựng mô hình bài toán. Với khách thể nghiên cứu chính là những tin nhắn rác được phát tán đến người sử dụng dịch vụ di động, NCS đã chọn đối tượng khảo sát trên phạm vi rộng là những tập 4
  17. dữ liệu tin nhắn rác mẫu tiếng Việt được thu thập từ người dùng của các mạng viễn thông di động đang hoạt động ở Việt Nam để phục vụ nghiên cứu. Ngoài ra, NCS cũng mở rộng tập dữ liệu với những tin nhắn được gửi đi trên các nền tảng đang có xu hướng phát triển mạnh hiện nay như: mạng xã hội và OTT… để làm phong phú và toàn diện hơn hướng nghiên cứu của đề tài. 2.3. Phương pháp nghiên cứu NCS kết hợp một số phương pháp nghiên cứu như sau để thực hiện đề tài: - Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình phát hiện tin nhắn rác tiếng Việt. - Nghiên cứu cơ sở lý thuyết dựa trên việc đọc và phân tích các tài liệu liên quan đến các vấn đề thuộc lĩnh vực nghiên cứu. - Trên cơ sở các phân tích về lý thuyết, triển khai các thực nghiệm: o Mô hình hóa các phương pháp dự định nghiên cứu, cài đặt với các ngôn ngữ lập trình phù hợp o Chạy thực nghiệm với dữ liệu mẫu để so sánh kết quả của các phương pháp o Tối ưu hóa các thuật toán để nâng cao hiệu quả thực nghiệm Kết quả của các thực nghiệm được đánh giá dựa trên các tiêu chí như Accuracy, Precision, Recall, F1 Score. 3. Ý NGHĨA CỦA ĐỀ TÀI 3.1. Ý nghĩa khoa học Kết quả nghiên cứu của đề tài về những đặc điểm của tin nhắn và tin nhắn rác tiếng Việt là tiền đề cho các nghiên cứu liên quan đến phát hiện, phân loại và ngăn chặn tin nhắn rác. Trong phạm vi nghiên cứu, luận án đã bổ sung thêm cơ sở lý luận cho khoa học trong việc đề xuất các phương pháp hiện tin nhắn rác. Cụ thể: (i) mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn; (ii) phương pháp tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt. 5
  18. 3.2. Ý nghĩa thực tiễn Kết quả nghiên cứu của đề tài là nguồn tài liệu tham khảo có giá trị cho các doanh nghiệp liên quan đến lĩnh vực viễn thông và bảo mật để nâng cao khả năng kiểm soát và ngăn chặn tin nhắn rác, tin quảng cáo sai quy định. Kết quả nghiên cứu với mô hình phát hiện tin nhắn rác tiếng Việt có tính ứng dụng cao, có thể phát triển và mở rộng để đưa vào triển khai trong thực tế. 4. NHIỆM VỤ NGHIÊN CỨU VÀ KẾT QUẢ ĐẠT ĐƯỢC 4.1. Nhiệm vụ nghiên cứu Để đảm bảo việc đạt được các mục tiêu nghiên cứu đã được đề cập, NCS đã xác định một loạt các nhiệm vụ nghiên cứu cụ thể phục vụ cho việc nghiên cứu các phương pháp phát hiện tin nhắn rác tiếng Việt. Nhiệm vụ đầu tiên của luận án là xây dựng một tập dữ liệu chứa cả tin nhắn thường và tin nhắn rác trong ngôn ngữ tiếng Việt. Tập dữ liệu này sẽ đóng vai trò quan trọng trong việc thực hiện các thí nghiệm và phân tích trong phạm vi luận án. Tạo ra một tập dữ liệu phong phú và đáng tin cậy sẽ cung cấp cơ sở dữ liệu quan trọng cho toàn bộ luận án và giúp cho việc xác định và hiểu rõ các đặc điểm của tin nhắn rác trong ngôn ngữ tiếng Việt như về độ dài, biến thể ngôn ngữ, sắc thái cảm xúc… Nhiệm vụ tiếp theo liên quan đến việc phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn. Để làm được điều này, NCS thử nghiệm và áp dụng các mô hình với các thuật toán học máy truyền thống, học sâu cho bài toán phát hiện tin nhắn rác tiếng Việt trên các tập dữ liệu tin nhắn có độ dài khác nhau. Mục tiêu của nhiệm vụ là xây dựng một hệ thống thông minh có khả năng phát hiện các tin nhắn rác một cách hiệu quả, đồng thời đảm bảo rằng các tin nhắn hợp lệ không bị nhầm lẫn hoặc bị loại bỏ trong điều kiện bị giới hạn về nội dung và độ dài của của tin nhắn. Cuối cùng, nhiệm vụ thứ ba đề xuất phương pháp tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt trên cơ sở kế thừa kết quả 6
  19. của nhiệm vụ thứ hai. Điều này yêu cầu sự hiểu biết sâu sắc về đặc điểm đa biến thể của tiếng Việt, từ việc sử dụng dạng có dấu, không dấu, hỗn hợp hoặc kết hợp với chữ viết tắt, ký tự đặc biệt… để lựa chọn phương pháp phù hợp cho từng dạng biến thể. Nhiệm vụ này liên quan chặt chẽ đến kỹ thuật biểu diễn ngôn ngữ hiểu được ngữ cảnh, nội dung của tin nhắn; đồng thời, cũng đánh giá việc sử dụng học chuyển giao vào bài toán phát hiện tin nhắn rác tiếng Việt đa biến thể. Tất cả các nhiệm vụ nghiên cứu trên kết hợp sẽ đóng góp vào việc nâng cao hiệu quả phát hiện tin nhắn rác iếng Việt và mang lại những giá trị quan trọng trong việc bảo vệ người dùng khỏi các tin nhắn không mong muốn. 4.2. Các kết quả đạt được ❖ Một là luận án đã xây dựng bộ dữ liệu tin nhắn rác và tin nhắn thường phục vụ cho mục đích nghiên cứu. Bộ dữ liệu bao gồm 69.192 tin nhắn tiếng Việt có dấu và không dấu, được thu thập từ nhiều nguồn khác nhau như do tổ chức cung cấp, từ bẫy spam và do các tình nguyện viên cung cấp. Bộ dữ liệu có vai trò quan trọng trong việc phân tích các đặc điểm, đặc trưng của tin nhắn rác tiếng Việt, thử nghiệm và đánh giá các mô hình phát hiện tin nhắn rác trong luận án. ❖ Hai là luận án phân tích mức độ phụ thuộc của hiệu quả các mô hình phát hiện tin nhắn rác vào độ dài nội dung của tin nhắn. Từ đó, đề xuất được mô hình phát hiện tin nhắn rác tiếng Việt có tính ổn định khi độ dài tin nhắn thay đổi. So với các mô hình sử dụng bộ luật thống kê, sử dụng các thuật toán học máy truyển thống thì mô hình sử dụng học sâu – cụ thể là mạng CNN, đã thể hiện khả năng phát hiện tin nhắn rác nổi trội trong điều kiện tin nhắn bị giới hạn về nội dung. Sự khác biệt về hiệu quả của các mô hình được thể hiện rõ ràng khi có sự thay đổi về độ dài tin nhắn thử nghiệm với từng mô hình. ❖ Ba là luận án đề xuất 2 hướng tiếp cận giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt. Phương án 1 tiếp cận theo hướng chuyển đổi dữ liệu đầu vào từ dạng tiếng Việt đa biến thể về đơn thể (có dấu hoặc không dấu). Phương án 2 tiếp cận theo hướng giữ nguyên dữ liệu đầu vào ở dạng tiếng Việt đa 7
  20. biến thể. Cả 2 phương pháp để có tính khả thi cao, việc áp dụng tùy thuộc vào hiện trạng của dữ liệu đầu vào và nguồn lực xử lý dữ liệu khi triển khai. 5. BỐ CỤC LUẬN ÁN Luận án được trình bày theo cấu trúc bao gồm phần Mở đầu, 03 chương và phần Kết luận, đề xuất nghiên cứu tiếp theo. Phần Mở đầu: Tập trung làm rõ những lý do cơ bản để lựa chọn đề tài, xác định rõ mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu của đề tài. Chương 1: Giới thiệu tổng quan về tin nhắn SMS. Chương này làm rõ các khái niệm tin nhắn SMS, cấu trúc và cơ chế hoạt động của tin nhắn SMS; giới thiệu về tin nhắn rác, bao gồm các khái niệm, quy định và đặc trưng của tin nhắn rác. Trong Chương 1, NCS phát biểu các bài toán thuộc phạm vi đề tài nghiên cứu, làm tiền đề cho Chương 2 và Chương 3. Việc xây dựng tập dữ liệu tin nhắn tiếng Việt cũng được đề cập chi tiết trong chương này. Chương 2: Nghiên cứu mức độ ảnh hưởng của độ dài tin nhắn tới hiệu quả của mô hình phát hiện tin nhắn rác tiếng Việt. Từ đó, lựa chọn và đề xuất mô hình phát hiện tin nhắn rác tiếng Việt thích ứng với điều kiện giới hạn về nội dung tin nhắn. Chương này trình bày kết quả trong các công trình đã được công bố: - Mô hình phát hiện tin nhắn rác sử dụng bộ luật SpamAssassin áp dụng cho tin nhắn SMS. - Phân tích mức độ ảnh hưởng của độ dài tin nhắn đối với hiệu quả các mô hình phát hiện tin nhắn rác tiếng Việt. Chương 3: Đề xuất 2 phương án tiếp cận để giải quyết bài toán phát hiện tin nhắn rác với đặc điểm đa biến thể của tiếng Việt. Chương này trình bày kết quả trong 2 công trình được công bố: - Phương án chuyển đổi dữ liệu đầu vào từ dạng tiếng Việt đa biến thể về dạng đơn biến thể để áp dụng mô hình sử dụng mạng tích chập CNN. 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2