intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:73

47
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh. Do đó, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng Việt. Mời các bạn tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÂM TĂNG DOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam Hà nội – 11/2020
  2. i Mục lục LỜI CẢM ƠN ................................................................................................ iii LỜI CAM ĐOAN ........................................................................................... iv DANH MỤC HÌNH VẼ .................................................................................. v Chương 1: Giới thiệu ...................................................................................... 1 1.1. Mục tiêu của nghiên cứu .............................................................. 1 1.2. Phương pháp nghiên cứu ............................................................. 2 1.3. Cấu trúc luận văn ......................................................................... 2 1.4. Tổng quan về thư rác ................................................................... 2 1.4.1. Định nghĩa ......................................................................... 2 1.4.2. Thống kê và tác hại của thư rác ...................................... 3 1.4.3. Phương pháp phân loại thư rác ...................................... 6 1.4.4. Các loại thư rác................................................................. 7 1.4.5. Mô hình lọc thư rác ........................................................ 10 1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13 1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14 1.4.8. Mô hình lọc thư rác của Zimbra ................................... 14 Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19 2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19 2.1.1. Lọc IP ............................................................................... 19 2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20 2.1.3. Cải thiện xác thực thư để phòng chống thư rác .......... 20 2.1.4. Bảo vệ địa chỉ .................................................................. 22 2.2. Các kỹ thuật lọc thư rác ............................................................. 22 2.2.1. Phương thức trích xuất thư điện tử .............................. 23 2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32 2.2.3. Các kỹ thuật lọc thư rác thông minh ............................ 35 2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40 2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42
  3. ii Chương 3. Đề xuất và Thực nghiệm ........................................................... 44 3.1. Đề xuất giải pháp lọc thư rác .................................................... 44 3.1.1. Mô hình thực nghiệm vật lý........................................... 45 3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes................... 46 3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48 3.2. Thực nghiệm ............................................................................... 55 3.2.1. Dữ liệu huấn luyện ......................................................... 55 3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes .............. 55 3.2.3. Kiểm thử hệ thống chỉ có Naïve Bayes ......................... 56 3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59 3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61 KẾT LUẬN .................................................................................................... 64 TÀI LIỆU THAM KHẢO ............................................................................ 65
  4. iii LỜI CẢM ƠN Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình. Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập, nghiên cứu tại trường. Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi vấp phải những khó khăn, bế tắc. Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
  5. iv LỜI CAM ĐOAN Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt” là công trình nghiên cứu của riêng tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 20 tháng 12 năm 2020. Lâm Tăng Doan
  6. v DANH MỤC HÌNH VẼ Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] ................................................................. 3 Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5] .............................................. 7 Hình 1.3. Mô hình khái quát về gửi, nhận thư điện tử .................................................................... 10 Hình 1.4. Mô hình lọc thư rác [9] .................................................................................................... 12 Hình 1.8. Quy trình lọc nội dung thư rác [9] ................................................................................... 13 Hình 1.9. Quy trình lọc nội dung thư điện tử [9] ............................................................................. 14 Hình 1.5. Mô hình xử lý thư của Zimbra ......................................................................................... 15 Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ........................... 17 Hình 1.7. Thành phần chính của mô đun lọc của Spamassassin [11] .............................................. 17 Hình 3.1. Kiến trúc mô hình lọc thư rác .......................................................................................... 45 Hình 3.2. Tỉ lệ xuất hiện của các cụm từ ......................................................................................... 51 Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện ............. 51 Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc ...................................................................... 54 Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Naïve Bayes ............................................................ 55 Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Naïve Bayes ................... 56 Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Naïve Bayes ................................. 56 Hình 3.8. Kết quả kiểm tra mass-check ........................................................................................... 57 Hình 3.9. Phân bổ điểm của tập thư rác ........................................................................................... 57 Hình 3.10. Điểm của 1 thư rác đã có lọc Naïve Bayes .................................................................... 58 Hình 3.11. Thống kê khả năng lọc thư của hệ thống ....................................................................... 59 Hình 3.12. Tỉ lệ nhận định thư rác đúng .......................................................................................... 59 Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................ 60 Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ............................................................................... 62 Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo .................................................. 62
  7. 1 Chương 1: Giới thiệu Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử dụng nhiều nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong vòng vài giây và hầu như miễn phí. Do đó, số lượng người sử dụng thư điện tử cho công việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng cho mục đích xấu. Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân. Một số thư rác có mục đích thương mại, một số khác để để bày tỏ ý kiến chính trị hoặc tôn giáo, hoặc lừa đảo khán giả hoặc phát tán virus. Thư rác đã trở thành một công cụ phổ biến phục vụ cho mục đích xấu do thư rác dễ triển khai, có khả năng gửi hàng loạt, chi phí thấp và khả năng tiếp cận người dùng cao. Hơn nữa do trở ngại về công nghệ với cơ sở hạ tầng thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhóm gửi thư rác rất khó và tốn thời gian. Ngoài ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo địa chỉ của thông điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung của Internet gây khó khăn cho việc thực hiện các biện pháp bảo vệ pháp lý. Tại các trường đại học, các cán bộ công nhân viên cũng như sinh viên đều đang sử dụng thư điện tử để trao đổi công việc, học tập. Do đó, việc ngăn chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vô cùng cần thiết. Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy có rất nhiều thư rác Tiếng Anh ở hòm thư người dùng Việt, thậm chí nhiều hơn thư rác tiếng Việt. Do đó, ta cần triển khai một bộ lọc thư rác có thể lọc cả thư rác Tiếng Việt và Tiếng Anh. 1.1. Mục tiêu của nghiên cứu Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư
  8. 2 điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh. Do đó, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng Việt. 1.2. Phương pháp nghiên cứu Phương pháp luận được sử dụng trong đề tài này bao gồm phương pháp nghiên cứu và tổng hợp lý thuyết và phương pháp thực nghiệm. Mục lý thuyết được nghiên cứu và thu thập từ các sách, bài báo tạp chí chuyên ngành. Sau khi có được nền tảng lý thuyết và mô hình thực nghiệm sẽ tiến hành. Mô hình thực nghiệm được xây dựng, hỗ trợ bởi một số nền tảng lý thuyết. Các kết quả thực nghiệm thu được sẽ được đánh giá và kiểm chứng lại trên nền lý thuyết. 1.3. Cấu trúc luận văn Đề tài bao gồm 3 chương chính. Đề tài được nghiên cứu và xây dựng đi lên từ những nghiên cứu tổng quan về thư rác, thảo luận tổng quan về thư rác, mô hình tổng quan về gửi và nhận thư điện tử cũng như các phương thức xác thực để phòng chống thư rác (Chương 1). Chương 2 sẽ trình bày các phương pháp trích xuất thông tin thư điện tử, kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận dạng và các kỹ thuật lọc rác cơ bản và thông minh. Tiếp theo, luận văn so sánh, nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đó đưa ra đề xuất phù hợp. Cuối cùng, Chương 3 mô tả thực nghiệm bao gồm đề xuất mô tả kiến trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá kết quả thực nghiệm. 1.4. Tổng quan về thư rác 1.4.1. Định nghĩa Có rất nhiều định nghĩa khác nhau cho thư rác. Theo [1], thư rác (spam) là hoạt động gửi thư điện tử không được yêu cầu, với số lượng lớn và trong một số trường hợp liên tục gửi đến những cá nhân mà không có liên hệ trước đó và địa chỉ e-mail của họ được thu thập không hợp pháp, hoặc spam thường được hiểu là việc gửi đi hàng loạt các thư thương mại không được yêu cầu bởi một người gửi ngụy trang hoặc giả mạo danh tính, hay được định nghĩa là tin
  9. 3 nhắn điện tử không được yêu cầu, bất kể nội dung [1] [2]. Định nghĩa này có tính đến các đặc điểm của thư điện tử hàng loạt [2]. Các định nghĩa về thư rác đều có những đặc điểm chung như sau: • Gửi bằng thư điện tử • Sử dụng các địa chỉ được thu thập mà không có sự đồng ý • Gửi hàng loạt • Không mong muốn nhận • Lặp đi lặp lại • Nhầm mục đích thương mại hoặc tài chính • Không có mục tiêu và bừa bãi • Không thể ngăn cản • Ẩn danh và / hoặc ngụy trang • Nội dung bất hợp pháp hoặc xúc phạm • Nội dung lừa đảo hoặc gian lận 1.4.2. Thống kê và tác hại của thư rác Thư rác chiếm một phần rất lớn của băng thông mạng, theo thống kê của Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luôn nhiều hơn so với số lượng thư hợp lệ (ham). Mặc dù số lượng thư rác có giảm xuống so với những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, có thể thấy thư rác vẫn chiếm một lượng băng thông mạng lớn. Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thời gian gần đây
  10. 4 nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư rác toàn cầu. Bất chấp sự phổ biến của nó, tỷ lệ thư rác e-mail toàn cầu thực sự đang giảm: tỷ lệ thư rác hàng năm toàn cầu trong năm 2018 là 55%, giảm so với 69% vào năm 2012 [5]. Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6]. Phần lớn trong số đó là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày. Trong khi nhiều người sử dụng cho rằng nội dung đó nằm trong thư mục thư rác của họ, e-mail tiếp thị nói chung là vô hại, tuy gây khó chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6]. Tuy nhiên, mọi thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư rác của các e-mail tiếp thị thương mại đã giảm xuống còn 9%, giảm từ 14% vào năm 2017 [6]. Tuy nhiên, không phải tất cả các thư rác đều là những e- mail quảng cáo lành tính. Một phần đáng kể các thư rác có tính chất độc hại hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6]. Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác, 9,64% khối lượng thư rác toàn cầu bắt nguồn từ các IP có trụ sở tại Hoa Kỳ tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư rác toàn cầu [6]. Thư rác là thư điện tử được gửi không mong muốn, gây ra nhiều ảnh hưởng đến nhiều mặt khác nhau: • Quá tải băng thông: Thư rác chặn các kênh liên lạc và tạo ra lưu lượng băng thông lớn (chi phí băng thông này công ty/doanh nghiệp phải trả tiền). Ngoài ra, có những máy chủ thư phải xử lý thư rác và những máy chủ này phải được bảo trì bởi các chuyên gia được trả lương cao. Do đó, chi phí vận hành cơ sở hạ tầng tăng đáng kể. • Tốn thời gian. Nếu thư rác đến hộp thư đến của người dùng, người nhận phải xóa nó theo cách thủ công. Một người đọc 10-20 thư điện tử mỗi ngày có thể nhận được khoảng 160-180 tin nhắn rác cùng với thư từ công việc của họ. Điều đó có nghĩa là họ sẽ dành 5-6 giờ mỗi tháng chỉ để xóa thư rác, gây phương hại đến thời gian làm việc hiệu quả của họ. • Khó chịu và phiền toái. Bằng cách xóa thủ công thư rác, người dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’. Việc buộc phải thực hiện các biện pháp như vậy không thể không gây khó chịu cho người dùng, dẫn đến những cảm xúc tiêu cực không
  11. 5 mong muốn. Cũng có thể trong quá trình xóa, người dùng cũng có thể vô tình xóa mất một thư điện tử quan trọng cùng với vô số thư rác. Tất cả những ai đã đối mặt với tình huống như vậy đều cảm thấy khó chịu và phiền toái. • Ảnh hưởng của thư rác đối với cá nhân: Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nói chung. Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời gian để phân loại thư điện tử và xóa các thư không mong muốn và do đó phải chịu chi phí cơ hội về thời gian. Thư rác cũng gia tăng chi phí của các nhà cung cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thông. Cuối cùng, thư rác được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các chi phí gián tiếp tiềm ẩn có liên quan đến nó. Theo ước tính [1] rằng các công ty và người tiêu dùng Mỹ phải chịu chi phí gần 20 tỷ đô la mỗi năm do thư rác. Con số của người tiêu dùng phải gánh chịu chi phí gần 20 tỷ đô la hàng năm do thư rác. Ước tính rằng những người gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên toàn thế giới theo đơn đặt hàng là 200 triệu đô la mỗi năm. Do đó, "tỷ lệ" của chi phí bên ngoài cho lợi ích bên trong cho thư rác là khoảng 100:1 [1]. • Ảnh hưởng của thư rác đối với doanh nghiệp Trong môi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do mất thời gian xóa các thư điện tử không mong muốn (hoặc tìm kiếm những cái đã xóa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] của về chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đô la Mỹ mỗi năm. Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đô la Mỹ mỗi năm. Ngoài ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác, chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP. Ở cấp độ nhà cung cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật. Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá nhân [6]. Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt với các khoản đầu tư có thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp làm sáng tỏ những chi phí tiềm ẩn này.
  12. 6 1.4.3. Phương pháp phân loại thư rác Các phương pháp khác nhau đang được sử dụng để đo lường và phân tích thư rác. Ba phương pháp tiếp cận chính đang được sử dụng cho việc này: khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương pháp tiếp cận dựa trên công cụ kỹ thuật. 1.4.3.1. Phương pháp khảo sát Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của những người tham gia khảo sát. Trong phương pháp, điều quan trọng là những người được chọn trong khảo sát có thể trở thành đại diện mẫu được không. So với các công cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và có thể được thiết lập và thực hiện trong thời gian tương đối ngắn. Một ví dụ về nghiên cứu dựa trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp tiếp thị qua thư điện tử. Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2]. 1.4.3.2. Phương pháp dựa trên báo cáo Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những người nhận thư rác, sau đó được phân tích. Mục đích chính của phương pháp này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư rác, người gửi thư rác và các đặc điểm của việc gửi thư rác. Phương pháp này dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính toán khối lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cận này, dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đó, định nghĩa về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người nhận. Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu thập và phân tích các báo cáo tự nguyện của người dùng [2]. Trên Google thư điện tử hay các phần mềm thư điện tử đều có mục ‘Report spam’ để gửi báo cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác. Điều này sẽ giúp các nhà cung cấp dịch vụ có những mẫu thu thập về thư rác đa dạng và tổng quan hơn. 1.4.3.3. Phương pháp kỹ thuật Phương pháp dựa trên công cụ kỹ thuật không cần sự tham gia tích cực của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn do nó không đòi hỏi chủ quan diễn giải của người dùng so với hai cách tiếp
  13. 7 cận còn lại. Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ không thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư rác, hay xóa bỏ thư rác. Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các thuật toán và kỹ thuật được sử dụng, đòi hỏi cập nhật liên tục để nhận ra các dạng thư rác mới. Các công cụ kỹ thuật không đảm bảo độ chính xác hoàn toàn, do đó dẫn đến nhiều kết quả dương tính giả (thư hợp lệ bị phân loại nhầm thành spam) và âm tính giả (thư rác bị nhầm lẫn không được phân loại) [2]. 1.4.4. Các loại thư rác Thư rác có thể được phân loại theo mục tiêu của người gửi thư rác. Nhiều người gửi thư rác gửi e-mail hàng loạt vì lý do quảng cáo như gửi quảng cáo thương mại hoặc mời tham gia vào các chiến dịch chính trị, hoặc nhằm mục đích lừa đảo hay phân phối phần mềm độc hại như virus hay trojan. Phần này trình bày các loại thư rác phổ biến và đưa ra số liệu thống kê, nếu có. Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày. Điều này bao gồm hàng tỷ thư quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày. Trong khi nhiều người dùng e-mail tin rằng nội dung như sẽ nằm trong mục thư rác (Spam), hay thư tiếp thị nói chung là vô hại, hoặc chỉ là gây khó chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị nằm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị bộ lọc thư rác bắt được. Tuy nhiên, mọi thứ đang được cải thiện vào năm 2018, tỷ lệ đặt thư rác thương mại đã giảm xuống còn 9%, giảm từ 14% vào năm 2017. Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5]
  14. 8 Theo thống kê [4], các danh mục nội dung thư rác năm 2019, đứng đầu là nội dung về sức khỏe (39%), sau đó là quảng cáo các sản phẩm (12%), và các nội dung khác (người lớn, độc hại, lừa đảo, hẹn hò,…) chiếm từ 2% đến 10%. Nhìn chung, các thư rác được phân thành các loại phổ biến như sau: 1.4.4.1. Thư rác quảng cáo Thư rác quảng cáo hay còn được gọi là thư rác mục đích thương mại (viết tắt là UCE). Hầu hết, các thư rác quảng cáo được coi là một loại hình tiếp thị trực tiếp và được các công ty coi là một công cụ quan trọng để tiếp cận khách hàng (tiềm năng), vì thư điện tử chi phí rẻ (hầu như miễn phí) và dễ dàng để liên hệ với một nhóm lớn khách hàng. Tuy nhiên, hầu hết thư rác không được gửi bởi chính các công ty quảng cáo, mà bởi những người gửi thư rác (spammer), là những người nhận hoa hồng từ các công ty này [1] một nghiên cứu ước tính rằng chi phí gửi một thư điện tử là từ 0,01 đô la Mỹ đến 0,05 đô la Mỹ [1]. Vì chi phí gửi thư rác rất thấp nên những người gửi thư rác có thể kiếm được lợi nhuận mặc dù tỷ lệ phản hồi cực kỳ thấp. Theo [1] chỉ ra mặc dù chi phí thấp, tỷ lệ phản hồi thấp, tuy nhiên khoảng 8% người trả lời thừa nhận họ đã thực sự mua một sản phẩm quảng cáo qua thư rác. Miễn là những kẻ gửi thư rác có thể kiếm được nhiều tiền hơn hơn chi phí của họ, họ có thể sẽ tiếp tục gửi thư rác. Đây là hành vi “hợp lý” theo nghĩa kinh tế. Ngoài các thư rác nhằm mục đích quảng cáo trực tiếp còn có các thư rác gián tiếp sẽ khuyến nghị mua một cổ phiếu cụ thể, nhằm tác động đến giá cổ phiếu nào đó. Một nghiên cứu thực nghiệm [8] cho thấy trong ngắn hạn, cổ phiếu thư rác có tác động đáng kể đến cả khối lượng giao dịch và định giá thị trường. Theo thống kê của Symantec, 80% thư rác về lĩnh vực tài chính, sức khỏe, Internet và các sản phẩm dành cho người lớn. Theo một thống kê khác thì thư rác về quảng cáo các loại thuốc chức năng chiếm ưu thế. Hai số liệu thống kê có sự khác biệt rõ ràng, điều này phụ thuộc vào dữ liệu mẫu của hai thống kê thu thập được. Tuy nhiên, không thể phủ nhận rằng thư rác quảng cáo chiếm một thị phần rất lớn của thư rác. 1.4.4.2. Thư rác tuyên truyền, vận động Các thư quảng cáo không cần thiết phải có mục đích thương mại. Họ cũng có thể tuyên truyền các ý tưởng và/hoặc tổ chức chính trị, văn hóa hoặc tôn giáo. Ví dụ, vào năm 2003, các thành viên của Quốc hội Hoa Kỳ đã gửi hàng trăm nghìn thư không được yêu cầu cho thành viên nhằm vận động các
  15. 9 chiến dịch. Các loại thư điện tử này thường nhằm mục đích kêu gọi sự ủng hộ, đồng thuận của những người nhận thư. 1.4.4.3. Thư rác lừa đảo Lừa đảo qua thư điện tử là các tin nhắn lừa đảo cung cấp số tiền lớn và yêu cầu chi tiết tài khoản ngân hàng hoặc lừa đảo giả mạo các dịch vụ phổ biến và lừa người nhận cung cấp chi tiết thẻ tín dụng /tài khoản của họ [2]. Một trong những trò lừa đảo rửa tiền phổ biến là người dùng nhận được thư điện tử từ một người tự xưng là quan chức chính phủ, thành viên gia đình của một quan chức đã qua đời hoặc luật sư đại diện cho một khách hàng giàu có đã qua đời. Thư điện tử hỏi chi tiết ngân hàng hoặc yêu cầu người nhận thanh toán trước như một cử chỉ thiện chí, với lời hứa sẽ hoàn lại tiền trong tương lai. Nếu người nhận cung cấp thông tin chi tiết, thì tài khoản của khách hàng sẽ bị tấn công và trừ tiền. Ở mỗi quốc gia khác nhau lại có nhiều phiên bản lừa đảo khác nhau tồn tại. Một dạng lừa đảo qua thư rác nữa là một doanh nghiệp hợp pháp được thành lập, nhằm lừa người dùng cung cấp thông tin cá nhân, thông tin này sẽ được sử dụng để đánh cắp danh tính. Thư gửi đến sẽ hướng dẫn người dùng truy cập một trang web nơi họ được yêu cầu cập nhật thông tin cá nhân, chẳng hạn như mật khẩu và thẻ tín dụng, số an sinh xã hội và số tài khoản ngân hàng mà tổ chức hợp pháp đã có. Tuy nhiên, trang web này là giả mạo và được thiết lập chỉ để lấy cắp thông tin của người dùng. Sự nguy hiểm của các trò gian lận lừa đảo là trang web mà nạn nhân hướng đến thường giống thật, vì đó là trang web giả mạo nhằm sao chép trang web của doanh nghiệp hợp pháp. Lừa đảo qua thư điện tử này được gọi là phishing, là một biến thể của "câu cá", ý tưởng là mồi được ném ra với hy vọng rằng trong khi hầu hết sẽ bỏ qua mồi, một số sẽ bị dụ cắn [2]. 1.4.4.4. Thư rác chứa mã độc Tuy nhiên, không phải tất cả các thư rác đều là thư quảng cáo lành tính. Một phần đáng kể các tin nhắn rác có tính chất độc hại hơn, nhằm mục đích phá hoại hoặc chiếm đoạt hệ thống của người dùng. Các biến thể phổ biến nhất của thư rác độc hại trên toàn thế giới bao gồm vi rút, trojan, phần mềm gián điệp và phần mềm tống tiền [2]. Vi rút là một chương trình, giống như vi rút sinh học, có thể sao chép và đôi khi làm hỏng máy tính bị nhiễm. Bằng phương thức này, vi rút là một chương trình hoặc tài liệu được đính kèm với một thư điện tử mà khi mở ra, nó sẽ lây lan bằng cách tự chuyển tiếp hàng loạt người nhận trong danh bạ của người gửi hoặc người dùng sẽ tải xuống và cài đặt giúp
  16. 10 kẻ tấn công chiếm quyền điều khiển hệ thống. Đối với thư điện tử từ người lạ, không nên mở bất kỳ tệp đính kèm nào nếu không chắc chắn là nó không gây hại. Thư rác phát tán phần mềm độc hại để lây nhiễm sang máy chủ nhằm chiếm quyền điều khiển từ xa và được sử dụng để gửi nhiều thư rác hơn. Các máy chủ bị nhiễm được gọi là "zombie". Nhiều người tin rằng hầu hết thư rác được gửi qua mạng botnet, là một mạng lưới các máy tính cá nhân bị lây nhiễm mã độc, tuy nhiên giả thuyết này cũng khó được chứng minh. 1.4.4.5. Thư rác bôi nhọ Thư rác bôi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả mạo, nhìn có vẻ đúng là địa chỉ thư của ai đó, nhưng thực sự đó là địa chỉ thư được giả mạo bởi một người khác, với ý định tạo ra các phiền toái, bôi nhọ hoặc làm tổn hại đến danh tiếng của nạn nhân vô tội. Ví dụ, kẻ xấu có thể gửi một thư rác chứa nội dung khiêu dâm trẻ em cho hàng nghìn người sử dụng địa chỉ trả lại giả mạo để khiến người nhận phẫn nộ và kích động. Tên "joe job" lần đầu tiên được sử dụng để mô tả một kế hoạch hướng đến Joe Doll, người đã cung cấp dịch vụ lưu trữ cho các trang web miễn phí. Một người dùng có tài khoản bị xóa vì quảng cáo thông qua thư rác; để trả đũa, anh ta đã gửi một thư rác khác cho vài triệu nạn nhân vô tội, nhưng với tiêu đề "trả lời" được giả mạo Joe Doll. 1.4.5. Mô hình lọc thư rác 1.4.5.1. Mô hình gửi nhận thư điện tử Để hiểu về phương thức lọc thư rác, cần tìm hiểu mô hình gửi nhận thư điện tử. Mô hình sau biểu diễn khái quát về cách thức gửi nhận thư: Hình 1.3: Mô hình khái quát về gửi, nhận thư điện tử
  17. 11 - SMTP: là viết tắt của phương thức Send Mail Tranfer Protocol, là phương thức gửi thư. Để nhận tải thư điện tử xuống chương trình của người dùng có 2 protocol sau: - POP: quản lý thư trên máy tính của người dùng. - IMAP: quản lý thư trên máy chủ. • MUA (Mail User Agent) Ứng dụng của người dùng cho phép nhận và gửi email. Nó có thể là một ứng dụng như Microsoft Outlook/Thunderbird /… hoặc dựa trên trình duyệt web như Gmail / Hotmail /… (sau này còn được gọi là Webmail). • MSA (Mail Subssmions Agent) Ứng dụng máy chủ nhận thư từ MUA, kiểm lỗi và chuyển tiếp (qua SMTP) đến MTA được lưu trữ trên cùng server. • MTA (Máy chủ chuyển thư) Ứng dụng máy chủ nhận thư từ MSA hoặc từ MTA khác. Nó sẽ tìm bản ghi MX từ bản ghi DNS của tên miền của người nhận để biết cách chuyển thư. Sau đó, nó sẽ chuyển thư (thông qua phương thức SMTP) đến một MTA khác (được gọi là SMTP relay) hoặc nếu đã đến máy chủ của người nhận thì sẽ chuyển tiếp đến MDA. Ví dụ về MTA là Postfix, Exim, Sendmail, qmail, ... • MDA (Mail Delivery Agent) Một chương trình máy chủ nhận thư từ MTA và lưu trữ nó vào hộp thư. MDA còn được gọi là LDA (Local Delivery Agent). Một ví dụ là Dovecot, chủ yếu là máy chủ POP3 và IMAP cho phép MUA truy xuất thư, nhưng cũng bao gồm MDA lấy thư từ MTA và gửi đến hộp thư của server. • Hộp thư: maildir / mbox Bộ lưu trữ thư của máy chủ. Maildir là một phương thức lưu trữ được ưu tiên hơn mbox. • SMTP Đây là giao thức được MUA sử dụng để gửi email đến MSA. Cổng SMTP được khuyến nghị để gửi thư (từ MUA đến MSA) là cổng 587, sử dụng mã hóa TLS. • IMAP / POP3 Đây là các giao thức được MUA sử dụng để lấy email từ hộp thư máy chủ. POP3 xóa các email khỏi máy chủ sau khi chúng được tải xuống. Trong
  18. 12 khi đó, IMAP duy trì tất cả các thư email trên máy chủ, cho phép quản lý một hộp thư bởi nhiều ứng dụng máy khách. • Bản ghi MX (Mail Exchanger) Bản ghi Mail Exchanger (MX) trong DNS chỉ định máy chủ nào là máy chủ thư cho một miền. Tên máy chủ từ bản ghi MX phải ánh xạ tới một hoặc nhiều bản ghi địa chỉ (A hoặc AAAA) trong DNS và không được trỏ đến bất kỳ bản ghi CNAME nào. 1.4.5.2. Mô hình lọc thư rác tổng quan Email được chấp thuận Lọc thư rác doanh WEB nghiệp LAN MTA Máy chủ chuyển thư MUA MUA MUA MTA Tải Email Ứng dụng nhận thư (MUA) Máy chủ chuyển thư Lọc thư rác cá nhân MUA Gửi Email Hình 1.4: Mô hình lọc thư rác [9] Một thư điện tử được gửi và nhận thường thông qua một nhà cung cấp dịch vụ. Lọc thư rác có thể triển khai ở các cấp sau: - Lọc thư rác cá nhân: Lọc thư rác ở cấp độ người dùng cung cấp một số ứng dụng để người dùng cá nhân có thể gửi nhận thư an toàn [9]. Khách hàng có thể dễ dàng lọc thư rác thông qua các nền tảng dựng sẵn (framework), một số các nền tảng này sẵn có và có thể cài đặt trên máy tính dễ dàng. Các nền tảng này có thể tương tác với phần mềm nhận thư và lọc hộp thư đến của khách hàng và quản lý các tin nhắn. - Lọc thư rác doanh nghiệp: Đối với lọc thư rác cấp doanh nghiệp, các nền tảng được cài đặt trên máy chủ thư (thư điện tử server) để tương tác với máy chủ gửi thư nhằm phân loại tin nhắn hoặc lọc thư rác [9]. Hầu hết các nền tảng lọc thư rác hiện hành sử dụng phương pháp tính điểm dựa trên các luật xây dựng sẵn. Khi một chuỗi ký tự trong thư đáp ứng 1 quy tắc thì sẽ được tính điểm, và các điểm cho các chuỗi ký tự trong một thư sẽ được cộng dồn. Nếu tổng số điểm của 1 thư vượt quá giá trị
  19. 13 ngưỡng, thư đó sẽ coi như tin nhắn rác. Vì những kẻ gửi thư rác sử dụng nhiều chiến lược và biện pháp khác nhau và luôn thay đổi, vì vậy tất cả các chức năng phải được thiết kế lại thường xuyên để tự động chặn thư rác một cách hiệu quả. 1.4.6. Quy trình hoạt động của lọc thư rác Mô hình sau thể hiện quá trình lọc thư rác tiêu chuẩn, bao gồm các bước sau: Lọc nội dung Lọc tiêu đề Lọc theo danh Lọc theo quy tắc (content) (header) sách chặn (rule-base) (blacklist- Lọc theo cơ chế thách thức-phản Lọc theo phân quyền hồi (Challenge- response) (Permission) Hình 1.5: Quy trình lọc nội dung thư rác [9] Đầu tiên là “Bộ lọc nội dung” được sử dụng để xác định thư rác bằng cách áp dụng một số Kỹ thuật học máy [9]. Thứ hai, tiêu đề sẽ được lọc thông qua “Bộ lọc tiêu đề” bằng cách trích xuất thông tin từ tiêu đề thư. Sau đó, bộ lọc danh sách đen sẽ được chạy để loại bộ những thư điện tử hoặc những IP trong danh sách chặn. Tiếp theo, "Bộ lọc dựa trên luật” lọc các nội dung theo các luật do người dùng tạo hoặc cài đặt. Sau đó, "Bộ lọc quyền" cho phép gửi thư đối với người gửi đã được chấp thuận trước. Cuối cùng, “Bộ lọc theo cơ chế thách thức- phản hồi” áp dụng một thuật toán để có được sự cho phép để gửi thư [9].
  20. 14 1.4.7. Quy trình lọc thư điện tử sử dụng học máy Tự học Tập mẫu huấn luyện Email Tiền xử lý Vectơ hóa Mô Hình Tập mẫu kiểm thử Trích xuất Bộ phân loại Đưa ra đặc trưng quyết định Hình 1.6: Quy trình lọc nội dung thư điện tử [9] Hình trên mô tả mô hình kiến trúc của bộ lọc thư áp dụng kỹ thuật học máy [9]. Bước đầu tiên, ta sẽ thu thập các thư điện tử của người dùng bao gồm cả thư rác và thư hợp lệ. Tiếp theo, quá trình tiền xử lý (pre-proccessor) diễn ra, trích xuất lấy từ/cụm từ chính (tokenization), loại bỏ các ký tag HTML, header MIME hoặc các từ nối như “rằng”, “thì”,… Sau đó, bộ lọc sẽ trích xuất đặc tính (feature extraction) và bằng cách sử dụng biểu thức vectơ phân loại dữ liệu thành hai tập hợp. Cuối cùng, kỹ thuật học máy (machine learning) được áp dụng để huấn luyện bộ thư mẫu để xác định thư điện tử cho dù đó là thư rác hay hợp pháp. Quyết định cuối cùng thực hiện qua hai bước; thông qua việc tự học và kết quả của bộ lọc để quyết định thư điện tử là thư rác hay thư hợp lệ. 1.4.8. Mô hình lọc thư rác của Zimbra 1.4.8.1. Thành phần của Zimbra Zimbra là một ứng dụng máy chủ thư điện tử mã nguồn mở nổi tiếng, trong đó có tích hợp ứng dụng lọc thư rác mã nguồn mở SpamAssassin. Zimbra nhận thư qua SMTP và định tuyến từng thư, sử dụng Giao thức truyền thư cục bộ (LMTP), đến máy chủ hộp thư Zimbra thích hợp. Máy chủ gửi thư Zimbra MTA bao gồm các chương trình sau: • Postfix MTA: để định tuyến thư, chuyển tiếp thư và chặn tệp đính kèm
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0