intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khóa luận tốt nghiệp: Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm

Chia sẻ: Lâm Ls | Ngày: | Loại File: DOCX | Số trang:59

156
lượt xem
15
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chương 1 tổng quan về thư điện tử và thư rác, chương 2 tổng quan về hệ miễn dịch sinh học và hệ miễn dịch nhân tạo, chương 3 xây dựng chương trình lọc thư rác là những nội dung chính trong 3 chương của khóa luận tốt nghiệp "Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác". Mời các bạn cùng tham khảo để có thêm tài liệu phục vụ nhu cầu học tập và nghiên cứu.

 

 

Chủ đề:
Lưu

Nội dung Text: Khóa luận tốt nghiệp: Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm

  1. 1
  2. LỜI CẢM ƠN Để  hoàn thành luận văn tốt nghiệp này, em xin bày tỏ  lòng biết  ơn sâu sắc tới   thầy giáo Ths. Nguyễn Văn Trường – Giảng viên Tin học, khoa Toán, Trường Đại học  Sư Phạm – Đại học Thái Nguyên, đã định hướng ý tưởng, tận tình giúp đỡ, chỉ  bảo em   trong suốt quá trình thực hiện luận văn. Em xin chân thành cảm ơn Ban giám hiệu nhà trường, Ban chủ nhiệm khoa Toán  cùng toàn thể các thầy, cô giáo trong khoa đã tận tình hướng dẫn, giúp đỡ em thực hiện  luận văn. Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân đã  động viên giúp đỡ em trong suốt quá trình làm luận văn. Trong quá trình tiến hành làm luận văn do chưa có nhiều kinh nghiệm nên không  tránh khỏi những thiếu sót và hạn chế. Vì vậy em rất mong nhận được sự góp ý của các   thầy cô và các bạn sinh viên để luận văn được hoàn thiện hơn. Em xin chân thành cảm ơn!                                Thái Nguyên, tháng 04 năm 2015                                    Sinh viên Lương Văn Lâm 2
  3. DANH MỤC TỪ VIẾT TẮT, KÝ HIỆU Viết tắt, ký hiệu Viết đầy đủ, ý nghĩa HMD Hệ miễn dịch. Negative Selection Algorithm ­ Thuật toán chọn lọc tiêu  NSA cực (âm tính) SMTP Simple Mail Transfer Protocol. WEKA Waikato Environment for Knowledge Analysis. HTML HyperText Markup Language. IBM International Business Machines. TP Số lượng email spam kết luận đúng. TN Số lượng email thường kết luận đúng. FP Số lượng email thường kết luận sai thành spam. FN Số lượng email spam kết luận sai thành thường. Acc Độ chính xác tổng thể. DR Tỉ lệ phát hiện. FPR Tỉ lệ dương tính giả. 3
  4. DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG MỤC LỤC Trang bìa phụ………………………………………………………………………………..1 Lời   cảm  ơn………………………………………………………………………..................2 4
  5. MỞ ĐẦU Thư  điện tử  (email) đã và đang là một trong những phương tiện, công cụ  gửi   nhận thông tin được sử dụng rộng rãi nhất trên thế giới. Sự phát triển của thư  điện tử  gắn liền với sự phát triển của ngành khoa học công nghệ thông tin. Thư  rác (spam) là những thư  điện tử  được gửi một cách tự  động tới tài khoản   (hộp thư) của người dùng với những nội dung không mong đợi, không muốn nhận,  không phù hợp hoặc nội dung thư không liên quan tới người nhận. Sự xuất hiện của thư  rác gây ra phiền phức, mất thời gian cho người sử dụng bên cạnh đó nó cũng làm cho  đường truyền Internet trở nên chậm hơn do số lượng thư rác gửi đi trong một thời điểm  là rất nhiều, thư  rác cũng là một trong những công cụ  phát tán virus máy tính gây ra  nhiều hậu quả khó lường về nhiều mặt. Để phòng ngừa và ngăn chặn thư rác, nhiều phương pháp đã được sử dụng tạo ra  nhiều phần mềm lọc thư  rác, một trong những phương pháp mới   đã và  đang được  nghiên cứu phát triển là  ứng dụng HMD nhân tạo (Artificial immune system ­ AIS) – là   phương pháp dựa trên nguyên lý, chức năng, mô hình hoạt động của HMD sinh học  ở  người, với kĩ thuật “học máy” mang lại hiệu quả tương đối cao.  Với kĩ thuật này các thư  điện tử  thông thường hoặc thư  rác sẽ  được “học” hay  “huấn luyện” tạo thành cơ sở dữ liệu để phát hiện các thư rác. Vấn đề đặt ra là cần cải   thiện hiệu quả của quá trình học máy, cũng như quá trình nhận dạng và loại bỏ thư rác. Vì vậy, tôi quyết định lựa chọn nội dung nghiên cứu trong khóa luận của mình là:  “Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác”. I. Mục tiêu nghiên cứu Bước đầu tìm hiểu hệ miễn dịch nhân tạo và áp dụng nó cho bài toán lọc thư rác. II. Nhiệm vụ nghiên cứu ­ Nghiên cứu lịch sử phát triển của thư điện tử, những lợi ích và mặt hạn chế mà  thư điện tử mang lại. 5
  6. ­ Nghiên cứu về  thư  rác: quá trình phát triển, cấu trúc, tác hại của chúng… Tìm  hiểu nội dung các phương pháp ngăn chặn thư  rác,  ưu – nhược điểm của các phương   pháp. ­ Tìm hiểu nội dung hệ miễn dịch nhân tạo, một số thuật toán trong hệ miễn dịch   nhân tạo. ­ Xây dựng chương trình áp dụng một thuật toán của hệ miễn dịch nhân tạo cho  lọc thư rác. III. Phương pháp nghiên cứu ­  Nghiên cứu tài liệu: sách, luận văn, một số  đề  tài nghiên cứu cùng lĩnh vực,  những bài báo, diễn đàn chuyên về thư điện tử và hệ miễn dịch nhân tạo. ­ Tham khảo ý kiến thầy giáo hướng dẫn, các bạn sinh viên cùng chuyên ngành. ­ Thử nghiệm cài đặt chương trình và so sánh hiệu quả của chương trình với một  số phương pháp khác (trên WEKA) về khả năng phát hiện đúng và tỉ lệ lỗi. IV. Cấu trúc của đề tài Ngoài phần mở đầu và kết luận, đề tài có 03 chương: ­ Chương 1. Tìm hiểu tổng quan về thư điện tử và thư rác. ­ Chương 2. Tìm hiểu tổng quan nội dung hệ miễn dịch sinh học và hệ miễn dịch  nhân tạo. ­ Chương 3. Xây dựng chương trình lọc thư rác áp dụng hệ miễn dịch nhân tạo. 6
  7. CHƯƠNG 1  TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC Chương này trình bày tổng quan về lịch sử phát triển, khái niệm, lợi ích của thư   điện tử, cấu trúc chung và các giao thức gửi – nhận thư điện tử. 1.1. Tổng quan về thư điện tử 1.1.1. Lịch sử phát triển Ngày nay thư  điện tử  (email) là một trong những khái niệm quen thuộc và gần   như không thể thiếu đối với hầu hết người sử dụng Internet, hàng tỉ tài khoản thư điện   tử đang được sử dụng cho thấy thư điện tử là một công cụ gửi, nhận và trao đổi thông  tin hàng đầu thế giới hiện nay. Lịch sử phát triển của thư điện tử gắn với các cột mốc sau:  Thời tiền thư điện tử ­ Năm 1961: Tom Van Vleck (kĩ sư phần mềm máy tính của Mĩ) đã phát triển hệ  thống giao dịch tin nhắn nhiều người dùng trên một máy tính. ­   Năm   1965:   Lần   đầu   tiên   thư   điện   tử   được   ra   mắt   tại   viện   Công   nghệ  Massachusetts ­ Hoa Kì. ­ Năm 1971: Ray Tomlinson (lập trình viên người Mĩ) đã phát triển hệ thống giao  dịch tin nhắn nhiều người trên nhiều máy tính và gửi bức thư  điện tử  đầu tiên trên   mạng ARPANET (Advanced Research Projects Agency Network), b ức th ư điện tử đó là  một bài kiểm tra e­mail. ­ Năm 1977: Định dạng chuẩn (RFC 733) được Dave Crocker đề  xuất để  phổ  biến phương thức giao tiếp bằng thư điện tử qua mạng Internet.  Thư điện tử ra đời 7
  8. ­ Năm 1978: VA Shiva Ayyadurai đã tạo ra một hệ thống điện tử để gửi thư giữa  các phòng trong nội bộ trường Đại học Y và Nha khoa New Jersey. ­ Năm 1979: Các thành phần: To, From, Cc, Bcc, Subject, Inbox, Outbox,.. được  chuyển thành một hệ thống thư điện tử. ­ Năm 1980: Hệ thống thư điện tử trên được ứng dụng thực tế trong trường Đại  học Y và Nha khoa New Jersey. ­ Ngày 30/08/1982: Thuật ngữ  “email” và hệ  thống thư  điện tử  được trao bản   quyền chính thức.  ­ Năm 1982: Giao thức truyền tải thư  điện tử  SMTP  ra đời.  SMTP là giao thức  truyền tải thư điện tử qua mạng, SMTP cho phép chuyển thông điệp thư điện tử từ máy  chủ thư điện tử (mail server) của người gửi đến máy chủ thư điện tử của người nhận.  ­ Năm 1985: Hệ thống phát triển hình thức email offline cho phép người nhận lưu   trữ thư trên máy tính. ­ Năm 1988: Microsoft Mail là hòm thư  điện tử  thương mại đầu tiên được phát  triển dùng cho giao thức mạng MAC (Media Access Control). ­ Năm 1989: IBM ra mắt Lotus 1.0 – mô hình email server đầu tiên.  Những năm 1990 ­ Những năm đầu 1990 vấn nạn thư rác bắt đầu hoành hành. ­ Năm 1992: Microsoft Outlook phiên bản dành cho hệ điều hành MS­DOS ra đời. ­ Năm 1993: America Online và Delphi kết nối hệ thống email độc quyền của họ  vào Internet. Cùng lúc đó hãng IBM liên doanh với BellSouth sản xuất dòng điện thoại  thông minh đầu tiên Simon Personal Communicator có tính năng sử dụng email. ­ Năm 1996: Sabeer Bhatia và Jack Smith khởi động “HotMail” ­ website cung cấp   dịch vụ  thư  điện tử  miễn phí đầu tiên trên thế  giới và HotMail nhanh chóng trở  thành  dịch vụ thư điện tử được sử dụng nhiều nhất thế giới. ­ Năm 1997: Yahoo! cho ra đời Yahoo Mail tạo ra sự cạnh tranh với Hotmail. 8
  9. ­ Năm 1999: Blackberry cho phép truy cập dịch vụ  thư điện tử  qua điện thoại di  động. Khả  năng gửi thư  qua điện thoại làm cho việc sử  dụng thư  điện tử  trở  nên tiện   lợi và nhanh chóng hơn bao giờ hết. ­ Cuối những năm 1990, thư  điện tử  sử  dụng ngôn ngữ  HTML ra đời cho phép   định dạng văn bản phong phú hơn so với văn bản thuần túy.  Những năm đầu thế kỉ 21 ­ Năm 2000: Microsoft phát hành ứng dụng email client Microsoft Entourage dành   cho hệ điều hành Mac OS. ­ Năm 2003: Microsoft Outlook 2003 phát triển bộ lọc thư rác và thư lừa đảo. ­ Năm 2004: Ủy ban Thương mại Liên bang Mĩ ban hành đạo luật chống thư rác. ­ Năm 2006: Microsoft Outlook 2007 ra đời hỗ trợ việc duyệt tin qua RSS và nhận  tin nhắn. Cùng thời gian này mạng xã hội Facebook bắt đầu đi vào hoạt động trên quy  mô toàn cầu, tạo ra sự liên kết giữa tài khoản Facebook với tài khoản thư điện tử. ­ Tháng 4/2007: Gmail đi vào hoạt động sau 4 năm chạy bản thử nghiệm. ­ Năm 2010: + Microsoft Outlook 2010 ra đời tích hợp Outlook Social Connector (hỗ trợ  nhận gửi thư  với các mạng xã hội) bỏ  qua hội thoại và dọn dẹp hội   thoại. + Outlook Mobile dành cho Windows Phone 7 và Outlook dành cho Mac  2011 ra đời. + Mạng xã hội Facebook công khai kế hoạch kết hợp ứng dụng Microsoft   nền web vào hệ thống tin nhắn mới. ­ Năm 2011: Hệ thống quy ước AP Stylebook của Hoa kì chính thức sử dụng chữ  “email” trên các phương tiện truyền thông thay cho “e­mail”. Trải qua các giai đoạn phát triển, hiện nay thư  điện tử  đang được cải tiến theo  hướng thuận tiện, thân thiện hơn với người dùng thể  hiện qua việc cải tiến giao diện   người dùng cùng với đó là các chức năng bảo vệ thư điện tử ngày càng hiệu quả hơn. 9
  10. 1.1.2. Thư điện tử là gì Thư điện tử (email hay electronic mail) là một hệ thống chuyển nhận thư qua các  mạng máy tính. Thư  điện tử  là một phương tiện thông tin rất nhanh. Một mẫu thông tin có thể  được gửi đi ở dạng mã hóa hay dạng thông thường và được chuyển qua các mạng máy  tính đặc biệt là mạng Internet. Nó có thể  chuyển thông tin từ  một máy nguồn tới một   hay nhiều máy nhận trong cùng một thời điểm. Ngày nay, thư điện tử không chỉ gửi thông tin dạng chữ mà nó còn có thể truyền   các dạng thông tin khác như: hình ảnh, âm thanh, phim,… đặc biệt là các phần mềm thư  điện tử  kiểu mới còn có thể  hiển thị  các thư  điện tử  dạng sống động tương thích với  kiểu tệp HTML. Phần mềm thư   điện tử  (email software) là loại phần mềm nhằm hỗ  trợ  cho   người dùng việc chuyển và nhận các mẫu thông tin. Thông tin có thể  đưa vào phần   mềm thư điện tử bằng cách thông dụng nhất là gõ chữ từ bàn phím, hoặc dùng máy quét  hình ảnh scanner, máy ghi hình, webcam,… Phần mềm thư điện tử giúp việc soạn thảo,   gửi, nhận, đọc, in, xóa hay lưu trữ các thư điện tử. Có hai loại phần mềm thư điện tử:  Các phần mềm thư điện tử được cài đặt trên từng máy tính (email client), hay   phần mềm thư điện tử cho máy khách.  Ví dụ: Microsoft Outlook, Microsoft Outlook Express, Netscape Communicator,….  Các phần mềm thư  điện tử  không cần cài đặt trên máy tính: Phần mềm loại   này được cung cấp bởi các máy chủ (web server) trên mạng Internet. Để sử  dụng được   các phần mềm loại này thường các máy tính nối vào phải có một máy truy cập tương  thích với sự cung ứng của Webmail. Ví dụ: Mail.Yahoo.com hay Hotmail.com,… Các dịch vụ thư điện tử có thể được cung ứng miễn phí hoặc có phí tùy theo nhu   cầu và mục đích của người dùng. Ngày nay, thư điện tử thường được cung cấp kèm với   10
  11. các phương tiện Internet khi người tiêu dùng ký hợp đồng với các dịch vụ  Internet một   cách miễn phí. 1.1.3. Lợi ích của thư điện tử Tốc độ gửi/nhận nhanh: Thư điện tử được chuyển qua đường Internet dưới dạng   các tín hiệu điện nên tốc độ  di chuyển gần như  là tức thời. Với các bức thư  tín bình   thường chúng ta có thể mất một vài ngày để thư có thể tới được địa chỉ cần thiết nhưng   với thư điện tử người nhận dường như không cần chờ đợi. Chi phí không đáng kể: Với các bức thư  tín bình thường, ta phải tốn một khoản   chi phí khá lớn khi gửi các bức thư của mình. Còn với thư điện tử, ta chỉ tốn một khoản   phí rất nhỏ để kết nối Internet cùng với chi phí cho dịch vụ thư điện tử. Hiện nay, dịch   vụ thư điện tử hầu hết được cung cấp miễn phí. Không có khoảng cách: Với thư điện tử, người nhận cho dù ở  xa thì việc gửi và  nhận thư  đều được thực hiện gần như  ngay lập tức. Chi phí cho các bức thư  đó cũng   đều như nhau và không đáng kể. 1.1.4. Cấu trúc chung và các giao thức gửi, nhận thư điện tử 1.1.4.1. Cấu trúc hệ thống thư điện tử          SMTP (via internet) System call           SMTP (Direction connection) SMTP 11
  12. System call                     Đọc, viết POP/IMAP Viết System call Hình 1.. Cấu trúc hệ thống thư điện tử Để thực hiện việc trao đổi thư  với người dùng, giữa máy chủ  và các máy khách  thống nhất sử dụng chung một bộ giao thức gửi và nhận thư, trong đó quy định cụ thể  về cổng làm việc, quy trình thao tác, các câu lệnh trao đổi, cấu trúc của thư điện tử. Mô   hình trên mô tả một hệ thống thư điện tử với giao thức gửi thư SMTP và giao thức nhận  thư POP hoặc IMAP. Hệ thống bao gồm bốn phần tử chính: ­ MUA (Mail User Agent): là chương trình phần mềm của máy client được người  dùng sử dụng để gửi, nhận, soạn thảo, xử lý thư điện tử. ­ MTA (Mail Transfer Agent): là một chương trình thư  của máy chủ, cho phép   truyền tải thư điện tử từ máy này sang máy khác. ­ MDA (Mail Delivery Agent): là chương trình MTA sử dụng để chuyển thư  vào  hộp thư của người dùng hoặc để truyền tải thư tới một MTA khác. Mỗi MTA sử dụng  một hoặc nhiều MDA, mỗi MDA được sử  dụng cho một loại yêu cầu phân phát thư  riêng. ­ MRA (Mail Retrieval Agent): là một chương trình hoặc một dịch vụ  có chức  năng lấy thư  điện tử  về  từ  một hộp thư  trên một máy chủ   ở  xa và đưa chúng tới một  MUA. Các MRA truy vấn các thư  và các phần header từ  những hộp thư   ở xa và phân  phát chúng tới các MUA trên máy của người dùng. 1.1.4.2. Cấu trúc của thư điện tử Một thư  điện tử  thường có hai phần chính : phần đầu (Header) và phần thân  (Body) là văn bản chứa nội dung của thư. Khi gửi đi, toàn bộ thư điện tử được gói trong  12
  13. nội dung (content). Ngoài ra, hệ  thống thư  còn tạo thêm một phần nữa gọi là bì thư  (envelope) chứa các thông tin cần thiết cho việc chuyển thư đến nơi nhận. 1.1.4.3. Cấu trúc của một địa chỉ thư điện tử Một địa chỉ thư điện tử gồm ba phần chính dạng: Tên_định_dạng_thêm  Tên_truy_cập@Địa_chỉ_máy_chủ_thư ­ Thành phần:  Tên_định_dạng_thêm: Đây là một dạng tên để  người đọc có thể  dễ  dàng nhận ra người gửi hay nơi gửi. Tuy nhiên, trong các thư  điện tử  người ta   thường không cần tên định dạng thêm và lá thư điện tử vẫn được gửi đi đúng nơi. Ví dụ: Su_pham_tin spt@gmail.com có thể viết địa chỉ thư là: spt@gmail.com lúc   này phần mềm thư điện tử vẫn hoạt động chính xác và gửi đến đúng địa chỉ. ­ Phần Tên_truy_cập: là phần xác định hộp thư. Do người đăng ký hộp thư đặt và  cần phải nhớ rõ phần tên này. Phần này còn gọi là: phần tên địa phương. ­ Phần Địa_chỉ_máy_chủ_thư: là địa chỉ  máy chủ  của nhà cung cấp dịch vụ  thư  điện tử. Giữa Tên_truy_cập và Địa_chỉ_máy_chủ_thư ngăn cách nhau bởi kí tự @ . Ví dụ: khoatoan11@gmail.com; suphamtn@yahoo.com; thpttn@hotmail.com;… 1.1.4.4. Một số giao thức sử dụng để gửi và nhận thư điện tử Hệ  thống thư   điện tử   được xây dựng dựa trên một số  giao thức: SMT, Post  Office Protocol (POP), Multipurpose Internet Mail Extensions (MIME) và Interactive Mail  Access Protocol (IMAP) được định dạng trong RFC 1176 là một giao thức quan trọng để  thay thế POP, nó cung cấp nhiều cơ chế tìm kiếm văn bản, phân tích tin nhắn từ xa mà   ta không nhìn thấy trong POP.  Một số giao thức gửi thư điện tử ­ Giao thức SMTP: Là giao thức truyền tin tin cậy, chịu trách nhiệm phân phát thư  điện tử  từ  hệ  thống mạng này sang hệ  thống mạng khác, chuyển thư  trong hệ  thống  mạng nội bộ. Hầu hết các hệ thống thư điện tử gửi thư qua Internet đều dùng giao thức   này. Các mẫu thông tin có thể được lấy ra bởi một email client. Những email client này   phải dùng giao thức POP hay giao thức IMAP. 13
  14. ­ Giao thức X.400: là giao thức được ITU­T  và ISO  định nghĩa nó đã được  ứng  dụng rộng rãi  ở  Châu Âu, Canada. X.400 cung cấp tính năng điều khiển và phân phối   thư  điện tử, sử  dụng định nghĩa dạng nhị  phân, do đó không cần mã hóa nội dung khi  phân phát thư trên mạng Internet.  Một số giao thức nhận thư điện tử Có hai giao thức chính thường được dùng bởi các  ứng dụng máy thư  khách để  truy cập thư  từ  các máy chủ: Post Office Protocol (POP) và Internet Message Access   Protocol (IMAP). ­ Giao thức POP: là giao thức được thiết kế  để  hỗ  trợ  tiến trình thư  “offline”,   trong tiến trình này thư điện tử được phân phát tới một máy chủ. Một máy tính cá nhân   người dùng gọi định kỳ một chương trình thư khách được kết nối tới máy chủ và tải tất  cả  thư  treo đó tới máy tính của người dùng. Cách truy cập offline là một loại dịch vụ  store­to­forward, được sử  dụng để  chuyển thư  từ  máy chủ  thư  tới máy của người đọc   thư. ­ Giao thức IMAP: là một giao thức chuẩn cho việc truy cập thư điện tử  từ  máy  chủ thư cục bộ. Là một giao thức chủ/khách trong đó thư  điện tử được nhận và duy trì   bởi máy chủ  thư. Với những yêu cầu này chỉ  một trao đổi dữ  liệu nhỏ  làm việc tốt   thậm trí qua một kết nối chậm như một modem. Chỉ khi người dùng yêu cầu đọc một  thư điện tử cụ thể thì nó sẽ được tải về từ máy chủ  thư đó. Người dùng có thể tạo và   chế tác các thư mục hoặc các hộp thư trên máy chủ, xóa tin nhắn,… 1.2. Tổng quan về thư rác 1.2.1. Lịch sử Lịch sử thư rác có thể chia thành ba giai đoạn. 1.2.1.1. Giai đoạn thứ nhất ­ những năm đầu của thư rác Nhiều ý kiến cho rằng thư  rác đầu tiên được phát tán trên mạng diện rộng vào  năm 1978, đó là một quảng cáo từ  Digital Equipment Corporation (DEC) [5] nhà sản   xuất máy tính mini hàng đầu thế giới. Do dịch vụ thư điện tử lúc này chưa tiên tiến nên   14
  15. người phát tán thư rác (spammer) phải đánh thủ  công các địa chỉ thư  điện tử  muốn gửi   và có khoảng 320 trong tổng số  các địa chỉ  thư  điện tử  mà spammer muốn gửi nhận  được thư  rác này trong lần phát tán đầu tiên. Vào 1988 xuất hiện kiểu thư  rác khác là  thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền). 1.2.1.2. Giai đoạn thứ hai ­ thư rác được gửi thông qua phần mềm Đầu thập niên 1990, với sự phát triển của Internet gây ra vấn nạn thư rác với số  tăng lên nhanh chóng. Lúc này các spammer dùng các phần mềm để gửi tự động thư rác  đến một danh sách nhiều địa chỉ. Ví dụ: thư rác Jesus, Cantel và Siegel. Vào 1995 Jeff Slaton ­ tự  nhận mình là “vua thư  rác”, ông là một trong những  người đầu tiên kiếm lợi nhuận từ  các thư  rác mà ông gửi đi, ông còn ép buộc các nạn   nhân của mình trả phí nếu không muốn nhận thư rác. Việc làm của ông tạo ra ý tưởng  cho các công ty thương mại là thuê những người như Jeff Slaton để phát tán thư điện tử  với mục đích là quảng cáo giúp họ. 1.2.1.3. Giai đoạn thứ ba ­ phần mềm chống thư rác chống lại các phần mềm gửi thư  rác Vào   1996   xuất   hiện   các   phần   mềm   chống   thư   rác   đầu   tiên   như   Spamblock,   Internet Death Penalty, tuy nhiên vẫn không làm giảm sự phát triển của thư rác. Các địa   chỉ  thư  điện tử  của người dùng được bán cho các công ty, tổ  chức muốn thực hiện   quảng cáo trên thư  điện tử. Và từ  1997 sự  phát triển của thư  rác đã vượt quá sự  kiểm  soát, một thống kê cho thấy 97% tổng số  thư  điện tử  được gửi trên mạng là các thư  người nhận không mong muốn [6]. 1.2.2. Định nghĩa Có nhiều tranh cãi về  định nghĩa chính xác của thư  rác (spam email), bởi vì thư  rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư  rác. Nhiều ý   kiến cho rằng thư  rác là những “thư  điện tử  không mong muốn”. Định nghĩa này cũng  không thực sự  chính xác, như  một nhân viên nhận những thư  điện tử  về  công việc từ  15
  16. sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng  không phải là thư rác. Lại có ý kiến khác cho rằng thư rác là những “thư điện tử thương   mại không được yêu cầu từ phía người nhận” những thư này bao gồm các thư  điện tử  quảng cáo về các sản phẩm và thư  điện tử  lừa gạt. Nhưng định nghĩa này cũng không   thực sự chính xác. Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và  trong số  đó các thư  điện tử  quảng cáo, thương mại chiếm đa số, đây có thể  là định  nghĩa gần đúng với ý nghĩa của thư rác nhất [7]. 1.2.3. Mục đích gửi thư rác Mục đích chính của việc gửi thư rác: ­ Quảng cáo sản phẩm, hàng hóa, dịch vụ,… của tổ  chức, công ty thương mại  hay cá nhân nào đó. ­ Lợi dụng sự tin tưởng của người dùng để lừa gạt như các hình thức thanh toán   trực tuyến.  ­ Phát tán virus, mã độc hại kèm theo thư điện tử xâm nhập vào các máy nhận thư  rác nhằm đánh cắp thông tin, phá hoại tài liệu, phá hủy hệ thống phần mềm.  ­ Tuyên truyền những luận điệu sai trái, văn hóa không lành mạnh, nói xấu chế  độ chính trị. 1.2.4. Các đặc tính của thư rác Thư rác có các đặc tính cơ bản sau: ­ Mang tính tương đối vì nó mang tính cá nhân, có thể một thư điện tử  này là vô   bổ với người này nhưng lại có lợi với người khác. ­ Tính bất biến trong một thư  rác thể  hiện  ở  những từ, cụm từ  hầu như  không   thay đổi trong những lần spam. ­ Đặc tính phần header của thư rác [6]: + Địa chỉ  thư  điện tử  của người nhận sẽ  không được thể  hiện  ở  trường  “To:” hay “Cc:” vì địa chỉ này sẽ được  ẩn trong trường “Bcc”. Người gửi  16
  17. thư rác thực hiện hành động này để giấu số lượng lớn các địa chỉ thư điện  tử mà người gửi thư rác muốn gửi. + Để nội dung trống hoặc thiếu trường “To”. + Nội dung trường “From:” giống trường “To:”. + Thiếu trường “From:”. + Định danh –ID của thư điện tử bị thiếu hoặc bị làm giả. + Trường “Bcc:” có tồn tại vì  ở  các thư  điện tử  thông thường trường này   thường không xuất hiện. + Trường “X­mailer” là trường thể hiện tên phần mềm dùng để gửi thư điện  tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì  có thể xác định được là thư rác hay không. + X­UIDL header: là một định danh duy nhất được sử dụng bởi các giao thức  POP để  lấy thư  điện tử  từ  một máy chủ  thư  điện tử. Nó thường được   thêm vào giữa các máy chủ thư điện tử của người nhận và phần mềm thư  điện tử của người nhận, nếu thư đến tại các máy chủ thư điện tử mà xuất   hiện trường này thì là thư rác. + Tồn tại các dòng mã lệnh hoặc khoảng trắng tuần tự. Ví dụ như  thêm mã   lệnh trên chủ đề của thư và dùng khoảng trắng để giấu. + Tồn tại các dòng mã HTML không đúng quy tắc. ­ Nội dung của thư thường chứa các từ  như: khuyến mãi, kiếm tiền nhanh, free,   … ­ Giống nhau  ở  kích thước/ loại tệp tin/ tên tệp tin đính kèm thư  rác  ở  các lần   spam. 1.2.5. Các kĩ thuật tạo thư rác 1.2.5.1. Chỉnh sửa phần header của thư rác ­ Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:”   hoặc “Cc”. 17
  18. ­ Thể  hiện  ở  trường “To:” các địa chỉ  thư  điện tử  không hợp lệ  để  đánh lừa  người nhận. ­ Dùng mã HTML và khoảng trắng để che dấu thông tin nhằm mục đích đánh lừa  người nhận. 1.2.5.2. Chỉnh sửa phần nội dung của thư rác ­ Gửi cùng một văn bản thư rác nhiều lần mà không có gì thay đổi. ­ Đảo nội dung, xóa bớt hoặc thêm một số đoạn văn bản trong lần gửi tiếp theo. ­ Thay đổi cách dùng từ, hình thức mà không làm thay đổi nội dung thư rác. ­ Thêm các thẻ  HTML vào văn bản thư  rác để  vượt qua các phần mềm lọc thư  rác. ­ Dùng hình  ảnh thay văn bản để tránh các phần mềm lọc thư  rác thông qua văn   bản (biến dạng chữ để tránh nhận dạng kí tự quang học). Dựa vào các đặc tính của thư  rác và các thủ  thuật tạo thư  rác của các spammer,   người ta đã và đang nghiên cứu xây dựng các kĩ thuật lọc thư  rác nhằm mục đích ngăn   chặn phán tán thư rác sao cho hiệu quả nhất. 1.2.6. Các kĩ thuật phát hiện và ngăn chặn thư rác 1.2.6.1. Kĩ thuật blacklisting Một blacklist là một danh sách chứa thông tin các địa chỉ thư điện tử hay địa chỉ IP  bị cho là địa chỉ phát tán thư rác. Blacklist còn được gọi là danh sách blackhole. Hiện nay   trên thế giới có nhiều tổ chức chuyên về lĩnh vực thu thập và cung cấp blacklist của các   máy chủ thư điện tử được kẻ phát tán thư rác sử dụng. Có nhiều loại danh sách blacklist khác nhau (IP blacklist, DNS blacklist, email   blacklist) đưa đến nhiều mức độ  lọc khác nhau trong mạng. Mỗi blacklist có một tập  luật và điều kiện khác nhau để  xác định thư  rác. Một vài danh sách quá khắt khe, quá  nhiều điều kiện dẫn đến rủi ro các thư điện tử hợp lệ bị mất rất cao. Các danh sách blacklist có hai hạn chế quan trọng là [7]: 18
  19. ­ Thời gian lan truyền: Các danh sách blacklist sẽ thêm các địa chỉ mạng vào danh   sách của nó chỉ  khi mạng đó được dùng để  phát tán thư  rác. Trước đây việc thêm các  mạng đó vào danh sách làm việc tốt do kẻ phát tán thư rác khá bị động. Nhưng ngày nay   kẻ  phát tán thư  rác có thể  đánh cắp tài khoản dialup, sử  dụng các máy trung gian giúp  gửi thư  tạo ra các host mới để  gửi thư  rác trước khi chúng được thêm vào danh sách   blacklist. Nhiều danh sách đã bắt đầu blacklist không gian địa chỉ  người dùng dialup và  ISDN để  chống lại các host phát tán thư  rác mới này. Tuy nhiên nỗ  lực này gặp phải  vấn đề lớn là không gian địa chỉ này thường xuyên thay đổi. ­ Chất lượng duy trì các danh sách blacklist: Nhiều danh sách blacklist hiện nay   được duy trì kém. Kết quả là một số mạng hợp lệ bị thêm vào blacklist không bao giờ bị  xóa, hay chậm xóa. Những vấn đề này làm cho một số blacklist rất không được tin cậy   do chúng khóa cả những thư điện tử hợp lệ.  Một số ưu – nhược điểm ­ Ưu điểm: + Dễ cài đặt. + Dễ dàng chia sẻ danh sách này cho người khác sử dụng. ­ Nhược điểm: + Cần thời gian lan truyền để cập nhật danh sách nên có thể để lọt các thư rác từ  những host sử dụng tài khoản dialup bị đánh cắp, open replays hay proxy server. + Tốn nhiều công sức để duy trì danh sách blacklist. Chỉ nên dùng các blacklist tin cậy được cập nhật thường xuyên và chỉ  nên blacklist các   địa chỉ biết chắc là nơi phát tán thư rác. 1.2.6.2. Kĩ thuật whitelisting Whitelist là một danh sách các địa chỉ thư điện tử hay địa chỉ IP được coi là không  phát tán thư  rác. Các danh sách whitelist thường được sử  dụng trong các ứng dụng thư  điện tử  để  cho phép người dùng tạo ra danh sách những người mà họ  muốn nhận thư  19
  20. điện tử. Danh sách này sẽ ghi đè lên bất cứ danh sách blacklist nào, và nó cho phép thư  điện tử được gửi vào hộp thư đến của người dùng mà không cần phải lọc như thư rác. Whitelisting ngược với blacklisting, nó sử dụng một danh sách tin cậy. Theo mặc   định mọi người sẽ bị blacklist trừ khi họ có tên trong danh sách whitelist. Điểm khác biệt lớn nhất giữa kĩ thuật whitelisting và các kĩ thuật lọc nội dung là  các kĩ thuật lọc nội dung được dùng để xác định thư rác, còn whitelisting được dùng để  xác định người gửi rõ ràng. Hầu hết các whitelist được quản lý riêng bởi mỗi người   dùng vì số lượng thư điện tử hợp lệ rất là lớn. Kĩ thuật whitelisting có độ chính xác cao vì nó chỉ cho phép những địa chỉ rõ ràng   đi qua. Điều này là một lợi thế lớn, nhưng cũng có một số bất lợi vì tất cả thư  điện tử  của người lạ  đều bị  loại bỏ nên các thư  điện tử  hợp lệ  từ  những người muốn liên lạc  với một người dùng nào đó cũng sẽ  bị  loại bỏ. Có một số  cách để  khắc phục nhược  điểm này:  ­ Tạo ra whitelist các địa chỉ thư điện tử và một địa chỉ thư đặc biệt dùng để gửi  tới người gửi chưa được whitelist.  ­ Một cách khác liên quan đến việc điều tiết người gửi (giới hạn tốc độ  và số  lượng   thông   điệp   một   người   chưa   được   whitelist   có   thể   gửi)   và   gửi   đi   một  challenge/response [7].  Một số ưu – nhược điểm ­ Ưu điểm: + Kết quả có độ chính xác cao. + Không phải dựa trên việc học nội dung thông điệp. ­ Nhược điểm: + Có thể giả mạo địa chỉ trong danh sách whitelist. + Tất cả người dùng phải được tin cậy mới có thể gửi thư vào inbox được. + Người dùng cần phải cấu hình danh sách whitelist một cách thủ công.  Kĩ thuật này phù hợp cho những người dùng cần độ  chính xác cao mà không bận tâm   đến rủi ro có thể mất các thư điện tử. 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2