Luận văn Thạc sĩ An toàn thông tin: Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo

Chia sẻ: Nhân Nhân | Ngày: | Loại File: PDF | Số trang:63

Thêm vào BST

Báo xấu

58
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo" được thực hiện nhằm đề xuất và thử nghiệm một giải pháp hiệu quả trong việc phát hiện và ngăn chặn trang web lừa đảo. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ An toàn thông tin: Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NGỌC THỌ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NGỌC THỌ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO Chuyên ngành: An toàn thông tin Mã số: 8480102.01 LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ ĐÌNH THANH Hà Nội - 2019
1 LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu trong luận văn này là sản phẩm của cá nhân tôi dưới sự hướng dẫn của thầy giáo TS. Lê Đình Thanh. Các số liệu, kết quả được công bố là hoàn toàn trung thực. Những điều được trình bày trong toàn bộ luận văn này là những gì do tôi tự nghiên cứu hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau. Các tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn đầy đủ, hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm trước lời cam đoan của mình. Hà Nội, ngày 18 tháng 11 năm 2019 Người cam đoan Phạm Ngọc Thọ
2 LỜI CẢM ƠN Lời đầu tiên tôi xin được gửi lời biết ơn sâu sắc tới thầy giáo TS. Lê Đình Thanh, Phòng Thí nghiệm An toàn Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, người thầy đã luôn tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốt quá trình nghiên cứu luận văn. Tôi xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn tận tâm truyền dạy cho tôi những kiến thức bổ ích trong thời gian tôi tham gia học tập và nghiên cứu tại nhà trường. Tôi cũng xin gửi lời cám ơn tới Ban Lãnh đạo và các đồng nghiệp Bộ môn Toán - Tin học, Học viện Cảnh sát Nhân dân, nơi tôi công tác đã tạo điều kiện giúp đỡ tôi trong quá trình học tập. Học viên Phạm Ngọc Thọ
3 MỤC LỤC LỜI CAM ĐOAN ................................................................................................. 1 LỜI CẢM ƠN ....................................................................................................... 2 MỤC LỤC ............................................................................................................ 3 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ............................................ 5 DANH MỤC CÁC BẢNG ................................................................................... 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ............................................................... 8 MỞ ĐẦU ............................................................................................................ 10 CHƯƠNG 1. GIỚI THIỆU ................................................................................ 12 1.1. Thực trạng đáng báo động của các trang web lừa đảo ............................ 12 1.2. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo ......................... 15 1.2.1. Giải pháp dựa vào cộng đồng ........................................................... 15 1.2.2. Giải pháp dựa vào học máy .............................................................. 18 1.3. Tiếp cận của chúng tôi ............................................................................. 22 1.4. Kết quả đạt được và khả năng ứng dụng ................................................. 23 CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO......................................................... 24 2.1. Tổng quan ................................................................................................ 24 2.2. Tầng một và tầng hai ............................................................................... 26 2.2.1. Nhiệm vụ sàng lọc ............................................................................ 26 2.2.2. Phương pháp phát hiện dựa vào học máy ......................................... 27 2.2.3. Kiểm soát tỉ lệ dương tính giả .......................................................... 35 2.3. Tầng ba và tầng bốn................................................................................. 35 2.3.1. Nhiệm vụ chuẩn đoán ....................................................................... 35 2.3.2. Tự động cập nhật Blacklist ............................................................... 37 2.3.3. Tham vấn dịch vụ PhishTank ........................................................... 38 2.3.4. Tham vấn dịch vụ Google Safe Browsing ........................................ 40 CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM ........................................................... 42 3.1. Cài đặt ...................................................................................................... 42 3.1.1. Kỹ thuật xây dựng chương trình ....................................................... 42 3.1.2. Tầng một và tầng hai ........................................................................ 43 3.1.3. Tầng ba ............................................................................................. 51 3.1.4. Tầng bốn ........................................................................................... 52 3.2. Đánh giá ................................................................................................... 53
4 3.2.1. Phương pháp đánh giá ...................................................................... 53 3.2.2. Kết quả so sánh ................................................................................. 55 3.3. Triển khai thử nghiệm ............................................................................. 56 KẾT LUẬN ........................................................................................................ 59 TÀI LIỆU THAM KHẢO .................................................................................. 60
5 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Chữ viết tắt Ý nghĩa OTP One Time Password Mật khẩu sử dụng một lần RF Random Forest Thuật toán Random Forest Tổ chức làm việc chống tội APWG Anti Phishing Working Group phạm mạng lừa đảo URL Universal Resource Locator Định vị tài tuyên hợp nhất Application Programming API Giao diện lập trình ứng dụng Interface TLD Top Level Domain Tên miền cấp cao IP Internet Protocol Giao thức Internet DNS Domain Name System Hệ thống phân giải tên miền Ngôn ngữ định kiểu tài liệu CSS Cascading Style Sheet web LR Decision Tree Thuật toán cây quyết định NB Naive Bayes Thuật toán Naive Bayes SVM Support Vector Machine Thuật toán máy hỗ trợ vector Trường đại học Irvine của UCI University of California, Irvine California Ngôn ngữ đánh dấu siêu văn HTML Hyper Text Markup Language bản Ngôn ngữ lập trình web động PHP Personal Home Page PHP Giao thức truyền tải siêu văn HTTP HyperText Transfer Protocol bản Giao thức truyền tải siêu văn HyperText Transfer Protocol HTTPS bản kết hợp với giao thức bảo Secure mật TLS và SSL WWW World Wide Web Không gian thông tin toàn cầu CSDL Cơ sở dữ liệu TP True Positive Dương tính thật FP False Positive Dương tính giả
6 TN True Negative Âm tính thật FN False Negative Âm tính giả TPR True Positive Rate Tỉ lệ dương tính thật FPR False Positive Rate Tỉ lệ dương tính giả
7 DANH MỤC CÁC BẢNG Bảng 1.1. Thống kê số lượng trang web lừa đảo từ quý IV năm 2018 đến quý II năm 2019 ............................................................................................................ 12 Bảng 1.2. Bảng mô tả ưu/ nhược điểm các giải pháp đã có cho phát hiện trang web lừa đảo ......................................................................................................... 22 Bảng 2.1.Các đặc trưng được trích chọn sử dụng để xây dựng mô hình ........... 27 Bảng 3.1.Thông tin kỹ thuật sử dụng trong chương trình thực nghiệm ............. 42 Bảng 3.2. Bảng đánh giá dựa trên phương pháp Confusion Matrix .................. 54 Bảng 3.3. Kết quả thực nghiệm trên các mô hình đối với tầng một................... 55 Bảng 3.4. Kết quả thực nghiệm trên các mô hình đối với tầng hai .................... 55
8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Biểu đồ thống kê số lượng trang web lừa đảo từ 10/2018 đến Hình 1.1. (13) 06/2019 Biểu đồ tỉ lệ phần trăm các lĩnh vực là mục tiêu của tấn công Hình 1.2. (13) lừa đảo Hình 1.3. Tiến trình tấn công lừa đảo (14) Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiều và ba chiều (20) Hình 1.5. Sơ đồ giải thuật rừng ngẫu nhiên (21) Mô hình kiến trúc đa tầng cho phát hiện và ngăn chặn trang Hình 2.1. (24) web lừa đảo Hình 2.2. Giải thuật Rừng ngẫu nhiên (34) Luật bình chọn số đông cho gán nhãn ở nút lá của cây quyết Hình 2.3. định, nút lá có nhãn làvuông, nên điểm p và q đều được phân (35) lớp vuông Hình 2.4. Giao diện website của PhishTank (38) Hình 2.5. Chức năng báo cáo trang web lừa đảo của PhishTank (39) Hình 2.6. Chức năng bỏ phiếu trang web lừa đảo của PhishTank (40) Chức năng kiểm tra trạng thái trang web của Google Safe Hình 2.7. (41) Browsing Hình 2.8. Trang web chứa tập API của Google Safe Browsing (41) Tám đặc trưng được lựa chọn để huấn luyện và xây dựng mô Hình 3.1. (43) hình phát hiện trên tầng một Chín đặc trưng được lựa chọn để huấn luyện và xây dựng mô Hình 3.2. (44) hình phát hiện trên tầng hai Chương trình huấn luyện và xây dựng mô hình phát hiện trên Hình 3.3. (45) tầng một Chương trình huấn luyện và xây dựng mô hình phát hiện trên Hình 3.4. (46) tầng hai
9 Hình 3.5. Kiến trúc extension của Chrome (47) Cấu trúc tập tin của extension được lập trình, cài đặt trên Hình 3.6. (47) trình duyệt Hình 3.7. Extension thực hiện trích xuất đặc trưng trên trang web (47) Extension gửi vector đặc trưng của URL một lên máy chủ Hình 3.8. (48) web Hình 3.9. Extension gửi vector đặc trưng của Content lên máy chủ web (49) Máy chủ web đưa dữ liệu đã nhận được qua mô hình phát Hình 3.10. (49) hiện Hình 3.11. So sánh kết quả trả về với giá trị ngưỡng của tầng một (50) Hình 3.12. Tiến trình ngăn chặn trang web khi phát hiện có lừa đảo (50) Hình 3.13. Lưu URL của trang web lừa đảo vào Blacklist (50) Hình 3.14. Gửi URL lên máy chủ web phát hiện trên tầng ba (51) Hình 3.15. Thực hiện kiểm tra URL trong CSDL của Blacklist (51) Hình 3.16. API key được đăng ký từ Google Cloud Platform (52) Hình 3.17. API key được đăng ký từ PhishTank (52) Hình 3.18. Kiểm tra URL trên API của Google Safe Browsing (53) Hình 3.19. Kiểm tra URL trên API của PhishTank (53) Hình 3.20. Cài đặt Extension vào trình duyệt (56) Hình 3.21. Cài đặt máy chủ web trên Server (56) Hình 3.22. Dữ liệu cho tiến hành thử nghiệm (57) Hình 3.23. Trang web cho người dùng truy vấn URL trực tuyến (58)
10 MỞ ĐẦU Ngày nay, mạng Internet đã và đang mang đến một sự thay đổi to lớn trên mọi phương diện của cuộc sống, giúp con người có thể kết nối nhau và kết nối với thế giới trong mọi lĩnh vực: Kinh tế, chính trị, văn hoá, giáo dục, .... nhằm trao đổi, chia sẻ thông tin một cách nhanh chóng. Đặc biệt, trong kỷ nguyên công nghệ số - thời kỳ của nền công nghiệp 4.0 hướng tới mọi hệ thống, thiết bị, phương tiện và con người có thể giao tiếp với nhau một cách dễ dàng. Tuy nhiên, kéo theo đó là những nguy cơ mất toàn thông tin có thể xảy ra bất cứ lúc nào. Một trong những mối đe dọa hiện hữu, đã tác động trực tiếp tới con người chính là vấn đề lừa đảo. Lừa đảo là một hình thức tấn công của các đối tượng tội phạm mạng nhằm chiếm đoạt thông tin nhạy cảm của người dùng như: Tên đăng nhập, mật khẩu, mã số thẻ tín dụng, thông tin tài khoản ngân hàng, mã xác thực một lần (One Time Password - OTP) dưới hình thức tạo lập những trang web giả mạo với trang web của các tổ chức hợp pháp. Do đó, việc nghiên cứu phát hiện và ngăn chặn các trang web lừa đảo luôn là một chủ đề được các tổ chức và cộng đồng người dùng Internet đặc biệt quan tâm. Đồng thời, cũng đã có nhiều giải pháp được đề xuất bởi một số nhà nghiên cứu nhằm ngăn chặn tối đa các cuộc tấn công lừa đảo; song những kẻ tấn công lừa đảo luôn tìm cách thay đổi phương thức hoạt động nhằm ngăn cản sự phát hiện. Vì vậy, đề xuất một giải pháp có sự tiến hoá được xem là một phương pháp hiệu quả trong việc phát hiện và ngăn chặn trang web lừa đảo. Luận văn “Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo” được thực hiện nhằm đề xuất và thử nghiệm một giải pháp hiệu quả trong việc phát hiện và ngăn chặn trang web lừa đảo. Ngoài các phần mở đầu và kết luận, luận văn bao gồm 3 chương: Chương 1. Giới thiệu Chương này trình bày thực trạng đáng báo động của các trang web lừa đảo trên thế giới nói chung và tại Việt Nam nói riêng. Trình bày các giải pháp phát hiện đã có dựa vào cộng đồng và phương pháp học máy trong phát hiện trang web lừa đảo. Chương 1 cũng trình bày tóm tắt cách tiếp cận của luận văn; tóm tắt kết quả đạt được và khả năng ứng dụng của nghiên cứu.
11 Chương 2. Thiết kế kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo Trình bày tổng quan kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo. Sau phần tổng quan là trình bày phương pháp học máy sử dụng trên thuật toán rừng ngẫu nhiên (Random Forest - RF) tùy biến tham số, tự điều chỉnh tỉ lệ dương tính giả trong phát hiện trang web lừa đảo, thực hiện nhiệm vụ sàng lọc cho tầng một và tầng hai của kiến trúc. Cuối chương này trình bày các phương pháp phát hiện dựa trên hệ chuyên gia, danh sách đen (blacklist) trên tầng ba và gọi API của PhishTank, Google Safe Browsing trên tầng bốn. Chương 3. Cài đặt thử nghiệm Là chương kết thúc của luận văn, trình bày kỹ thuật cài đặt thử nghiệm và các bước được triển khai trên mỗi tầng. Lựa chọn phương pháp và tiến hành đánh giá, so sánh kết quả thử nghiệm. Đồng thời, nghiên cứu và triển khai thử nghiệm tích hợp kết quả nghiên cứu vào một tiện ích mở rộng (extension) cài đặt vào trình duyệt của người dùng. Trong quá trình thực hiện luận văn không tránh khỏi những thiếu sót trong nội dung cũng như trong trình bày. Với mong muốn được phát triển hơn nữa trong lĩnh vực đang nghiên cứu, tác giả của luận văn rất mong nhận được sự đóng góp ý kiến của các thầy cô giáo và của các anh/chị học viên.
12 CHƯƠNG 1. GIỚI THIỆU 1.1. Thực trạng đáng báo động của các trang web lừa đảo Trang web lừa đảo được tạo ra bởi các đối tượng tội phạm nhằm mục đích chiếm đoạt những thông tin nhạy cảm của người dùng như tên đăng nhập, mật khẩu, mã số thẻ tín dụng, mã xác thực OTP và các thông tin liên quan tới tài khoản ngân hàng, ...Với sự kết hợp giữa hai yếu tố chính, đó là: Sử dụng kỹ thuật tạo trang web giả mạo với trang web của các tổ chức hợp pháp và yếu tố tác động tâm lý của người dùng (hay còn được biết đến là Social Engineering - Kỹ nghệ xã hội) đã góp phần thành công giúp các đối tượng tội phạm thực hiện hành vi lừa đảo. Trên thế giới, theo số liệu báo cáo của tổ chức APWG [1] (Anti Phishing Working Group), trong quý II năm 2019 đã phát hiện có tổng số 182.465 trang web lừa đảo. Con số này tăng lên đáng kể so với quý I năm 2019 phát hiện là 180.768 và quý IV năm 2018 là 138.328 trang web lừa đảo. Bảng 1.1. Thống kê số lượng trang web lừa đảo từ quý IV năm 2018 đến quý II năm 201 Quý IV - Năm 2018 Quý I - Năm 2019 Quý II - Năm 2019 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10 11 12 1 2 3 4 5 6 56.815 35.719 45.794 48.663 50.983 81.122 59.756 61.820 60.889 (Tổng hợp số liệu trích từ nguồn của APWG) Tuy nhiên, khi một trang web lừa đảo được tạo ra, các đối tượng tội phạm lập tức tiến hành thay đổi thành hàng nghìn các biến thể địa chỉ URL của những trang web đó trước khi phát tán tới người dùng. Do đó, khi người dùng truy cập vào những địa chỉ này thì sẽ đều được điều hướng tới cùng một trang đích lừa đảo. Số liệu mà APWG đã tiến hành thống kê số lượng được dựa vào tính duy nhất của các trang web lừa đảo (không tính đến những URL biến thể của cùng một trang web). Qua số liệu được báo cáo từ APWG có thể dễ dàng nhận thấy, số lượng các trang web lừa đảo xuất hiện trong những năm trở lại đây ngày càng có xu hướng
13 gia tăng mà không có dấu hiệu giảm xuống. Điều này gây ra những tổn thất nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an toàn thông tin nói riêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân. Số lượng trang web lừa đảo từ Quý IV - 2018 đến Quý II - 2019 90,000 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 0 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10/2018 11/2018 12/2018 1/2019 2/2019 3/2019 4/2019 5/2019 6/2019 Hình 1.1. Biểu đồ thống kê số lượng trang web lừa đảo từ 10/2018 đến 06/2019 Mục tiêu của các cuộc tấn công lừa đảo được các đối tượng hướng tới chủ yếu tập trung vào một số lĩnh vực như: Phần mềm dưới dạng dịch vụ, dịch vụ webmail, dịch vụ thanh toán, dịch vụ của các tổ chức tài chính, thương mại điện tử, dịch vụ lưu trữ trực tuyến, ... Hình 1.2. Biểu đồ tỉ lệ phần trăm các lĩnh vực là mục tiêu của tấn công lừa đảo
14 Tại Việt Nam, theo số liệu thống kê của Bộ Thông tin và Truyền thông tại thời điểm 6 tháng đầu năm 2019, trong tổng số 3.159 cuộc tấn công mạng vào hệ thống thông tin, có 968 cuộc tấn công thay đổi giao diện (Deface), 635 cuộc tấn công cài cắm mã độc (Malware) và đặc biệt đối với loại hình tấn công lừa đảo (Phishing) có tới 1.556. Trong đó, các cuộc tấn công lừa đảo chủ yếu được tiến hành thông qua việc xây dựng các trang web giả mạo với các tổ chức hợp pháp hoạt động trong các lĩnh vực tài chính, ngân hàng, mạng xã hội, ... nhằm lừa gạt người dùng cung cấp thông tin nhạy cảm cá nhân hòng chiếm đoạt chúng. Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành những cách thức như sau: Hình 1.3. Tiến trình tấn công lừa đảo - Tạo một trang web giả mạo: Là một phần kế hoạch của cuộc tấn công lừa đảo, những đối tượng tấn công tạo ra một trang web giả mạo có giao diện và tương tác tương tự với trang web gốc. Chúng sử dụng những tính năng chính của trang web gốc như logo, bố cục và nội dung của trang web để người dùng không phát hiện đấy là trang web giả mạo. - Liên kết một trang web giả mạo qua email: Sau khi tạo ra trang web giả mạo, đối tượng tấn công tạo ra những email với nhiều nội dung khác nhau như gây tính tò mò, sự kích thích về tâm lý của người dùng như: cập nhật thông
15 tin tài khoản trong các dịch vụ tài chính - ngân hàng, khai báo thông tin cá nhân tham gia chương trình trúng thưởng, ...Sau đó, chúng gửi hàng nghìn email kiểu này đến người dùng và làm cho người nhận (người dùng) kích vào một URL để chuyển hướng đến trang web giả mạo. - Kích chuột vào một URL độc hại: Người dùng không biết URL độc hại được cung cấp trong email, lập tức kích chuột vào và dễ dàng bị chuyển hướng đến trang web giả mạo do đối tượng lừa đảo đã tạo ra. Tại đây, một cuộc tấn công lừa đảo bắt đầu diễn ra. - Nhập thông tin nhạy cảm: Khi người dùng được chuyển hướng đến trang web giả mạo, các thông tin nhạy cảm như tên đăng nhập, mật khẩu, mã số thẻ tín dụng và các thông tin khác được người dùng lần lượt nhập trên trang web do những đối tượng lừa đảo đã tạo ra. - Tập hợp dữ liệu sau khi đánh cắp và sử dụng nó: Khi người dùng đã nhập những thông tin nhạy cảm, tất cả những dữ liệu này sẽ được những đối tượng lừa đảo thu thập, tổng hợp để thực hiện những mục đích riêng như: Bán dữ liệu người dùng, giao dịch bất hợp pháp, thực hiện hoạt động rửa tiền. 1.2. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo 1.2.1. Giải pháp dựa vào cộng đồng Hiện nay, có nhiều giải pháp dựa trên cộng đồng được đề xuất để phát hiện và ngăn chặn trang web lừa đảo. Một số giải pháp được tiếp cận bao gồm: PhishTank, Google Safe Browsing, PhishNet, PhishGuard, SpoofGuard, BaitAlarm. - PhishTank: Là một giải pháp giúp cộng đồng người dùng có thể dễ dàng phát hiện những trang web nghi ngờ có dấu hiệu lừa đảo. PhishTank được xây dựng và phát triển bởi tổ chức OpenDNS [2], nó cung cấp một hệ thống xác minh lừa đảo dựa vào cộng đồng nơi người dùng gửi URL của những trang web bị nghi ngờ lừa đảo và những người dùng khác “bỏ phiếu”cho URL đó có hay khôg sự lừa đảo. Thực chất, giải pháp của PhishTank chính là việc duy trì một danh sách đen (blacklist) bởi người sử dụng. Dữ liệu tại đây được cung cấp miễn phí để tải xuống hoặc truy cập thông qua lệnh gọi API, gồm cả cho mục đích thương mại.
16 - Google Safe Browsing: Đây là giả pháp sử dụng các URL trong danh sách đen để khám phá các cuộc tấn công lừa đảo [3]. Mỗi URL cần kiểm tra được sử dụng làm dữ liệu đầu vào và thực hiện kiểm tra URL đó trong kho danh sách đen. Nếu URL có trong kho danh sách đen thì xác định đây là trang web lừa đảo; ngược lại, trang web là lành tính. Với giải pháp này, điểm hạn chế chính là không có khả phát hiện những trang web có URL không tồn tại trong danh sách đen, điểm này sẽ làm tăng tỉ lệ dương tính giả trong phát hiện trang web lừa đảo. - PhishNet: Giải pháp này có thể khắc phục các vấn đề liên quan đến danh sách đen. Giải pháp bao gồm hai bước chính: Tạo ra các biến thể URL so với các biến thể ban đầu để phát triển danh sách đen và cấu trúc dữ liệu gán từng điểm số cho URL dựa trên sự tương đồng của URL hiện có [4]. Trong bước thứ nhất, nó sử dụng các phương pháp phỏng đoán khác nhau để tạo các URL mới thay thế tên miền cấp cao nhất (TLD - Top level domain), tương đương địa chỉ IP, tương tự cấu trúc thư mục, thay thế chuỗi truy vấn, tương đương với tên thương hiệu. Trong bước thức hai gồm, kỹ thuật đối sách giúp kiểm tra địa chỉ IP, tên máy chủ, ... - PhishGuard: Đây là giải pháp thực hiện trên thuật toán ObURL để đánh giá các trang web đáng ngờ dựa trên sự xuất hiện trực quan của các trang web [5]. Thuật toán này được xác định bằng cách: Kiểm tra danh sách đen và danh sách trắng (whitelist), kiểm tra địa chỉ IP, kiểm tra sử dụng dịch vụ rút gọn URL, kiểm tra DNS và kiểm tra trên khuôn mẫu. + Kiểm tra danh sách đen và danh sách trắng: Trong thử nghiệm này, tất cả các URL lần lượt được xác minh trong danh sách đen và danh sách trắng. Người dùng an toàn khi URL được tìm thấy trong sách trắng; đồng thời, người dùng sẽ được cảnh báo nếu URL mà họ truy cập được tìm thấy trong danh sách đen. + Kiểm tra sử dụng dịch vụ rút gọn URL: Với thử nghiệm này, nếu đối tượng tấn công sử dụng dịch vụ rút gọn URL thì người dùng sẽ nhận được thông báo giúp đưa ra cảnh báo trước nguy cơ của cuộc tấn công lừa đảo.
17 + Kiểm tra DNS: Trong thử nghiệm này, được thực hiện trích xuất và kiểm tra giá trị của neo (anchor) và các liên kết. Nếu cả hai giá trị không giống nhau, người dùng sẽ nhận được thông báo rằng cả hai DNS là đều khác nhau. + Kiểm tra trên khuôn mẫu: Trong thử nghiệm này, siêu liên kết và neo được xác minh cho từng URL, nếu cả hai giống hệt nhau, người dùng sẽ không được thông báo; trong khi cảnh báo được hiển thị cho người dùng nếu cả hai không giống nhau. - SpoofGuard: Trong giải pháp này [6], các đặc tính lừa đảo được kiểm tra đối với các trang web đáng ngờ để phân loại xem một trang web là trang web hợp pháp hay lừa đảo. Một số phương pháp phỏng đoán bao gồm: Kiểm tra hình ảnh; kiểm tra liên kết; kiểm tra URL và kiểm tra trường mật khẩu. Tất cả các dấu hiệu này được đưa ra một trọng số, dựa trên đó trang web được phân loại phù hợp. Nếu tổng số điểm của các dấu hiệu lừa đảo được liệt kê ở trên vượt quá ngưỡng, thì nó được phân loại là trang web lừa đảo; ngược lại được phân loại là một trang web hợp pháp. Cách tiếp cận này có thể phát hiện cuộc tấn công zero- day. Tuy nhiên, phương pháp này cũng có nhược điểm là cho ra tỷ lệ dương tính giả cao trong phát hiện. Giải pháp được mô tả như sau: + Kiểm tra tên miền: Đặc tính này được sử dụng để xác minh tên miền của URL đã thử trong lịch sử trình duyệt. Sự giống nhau được đánh giá bởi khoảng cách chỉnh sửa của hai miền. Khoảng cách chỉnh sửa được định nghĩa là số lượng ký tự được thêm hoặc xóa để chuyển đổi từ tên miền này sang tên miền khác. +Kiểm tra URL: Kiểm tra URL sẽ được kích hoạt nếu có bất kỳ vấn đề nào liên quan đến tên miền, tên đăng nhập và số cổng của một URL cụ thể. + Kiểm tra hình ảnh: Đặc tính này được sử dụng để so sánh các hình ảnh trong một trang web mới với hình ảnh trên các trang web trước đó. Quá trình này được thực hiện bằng cách thu thập mọi hình ảnh, tính toán hàm băm và so sánh giá trị băm với các giá trị trước đó. Sau khi tất cả các kiểm tra được thực hiện, các trọng số từ mỗi vòng được tính toán để so sánh với giá trị ngưỡng để xác định xem có nên hiển thị cảnh báo cho người dùng hay không. - BaitAlarm: Giải pháp này sử dụng để phát hiện trang web lừa đảo dựa trên hình ảnh, trong đó đối tượng tấn công sử dụng cùng một kiểu CSS
18 (Cascading Style Sheet) để giả mạo các trang web gốc [7]. Trong phương pháp này, việc so sánh kiểu CSS đã được thực hiện với các trang web trong danh sách trắng với các trang web đáng ngờ để phát hiện các cuộc tấn công lừa đảo. 1.2.2. Giải pháp dựa vào học máy Với giải pháp dựa vào học máy, có nhiều thuật toán phân lớp được áp dụng để huấn luyện mô hình dự đoán cho bài toán phát hiện trang web lừa đảo. Trong phần này, luận văn tìm hiểu một số thuật toán học máy phổ biến như: Hồi quy Logistic (Logistic Regression - LR), cây quyết định (Decision Tree - DT), Naive Bayes (NB), máy vector hỗ trợ (Support Vector Machine - SVM), rừng ngẫu nhiên (Random Forest - RF). 1.2.2.1. Hồi quy Logistic (Logistic Regression -LR) Phương pháp Hồi quy Logistic là một phương pháp sử dụng mô hình hồi quy nhằm dự đoán giá trị đầu ra rời rạc y ứng với một véc-tơ đầu vào x. Phương pháp này thường được sử dụng để dự báo sự có hay không có mặt của biến phụ thuộc y dựa vào giá trị của biến độc lập x. Theo mô hình Hồi quy Logistic, quan hệ giữa xác suất trang web lừa đảo (y=1) và các yếu tố ảnh hưởng được thể hiện: 1 𝑃(𝑦 = 1|𝑥; 𝑤, 𝑏) = 𝜎(𝑤 𝑇 𝑥 + 𝑏) = 𝑇 𝑥+𝑏) (1) 1 + 𝑒 −(𝑤 Tối ưu hàm Hồi quy Logistic có thể được tính toán theo công thức: 𝑇 1 (𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏 𝑚𝑖𝑛 ∑ − (𝑦𝑡 log 𝜎𝑡 + (1 − 𝑦𝑡 ) log(1 − 𝜎𝑡 ) (2) 𝑇 𝑡=1 Trong đó, T là kích cỡ tập dữ liệu trang web lừa đảo, yt là lớp tương ứng của dữ liệu thứ t trong tập dữ liệu 𝜎(𝑤 𝑇 𝑥 + 𝑏). 1.2.2.2. Cây quyết định (Decision Tree - DT) Cây quyết định là một dạng đặc biệt của cấu trúc cây được xây dựng để trợ giúp việc ra quyết định dựa trên các câu hỏi. Kỹ thuật học máy sử dụng việc xây dựng cây quyết định trên tập dữ liệu được gọi là học bằng cây quyết định hay đơn giản chỉ là cây quyết định. Mỗi nút bên trong của cây tương ứng với một