Dự thảo tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu một số kỹ thuật phát hiện giả mạo trên web

Chia sẻ: Phan Phan | Ngày: | Loại File: PDF | Số trang:26

Thêm vào BST

Báo xấu

50
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu một số kỹ thuật phát hiện giả mạo trên web" trình bày nội dung tổng quan về xâm nhập mạng và giả mạo trên mạng, các thuật toán so khớp đơn mẫu và đa mẫu áp dụng trong việc phát hiện xâm nhập mạng, trình bày về so khớp đồ thị và phát hiện các trang website giả mạo. Để biết rõ hơn về nội dung chi tiết, mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự thảo tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu một số kỹ thuật phát hiện giả mạo trên web

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Lê Đăng Nguyên NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN GIẢ MẠO TRÊN WEB Chuyªn ngµnh : Cơ sở toán học cho Tin học M· sè: 62 46 01 10 DỰ THẢO TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2014 1 Công trình được hoàn thành tại Khoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS. TS Lê Trọng Vĩnh PGS. TS Đỗ Trung Tuấn Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . …………………………….. . Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . …………………………….. Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vào hồi giờ ngày tháng năm 20... Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội 2 LỜI NÓI ĐẦU Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông tin mọi lúc mọi nơi. Song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, truy cập trái phép vào các hệ thống máy tính và mạng của người dùng. Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) có nhiệm vụ phân tích các thông tin, theo dõi, phát hiện và ngăn chặn sự xâm nhập trái phép tài nguyên làm tổn hại đến tính bảo mật, tính toàn vẹn và tính sẵn sàng của hệ thống. Có nhiều cách tiếp cận khác nhau trong việc phát triển hệ thống IDS. Trong số đó, so khớp mẫu là một kỹ thuật được sử dụng phổ biến trong các hệ thống phát hiện và ngăn chặn xâm nhập mạng. Việc phát hiện các nguy cơ tiềm ẩn trong hệ thống phát hiện xâm nhập mạng được thực hiện bằng cách so khớp nội dung gói tin với các mẫu đã biết. Với sự đa dạng về số lượng các đợt tấn công, hình thức tấn công thì việc thu thập đầy đủ các mẫu làm cho kích thước tập mẫu ngày càng tăng nhanh. Có rất nhiều thuật toán so khớp mẫu Error! Reference source not found.,50] đã được sử dụng trong hệ thống phát hiện xâm nhập Snort Error! Reference source not found.,6]. Tuy nhiên, các thuật toán này vẫn tồn tài một số vấn đề như hiệu năng giảm và tiêu tốn nhiều thời gian thực hiện khi số lượng các mẫu tăng lên. Do vậy, việc nghiên cứu cải tiến hay đề xuất các thuật toán so khớp mới đáp ứng việc so khớp đồng thời nhiều mẫu trong các hệ thống phát hiện xâm nhập là một nhu cầu cấp thiết và đây là mục tiêu thứ nhất của luận án này. Với mục tiêu này, luận án đã (i) phân tích đánh giá về hiệu năng cũng như thời gian thực hiện các thuật toán so khớp đơn mẫu trên hệ thống phát hiện thâm nhập Snort; (ii) Đưa ra các cải tiến cho thuật toán so khớp đa mẫu Aho - Corasick bằng cách sử dụng kỹ thuật nén dòng và bảng chỉ số nhằm nâng cao hiệu quả của thuật toán, các phân tích và so sánh thực tế nhằm kiểm nghiệm lý thuyết cũng đã được thực hiện trên hệ thống Snort ; (iii) Luận án cũng đề xuất một thuật toán so khớp đa mẫu mới bằng cách xây dựng biểu đồ của các mẫu kết hợp với danh sách liên kết làm giảm thời gian thực hiện việc so khớp đồng thời đa mẫu. Việc cài đặt thực nghiệm của thuật toán với trong sự so sánh với một số thuật toán đã tồn tại cũng đã triển khai trên hệ thống Snort. Một vấn đề khác cũng liên quan đến an toàn đó là vấn đề giả mạo (phishing hay fake) nói chung và giả mạo web nói riêng. Giả mạo và phát tán trên mạng là một loại tội phạm kỹ thuật xã hội đáng chú ý trên mạng. Cũng giống như xâm nhập mạng, nhiệm vụ đầu tiên là phải nhận biết (phát hiện) được các cuộc xâm nhập, việc đầu tiên để ngăn chặn và xóa bỏ các trang web giả mạo là phát hiện ra chúng. Có rất nhiều các cách tiếp cận khác nhau để phát hiện các trang web giả mạo. Một đặc tính nổi bật nhất của trang web giả mạo là nó phải tương tự như trang web gốc. Điều này có nghĩa là hai trang web gốc và web giả mạo có cấu trúc giống nhau. Mặt khác, DOM là tên gọi tắt của Document Object Model - tạm dịch Mô hình đối tượng tài liệu - là một chuẩn được định nghĩa bởi W3C dùng để truy xuất và thao tác trên các tài 3 liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch (scripting language) như Javascript, PHP, Python,... Do vậy, để so sánh hai trang web với nhau chúng ta có thể so sánh hai DOM-Tree tương ứng của chúng. Đây là mục tiêu thứ hai của luận án. Cây (Tree) là một dạng đặc biệt của đồ thị (Graph), vì vậy với mục tiêu thứ hai, luận án đã nghiên cứu bài toán tổng quát hơn đó là so khớp đồ thị. Các kết quả của luận án đã (i) Đưa ra thuật toán mới dựa trên thuật toán di truyền để so khớp các đồ thị không chính xác. Thuật toán mới có thể áp dụng đối với lớp đồ thị vô hướng, có hướng, có trọng số hay gán nhãn. (ii) Áp dụng việc so khớp đồ thị vào việc so khớp các DOM-Tree để phát hiện các trang web giả mạo. Với các mục tiêu của luận án như trên, luận án được tổ chức thành ba chương như sau. Chương 1 trình bày tổng quan về xâm nhập mạng và giả mạo trên mạng. Chương 2 được dùng để trình về các thuật toán so khớp đơn mẫu và đa mẫu áp dụng trong việc phát hiện xâm nhập mạng. Chương 3 trình bày về so khớp đồ thị và phát hiện các trang website giả mạo. Cuối cùng là phần kết luận và hướng phát triển của luận án. Chương 1. TỔNG QUAN VỀ THÂM NHẬP VÀ GIẢ MẠO TRÊN MẠNG 1.1 Giới thiệu Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông tin mọi lúc mọi nơi. Tất cả các dịch vụ này làm cho mạng máy tính trở thành mục tiêu hấp dẫn cho sự lạm dụng và tổn thương đến cộng đồng người sử dụng. Nói cách khác, song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, đột nhập, truy cập trái phép vào các hệ thống máy tính và mạng của người dùng. Vì thế, bên cạnh việc phát triển các dịch vụ và ứng dụng trên mạng, an ninh thông tin và an toàn hệ thống là một vấn đề hết sức quan trọng cần được quan tâm nghiên cứu thường xuyên. Vấn đề an ninh thông tin và an toàn hệ thống bao gồm rất nhiều chủ đề, do vậy luận án này chỉ tập trung nghiên cứu chính về phát hiện xâm nhập mạng và sự giả mạo trên mạng. 1.2 Xâm nhập trái phép 1.2.1 Một số kỹ thuật xâm nhập trái phép Tấn công (attack) là sự vi phạm chính sách an toàn bảo mật của hệ thống đó. Có rất nhiều kỹ thuật được dùng để xâm nhập mạng như: - Trap-door; Logic Bomb; Trojan Horse; Worm; Zombies; Man-in-the-Middle; Eavesdropping;IP Address Spoofing/ Identity Spoofing 1.2.2 Một số giải pháp kỹ thuật ngăn chặn xâm nhập Các biện pháp ngăn chặn đột nhập được sử dụng khá phổ biến gồm tường lửa, xác thực, mã hóa,... Tường lửa (Firewall): Mã hóa dữ liệu (Data Encryption); Xác thực (Authentication); Quyền truy cập (Access Rights): 1.2.3 Hệ thống phát hiện xâm nhập trái phép 1.2.3.1. Hệ thống phát hiện xâm nhập mạng 1.2.3.2. Phân loại hệ thống phát hiện xâm nhập mạng 4 Người ta thường phân loại các hệ thống IDS dựa trên nguồn cung cấp dữ liệu cho phát hiện đột nhập. Có hai loại hệ thống phát hiện đột nhập (IDS) cơ bản: - Hệ thống phát hiện đột nhập cho mạng (NIDS: Network – based IDS) - Hệ thống phát hiện đột nhập cho host (HIDS: Host – based IDS) 1.2.3.3. Hệ thống phát hiện xâm nhập Snort 1.2.3.3.1. Kiến trúc của Snort Snort bao gồm nhiều thành phần (module), với mỗi module có một chức năng riêng. Các module chính đó là: Giải mã gói tin (Packet Decoder); Tiền xử lý (Preprocessors); Phát hiện (Detection Engine); Truy cập và cảnh báo (Logging and Alerting System); Kết xuất thông tin (Output Module) 1.2.4 Một số nghiên cứu liên quan đến hệ thống phát hiện xâm nhập Có hai phương pháp chính để phát hiện xâm nhập mạng: dựa trên trên đặc trưng (signature-based) và dựa trên bất thường (anomaly- based). Trong cách tiếp cận đầu tiên, mô hình tấn công hay hành vi của kẻ xâm nhập được mô hình hóa (dấu hiệu tấn công được mô hình hóa). Ở đây, hệ thống sẽ báo hiệu xâm nhập xảy ra mỗi khi một phép so khớp trùng nhau được xác định. Trong cách tiếp cận thứ hai, hành vi bình thường của mạng là được mô hình hóa. Trong cách tiếp cận này, hệ thống sẽ đưa ra các cảnh bảo khi hành vi mạng không khớp với bình thường. Cách tiếp cận của chúng tôi: Sử dụng các thuật toán so khớp đơn mẫu, so khớp đa mẫu và ứng dụng so khớp đa mẫu trong việc phát hiện xâm nhập mạng. Áp dụng của thuật toán so khớp đồ thị vào việc phát hiện trang web giả mạo dựa vào cấu trúc DOM của chúng. 1.3 Giả mạo 1.3.1. Giới thiệu Giả mạo là một hành vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành một chủ thể tin cậy trong một giao dịch điện tử. Do vậy, việc nghiên cứu và phát hiện các trang web giả mạo là một nhu cầu cấp thiết hiện nay. 1.3.2. Một số kỹ thuật Sử dụng thư điện tử giả mạo; Sử dụng các trang web giả mạo; Bắt trước URL; Cập nhật thông tin cá nhân; Che giấu URL; Nhiễm độc DNS: Tuy nhiên, trong khuôn khổ của luận án này, chúng tôi chỉ tập trung nghiên cứu về giả mạo web. 1.3.3. Một số nghiên cứu liên quan đến giả mạo web Phần lớn các trang web giả mạo đều cố gắng bắt trước các trang web hợp lệ đến mức tốt nhất có thể để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm. Hầu hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ. Thực tế, nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến nó giống với các trang hợp lệ hơn. Nhìn chung, cách tiếp cận để phát hiện các trang web giả mạo bước đầu là kiểm tra xem “hình dáng” hay cấu trúc của chúng có giống nhau không, nếu giống thì sẽ sử dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật để phát hiện đó là trang web giả mạo hay trang web hợp lệ. Mặt khác, DOM là tên gọi tắt của Document Object Model - tạm dịch Mô hình đối tượng tài liệu - là một chuẩn được định nghĩa bởi W3C Error! Reference source not found. dùng để truy xuất và thao tác trên các tài liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch 5