ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN<br />
_______________________<br />
<br />
Lê Đăng Nguyên<br />
<br />
NGHIÊN CỨU MỘT SỐ KỸ THUẬT<br />
PHÁT HIỆN GIẢ MẠO TRÊN WEB<br />
<br />
Chuyªn ngµnh : Cơ sở toán học cho Tin học<br />
<br />
M· sè:<br />
<br />
62 46 01 10<br />
<br />
DỰ THẢO TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC<br />
<br />
Hà Nội - 2014<br />
<br />
1<br />
<br />
Công trình được hoàn thành tại Khoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự<br />
nhiên – Đại học Quốc gia Hà Nội<br />
<br />
Người hướng dẫn khoa học:<br />
<br />
PGS. TS Lê Trọng Vĩnh<br />
PGS. TS Đỗ Trung Tuấn<br />
<br />
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . …………………………….. .<br />
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . ……………………………..<br />
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .<br />
Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án<br />
tiến sĩ họp tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .<br />
vào hồi<br />
<br />
giờ<br />
<br />
ngày<br />
<br />
tháng<br />
<br />
năm 20...<br />
<br />
Có thể tìm hiểu luận án tại:<br />
- Thư viện Quốc gia Việt Nam<br />
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội<br />
<br />
2<br />
<br />
LỜI NÓI ĐẦU<br />
Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại<br />
của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển<br />
mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công<br />
nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông<br />
tin mọi lúc mọi nơi. Song song với những tiến bộ và lợi ích mang lại, Internet cũng là<br />
không gian rộng mở cho kẻ xấu lợi dụng thực hiện những vụ tấn công, truy cập trái<br />
phép vào các hệ thống máy tính và mạng của người dùng.<br />
Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) có nhiệm<br />
vụ phân tích các thông tin, theo dõi, phát hiện và ngăn chặn sự xâm nhập trái phép tài<br />
nguyên làm tổn hại đến tính bảo mật, tính toàn vẹn và tính sẵn sàng của hệ thống. Có<br />
nhiều cách tiếp cận khác nhau trong việc phát triển hệ thống IDS. Trong số đó, so khớp<br />
mẫu là một kỹ thuật được sử dụng phổ biến trong các hệ thống phát hiện và ngăn chặn<br />
xâm nhập mạng. Việc phát hiện các nguy cơ tiềm ẩn trong hệ thống phát hiện xâm nhập<br />
mạng được thực hiện bằng cách so khớp nội dung gói tin với các mẫu đã biết. Với sự đa<br />
dạng về số lượng các đợt tấn công, hình thức tấn công thì việc thu thập đầy đủ các mẫu<br />
làm cho kích thước tập mẫu ngày càng tăng nhanh. Có rất nhiều thuật toán so khớp mẫu<br />
Error! Reference source not found.,50] đã được sử dụng trong hệ thống phát hiện xâm<br />
nhập Snort Error! Reference source not found.,6]. Tuy nhiên, các thuật toán này vẫn<br />
tồn tài một số vấn đề như hiệu năng giảm và tiêu tốn nhiều thời gian thực hiện khi số<br />
lượng các mẫu tăng lên. Do vậy, việc nghiên cứu cải tiến hay đề xuất các thuật toán so<br />
khớp mới đáp ứng việc so khớp đồng thời nhiều mẫu trong các hệ thống phát hiện xâm<br />
nhập là một nhu cầu cấp thiết và đây là mục tiêu thứ nhất của luận án này. Với mục tiêu<br />
này, luận án đã (i) phân tích đánh giá về hiệu năng cũng như thời gian thực hiện các<br />
thuật toán so khớp đơn mẫu trên hệ thống phát hiện thâm nhập Snort; (ii) Đưa ra các cải<br />
tiến cho thuật toán so khớp đa mẫu Aho - Corasick bằng cách sử dụng kỹ thuật nén dòng<br />
và bảng chỉ số nhằm nâng cao hiệu quả của thuật toán, các phân tích và so sánh thực tế<br />
nhằm kiểm nghiệm lý thuyết cũng đã được thực hiện trên hệ thống Snort ; (iii) Luận án<br />
cũng đề xuất một thuật toán so khớp đa mẫu mới bằng cách xây dựng biểu đồ của các<br />
mẫu kết hợp với danh sách liên kết làm giảm thời gian thực hiện việc so khớp đồng thời<br />
đa mẫu. Việc cài đặt thực nghiệm của thuật toán với trong sự so sánh với một số thuật<br />
toán đã tồn tại cũng đã triển khai trên hệ thống Snort.<br />
Một vấn đề khác cũng liên quan đến an toàn đó là vấn đề giả mạo (phishing hay<br />
fake) nói chung và giả mạo web nói riêng. Giả mạo và phát tán trên mạng là một loại<br />
tội phạm kỹ thuật xã hội đáng chú ý trên mạng. Cũng giống như xâm nhập mạng, nhiệm<br />
vụ đầu tiên là phải nhận biết (phát hiện) được các cuộc xâm nhập, việc đầu tiên để ngăn<br />
chặn và xóa bỏ các trang web giả mạo là phát hiện ra chúng. Có rất nhiều các cách tiếp cận<br />
khác nhau để phát hiện các trang web giả mạo.<br />
Một đặc tính nổi bật nhất của trang web giả mạo là nó phải tương tự như trang web<br />
gốc. Điều này có nghĩa là hai trang web gốc và web giả mạo có cấu trúc giống nhau. Mặt<br />
khác, DOM là tên gọi tắt của Document Object Model - tạm dịch Mô hình đối tượng tài<br />
liệu - là một chuẩn được định nghĩa bởi W3C dùng để truy xuất và thao tác trên các tài<br />
<br />
3<br />
<br />
liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch (scripting<br />
language) như Javascript, PHP, Python,... Do vậy, để so sánh hai trang web với nhau<br />
chúng ta có thể so sánh hai DOM-Tree tương ứng của chúng. Đây là mục tiêu thứ hai của<br />
luận án.<br />
Cây (Tree) là một dạng đặc biệt của đồ thị (Graph), vì vậy với mục tiêu thứ hai,<br />
luận án đã nghiên cứu bài toán tổng quát hơn đó là so khớp đồ thị. Các kết quả của<br />
luận án đã (i) Đưa ra thuật toán mới dựa trên thuật toán di truyền để so khớp các đồ thị<br />
không chính xác. Thuật toán mới có thể áp dụng đối với lớp đồ thị vô hướng, có<br />
hướng, có trọng số hay gán nhãn. (ii) Áp dụng việc so khớp đồ thị vào việc so khớp<br />
các DOM-Tree để phát hiện các trang web giả mạo.<br />
Với các mục tiêu của luận án như trên, luận án được tổ chức thành ba chương<br />
như sau. Chương 1 trình bày tổng quan về xâm nhập mạng và giả mạo trên mạng.<br />
Chương 2 được dùng để trình về các thuật toán so khớp đơn mẫu và đa mẫu áp dụng<br />
trong việc phát hiện xâm nhập mạng. Chương 3 trình bày về so khớp đồ thị và phát<br />
hiện các trang website giả mạo. Cuối cùng là phần kết luận và hướng phát triển của<br />
luận án.<br />
<br />
Chương 1.<br />
<br />
TỔNG QUAN VỀ THÂM NHẬP VÀ GIẢ<br />
MẠO TRÊN MẠNG<br />
<br />
1.1 Giới thiệu<br />
Internet đã mở ra một làn sóng mới về xu hướng phát triển của xã hội - thời đại<br />
của công nghệ thông tin và truyền thông. Nhiều dịch vụ trực tuyến được phát triển<br />
mạnh mẽ trong thương mại điện tử, thanh toán trực tuyến, kinh doanh, tài chính, công<br />
nghiệp, an ninh, y tế,… cho phép người sử dụng truy cập, khai thác và chia sẻ thông<br />
tin mọi lúc mọi nơi. Tất cả các dịch vụ này làm cho mạng máy tính trở thành mục tiêu<br />
hấp dẫn cho sự lạm dụng và tổn thương đến cộng đồng người sử dụng. Nói cách khác,<br />
song song với những tiến bộ và lợi ích mang lại, Internet cũng là không gian rộng mở<br />
cho kẻ xấu lợi dụng thực hiện những vụ tấn công, đột nhập, truy cập trái phép vào các<br />
hệ thống máy tính và mạng của người dùng. Vì thế, bên cạnh việc phát triển các dịch<br />
vụ và ứng dụng trên mạng, an ninh thông tin và an toàn hệ thống là một vấn đề hết sức<br />
quan trọng cần được quan tâm nghiên cứu thường xuyên. Vấn đề an ninh thông tin và<br />
an toàn hệ thống bao gồm rất nhiều chủ đề, do vậy luận án này chỉ tập trung nghiên<br />
cứu chính về phát hiện xâm nhập mạng và sự giả mạo trên mạng.<br />
1.2 Xâm nhập trái phép<br />
1.2.1 Một số kỹ thuật xâm nhập trái phép<br />
Tấn công (attack) là sự vi phạm chính sách an toàn bảo mật của hệ thống đó. Có rất<br />
nhiều kỹ thuật được dùng để xâm nhập mạng như: - Trap-door; Logic Bomb; Trojan<br />
Horse; Worm; Zombies; Man-in-the-Middle; Eavesdropping;IP Address Spoofing/ Identity<br />
Spoofing<br />
1.2.2 Một số giải pháp kỹ thuật ngăn chặn xâm nhập<br />
Các biện pháp ngăn chặn đột nhập được sử dụng khá phổ biến gồm tường lửa,<br />
xác thực, mã hóa,...<br />
Tường lửa (Firewall): Mã hóa dữ liệu (Data Encryption); Xác thực<br />
(Authentication); Quyền truy cập (Access Rights):<br />
1.2.3 Hệ thống phát hiện xâm nhập trái phép<br />
1.2.3.1. Hệ thống phát hiện xâm nhập mạng<br />
1.2.3.2. Phân loại hệ thống phát hiện xâm nhập mạng<br />
<br />
4<br />
<br />
Người ta thường phân loại các hệ thống IDS dựa trên nguồn cung cấp dữ liệu<br />
cho phát hiện đột nhập. Có hai loại hệ thống phát hiện đột nhập (IDS) cơ bản:<br />
- Hệ thống phát hiện đột nhập cho mạng (NIDS: Network – based IDS)<br />
- Hệ thống phát hiện đột nhập cho host (HIDS: Host – based IDS)<br />
1.2.3.3. Hệ thống phát hiện xâm nhập Snort<br />
1.2.3.3.1. Kiến trúc của Snort<br />
Snort bao gồm nhiều thành phần (module), với mỗi module có một chức năng<br />
riêng. Các module chính đó là: Giải mã gói tin (Packet Decoder); Tiền xử lý<br />
(Preprocessors); Phát hiện (Detection Engine); Truy cập và cảnh báo (Logging and<br />
Alerting System); Kết xuất thông tin (Output Module)<br />
1.2.4 Một số nghiên cứu liên quan đến hệ thống phát hiện xâm nhập<br />
Có hai phương pháp chính để phát hiện xâm nhập mạng: dựa trên trên đặc trưng<br />
(signature-based) và dựa trên bất thường (anomaly- based). Trong cách tiếp cận đầu<br />
tiên, mô hình tấn công hay hành vi của kẻ xâm nhập được mô hình hóa (dấu hiệu tấn<br />
công được mô hình hóa). Ở đây, hệ thống sẽ báo hiệu xâm nhập xảy ra mỗi khi một<br />
phép so khớp trùng nhau được xác định. Trong cách tiếp cận thứ hai, hành vi bình<br />
thường của mạng là được mô hình hóa. Trong cách tiếp cận này, hệ thống sẽ đưa ra<br />
các cảnh bảo khi hành vi mạng không khớp với bình thường.<br />
Cách tiếp cận của chúng tôi: Sử dụng các thuật toán so khớp đơn mẫu, so<br />
khớp đa mẫu và ứng dụng so khớp đa mẫu trong việc phát hiện xâm nhập mạng. Áp<br />
dụng của thuật toán so khớp đồ thị vào việc phát hiện trang web giả mạo dựa vào cấu<br />
trúc DOM của chúng.<br />
1.3 Giả mạo<br />
1.3.1. Giới thiệu<br />
Giả mạo là một hành vi giả mạo ác ý nhằm lấy được các thông tin nhạy cảm<br />
như tên người dùng, mật khẩu và các chi tiết thẻ tín dụng bằng cách giả dạng thành<br />
một chủ thể tin cậy trong một giao dịch điện tử. Do vậy, việc nghiên cứu và phát hiện<br />
các trang web giả mạo là một nhu cầu cấp thiết hiện nay.<br />
1.3.2. Một số kỹ thuật<br />
Sử dụng thư điện tử giả mạo; Sử dụng các trang web giả mạo; Bắt trước URL;<br />
Cập nhật thông tin cá nhân; Che giấu URL; Nhiễm độc DNS: Tuy nhiên, trong khuôn<br />
khổ của luận án này, chúng tôi chỉ tập trung nghiên cứu về giả mạo web.<br />
1.3.3. Một số nghiên cứu liên quan đến giả mạo web<br />
Phần lớn các trang web giả mạo đều cố gắng bắt trước các trang web hợp lệ đến<br />
mức tốt nhất có thể để người dùng có đủ tự tin tiết lộ những thông tin nhạy cảm. Hầu<br />
hết các trang lừa đảo đều làm tốt việc tạo giao diện hợp lệ bằng cách sao chép cách bố<br />
trí trang, font, kiểu, logo và thậm chí các thông tin bảo mật của trang hợp lệ. Thực tế,<br />
nhiều liên kết trong trang lừa đảo vẫn thực sự kết nối đến trang hợp lệ, điều này khiến<br />
nó giống với các trang hợp lệ hơn.<br />
Nhìn chung, cách tiếp cận để phát hiện các trang web giả mạo bước đầu là kiểm<br />
tra xem “hình dáng” hay cấu trúc của chúng có giống nhau không, nếu giống thì sẽ sử<br />
dụng thêm một số kỹ thuật khác để làm rõ các chi tiết kỹ thuật để phát hiện đó là trang<br />
web giả mạo hay trang web hợp lệ. Mặt khác, DOM là tên gọi tắt của Document<br />
Object Model - tạm dịch Mô hình đối tượng tài liệu - là một chuẩn được định nghĩa<br />
bởi W3C Error! Reference source not found. dùng để truy xuất và thao tác trên các<br />
tài liệu có cấu trúc dạng HTML hay XML bằng các ngôn ngữ lập trình thông dịch<br />
<br />
5<br />
<br />