HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Trần Huỳnh Tiến
ỨNG DỤNG REPRESENTATION LEARNING
PHÁT HIỆN TẤN CÔNG PHISHING
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
TP. HỒ CHÍ MINH – 2023
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Trần Huỳnh Tiến
ỨNG DỤNG REPRESENTATION LEARNING
PHÁT HIỆN TẤN CÔNG PHISHING
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN HỒNG SƠN
TP. HỒ CHÍ MINH – 2023
i
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn: “Ứng dụng Representation Learning phát hiện
tấn công Phishing là công trình nghiên cứu của chính tôi.
Tôi cam đoan các số liệu, kết quả nêu trong luận văn trung thực chưa
từng được ai công bố trong bất kỳ công trình nào khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận
văn này mà không được trích dẫn theo đúng quy định.
TP. Hồ Chí Minh, ngày 28 tháng 02 năm 2023
Học viên thực hiện luận văn
Trần Huỳnh Tiến
ii
LI CẢM ƠN
Trong suốt quá trình học tập nghiên cứu thực hiện luận văn, ngoài nỗ lực
của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình quý báu của quý Thầy Cô,
cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp. Với lòng kính
trọng và biết ơn u sắc, tôi xin gửi lời cảm ơn chân thành tới:
Ban Giám hiệu , Phòng đào tạo sau đại học và quý Thầy đã tạo mọi điều
kiện thuận lợi giúp tôi hoàn thành luận văn.
Tôi xin chân thành cảm ơn Thầy TS. Nguyễn Hồng n, người Thầy kính
yêu đã hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt quá
trình thực hiện và hoàn thành luận văn.
Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong quan đã
động viên, hỗ trợ tôi trong lúc khó khăn để tôi có thể học tập và hoàn thành luận văn.
Mặc dù đã nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót. Tôi rất mong nhận
được sự góp ý của quý Thầy cùng bạnđồng nghiệp để kiến thức của tôi ngày
một hoàn thiện hơn.
Xin chân thành cảm ơn!
TP. Hồ Chí Minh, ngày 28 tháng 02 năm 2023
Học viên thực hiện luận văn
Trần Huỳnh Tiến
iii
DANH SÁCH HÌNH V
Hình 1.1. Các loại tấn công Phishing [14] ............................................................... 12
Hình 1.2. Quá trình phân loại đặc trưng nhằm cung cấp không gian ngữ nghĩa thống
nhất cho hỗn hợp đa thông tin về ngôn ngữ và đa tác vụ trong NLP [20] ................ 15
Hình 1.3. Các lớp của một mạng nơ-ron [33] ........................................................... 19
Hình 1.4: Mối liên hệ giữa AI, MLDL [34] ........................................................ 20
Hình 1.5. Quá trình phát hiện trang web Phishing [22] ............................................ 21
Hình 1.6. Một số nhánh chính của các ứng dụng an toản bảo mật áp dụng các thuật
AI [23] ....................................................................................................................... 22
Hình 1.7. Sơ đồ luồng biểu diễn mô hình ứng dụng Machine Learning [24] ........... 23
Hình 1.8. Lưu đồ mô tả quy trình .............................................................................. 28
Hình 2.2. Ma trận hệ số tương quan giữa các features [20] ...................................... 35
Hình 2.3. Mô tả mối tương quan giữa các đặc tính trong ma trận ............................ 36
Hình 2.4. Residual learning: a building block. ......................................................... 38
Hình 2.5. ResNet sử dụng các kết nối tắt ( kết nối trực tiếp đầu vào của lớp (n) với
(n+x) được hiển thị dạng mũi tên cong. Qua mô hình nó chứng minh được có thể cải
thiện hiệu suất trong quá trình training model khi mô hình có hơn 20 lớp............... 39
Hình 2.6. Tỉ lệ nhãn trong bộ dữ liệu ........................................................................ 43
Hình 2.7. Thuộc tính length_url ................................................................................ 43
Hình 2.8. Thuộc tính length_hostname ..................................................................... 44
Hình 2.9. Thuộc tính ip ............................................................................................. 44
Hình 2.10. Thuộc tính nb_dots .................................................................................. 44
Hình 2.11. Thuộc tính nb_hyphens ........................................................................... 45
Hình 2.12. Thuộc tính nb_at ..................................................................................... 45
Hình 2.13. Thuộc tính nb_qm ................................................................................... 45
Hình 2.14. Thuộc tính nb_and................................................................................... 46
Hình 2.15. Thuộc tính nb_or ..................................................................................... 46
Hình 2.16. Phân bổ dữ liệu của một số thuộc tính .................................................... 47