
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Lê Minh Đăng
PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
HÀ NỘI - NĂM 2023

Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS. HOÀNG XUÂN DẬU
Phản biện 1: ………………………………………………………………
Phản biện 2: ……………………………………………………………..
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính viễn thông

TÓM TẮT ĐỀ ÁN
An toàn thông tin trên không gian mạng đóng vai trò quan trọng trong việc bảo
vệ dữ liệu và hệ thống khỏi các mối đe dọa trực tuyến. Với sự phát triển nhanh chóng
của công nghệ thông tin và sự phổ biến của Internet, việc đảm bảo an toàn thông tin
trở thành một thách thức ngày càng lớn. đề án này sử dụng phương pháp học sâu để
phát hiện các URL độc hại dựa trên việc phân tích các yếu tố và mẫu trong URL. Điều
này có thể giúp cải thiện khả năng phát hiện và ngăn chặn các hoạt động độc hại trên
Internet.
Đề án phát hiện URL độc hại dựa trên học sâu là một hệ thống được thiết kế để
tự động phân loại các là độc hại hay không. Nó sử dụng phương pháp học sâu, một
phương pháp trong lĩnh vực trí tuệ nhân tạo, để học từ dữ liệu huấn luyện và dự đoán
xem một URL có khả năng là độc hại hay không.
Mô hình học sâu được xây dựng thông qua quá trình huấn luyện trên dữ liệu.
Mô hình học cách phân tích các yếu tố và mẫu trong URL để xác định xem nó có tính
chất độc hại hay không. Quá trình huấn luyện này sử dụng các thuật toán học sâu như
mạng nơ-ron học sâu (deep neural networks) để tối ưu hóa và điều chỉnh các tham số
của mô hình.
Sau khi mô hình đã được huấn luyện, nó có thể được triển khai để phân loại các
URL mới. Khi một URL mới được cung cấp, mô hình sẽ áp dụng các kỹ thuật học sâu
đã học được để dự đoán xem URL đó có khả năng là độc hại hay không. Kết quả từ
mô hình sẽ cho biết mức độ độc hại ước tính của URL đó.
Đề án sử dụng tập dữ liệu Malicious URLs dataset thử nghiệm bao gồm
651.191 URL được gán các nhãn trong đó 428.103 được gán nhãn “benign”, 96.457
được gãn nhãn “defacement” URLs, 94.111 “phishing” URLs và 32.520 được gán
nhãn “malware” URLs.
Nội dung đề án được chưa thành 3 chương, cụ thể như sau:

4
CHƯƠNG 1: TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT
HIỆN URL ĐỘC HẠI
Chương 1 sẽ tập trung vào giới thiệu về URL, URL độc hại và các phương pháp
để phát hiện chúng.
Phần đầu tác giả giới thiệu tổng quan về URL. URL là một chuỗi ký tự đại diện cho
địa chỉ của một tài nguyên trên internet. Cùng với đó giới thiệu về các thành phần của
URL và lịch sử hình hình thành của URL.
Tiếp theo tác giả giới thiệu tổng quan về URL độc hại và phân loại chúng. URL
đọc hại là các đường dẫn web được thiết kế để thực hiện các hoạt động độc hại hoặc
gian lận.
Cuối cùng tác giả giới thiệu các phương pháp và mô hình phát hiện URL độc
hại đã tồn tại
Chương 1 đã giới thiệu khái quát về URL, URL độc hại và một số phương phát
phát hiện URL độc hại. Đồng thời cũng chỉ ra ưu và nhược điểm của các mô hình đã
tồn tại và đưa ra ý tưởng cho đề án nghiên cứu dựa trên những ưu nhược điểm trên và
cải tiến được đề xuất từ các nghiên cứu đó

5
CHƯƠNG 2: PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU
Ở chương 2, tác giả đi sâu vào nghiên cứu các mô hình học máy, học sâu giúp
người đọc hiểu biết và nhận dạng được các mô hình trí tuệ nhân tạo.
Về học máy tác giả đưa ra các khái niệm và phân loại các mô hình học máy
như: học có giám sat, học không giám sát, học tăng cương, học bán giám sát.
Về học sâu tác giả giới thiệu về học sâu và các mô hình học sâu tiêu biểu như:
DNN, CNN, LSTM, v.v
Chương này cũng đã trình bày về áp dụng mô hình học sâu CNN vào phát hiện
URL độc hại. Cùng với đó đưa ra kiến trúc mô hình và tiêu chuẩn đánh ra mô hình

