HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
LÊ HOÀNG BẢO
PHÂN LOẠI LƯU LƯỢNG MẠNG INTERNET
DÙNG MACHINE LEARNING
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 8.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
(Theo định hướng ứng dụng)
TP.HỒ CHÍ MINH - NĂM 2022
1
MỞ ĐẦU
Phân loại lưu lượng mng Internet mt trong những đề
tài được quan tâm hàng đầu trong cộng đồng nghiên cu và phát
trin mng Internet. Rt nhiều phương án khác nhau được đã đề
xut nhm qun vấn đề bo mật cũng như đảm bo chất lượng
s dng dch v (Quality of Service QoS). Tuy nhiên, mt s
phương pháp phân loại truyn thống, đã không còn phù hp do
nhng hn chế trong vic x đặc trưng mới trong lưu lượng
mng Internet (phân b cổng động, tạo đường hầm, mã hóa, …).
Trong vài năm trở lại đây, việc áp dụng các phương pháp hc
máy (Machine Learning ML) cho phân loại lưu lượng mng
Internet đã đạt được nhng kết qu đáng chú ý. Với kh năng x
nhiu thông tin phc tp t nhiều đặc trưng khác nhau, các
hình hc máy th phân loi các d liệu đầu vào với độ
chính xác khá cao. Đây cũng do tôi chọn đề tài “Phân loại
lưu lượng mng Internet bằng phương pháp học máy”.
Trong Đề tài này s dng phương pháp nghiên cứu
thuyết kết hp vi xây dng ng dng mô phng:
Nghiên cu phân tích nhng khái niệm bản trong
lĩnh vực hc máy, kho sát nhng hình hc máy từng được
đề xut và áp dụng trong lĩnh vực phân loi mng Internet trong
cộng đồng nghiên cu.
2
So sánh các phương pháp hình phân loi k trên,
đề xut mt hình hc máy phù hp vi mc tiêu tng quan
có độ chính xác cao.
Kiểm tra, đánh giá những kết qu của mô hình đ xut ví
d như chỉ s Accuracy, Precision, F1 value…,
Ngoài phn mở đầu, mục lục, kết luận kiến nghị, danh
mục hình vẽ, danh mục bảng biểu, tài liệu tham khảo, phụ lục,
phần chính của luận văn gồm 4 chương như sau:
Chương 1: Nghiên cứu tổng quan các phương pháp học
máy, các phướng pháp cơ bản, các pháp tiên xử lý dữ liệu.
Chương 2: Tổng quan về học máy, nêu lên các phương
pháp học máy và các bài toán cơ bản về học máy.
Chương 3: Phát triển hình dữ trên tập dữ liệu đã được
thông qua, y dng tập dữ liệu,mô hình phân loại lưu lượng,tiền
xử lý dữ liệu,
Chương 4: Đánh giá kết quả thực hiện dựa trên các
hình đã nêu K Lân cn (KNN K-Nearest Neighbors),Mng
Neuron nhân to (ANN Artificial Neural Networks),Rng
ngu nhiên (RF - Random Forest)
3
Chương 1: NGHIÊN CỨU TỔNG QUAN
1.1 Nhu cầu phân tích lưu lượng mng Internet
Trong lĩnh vực phân loại lưu lượng Internet, nhng
phương pháp truyền thng mt s hn chế nhất định. Đầu
tiên, đánh dấu gói (packet marking) được đề xuất để phân bit
lưu lượng da trên lp QoS ca nó. Mt s d v các trường
được s dụng để đánh dấu gói là Loi dch v (Type of Sevice -
ToS), Điểm mã dch v phân bit (Differentiated Services Code
Point - DSCP) Thông báo tc nghn ràng (Explicit
Congestion Notification - ECN).
Ngoài ra, hai phương pháp phân loại truyn thng
được ng dng rng rãi, bao gồm phương pháp phân loại da
trên cng (Port based) phương pháp phân loi da trên ti
trng (Payload based).
Phân loi da trên cng (Port-based technique): K
thut phân loi da trên cng k thut ph biến và thông dng
nhất để phân loại lưu lượng mng Internet. Trong k thut này,
mi mt gói d liệu (packet) trong lưu lượng mạng IP đều mang
s cng (s cng ngun s cổng đích) do t chc IANA
(Internet Assigned Number Authority T chc cp phát s hiu
Internet) ấn định. d: các ng dng Email s dng s cng
25 (SMTP) để gi email cổng 110 (POP3) được s dụng đ
nhn email, các ng dng web s dng s cng 80.