HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
---------------------------------------
LÊ ANH TUN
NGHIÊN CU, SO SÁNH MT S THUT TOÁN CÂY
QUYẾT ĐỊNH TRONG PHÁT HIN CÁC CUC TN CÔNG
MNG DA TRÊN B D LIU KDD99 VÀ UNSW-NB15
Chuyên ngành: Khoa hc máy tính
Mã s : 8.48.01.01
TÓM TT LUN VĂN THẠC SĨ KỸ THUT
(Theo định hướng ng dng)
HÀ NI NĂM 2020
2
Luận văn được hoàn thành ti:
HC VIN CÔNG NGH BƯU CHÍNH VIỄN THÔNG
Người hướng dn khoa hc: TS. NGÔ QUỐC DŨNG
Phn biện 1: ……………………………………………………………
Phn bin 2: ………………………………………………………..
Luận văn sẽ đưc bo v trước Hội đồng chm luận văn thạc tại Hc
vin Công ngh Bưu chính Viễn thông
Vào lúc: ....... gi ....... ngày ....... tháng ....... .. năm 2020
n văn t
Thư vi ư
1
LI M ĐẦU
1. Lý do chọn đề tài.
K t nhưng năm 90 ca thế k XX, chính ph ti mt s quốc gia cũng như nhiều chuyên
gia đã bt đu nghiên cu v “thành ph thông minh”, đó là vic xây dng thành ph s dng
các thành tu công ngh thông tin để thu thpxd liệu để qun lý tài sn và tài nguyên
mt cách hiu qu. Trong nhng m gần đây, các quốc gia đã có sự quan tâm đặc bit ti vn
đềy dng thành ph thông minh do s thay đổi v công ngh, kinh tế môi trưng, ví d
v các chương trình xây dng thành ph thông minh đã đưc trin khai ti Singapore, Dubai,
Milton Keynes, Southampton, Barcelona, và Vit Nam.
Để xây dng mt thành ph thông minh cn s thu thp, kết ni x một lượng
thông tin khng lồ. Các thông tin thường được thu thp bng các cm biến nh t người dân,
thiết b tài sản, sau đó sẽ được tng hp và x lý. Do thông tin cn thu thp rt ln nên
vấn đề bo mt và quyền riêng tư cá nhân là một vấn đề cn quan tâm. Các h thng ln luôn
mt h thng phòng th đủ mạnh để chng li hu hết các hành vi tn công xâm nhp
trái phép, song đối vi các h thng nh như các sensor thì thường không có h thng phòng
th nào hoặc không đủ để đảm bo an toàn.
Đầu năm 2018, IBM X-Force Red Threatcare đã phát hiện ra 17 l hổng “zero-day”
trong các h thng cm biến điều khin thành ph thông minh đưc s dng ti các thành
ph trên khp thế gii. Các l hng này cho phép hacker truy cập vào điều khin thao c
d liu, ch cn mt cnh báo sai ca h thng cm biến th gây ra tn hi ln. T đó,
IBM có đưa ra mt s ng dẫn để đảm bo an toàn cho h thống như sau:
+ Thc hin các hn chế địa ch IP cho nhng máy th kết ni vi các thiết bị, đặc
bit vi các thiết b s dng mng internet công cng.
+ Tn dng các công c quét ng dụng cơ bản để xác định các l hng ca thiết b.
+ S dng các quy tc bo mt mạng để ngăn chặn truy cp vào các h thng nhy cm
và thường xuyên thay đổi mt khu.
+ Vô hiệu hóa các tính năng quản tr t xa và nhng cng không cn thiết.
+ S dng các công c qun s kiện để quét lưu lượng mạng xác định lưu ng
truy cập đáng ngờ.
+ S dụng hacker mũ trắng để th nghiệm độ an toàn ca h thng.
Trong đó, phương pháp sử dng các công c qun s kiện để quét lưu lượng mng
xác định lưu lượng truy cập đáng ngờ được coi là biện pháp đơn giản, d thc hin vi các h
thng nh do có chi phí r, d triển khai và cài đặt.
Thc tế đã nhiều nghiên cu v phân tích lưu lượng mạng đ đưa ra cảnh báo. Tuy
nhiên các phương pháp trên đều các hn chế riêng d b hacker li dng để tránh b
phát hin.
Vi nhng do trên, vic nghiên cứu đề tài Nghiên cu, so sánh mt s thut toán cây
quyết định trong phát hin các cuc tn công mng trên b d liu kdd99 unsw-nb15sẽ
mang li ý nghĩa khoa hc và thc tế trong vn đề bo mt và an toàn.
2. Mc tiêu, nhim v nghiên cu
Mc tiêu nghiên cu: Nghiên cu v xây dng mt h thng phân tích, phát hin hành vi
tn công bằng phương pháp sử dng thut toán hc máy.
+ Tìm hiu v vic thu thp và x lý d liu.
+ Tìm hiu v các thut toán cây quyết đnh (Decision Tree) trong hc máy.
2
+ S dng các thuật toán đ xây dng h thng phát hin các cuc tn công mng da
trên d liu v lưu lưng mng.
Nhim v nghiên cu: Để đạt đưc mc tiêu nghiên cu, cn thc hin lần lượt các nhim
v sau:
+ Nghiên cu v h thng phát hin hành vi tn công da trên phân tích lưu lượng mng.
+ Nghiên cu, y dng so sánh nhóm thut toán hc máy Decision Tree trong vic
phân tích d liu mng.
+ Nghiên cu và s dng b d liu hành vi mng kdd99 và unsw-nb15.
+ Tiến hành áp dng vi d liu thc tế và đánh giá hiệu qu.
3. Đối tượng và phm vi nghiên cu của đi
+ Vấn đề xây dng h thng phát hiện hành vi đi vi thiết b va và nh.
+ S dng b d liu hành vi mng kdd99 và unsw-nb15.
+ Quy trình xây dng mô hình hc máy, nhóm các thut toán Decision Tree.
4. Phương pháp nghiên cu
Để hoàn thành mc tiêu, lun văn đã kết hp s dụng phương pháp nghiên cứu tài liu và
nghiên cu thc tin.
4.1. Phương pháp nghiên cứu tài liu
- Phương pháp phân tích tng hp lý thuyết: Lun văn đã thc hin phân tích, tng hp
mt s bài báo khoa hc có liên quan đến vấn đề cn nghiên cu được đăng trên các tạp chí,
hi ngh uy tín trên thế gii đưc cộng đồng nghiên cu s dng.
- Phương pháp phân loi h thng hóa thuyết: T nhng kiến thức thu được bng
phân tích tng hp lý thuyết, lun văn đã h thng sp xếp lại các thông tin thu được
mt cách khoa học, đồng thi s dụng chúng để nhận định, đánh giá các phương pháp đã có,
t đó có những đề xut tìm ra các phương pháp mi tối ưu hơn cho bài toán đt ra.
4.2 Phương pháp nghiên cứu thc tin
- Phương pháp thực nghim khoa hc: S dụng các phương pháp đãđể áp dng cho bài
toán đặt ra, phương pháp này giúp kim chng tính chính xác và tính kh thi ca nhng gii
pháp, thuật toán được đ xut của đề tài và cũng là cơ sở để đánh giá tính hiệu qu so vi các
phương pháp đã có về mt thc nghim.
- Phương pháp thống kê: T nhng kết qu, s liu t phương pháp thực nghim khoa hc,
lun văn tiến nh tng hp, thng kê, x t bng các biu đồ thích hp, phc v
quá trình phân tích đánh giá.
5. Kết cấu đề tài
Ngoài phn m đầu, kết lun, danh mc tài liu tham kho và ph lc, đề tài ca tôi gm
3 chương:
Chương 1: Tng quan v tn công qua mng và các nghiên cu liên quan.
Chương 2: Phương pháp đề xut.
Chương 3: Thực nghim và kết qu.
3
CHƯƠNG 1. TNG QUAN V TN CÔNG MNG VÀ CÁC
NGHIÊN CU LIÊN QUAN
1.1. Thc trng v vấn đề tn công mng.
1.1.1. Xu thế phát trin và các vấn đề v àn toàn thông tin.
Do ảnh ng ca cuc cách mng 4.0, hướng ti s kết ni chia s thông tin. Biu
hin vic y dng thành ph thông minh, ph cp Internet, ng dng chia s, s dng trí
tu nhân tạo,... Đặc bit gần đây là s kin thương mại hóa mạng 5G để giúp đáp ứng các nhu
cu ca cách mng 4.0.
Do nhu cu quá ln ca các thiết b kết ni mng, cm biến, và các thiết b IoT, khiến các
nhà sn xut thiết b trên bắt đầu chy đua lợi nhuận, tăng mnh v s sản lượng sn xut
nhưng không chú trng nghiên cu, cp nht các vấn đề v mc an toàn ca thiết b. T đó
dn ti hacker li dụng được các l hng bo mật, “backdoor” tn ti trên thiết b.
Ngoài ra, các công trình nghiên cu v bo mt trên các thiết b mng nh và va ch bt
đầu xut hin nhiu trong vòng vài năm gần đây, chưa sự ph biến cao hoc thương mại
hóa để các nhà sn xut th s dng d dàng. Các h thng kết ni mng ca các thiết b
nh và va hin ti không có mt chun chung v bo mt đ đánh giá khiến chúng d b tn
công và li dng bi các hacker.
1.1.2. S phát trin ca xu hướng tn công các thiết b mng
Ti Vit Nam, ch riêng 6 tháng đầu năm 2018 đã phát hiện hơn 4.500 cuộc tn công mng
nhằm vào các cơ quan Chính ph, b, ngành vi nhiu hình thc khác nhau. Vit Nam xếp th
4 trong tp 10 quc gia b kim soát bi mng máy tính ma [13]. Ti Việt Nam đã xut hin
mt s v tn công lớn như vic l lt d liu 5,4 triệu người dùng ca Thế giới di động
được tung lên tại Raidforums dưới danh tính ca mt hacker n danh, hoc cuc tn công làm
tê lit h thng ca VietNam Airlines và lấy đi dữ liu cá nhân của 411.000 ngưi dùng, trong
đó nhiều người dùng hội viên “Bông sen vàng” đã y ảnh ng nghiêm trng gây
thit hi ln.
Hình 1.5. V tấn công làm thay đổi giao din ca trang ch VietNam AirLines vào năm 2016.
Ngoài ra, trên thế gii nói chung Vit Nam nói riêng đã xu hưng chuyn dch các
h thng quan trng như hệ thng khai thác du m, h thng thy điện, h thng tín hiu giao