B GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HC BÁCH KHOA HÀ NI
LÊ ĐỨC THUN
PHÂN LOẠI MÃ ĐC ANDROID S DNG HC SÂU
Ngành: K thut Máy tinh
Mã s: 9480106
TÓM TT LUN ÁN TIẾN SĨ KỸ THUT MÁY TÍNH
Hà Ni 2024
Công trình được hoàn thành ti:
Đại hc Bách khoa Hà Ni
Người hướng dn khoa hc:
1. TS. Nguyn Kim Khánh
2. TS. Hoàng Văn Hiệp
Phn bin 1:
Phn bin 2:
Phn bin 3:
Luận án được bo v trước Hội đồng đánh giá lun án tiến sĩ cp Đại
hc Bách Khoa Hà Ni hp tại Đại hc Bách khoa Hà Ni
Vào hi …….. giờ, ngày ….. tháng ….. năm ………
Có th tìm hiu lun án tại thư viện:
1. Thư viện T Quang Bu Đi hc Bách khoa Hà Ni
2. Thư viện Quc gia Vit Nam
1
GII THIU
Ngày nay, xu hướng áp dng chuyển đổi k thut s trí tu nhân
to trong các thiết b thông minh ngày càng tăng do cuộc cách mng
công nghip ln th tư thúc đẩy. Android thng tr th trường h điu
hành di động vi 70,79% tính đến tháng 6 năm 2023, đưc s dng
trong nhiu thiết b khác nhau như điện thoại, TV, đng h, ô tô, v.v.
[1]. S đa dạng này đã dẫn đến s gia tăng độc (mã độc các phn
mềm độc hi) trên Android. Năm 2021, 3,36 triệu độc trên th
tng h điều hành Android [2], gây rủi ro cho người dùng. Gii
quyết vấn đề phát hin độc mt nhu cu cp thiết, 1.081
nghiên cu t năm 2013 đến năm 2022 trong cơ sở d liu DBLP [3].
Hai phương pháp phổ biến để phát hin mã độc trên Android là phân
tích tĩnh và phân tích động. Phân tích tĩnh bao gồm vic kim tra cu
trúc, đặc điểm ca các tp tin thc thi không thc s chy
cac đoạn đó, điều này s an toàn hơn. Nó có thể xác định độc
bằng cách phân tích mã được dịch ngược nhưng có thể b sót mã độc
phc tp (cu trúc tp tin trong ng dụng độc phc tp hoc mt
phn tập tin đã bị mã hoá, làm ri mã,v.v.). Mặt khác, phân tích động
chạy mã độc tim ẩn trong môi trường độc lp (sandbox) để giám sát
hành vi ca nó, gim ri ro cho h thng. Mặc phân tích động
th phát hin ra các mối đe dọa mà phân tích tĩnh có thể b sót nhưng
đòi hỏi nhiu thi gian ngun lực hơn. Phân tích đng th
không bao quát được tt c các l trình thc thi. Tóm li, phân tích
tĩnh rất hu ích cho các mối đe dọa và l hổng đã biết, trong khi phân
tích động phù hợp để phát hin c mối đe dọa mi, bao gm c các
mối đe dọa chưa từng có. Phân tích động được khuyến ngh cho các t
chc chuyên môn v hành vi ca độc, trong khi phân tích tĩnh
ph biến hơn do tính đơn gin trong phân loi phát hiện mã độc.
Trong lun án này, tôi ch s dụng phương pháp phân tích tĩnh để trích
xuất đặc trưng [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14].
Phân loi độc (c phn mm sch) vic chia thành các nhóm (các
họ) mã độc. Hai phương pháp chính được s dng cho mục đích phân
2
loại mã độc này phương pháp dựa trên chvà da trên hc máy.
Các phương pháp dựa trên ch ký, được s dng rng rãi trong nhng
năm gần đây, dựa vào vic khp "ch ký" ca các mu độc đã biết
vi các mẫu chưa biết, được trích xuất thông qua phân tích tĩnh hoặc
động [15, 16, 17]. Tuy nhiên, chúng nhng hn chế, bao gm không
kh năng phát hiện độc mi hoc chưa xác định, l hng bo
mật hóa cũng như nhu cầu cp nhật sở d liu ch liên
tục. Ngược lại, các phương pháp dựa trên hc máy đang nổi lên như
nhng k thuật đầy ha hn, tn dng nhiu thuật toán khác nhau để
phân loi độc da trên các đặc điểm (gồm đặc điểm riêng đặc
điểm chung) ca ng dng. Phương pháp dựa trên hc máy th gii
quyết mt s thách thc của các phương pháp dựa trên ch ký, chng
hạn như phát hiện mã độc mi và gim phân tích th công. Tuy nhiên,
phương pháp dựa trên hc máy đòi hi nhiu thi gian ngun lc
hơn cũng như phụ thuc vào chất lượng ca d liệu đào tạo được gn
nhãn và mô hình hc tp. Trong lun án này, tôi tập trung vào phương
pháp da trên hc máy để phân loi độc trên Android do nhng
tiến b của phương pháp này so với phương pháp dựa trên ch ký.
Hc máy, mt nhánh quan trng ca trí tu nhân tạo, được ng dng
rng rãi trong nhiều nh vực khác nhau. bao gm hai loi chính:
hc tp giám sát không giám sát. Trong bi cnh phát hin
phân loi độc trên Android, các hình hc tp không giám sát
(là mô hình hc không cn d liệu được gn nhãn) khiến mô hình
th hoạt động vi bt k ng dng Android nào mà không cn có kiến
thức trưc v lp ca ng dụng đó. Tuy nhiên, những mô hình này có
th kém tin cy và khó hiểu hơn, có khả năng nhóm các ứng dng da
trên các tính năng tùy ý hoặc không liên quan không th nm bt
chính xác các đặc điểm ca độc. Do đó, học có giám sát ph biến
hơn đối vi vic phân loi độc trên Android, mang li kết qu chính
xác d hiểu hơn [6, 18 19 20, 21, 22, 23, 24, 25, 26, 27]. Trong lun
án này, tôi tp trung vào mô hình hc tập có giám sát, đòi hỏi mt tp
d liệu đáng kể đáng tin cy vi các ng dng Android được gn
3
nhãn lành tính hoc mã độc. Tôi s dng nhng b d liu được
cung cp trên Internet, nhng b d liệu này đã được tng hp ca
phòng nghiên cứu, trường đại hc có uy tín trên thế gii.
Trong hc máy hai bước chính chun b d liu và đánh giá mô
hình.
Chun b d liu bao gm vic thu thp, làm sch, chuyển đổi
la chn d liệu đưc s dng cho mô hình hc máy. Điều này rt
quan trng chất lượng hiu sut ca mô hình hc máy ph
thuc vào vic chun b d liu này. D liu không đầy đủ, không
chính xác, không liên quan hoc không nht quán th cn tr
kh năng của hình trong vic tìm hiu các mẫu đưa ra d
đoán đáng tin cậy.
Đánh giá hình quá trình đo lường so sánh hiu sut ca
hình hc máy trên d liu chưa nhìn thấy (d liu kim tra).
Điu quan trng là phải đánh giá mức độ khái quát của hình đối
vi các tình hung mới độ tin cy trong các d đoán mà mô hình
đưa ra.
Chun b d liu trong quá trình phân loi độc trên Android bao
gm vic trích xut các đặc trưng thô t tp tin APK, chng hạn như
quyn, lnh gọi API tài nguyên thông qua phân tích tĩnh. Các đặc
trưng này ban đầu định dng "chui" yêu cu chuyển đổi thành
giá tr s cho hc máy. Nghiên cứu trước đây thường s dng các đặc
trưng tnày mt cách riêng l hoc kết hp chúng mà không xem xét
mi quan h ca chúng [4, 5, 7, 26, 28, 29]. Trong lun án này, hai
phương pháp tăng cường các đặc trưng thô được đề xut, tp trung vào
mi quan h gia các đặc trưng. Cụ th, s xut hin đồng thi ca
các quyn lnh gọi API được khám phá để ci thin mi quan h
giữa các tính năng.
Để đánh giá mô hình, nhiều mô hình hc máy truyn thng khác nhau
như SVM, RF, DT, KNN NB đã được xem xét cho thấy độ chính
xác cao trong vic phát hin mã độc [14, 25, 27, 30]. Các mô hình hc
sâu, đặc bit mng -ron tích chp (CNN), đã phân loi tt trong