Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi<br />
<br />
<br />
<br />
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC<br />
KỸ THUẬT N-GRAM VÀ HỌC MÁY<br />
Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi<br />
Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội<br />
<br />
<br />
Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các<br />
của các hệ thống máy tính. Vì vậy phân loại mã độc để có phần mềm sử dụng kỹ thuật che giấu, mã hóa và đóng gói.<br />
những biện pháp đối phó thích hợp là một phần quan Phân tích động tiến hành thực thi các phần mềm độc<br />
trọng trong lĩnh vực an toàn thông tin. Trong bài báo này, hại trong môi trường sandbox được giám sát để thu thập<br />
chúng tôi cải tiến giải thuật trích rút điểm mẫu trong quy các hành vi của mã độc. Vì vậy sandbox cần phải an toàn.<br />
trình phân loại mở mã độc dựa trên điểm mẫu được đề Trong loại phân tích này, có thể thu thập được tất cả các<br />
xuất bởi Rieck và các công sự [1]. Chúng tôi áp dụng tư thuộc tính của hành vi, chẳng hạn như các tệp tin đc được<br />
tưởng của hai phương pháp phân loại dựa trên điểm đặc mở, tạo mutexes, các hàm chính xác được gọi, các đối số<br />
trưng là Dendroid [2] và phương pháp được đề xuất bởi của hàm. Ưu điểm của phân tích động là nó nhanh hơn<br />
P.Shrestha và các cộng sự [3], trích rút các điểm mẫu trên nhiều phân tích tĩnh. Nhược điểm của phân tích động,<br />
từng họ mã độc thay vì dựa trên toàn bộ các họ mã độc. chúng ta chỉ nhìn thấy một kịch bản có liên quan đến hiện<br />
Thực nghiệm cho thấy phương pháp của chúng tôi cho tại của hệ thốngvà không phải hành vi nào cũng được<br />
kết quả phân loại tốt với khả năng nhận biết mã độc là phân tích (ví dụ như virus chờ đến một thời điểm nào đó<br />
0.981% và phát hiện mã độc mới là 0.988% cao hơn mới hoạt động).<br />
phiên bản gốc của phương pháp dựa trên điểm mẫu [1].1 Theo [6], phân tích tự động mã độc hướng tới một<br />
Từ khóa: Phân loại mã độc, n-gram, điểm mẫu. trong ba mục tiêu là phát hiện, phân tích độ tương tự và<br />
phân loại.Chúng tôi chú tâm nghiên cứu đến vấn đề phân<br />
I. GIỚI THIỆU loại mã độc. Trong nghiên cứu, người ta thường sử dụng<br />
Phần mềm độc hại (hay mã độc) là một chương trình các phương pháp học máy có giám sát để giải quyết bài<br />
được chèn vào hệ thống, thường là cố tình, với mục đích toán phân loại một cách tự động. Theo [7] có hai cách tiếp<br />
xâm phạm tính bảo mật, toàn vẹn, hoặc tính khả dụng của cận nổi bật là dựa trên mô hình (model-based learning) và<br />
dữ liệu, ứng dụng, hệ điều hành của nạn nhân hoặc gây dựa trên thể hiện (instance-based learning). Với học máy<br />
phiền nhiễu, làm gián đoạn nạn nhân [4]. Phần mềm độc dựa trên mô hình (SVM, cây quyết định, Naive Bayes<br />
hại có nhiều loại như virus, Trojan, worm, phần mềm gián v.v.), các giải thuật này sẽ tạo ra mô hình khái quát hoá dữ<br />
điệp, rootkit, v.v. Cùng với sự phát triển nhanh chóng của liệu huấn luyện vì vậy không thích hợp với các bài toán có<br />
Internet, phần mềm độc hại cũng đang ngày một gia tăng. dữ liệu phức tạp. Mặt khác, các phương pháp học máy<br />
Theo thống kê của Kaspersky, 21.643.947 đối tượng phần dựa trên thể hiện (k-NN,..) không khái quát hoá dữ liệu<br />
mềm độc hại đã được phát hiện vào năm 2018 gấp hơn 5 mà sử dụng luôn dữ liệu để phân loại bằng cách so sánh<br />
lần so với năm 2015 [5]. Mặc dù có sự cải thiện đáng kể dữ liệu cần phân loại với dữ liệu huấn luyện, vì vậy có thể<br />
của các cơ chế an ninh, nhưng các phần mềm độc hại tối ưu hoá những trường hợp cụ thể và thích hợp hơn với<br />
đang ngày một tinh vi và có các cơ chế lẩn trốn nên chúng các bài toán phức tạp như phân loại. Với học máy dựa trên<br />
vẫn đang là một trong những mối đe dọa lớn nhất đối với thể hiện có thể sử dụng toàn bộ tập dữ liệu huấn luyện để<br />
các hệ thống máy tính. Vì vậy phát hiện và phân tích hành phân loại, nhưng nhược điểm là thời gian phân loại lâu. Vì<br />
vi của các phần mềm độc hại là một nhiệm vụ rất quan vậy người ta sử dụng một phương pháp khác của học máy<br />
trọng để làm giảm tối đa những thiệt hại do chúng gây ra.2 dựa trên thể hiện là phương pháp sử dụng các điểm mẫu<br />
để đại diện cho tập dữ liệu huấn luyện và phân loại dựa<br />
Phân tích mã độc đề cập đến quá trình xác định mục trên các điểm mẫu này thay vì sử dụng toàn bộ tập dữ liệu<br />
đích, hành vi, phương pháp tấn công và cách thức lan huấn luyện. Vì những lý do trên, chúng tôi chọn sử dụng<br />
truyền của chúng. Phân tích mã độc được chia làm hai loại phương pháp học máy dưạ trên thể hiện có sử dụng các<br />
là phân tích tĩnh và phân tích động. điểm mẫu để phân loại mã độc”<br />
Phân tích tĩnh hay còn được gọi là phân tích mã tĩnh Ba công trình nghiên cứu về phân loại mã độc sử dụng<br />
để cố gắng suy ra các hành vi của phần mềm, là quá trình điểm mẫu được chúng tôi quan tâm đến là: phương pháp<br />
phân tích phần mềm mà không cần thực thi mã hoặc là phân loại mở dựa trên điểm mẫu của Rieck cùng các<br />
chương trình. Các mẫu phát hiện có thể được trích xuất cộng sự [1],hai phương pháp dựa trên điểm đặc trưng là<br />
trong phân tích tĩnh như: các Lời gọi hệ thống, API, phương pháp Dendroid- áp dụng với các mã độc trên<br />
signature, biểu đồ điều khiển, opcode, bytecode, các file Android [2] và phương pháp được đề suất bởi P. Shrestha<br />
DLL được gọi...Ưu điểm phân tích tĩnh là an toàn và và các cộng sự[3]. Phương pháp thứ nhất sử dụng thông<br />
chúng ta có thể quan sát hết các phần của chương trình. tin về các n-gram của chuỗi các lời gọi hệ thống, đặc<br />
trưng là sự xuất hiện hay không của các n-gram và sử<br />
Tác giả liên hệ: Nguyễn Đại Thọ dụng điểm mẫu (prototype) để đại diện cho các cụm mã<br />
Email: nguyendaitho@vnu.edu.vn độc. Phương pháp này có ba thành phần chính là: trích rút<br />
Đến tòa soạn: 8/2019, chỉnh sửa 11/2019, chấp nhận đăng 12/2019<br />
điểm mẫu giúp tìm ra các điểm mẫu đại diện cho các cụm,<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62<br />
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY<br />
<br />
phân cụm sử dụng điểm mẫu giúp gộp nhóm các cụm Đầu tiên mã độc được chạy trong môitrườngsandbox<br />
tương tự nhau thành một cụm lớn hơn, phân lớp sử dụng để giám sát các hành vi và thu thập các chuỗi lời gọi hệ<br />
điểm mẫu để dự báo nhãn lớp cho mã độc chưa biết và thống đặc trưng cho các hành vi của chúng.<br />
phát hiện ra những mẫu mã độc mới. Phương pháp thứ hai<br />
– Dendroid [2] là một phương pháp phân loại dựa trên 2) Giai đoạn 2: Nhúng các hành vi vào không gian<br />
điểm đặc trưng, áp dụng các kỹ thuật của lĩnh vực phân vector<br />
loại văn bản. Điểm đặc biệt của phương pháp này là sử • Đầu vào:Chuỗi các lời gọi hệ thống<br />
dụng một điểm đặc trưng được tạo ra từ các mã độc trong • Đầu ra: Vector đặc trưng đại diện cho mãđộc<br />
cùng một họ để đại diện cho toàn bộ họ đó. Kết quả của<br />
Chuỗi lời gọi hệ thống sau đó được nhúng vào không<br />
quá trình trích rút đặc trưng là một vector đại diện chung<br />
gian vector sử dụng n-gram. Mỗi thành phần của một<br />
cho một họ mã độc thay vì đại diện cho từng mã độc cụ<br />
vector đặc trưng thể hiện sự xuất hiện hay không của n-<br />
thể. Các điểm đặc trưng được dùng kết hợp với thuật toán<br />
gram tương ứng trong chuỗi lời gọi hệ thống.<br />
1NN (One Nearest Neighbor) để phân loại mã độc. Mã<br />
độc mới được phân vào họ của điểm đặc trưng gần nó Giả sử tập S= {(x1,x2,x3,x4, ..., xn)| xi Є A với 1≤ i≤ n}<br />
nhất. Phương pháp này là phân loại đóng. Một điểm dữ là tập tất cả n-gram có thể có<br />
liệu khi được cho vào phân loại sẽ chắc chắn được phân A là tập tất cả các lời gọi hệ thống khác nhau.<br />
vào một lớp đã biết. Phương pháp thứ 3 cũng xây dựng<br />
các điểm đặc trưng từ các mã độc trong cùng một họ và Với mỗi báo cáo x, hành vi mã độc có thể nhúng vào<br />
mỗi họ mã độc được đại diện bởi một điểm điểm đặc một không gian vector có |S| chiều. Mỗi chiều sẽ tương<br />
trưng giống như phương pháp Dendroid. Sau đó mẫu mã ứng với một n-gram. Giá trị các chiều của vector được<br />
độc cần phân loại được tính độ tương tự với các điểm đặc tính như sau:<br />
trưng của các họ và được phân vào họ có độ tương tự lớn φ(x) = (φs(x))sЄS (1)<br />
nhất.<br />
Trong đó: φs(x) = 1 nếu mẫu báo cáo hành vi x chứa n-<br />
Chúng tôi vận dụng tư tưởng phương pháp thứ hai và gram s, ngược lại φs(x) = 0<br />
ba để cải tiến giải thuật trích rút điểm mẫu của phương<br />
pháp thứ nhất. Trong quá trình trích rút điểm mẫu, thay vì Ví dụ: A = {a1, a2}<br />
trích rút điểm mẫu dựa trên toàn bộ dữ liệu huấn luyện, → S= {a1a1, a1a2, a2a1, a2a2}<br />
chúng tôi sẽ trích rút điểm mẫu trên dữ liệu của từng họ.<br />
Khi đó một họ có thể có một hoặc nhiều điểm mẫu. Chúng Mẫu báo cáo x = a1a2a1a1a2<br />
tôi vẫn giữ quy trình tổng quát chung như phương pháp<br />
dựa trên điểm mẫu [1] để phân loại mở các mã độc, phân Bảng I. Sự xuất hiện của các 2-gram<br />
loại các mã độc đã biết và nhận biết được các mã độc có 2-gram a1a1 a1a2 a 2a 1 a2a2<br />
hành vi mới. Chúng tôi đánh giá hiệu quả của phương<br />
pháp đề xuất theo cả hai khả năng phân loại đúng những xuất hiện 1 1 1 0<br />
mã độc đã biết và nhận biết nhưng mã độc mới sử dụng →Vector đặc trưng cho mẫu báo cáo x là:<br />
cùng độ đo F1micro (tổng hợp của hai thông số phổ biến là<br />
độ chính xác và độ hồi tưởng). Kết quả thực nghiệm cho x=(1, 1, 1, 0)<br />
thấy phương pháp của chúng tôi đạtF1microlà 98.1% đối Chuẩn hóa vector: Sau khi thu được vector đặc trưng<br />
với các mã độc đã biết và 98.8% đối với các mã độc mới, của mẫu báo cáo x, chúng ta chuẩn hóa vector để đưa nó<br />
đều cao hơn các độ đo tương ứng của phiên bản gốc của về vector có độ dài bằng 1 bằng cách chia cho độ dài<br />
phương pháp thứ nhất. Euclid của vector đó:<br />
<br />
II. CÁC CÔNG TRÌNH LIÊN QUAN<br />
<br />
A. Phương pháp dựa trên điểm mẫu<br />
Theo phương pháp dựa trên điểm mẫu [1], đầu tiên Sau bước 2, ta thu được các vector đặc trưng cho mỗi<br />
mẫu mã độc cần phân loại được đưa vào sandbox (một mã độc.<br />
môi trường thực thi giả lập) để thu thập các hành vi.<br />
Thông tin của hành vi mã độc được nhúng vào không gian 3) Giai đoạn 3: Phân loại sử dụng điểm mẫu<br />
vector đặc trưng sau đó được đưa vào thành phần phân<br />
loại sử dụng điểm mẫu. Nếu phân loại thành công thì mã • Đầu vào: Vector đặc trưng đại diện cho mã độc<br />
độc sẽ được gán nhãn về một họ mã độc đã biết, nếu • Đầu ra: Nhãn lớp dự đoán cho mã độc<br />
không nó sẽ được đưa vào tập mã độc chưa biết để làm Sau bước 2, vector đặc trưng cho mã độc được đưa<br />
đầu vào cho giai đoạn trích rút điểm mẫu để tìm ra điểm vào mô hình phân lớp để dự đoán nhãn lớp cho mã độc<br />
mẫu đại diện cho các mã độc. Thành phần phân cụm sử đó. Thuật toán được sử dụng để phân lớp là 1NN và một<br />
dụng các điểm mẫu thu được để phân cụm các điểm mẫu. ngưỡng dr để loại ra những mẫu mã độc mới. Khi một<br />
Tập điểm mẫu của các cụm còn được sử dụng cho quá điểm dữ liệu được đưa vào, chúng ta sẽ xem khoảng cách<br />
trình phân loại tiếp theo. Quy trình tổng thể của phương của nó tới các điểm mẫu. Nếu khoảng cách của nó đến<br />
pháp được mô tả trong Hình 1. điểm mẫu gần nhất nhỏ hơn ngưỡng dr thì điểm dữ liệu<br />
Cụ thể, ta có quy trình như sau: mới đó sẽ được phân vào lớp của điểm mẫu gần nó nhất<br />
và đưa ra báo cáo lớp dự đoán được, ngược lại sẽ đưa nó<br />
1) Giai đoạn 1: Chạy mã độc trong môi trường sandbox vào tập mã độc chưa biết và đưa vào giai đoạn trích rút<br />
• Đầu vào: File thực thi mã độc điểm mẫu. Tại thời điểm đầu tiên, chưa có điểm mẫu nào<br />
• Đầu ra:Chuỗi các lời gọi hệ thống nên giai đoạn này không được thực hiện.<br />
<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63<br />
Nguyễn Thị Thu Tra<br />
ang, Nguyễ<br />
ễn Đại Thọ, Vũ Duy Lợii<br />
<br />
<br />
4) Giai đoạnn 4: Trích rút điểm mẫu<br />
• Đầu vào:: Tập các mã độc<br />
đ chưa biết nhãn lớp<br />
• Đầu ra: Tập<br />
T các điểm mẫu đại diện cho các mã độộc<br />
Rieck và<br />
v các cộng sự ự sử dụng giải thuật được đềề xuất<br />
bởi Gonzalezz trong công trình [9] để trícht rút các điểm<br />
mẫu từ tập cáác mã độc chư ưa biết nhãn lớ<br />
ớp.Bằng cách tham<br />
chiếu khoảngg cách tới điểểm mẫu gần nó nhất, ta tììm ra<br />
được các điểểm mẫu đại diiện cho các mã m độc đó. Phư ương<br />
pháp dựa trêên ý tưởng mã m độc có khooảng các càngg gần<br />
nhau thì khả năng thuộc mộtm cùng họ cààng cao. Do chúng<br />
tôi tập trung vào cải tiến giải<br />
g thuật tríchh rút điểm mẫuu nên<br />
chúng tôi trìnnh bày giải thuuật này ở Hìnhh2và giải thíchh bên<br />
dưới.<br />
<br />
5) Giai đoạnn 5: Phân cụm<br />
m sử dụng điểm<br />
m mẫu<br />
• Đầu vào:: Tập các điểm<br />
m mẫu đại diệnn cho các mã độc<br />
• Đầu ra: Tập<br />
T các cụm điểm<br />
đ mẫu<br />
Phân cụm v trên toàn bộ tập<br />
m trên các điểểm mẫu thay vì<br />
dữ liệu để goom nhóm các cụm thành một cụm lớn hơ ơn sử<br />
dụng phân cụụm phân cấp (hierarchical<br />
( c<br />
clustering) [8]. Kết<br />
quả được sử dụng trong quuá trình phân lớp<br />
l tiếp theo.<br />
Giải thích giải thuật trích rút điểm mẫum của Gonzzalez<br />
[9]:<br />
Bước 1: Khởi<br />
K tạo tập prototypes<br />
p = Ø,<br />
Ø biến protottypes<br />
lưu các điểmm mẫu và mảnng distance lư ưu khoảng cácch có Hìình 1. Giải thuật trích rút đi<br />
điểm mẫu của Gonzalez<br />
giá trị bằng ∞ lưu lại khooảng cách củaa điểm dữ liệuu đến<br />
điểm mẫu gầần nó nhất. Nhận<br />
N xét phư<br />
ương pháp: P Phương pháp phân loại dựaa<br />
Bước 2: Kiểm tra khooảng cách lớnn nhất có lớnn hơn trên điểm mẫu [1] là phươngg pháp phân loại l mở, giúpp<br />
ngưỡng dp khhông và lặp đếến khi điều kiiện đó không được chúnng ta có thể phân<br />
p loại và pphát hiện ra nh<br />
hững mẫu mãã<br />
thỏa mãn thìì kết thúc. Tạii vòng lặp đầuu tiên, các khhoảng độc mới. Bên cạạnh đó phươnng pháp này sử s dụng điểm m<br />
cách là ∞ nêên ta chọn nggẫu nhiên mộtt điểm z làm điểm mẫuu (tương tự nhhư nén dữ liệuu) làm giảm dữ ữ liệu phải xử<br />
ử<br />
mẫu. Với cáác vòng lặp tiếp theo ta chhọn điểm mẫuu z là lý nên<br />
n giảm thời gian phân loại. Phương ph háp này cũngg<br />
điểm dữ liệu có khoảng cáách lớn nhất. có tíính năng học tăng cường ccho phép cập nhật mô hìnhh<br />
Bước 3: Với các điểm m dữ liệu khhác điểm mẫuu lưu phânn loại khi có thêm dữ liệuu mới mà khô ông cần huấnn<br />
trong biến prototypes,<br />
p tínnh khoảng cáách của tất cảả các luyệện lại. Nhược điểm của nó làcác điểm mẫu m được tríchh<br />
điểm dữ liệuu đó so với điểm đ mẫu mới được tìm. Nếu rút trên<br />
t toàn bộ tậập dữ liệu có thể dẫn đến những<br />
n dữ liệuu<br />
khoảng cách vừa tính đượcc nhỏ hơn khooảng cách với điểm khônng cùng một họ h mã độc có thể thuộc chu ung một cụm,,<br />
mẫu trước đóó, chúng ta cậpp nhật lại khoảng cách của điểm hoặcc điểm mẫu chưa<br />
c chắc đã ccùng lớp với đại đa số cácc<br />
dữ liệu đó và<br />
v thêm z vào tập các protootypes và quaay lại điểm<br />
m dữ liệu trongg cụm nhưng lại được dùng g làm đại diệnn<br />
bước 2. Sau mỗi lần lặp chúng<br />
c ta sẽ thhu được một điểm cho cụm đó, điều đó là không nnên.<br />
mẫu đại diệnn cho một cụm m dữ liệu.<br />
<br />
<br />
<br />
<br />
Hình 2. Quy trình của phương pháp<br />
p sử dụng<br />
g điểm mẫu<br />
<br />
Từ<br />
T tất cả các mẫu<br />
m mã độc ttrong một họ, phương phápp<br />
B. Cáác phương pháp dựa trên điểm<br />
đ đặc trưngg tổng<br />
t hợp và tíính ra một vecctor đặc trưng<br />
g đại diện choo<br />
a, Phương<br />
P pháp Dendroid họ<br />
h đó thay vì từng vector đđặc trưng đại diện cho mỗii<br />
mẫu<br />
m mã độc (ví ( dụ có 6 họọ mã độc sẽ có ó 6 vector đặcc<br />
Phhương pháp dựa<br />
d trên điểm m đặc trưng Dendroid<br />
D trưng).<br />
t Vectorr đặc trưng nnày có thể là một điểm ảoo<br />
[2] làà một phươngg pháp dựa trêên kỹ thuật khai<br />
k thác hoặc<br />
h có thể trùùng với điểm thật, nó đượcc tính dựa trênn<br />
văn bản và truy xuuất thông tin trrên nền tảng Android.<br />
A<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64<br />
PHÂN<br />
N LOẠI MÃ ĐỘ<br />
ỘC DỰA TRÊN CÁC KỸ TH<br />
HUẬT N-GRAM<br />
M VÀ HỌC MÁ<br />
ÁY<br />
<br />
tiếp cận khai thác văn<br />
v bản. Sau đóđ sử dụng veector đặc đoán<br />
đ thuộc họọ đó. Quy trìnnh phương phháp được trìnhh<br />
trưng đại diện cho họ để phân looại. Điểm dữ liệu mới bày<br />
b trong Hìnhh 3 và được diiễn giải như saau:<br />
gần với<br />
v vector đặc trưng của họọ nào nhất sẽ được dự<br />
<br />
<br />
<br />
<br />
Hình 3. Quy trính phươn<br />
ng pháp sử dụ<br />
ụng điểm đặc trưng - Dendrroid<br />
<br />
1) Giai đoạnn mô hình hóaa o Cấu trúc<br />
t mã lệnh ccủa mã độc cầần phân loại<br />
Bước 1: Trích<br />
T rút các cấu<br />
c trúc mã lệnh o Tập cácc cấu trúc m<br />
mã lệnh của cáác họ<br />
• Đầu ra: Vector<br />
V đặc trưưng cho mẫu u mã độc cầnn<br />
• Đầu vào:<br />
v Tập các mẫu mã độc huấn luyện (được phân loại<br />
gán nhhãn theo họ)<br />
• Đầu ra:<br />
r Tập các cấu c trúc mã lệnh theo từngg mã Sử dụng độ đoo tf-idf trong khai phá văn n bản và truyy<br />
độc xuấtt thông tin để tạo ra vector đđặc trưng cho mẫu mã độc.<br />
Đầu tiênn tất cả mẫu dữ<br />
d liệu huấn luyện<br />
l của họ phần Bước<br />
B 3: Phân loại<br />
mềm độc hạii được đưa vàoo giai đoạn tríích rút các cấuu trúc • Đầu vào:<br />
mã lệnh. Troong bước này phương<br />
p pháp trích<br />
t rút ra cácc cấu o Vectorr đặc trưng chho mẫu mã độcđ cần phânn<br />
trúc mã lệnh của từng mẫuu mã độc. loại<br />
Bước 2: Mô<br />
M hình hóa và v trích rút đặặc trưng o Các veector đặc trưnng đại diện ch<br />
ho các họ mãã<br />
độc<br />
• Đầu vào:<br />
v Tập các cấu trúc mã lệnhl theo từngg mã • Đầu ra:Nhhãn lớp dự đoáán được<br />
độc<br />
• Đầu ra:<br />
r Các vectorr đặc trưng đạại diện cho cáác họ Trong<br />
T bước nàày sử dụng thhuật toán 1-NN<br />
N để dự đoánn<br />
mã độộc (không phảải cho từng mã m độc) và tậpp cấu nhãn<br />
n lớp của mẫuu mã độc mới.<br />
trúc mã<br />
m lệnhcủa cácc họ.<br />
b,, Phương phááp được đề xuuất bởi P. Shrrestha và cácc<br />
Trong giaai đoạn này, từ<br />
t các mẫu mãã độc đơn lẻ thuộc<br />
t<br />
cộng<br />
g sự[3]<br />
cùng một họọ, chúng ta tổnng hợpcác cấuu trúc mã lệnnhcủa<br />
cả họ để tínhh vector đặc trrưng cho họ đó.<br />
đ Các thành phần Phương pháp nàyn cũng sử ddụng điểm đặcc trưng để đạii<br />
của vector đặặc trưng đượcc tính theo cônng thức tf-idf trong<br />
t n cho các họ, mỗi<br />
diện m họ mã độộc sẽ được đạii diện bởi mộtt<br />
khai phá vănn bản và truy xuất thông tinn áp dụng vớ ới các vecttor đặc trưng giống<br />
g như phư<br />
ương pháp Deendroid.<br />
cấu trúc mã lệnh.<br />
l<br />
1) Giai<br />
G đoạn xâyy dựng điểm m<br />
mẫu<br />
2) Giai đoạnn phân tích<br />
• Đầu vào:T<br />
Tập các mẫu m<br />
mã độc huấn luyện<br />
l<br />
• Đầu vào:Các<br />
v vectoor đặc trưng chho các họ mã độc<br />
đ • Đầu ra: Các<br />
C vector đặặc trưng đại diện<br />
d cho từngg<br />
• Đầu ra:Cây<br />
r phân cấp của các họọ mã độc họ mã độc<br />
Trong giiai đoạn này sử dụng thuậật toán phân cụm Cũng<br />
C tương tự ự như phươngg pháp Dendrroid, chúng taa<br />
phân cấp và phân tích liênn kết để tìm raa mối quan hệ giữa gộp tất cả những file mã độc thhuộc cùng mộ ột họ, trích rútt<br />
các họ mã độộc. ra các<br />
c chuỗi có thể t in được ((printable strin ng) trong cácc<br />
3) Giai đoạnn phân loại file mã độc của cả c họ, sau đó ttính trọng số của<br />
c các chuỗii<br />
bằng g giá trị tf-idff và xây dựngg vector đặc trưng<br />
t đại diệnn<br />
Bước 1: Trích rút các cấu trúc mã lệnh (giống trong<br />
t<br />
cho họ với mỗi chiềuc là giá trị trọng số củaa chuỗi tươngg<br />
giai đoạn môô hình hóa) nhhưng đầu vào chỉ là một mãã độc<br />
tứngg. Trong phươ ơng pháp này, người ta xây dựng hai loạii<br />
cần phân loại<br />
điểmm đặc trưng. Điểm<br />
Đ đặc trưnng thứ nhất đưược tập hợp từừ<br />
Bước 2: Trích<br />
T rút đặc trưng<br />
t tất cả<br />
c các chuỗi có c thể có, điểểm đặc trưng thứ hai đượcc<br />
• Đầu vào:<br />
v xây dựng từ nhữnng chuỗi nổi bbật trong từng họ mã độc (kk<br />
<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 65<br />
Nguyễn Thị Thu Tra<br />
ang, Nguyễ<br />
ễn Đại Thọ, Vũ Duy Lợii<br />
<br />
<br />
chuỗi có trọnng số cao nhấất), các chuỗii nổi bật trongg các Sau<br />
S đây là hìnnh minh họa điểm mẫu, điiểm đặc trưngg<br />
họ mã độc khhác nhau có thhể khác nhau. của các phương pháp<br />
p để phân bbiệt được sự khác<br />
k nhau củaa<br />
các phương<br />
p pháp dựa trên điểmm mẫu [1], các phương phápp<br />
2) Giai đoạn<br />
n phân loại dựa trên điểm đặcc trưng Dendrooid [2], phươnng pháp [3] vàà<br />
• Đầu vào:<br />
v Mã độc cần<br />
c phân loại phươơng pháp cải tiến.<br />
t<br />
• Đầu rra: Nhãn lớp dự đoán đượcc của mã độc đó<br />
đ C thích: Δ: lớp 1,O: lớp 22, ☐: lớp 3<br />
Chú<br />
Đầu tiên, người<br />
n ta tính danh sách tf-iidf của từng chuỗi<br />
c<br />
Các điểm được tôô đậm là nhữnng điểm mẫu hoặch điểm đặcc<br />
có thể in đượ<br />
ợc trong mẫu mã<br />
m độc cần phhân loại.<br />
ng của các lớp trong tập dữ lliệu huấn luyệện.<br />
trưn<br />
Với mỗi chuuỗi xuất hiện trong điểm đặc trưng, chúnng ta<br />
chọn các giáá trị tf-idf củaa chuỗi trong danh sách trêên để<br />
tạo ra một vector<br />
v đặc trưưng đại diện cho mã độc chưa<br />
biết. Nếu mộột chuỗi có troong điểm mẫuu nhưng khônng có<br />
trong mã độcc cần phân loại thì giá trị của<br />
c chiều đó trong<br />
t<br />
vector đặc trrưng tương ứnng bằng 0. Mỗỗi điểm đặc trrưng,<br />
chúng ta sẽ tìm<br />
t được mộtt vector khác nhau đại diệnn cho<br />
mã độc chưaa biết. Cuối cùùng, tính độ tưương tự cosin giữa<br />
vector đó vớ ới vector đặc trưng. Mã độộc được phânn vào<br />
lớp của điểm<br />
m đặc trưng màà nó có độ tươ ơng tự cao nhấất.<br />
Nhận xétt các phươn ng pháp dựaa trên điểm đặc<br />
trưng: Denddroid [2] và phương phápp đề xuất bở ởi P.<br />
Shrestha và các cộng sự ự[3] đưa ra phhương pháp huấn Hìình 4. Minh họ<br />
ọa điểm mẫu ccủa phương ph<br />
háp trích rút<br />
luyện khá khhác biệt so vớ ới thông thườờng. Xây dựngg mô điểm<br />
m mẫu [1]<br />
hình từ tất cảả các điểm dữ ữ liệu huấn luuyện cùng mộột lúc<br />
(xử lý theo lôô) thay vì huấnn luyện dần dần<br />
d với mỗi dữ ữ liệu Hình<br />
h 4 mô tả trườ<br />
ờng hợp có thhể xảy ra là điiểm thuộc lớpp<br />
tại một thờii điểm (xử lý l theo luồngg). Ưu điểm m của Δ có<br />
ó thể bị phân vào nhóm cóó điểm mẫu làà lớp O, hoặcc<br />
phương phápp này là vectoor đặc trưng được đ xây dựnng từ điểm<br />
m thuộc lớp Δ là đại diện chho nhiều điểm thuộc lớp O.<br />
tất cả các tậpp dữ liệu tronng một họ vì vậy<br />
v nó có tínhh đại<br />
diện riêng chho họ đó. Và mỗim vector đạại diện cho mộột họ<br />
mã độc thayy vì đại diện cho một mã độc như phư ương<br />
pháp thông thường<br />
t giúp giảm<br />
g thời giaan xử lý trongg quá<br />
trình phân looại. Nhược điiểm của phươnng pháp này là l chỉ<br />
sử dụng duy nhất một điểm m để đại diệnn cho tất cả dữ<br />
ữ liệu<br />
của một họ khik đó sẽ bị mất m mát nhiềuu thông tin cóó thể<br />
làm cho quá trình phân loạại không đượcc chính xác.<br />
<br />
III. ĐỀ XUẤ ẤT PHƯƠNG G PHÁP TRÍC CH RÚT ĐIỂM M<br />
MẪU CẢ ẢI TIẾN<br />
Với phươơng pháp phânn loại dựa trên điểm mẫu [1]], các<br />
điểm mẫu đư ược trích rút ra trên toàn bộộ tập dữ liệu thhì có<br />
thể có nhữngg sai sót vì khik đó có nhữ ững dữ liệu không<br />
k Hình<br />
H 5. Minh họa<br />
h điểm đặc trưng của phư ương pháp<br />
cùng một họ có thể thuộc chung<br />
c một cụụm, hoặc điểm m mẫu Denddroid và phươn<br />
ơng pháp đề xuuất bởi P.<br />
chưa chắc đã đ cùng lớp với v đại đa số các điểm dữ ữ liệu Shrestha vàà các cộng sự[<br />
ự[3]<br />
trong nhóm nhưng<br />
n lại đượ<br />
ợc dùng làm đạiđ diện cho nhóm<br />
n<br />
đó. Trong khhi đó, ý tưởng của phương pháp p phân loại dựa C thích: ✸ là điểm đặc trrưng cho 1 lớp<br />
Chú p.<br />
trên điểm đặc trưng là lấyy ra điểm đặc trưng trong tậập dữ Từ<br />
T Hình 5, một<br />
m điểm đặc trưng được tổng t hợp mộtt<br />
liệu thuộc cùùng một lớp. Vì V vậy, chúngg tôi muốn theeo tư điểm<br />
m đặc trưng được<br />
đ tổng hợpp từ tất cả các điểm dữ liệuu<br />
tưởng của phhương pháp Dendroid<br />
D [2] vàà phương phááp [3] tron<br />
ng một lớp. Điiểm đặc trưngg đó có thể làà một điểm đãã<br />
áp dụng và cảic tiến phươnng pháp dựa trên t điểm mẫuu [1]. tồn tại<br />
t hoặc một điểm<br />
đ ảo khôngg tồn tại trong<br />
g các điểm dữ<br />
ữ<br />
Chúng tôi muốn<br />
m lấy ra nhhững điểm mẫu từ những điểm liệu đã biết. Và một<br />
m lớp chỉ ccó một điểm đặc trưng đạii<br />
trong cùng một<br />
m họ mã độcc. Khi đó mộtt điểm mẫu chhỉ đại n cho nó.<br />
diện<br />
diện cho mộtt họ mà nó thhuộc vào, khônng đại diện chho họ<br />
khác. Từ đó sẽ khắc phụcc được nhược điểm của phư ương<br />
pháp dựa trêên điểm mẫu [1] nói trên. Ngoài ra sauu quá<br />
trình trích rúút chúng ta sẽẽ thu được mộột hay nhiều điểm<br />
mẫu để đại diện cho mộtt họ mã độc, khác với phư ương<br />
pháp Dendrooid [2] và phhương pháp được đ đề xuấtt bởi<br />
P.Shrestha [33] là với mỗi họ chỉ trích rútr được một điểm<br />
đại diện, giúpp giảm sự mấtt mát thông tinn.<br />
<br />
<br />
<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66<br />
PHÂN LOẠI MÃ ĐỘC DỰA<br />
A TRÊN CÁC KỸ THUẬT N-GRAM<br />
N VÀ HỌC<br />
H MÁY<br />
<br />
thêmm cải tiến tronng giai đoạn hhuấn luyện để thu được quyy<br />
trình<br />
h cải tiến đượcc trình bày troong Hình 7.<br />
Quy<br />
Q trình gồm m 2 giai đoạn là giai đoạn huấn<br />
h luyện vàà<br />
giai đoạn dự đoánn.<br />
Trong<br />
T giai đooạn huấn luyệện:<br />
• Giữ nguyêên giải thuật phhân loại sử dụ<br />
ụng điểm mẫu<br />
• Thay đổi giải<br />
g thuật tríchh rút điểm mẫẫu có áp dụngg<br />
ý tưởng củủa phương pháp sử dụng điiểm đặc trưngg<br />
– Dendroiid [2]. Chúngg tôi sẽ trích rút các điểmm<br />
mẫu trên tậập dữ liệu củaa mỗi họ mã độc<br />
đ riêng biệt..<br />
Một họ mã m độc chỉ đư ược đại diện bởi một hayy<br />
nhiều điểmm dữ liệu thuộộc họ mã độc đó. Giải thuậtt<br />
được trìnhh bày trong sơ<br />
ơ đồ khối ở Hìình 8 và đượcc<br />
Hình 6. Min<br />
nh họa điểm mẫu<br />
m của phươ<br />
ơng pháp cải tiến<br />
ti<br />
giải thích bên<br />
b dưới.<br />
Hình 6 chho thấy tất cả các điểm mẫẫu đại diện củaa các • Không sử ử dụng giải thhuật phân cụ ụm trong giaii<br />
lớp ☐ là điểểm dữ liệu thuuộc lớp ☐. Các<br />
C điểm mẫuu của đoạn huấn luyện.<br />
lớp O là điểm m dữ liệu thuuộc lớp O vàccác điểm mẫuu của Trong<br />
T giai đooạn dự đoán:<br />
lớp Δ là điểmm dữ liệu thuộộc lớp Δ. Mặc dù có một điểểm Δ<br />
một mình, nóó tự đại diện cho<br />
c chính nó, không bị các điểm • Giữ nguyêên giải thuật trích rút điểm m mẫu tạo raa<br />
dữ liệu của lớp<br />
l khác đại diện<br />
d nhầm. Vì<br />
V vậy trích rúút đặc điểm mẫu trên tập dữ liiệu chưa phân n loại được đểể<br />
trưng trong phương<br />
p pháp cải tiến luôn đạt trường hợợp tốt tìm ra các cụm mã độc m mới.<br />
nhất, tất cả các<br />
c điểm trongg cụm được đặcđ trưng bởi điểm • Sử dụng giải<br />
g thuật phâân cụm sử dụ ụng các điểm m<br />
mẫu thuộc chhính lớp đó. mẫuđược trích<br />
t rút ở trênn trong quá trrình phân tíchh<br />
gia tăng<br />
Từ tư tưởởng trên, cải tiến của chúnng tôi sẽ can thiệp • Giải thuậtt phân cụm cchỉ áp dụng trênt các điểm<br />
m<br />
vào giai đoạạn trích rút điểm<br />
đ mẫu tronng quá trình huấn mẫu được xây dựng từ ddữ liệu chưa phân<br />
p loại đượcc<br />
luyện, còn quá<br />
q trình dự đoán vẫn đượ ợc thực hiện theo vào các lớớp đã biết, khhông áp dụng phân cụm sử ử<br />
phương thứ ức truyền thốống sử dụngg độ đo khhoảng dụng điểmm mẫu cho cáác điểm mẫu của tập huấnn<br />
cách.Chúng tôi dựa trên quy trình tổnng quát chungg của luyện do các<br />
c điểm mẫuu này đã thuộcc đúng các họọ<br />
phương phápp phân loại dựa<br />
d trên điểm m mẫu và bổ xung mã độc, khhông cần phânn cụm nữa.<br />
<br />
<br />
<br />
<br />
Hình 7. Quy trìn<br />
nh cải tiến<br />
<br />
<br />
<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67<br />
Nguyễn Thị Thu Tra<br />
ang, Nguyễ<br />
ễn Đại Thọ, Vũ Duy Lợii<br />
<br />
<br />
IV. THỰC<br />
T NGHIIỆM VÀ ĐÁN<br />
NH GIÁ<br />
<br />
A. Chuẩn<br />
C bị dữ liệu<br />
l<br />
Chúng<br />
C tôi sử dụng bộ dữ liệu referencce dataset củaa<br />
phươ ơng pháp dựaa trên điểm m mẫu [1] cho công trình củaa<br />
mình h. Tập dữ liệuu này gồm toàn mã độc tríích xuất từ cơ<br />
ơ<br />
sở dữ<br />
d liệu lớn về v phần mềm m độc hại đượ ợc duy trì tạii<br />
CWWSandbox webbsite và được gán nhãn bở ởi 6 sản phẩm<br />
m<br />
Antiivirus khác nhhau và loại bỏỏ các lớp có ít hơn 20 mẫuu<br />
và lấấy trên một lớ<br />
ớp tối đa 300 m<br />
mẫu thực thi nhị<br />
n phân. Phầnn<br />
mã nhị<br />
n phân đượcc thực thi và ggiám sát bằng g CWSandboxx<br />
thu được 3133 mẫu m báo cáo hành vi thỏa mãn chuẩnn<br />
MISST với 24 mẫẫu mã độc vàà 85 lời gọi hệ thống. Vìì<br />
phươ ơng pháp củaa chúng tôi vàà phương phááp [1] đều tậpp<br />
trun<br />
ng vào phân looại mã độc thhay vì phát hiiện nên bộ dữữ<br />
liệu được sử dụngg chỉ chứa nhữ ững mẫu mã độc,<br />
đ không cóó<br />
mã sạch.<br />
s<br />
<br />
<br />
<br />
<br />
Hìn<br />
nh 9. Mô tả ttập dữ liệu<br />
<br />
<br />
B. Trích<br />
T rút đặc trưng<br />
Trên<br />
T tập dữ liệu,<br />
l chúng tôôi thực hiện trích<br />
t xuất cácc<br />
chuỗỗi lời gọi hệ thống<br />
t theo chhuẩn MIST leever 1 (chỉ cóó<br />
tên của các lời gọọi hệ thống, kkhông có thôn ng tin đối số))<br />
và thu<br />
t được có 85 8 lời gọi hệ thống khác nhau trong tậpp<br />
dữ liệu.<br />
l Sau khi thu được cáác chuỗi lời gọi g hệ thống,,<br />
Hình 8. Giiải thuật đề xu<br />
uất<br />
chúnng tôi tiến hànnh trích xuất vector theo 2-gram<br />
2 các lờii<br />
Giải th<br />
hích giải thuậtt đề xuất: gọi hệ thống (2 lờ ời gọi hệ thốnng liên tiếp tro<br />
ong báo cáo)..<br />
Sau khi thực nghiiệm, chúng tôôi thấy kết quảả trên trích rútt<br />
Bước 1:: Khởi tạo tậpp prototypes = Ø, mảng disttance<br />
đặc trưng dựa trên sự xuất hiệnn của các lời gọi hệ thốngss<br />
có giá trị bằng<br />
b ∞ để lưuu khoảng cáchh của các điểmm dữ<br />
đạt hiệu<br />
h quả cao hơn trích rút đđặc trưng dựaa trên tần suấtt<br />
liệu trong cùng một họọ đến điểm mẫu m gần nó nhhất ở<br />
xuấtt hiện của cácc lời gọi hệ thốống. Do đó, chúng<br />
c tôi tríchh<br />
thời điểm hiện tại.<br />
rút đặc<br />
đ trưng dựaa trên sự xuất hhiện hay khôn ng của các lờii<br />
Bước 2:((cải tiến). gọi hệ<br />
h thống. Trong tập dữ liệuu có 85 các lờii gọi hệ thốngg<br />
khácc nhau nên khhông gian củaa 1 vector là 85*85.<br />
8 Nhưngg<br />
• Bướ<br />
ớc 2.1: Chọn tất cả các vecctor đặc trưngg của vì có<br />
c nhiều chiềuu bằng 0 nênn có thể khai thác để tríchh<br />
mộtt lớp để tiến hành<br />
h trích rút điểm mẫu trêên họ xuấtt đặc trưng vàà so sánh các vvector trong th<br />
hời gian tuyếnn<br />
mã độc<br />
đ đó tính. Thảo luận chi tiết của phhương pháp th hời gian tuyếnn<br />
• Bướ ớc 2.2: Kiểm tra khoảng cáách lớn nhất trong<br />
t tính cho trích xuấất đặc trưng đư ược cung cấp p bởi Rieck vàà<br />
mảnng distance cóc nhỏ hơn dp hay không,, nếu Laskkov [10].<br />
khônng nghĩa là tấất cả các điểm<br />
m trong họ mãã độc<br />
đã được<br />
đ một điểm<br />
m mẫu đại diệện cho chúng thì<br />
t ta C. Đánh<br />
Đ giá và so<br />
s sánh<br />
tiến hành thực hiệện bước 2 vớii các họ mã độộ còn Chúng<br />
C tôi đánnh giá giai đoạn phân loại sử dụng điểm m<br />
lại, nếu<br />
n có ta tiến hành tìm điểmm mẫu mới. mẫuu được trích rúút theo phươnng pháp cải tiiến của chúngg<br />
Bước 3: Chọn<br />
C điểm cóó khoảng cáchh lớn nhất đếnn các tôi mà<br />
m không đánnh giá các giaai đoạn trích rútr điểm mẫuu<br />
điểm mẫu tìm m được trướcc đó làm điểm m mẫu tiếp theeo và và phân<br />
p cụm như ư trong bài báoo [1] vì với giai<br />
g đoạn tríchh<br />
thêm nó vàoo tập prototypes. Sau đó cậập nhật lại khhoảng rút điểm<br />
đ mẫu, theeo phương phháp cải tiến thhì độ đo chínhh<br />
cách của cácc điểm dữ liệuu trong họ đó với điểm mẫuu gần xác (precision) củủa các cụm luuôn đạt giá trịị tốt nhất là 1<br />
nhất. Lặp lại bước 2.2 đến khi điều kiện không thỏa mãn.<br />
m<br />
<br />
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68<br />
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY<br />
<br />
do chúng tôi trích rút điểm mẫu từ dữ liệu trong cùng một hơn so với những mẫu mã độc đã biết nên chúng tôi đã<br />
cụm thay vì trên toàn bộ tập dữ liệu. chia như trên. Những thể hiện của 6 lớp để đánh giá khả<br />
năng nhận biết lớp mới chỉ được dùng để đánh giá không<br />
Do sử dụng bộ dữ liệu của phương pháp dựa trên được cho vào giai đoạn huấn luyện. Còn tập 18 lớp chúng<br />
điểm mẫu [1] nên chúng tôi sử dụng ngưỡng dp(được tôi sẽ chia tiếp theo tỷ lệ 70 :30 với 70% dùng để huấn<br />
trình bày trong giải thuật trích rút điểm mẫu ở Hình 2) luyện và 30% là dùng để đánh giá khả năng phân lớp.<br />
bằng 0.65 (là ngưỡng tốt nhất để chọn ra các điểm mẫu Chúng tôi thực hiện 10 lần và lấy kết quả trung bình với<br />
đã được thực nghiệm và nêu ra trong bài báo [1]) để trích cả phương pháp cải tiến và phương pháp [1].<br />
rút ra các điểm mẫu trong một lớp trong phương pháp cải<br />
tiến của chúng tôi. Kết quả của phương pháp dựa trên điểm mẫu [1] :<br />
Bảng II. Kết quả phương pháp dựa trên điểm mẫu [1]<br />
Sau đó, chúng tôi tiến hành phân loại và đánh giá trên<br />
khả năng phân loại những lớp đã biết và khả năng nhận dr Fk Fu<br />
biết những lớp mới. 0.3 0.830 0.994<br />
Để đánh giá khả năng phân lớp, chúng tôi sử dụng độ 0.4 0.890 0.992<br />
đo phân lớp F1microlà độ đo tổng hợp từ hai độ đo là độ đo 0.5 0.932 0.901<br />
chính xác P (precision) và độ hồi tưởng R (recall). 0.6 0.94 0.80<br />
0.7 0.943 0.716<br />
Định nghĩa các độ đo:<br />
• TPi: Số mẫu thuộc lớp i và được phân đúng vào Do mục tiêu của chúng tôi là chọn ngưỡng dr sao cho<br />
lớp i cả hai độ đo Fk, Fu đạt giá trị cao. Với dr= 0.7 thì độ đo<br />
• FPi: Số mẫu không thuộc lớp i nhưng bị phân sai Fu giảm mạnh trong khi Fk chỉ tăng được ít nên chúng tôi<br />
vào lớp i dừng thực nghiệm ở ngưỡng dr= 0.7. Từ bảng II, ta thấy<br />
• TNi: Số mẫu không thuộc lớp i và được phân giá trị dr để cả Fkvà Fu đều đạt giá trị cao là dr = 0.5, Fk =<br />
đúng không thuộc lớp i 0.932, Fu = 0.901.<br />
• FNi: Số mẫu thuộc lớp i nhưng bị phân sai vào<br />
lớp không phải i.<br />
Độ chính xác trung bình:<br />
<br />
(2)<br />
<br />
Độ hồi tưởng trung bình