intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phân loại mã độc dựa trên các kỹ thuật N-gram và học máy

Chia sẻ: Cho Gi An Do | Ngày: | Loại File: PDF | Số trang:10

54
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết nghiên cứu và cải tiến giải thuật trích rút điểm mẫu trong quy trình phân loại mở mã độc dựa trên điểm mẫu được đề xuất bởi Rieck và các cộng sự.

Chủ đề:
Lưu

Nội dung Text: Phân loại mã độc dựa trên các kỹ thuật N-gram và học máy

Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi<br /> <br /> <br /> <br /> PHÂN LOẠI Mà ĐỘC DỰA TRÊN CÁC<br /> KỸ THUẬT N-GRAM VÀ HỌC MÁY<br /> Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi<br /> Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội<br /> <br /> <br /> Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các<br /> của các hệ thống máy tính. Vì vậy phân loại mã độc để có phần mềm sử dụng kỹ thuật che giấu, mã hóa và đóng gói.<br /> những biện pháp đối phó thích hợp là một phần quan Phân tích động tiến hành thực thi các phần mềm độc<br /> trọng trong lĩnh vực an toàn thông tin. Trong bài báo này, hại trong môi trường sandbox được giám sát để thu thập<br /> chúng tôi cải tiến giải thuật trích rút điểm mẫu trong quy các hành vi của mã độc. Vì vậy sandbox cần phải an toàn.<br /> trình phân loại mở mã độc dựa trên điểm mẫu được đề Trong loại phân tích này, có thể thu thập được tất cả các<br /> xuất bởi Rieck và các công sự [1]. Chúng tôi áp dụng tư thuộc tính của hành vi, chẳng hạn như các tệp tin đc được<br /> tưởng của hai phương pháp phân loại dựa trên điểm đặc mở, tạo mutexes, các hàm chính xác được gọi, các đối số<br /> trưng là Dendroid [2] và phương pháp được đề xuất bởi của hàm. Ưu điểm của phân tích động là nó nhanh hơn<br /> P.Shrestha và các cộng sự [3], trích rút các điểm mẫu trên nhiều phân tích tĩnh. Nhược điểm của phân tích động,<br /> từng họ mã độc thay vì dựa trên toàn bộ các họ mã độc. chúng ta chỉ nhìn thấy một kịch bản có liên quan đến hiện<br /> Thực nghiệm cho thấy phương pháp của chúng tôi cho tại của hệ thốngvà không phải hành vi nào cũng được<br /> kết quả phân loại tốt với khả năng nhận biết mã độc là phân tích (ví dụ như virus chờ đến một thời điểm nào đó<br /> 0.981% và phát hiện mã độc mới là 0.988% cao hơn mới hoạt động).<br /> phiên bản gốc của phương pháp dựa trên điểm mẫu [1].1 Theo [6], phân tích tự động mã độc hướng tới một<br /> Từ khóa: Phân loại mã độc, n-gram, điểm mẫu. trong ba mục tiêu là phát hiện, phân tích độ tương tự và<br /> phân loại.Chúng tôi chú tâm nghiên cứu đến vấn đề phân<br /> I. GIỚI THIỆU loại mã độc. Trong nghiên cứu, người ta thường sử dụng<br /> Phần mềm độc hại (hay mã độc) là một chương trình các phương pháp học máy có giám sát để giải quyết bài<br /> được chèn vào hệ thống, thường là cố tình, với mục đích toán phân loại một cách tự động. Theo [7] có hai cách tiếp<br /> xâm phạm tính bảo mật, toàn vẹn, hoặc tính khả dụng của cận nổi bật là dựa trên mô hình (model-based learning) và<br /> dữ liệu, ứng dụng, hệ điều hành của nạn nhân hoặc gây dựa trên thể hiện (instance-based learning). Với học máy<br /> phiền nhiễu, làm gián đoạn nạn nhân [4]. Phần mềm độc dựa trên mô hình (SVM, cây quyết định, Naive Bayes<br /> hại có nhiều loại như virus, Trojan, worm, phần mềm gián v.v.), các giải thuật này sẽ tạo ra mô hình khái quát hoá dữ<br /> điệp, rootkit, v.v. Cùng với sự phát triển nhanh chóng của liệu huấn luyện vì vậy không thích hợp với các bài toán có<br /> Internet, phần mềm độc hại cũng đang ngày một gia tăng. dữ liệu phức tạp. Mặt khác, các phương pháp học máy<br /> Theo thống kê của Kaspersky, 21.643.947 đối tượng phần dựa trên thể hiện (k-NN,..) không khái quát hoá dữ liệu<br /> mềm độc hại đã được phát hiện vào năm 2018 gấp hơn 5 mà sử dụng luôn dữ liệu để phân loại bằng cách so sánh<br /> lần so với năm 2015 [5]. Mặc dù có sự cải thiện đáng kể dữ liệu cần phân loại với dữ liệu huấn luyện, vì vậy có thể<br /> của các cơ chế an ninh, nhưng các phần mềm độc hại tối ưu hoá những trường hợp cụ thể và thích hợp hơn với<br /> đang ngày một tinh vi và có các cơ chế lẩn trốn nên chúng các bài toán phức tạp như phân loại. Với học máy dựa trên<br /> vẫn đang là một trong những mối đe dọa lớn nhất đối với thể hiện có thể sử dụng toàn bộ tập dữ liệu huấn luyện để<br /> các hệ thống máy tính. Vì vậy phát hiện và phân tích hành phân loại, nhưng nhược điểm là thời gian phân loại lâu. Vì<br /> vi của các phần mềm độc hại là một nhiệm vụ rất quan vậy người ta sử dụng một phương pháp khác của học máy<br /> trọng để làm giảm tối đa những thiệt hại do chúng gây ra.2 dựa trên thể hiện là phương pháp sử dụng các điểm mẫu<br /> để đại diện cho tập dữ liệu huấn luyện và phân loại dựa<br /> Phân tích mã độc đề cập đến quá trình xác định mục trên các điểm mẫu này thay vì sử dụng toàn bộ tập dữ liệu<br /> đích, hành vi, phương pháp tấn công và cách thức lan huấn luyện. Vì những lý do trên, chúng tôi chọn sử dụng<br /> truyền của chúng. Phân tích mã độc được chia làm hai loại phương pháp học máy dưạ trên thể hiện có sử dụng các<br /> là phân tích tĩnh và phân tích động. điểm mẫu để phân loại mã độc”<br /> Phân tích tĩnh hay còn được gọi là phân tích mã tĩnh Ba công trình nghiên cứu về phân loại mã độc sử dụng<br /> để cố gắng suy ra các hành vi của phần mềm, là quá trình điểm mẫu được chúng tôi quan tâm đến là: phương pháp<br /> phân tích phần mềm mà không cần thực thi mã hoặc là phân loại mở dựa trên điểm mẫu của Rieck cùng các<br /> chương trình. Các mẫu phát hiện có thể được trích xuất cộng sự [1],hai phương pháp dựa trên điểm đặc trưng là<br /> trong phân tích tĩnh như: các Lời gọi hệ thống, API, phương pháp Dendroid- áp dụng với các mã độc trên<br /> signature, biểu đồ điều khiển, opcode, bytecode, các file Android [2] và phương pháp được đề suất bởi P. Shrestha<br /> DLL được gọi...Ưu điểm phân tích tĩnh là an toàn và và các cộng sự[3]. Phương pháp thứ nhất sử dụng thông<br /> chúng ta có thể quan sát hết các phần của chương trình. tin về các n-gram của chuỗi các lời gọi hệ thống, đặc<br /> trưng là sự xuất hiện hay không của các n-gram và sử<br /> Tác giả liên hệ: Nguyễn Đại Thọ dụng điểm mẫu (prototype) để đại diện cho các cụm mã<br /> Email: nguyendaitho@vnu.edu.vn độc. Phương pháp này có ba thành phần chính là: trích rút<br /> Đến tòa soạn: 8/2019, chỉnh sửa 11/2019, chấp nhận đăng 12/2019<br /> điểm mẫu giúp tìm ra các điểm mẫu đại diện cho các cụm,<br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62<br /> PHÂN LOẠI Mà ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY<br /> <br /> phân cụm sử dụng điểm mẫu giúp gộp nhóm các cụm Đầu tiên mã độc được chạy trong môitrườngsandbox<br /> tương tự nhau thành một cụm lớn hơn, phân lớp sử dụng để giám sát các hành vi và thu thập các chuỗi lời gọi hệ<br /> điểm mẫu để dự báo nhãn lớp cho mã độc chưa biết và thống đặc trưng cho các hành vi của chúng.<br /> phát hiện ra những mẫu mã độc mới. Phương pháp thứ hai<br /> – Dendroid [2] là một phương pháp phân loại dựa trên 2) Giai đoạn 2: Nhúng các hành vi vào không gian<br /> điểm đặc trưng, áp dụng các kỹ thuật của lĩnh vực phân vector<br /> loại văn bản. Điểm đặc biệt của phương pháp này là sử • Đầu vào:Chuỗi các lời gọi hệ thống<br /> dụng một điểm đặc trưng được tạo ra từ các mã độc trong • Đầu ra: Vector đặc trưng đại diện cho mãđộc<br /> cùng một họ để đại diện cho toàn bộ họ đó. Kết quả của<br /> Chuỗi lời gọi hệ thống sau đó được nhúng vào không<br /> quá trình trích rút đặc trưng là một vector đại diện chung<br /> gian vector sử dụng n-gram. Mỗi thành phần của một<br /> cho một họ mã độc thay vì đại diện cho từng mã độc cụ<br /> vector đặc trưng thể hiện sự xuất hiện hay không của n-<br /> thể. Các điểm đặc trưng được dùng kết hợp với thuật toán<br /> gram tương ứng trong chuỗi lời gọi hệ thống.<br /> 1NN (One Nearest Neighbor) để phân loại mã độc. Mã<br /> độc mới được phân vào họ của điểm đặc trưng gần nó ƒ Giả sử tập S= {(x1,x2,x3,x4, ..., xn)| xi Є A với 1≤ i≤ n}<br /> nhất. Phương pháp này là phân loại đóng. Một điểm dữ là tập tất cả n-gram có thể có<br /> liệu khi được cho vào phân loại sẽ chắc chắn được phân ƒ A là tập tất cả các lời gọi hệ thống khác nhau.<br /> vào một lớp đã biết. Phương pháp thứ 3 cũng xây dựng<br /> các điểm đặc trưng từ các mã độc trong cùng một họ và Với mỗi báo cáo x, hành vi mã độc có thể nhúng vào<br /> mỗi họ mã độc được đại diện bởi một điểm điểm đặc một không gian vector có |S| chiều. Mỗi chiều sẽ tương<br /> trưng giống như phương pháp Dendroid. Sau đó mẫu mã ứng với một n-gram. Giá trị các chiều của vector được<br /> độc cần phân loại được tính độ tương tự với các điểm đặc tính như sau:<br /> trưng của các họ và được phân vào họ có độ tương tự lớn φ(x) = (φs(x))sЄS (1)<br /> nhất.<br /> Trong đó: φs(x) = 1 nếu mẫu báo cáo hành vi x chứa n-<br /> Chúng tôi vận dụng tư tưởng phương pháp thứ hai và gram s, ngược lại φs(x) = 0<br /> ba để cải tiến giải thuật trích rút điểm mẫu của phương<br /> pháp thứ nhất. Trong quá trình trích rút điểm mẫu, thay vì Ví dụ: A = {a1, a2}<br /> trích rút điểm mẫu dựa trên toàn bộ dữ liệu huấn luyện, → S= {a1a1, a1a2, a2a1, a2a2}<br /> chúng tôi sẽ trích rút điểm mẫu trên dữ liệu của từng họ.<br /> Khi đó một họ có thể có một hoặc nhiều điểm mẫu. Chúng Mẫu báo cáo x = a1a2a1a1a2<br /> tôi vẫn giữ quy trình tổng quát chung như phương pháp<br /> dựa trên điểm mẫu [1] để phân loại mở các mã độc, phân Bảng I. Sự xuất hiện của các 2-gram<br /> loại các mã độc đã biết và nhận biết được các mã độc có 2-gram a1a1 a1a2 a 2a 1 a2a2<br /> hành vi mới. Chúng tôi đánh giá hiệu quả của phương<br /> pháp đề xuất theo cả hai khả năng phân loại đúng những xuất hiện 1 1 1 0<br /> mã độc đã biết và nhận biết nhưng mã độc mới sử dụng →Vector đặc trưng cho mẫu báo cáo x là:<br /> cùng độ đo F1micro (tổng hợp của hai thông số phổ biến là<br /> độ chính xác và độ hồi tưởng). Kết quả thực nghiệm cho x=(1, 1, 1, 0)<br /> thấy phương pháp của chúng tôi đạtF1microlà 98.1% đối Chuẩn hóa vector: Sau khi thu được vector đặc trưng<br /> với các mã độc đã biết và 98.8% đối với các mã độc mới, của mẫu báo cáo x, chúng ta chuẩn hóa vector để đưa nó<br /> đều cao hơn các độ đo tương ứng của phiên bản gốc của về vector có độ dài bằng 1 bằng cách chia cho độ dài<br /> phương pháp thứ nhất. Euclid của vector đó:<br /> <br /> II. CÁC CÔNG TRÌNH LIÊN QUAN<br /> <br /> A. Phương pháp dựa trên điểm mẫu<br /> Theo phương pháp dựa trên điểm mẫu [1], đầu tiên Sau bước 2, ta thu được các vector đặc trưng cho mỗi<br /> mẫu mã độc cần phân loại được đưa vào sandbox (một mã độc.<br /> môi trường thực thi giả lập) để thu thập các hành vi.<br /> Thông tin của hành vi mã độc được nhúng vào không gian 3) Giai đoạn 3: Phân loại sử dụng điểm mẫu<br /> vector đặc trưng sau đó được đưa vào thành phần phân<br /> loại sử dụng điểm mẫu. Nếu phân loại thành công thì mã • Đầu vào: Vector đặc trưng đại diện cho mã độc<br /> độc sẽ được gán nhãn về một họ mã độc đã biết, nếu • Đầu ra: Nhãn lớp dự đoán cho mã độc<br /> không nó sẽ được đưa vào tập mã độc chưa biết để làm Sau bước 2, vector đặc trưng cho mã độc được đưa<br /> đầu vào cho giai đoạn trích rút điểm mẫu để tìm ra điểm vào mô hình phân lớp để dự đoán nhãn lớp cho mã độc<br /> mẫu đại diện cho các mã độc. Thành phần phân cụm sử đó. Thuật toán được sử dụng để phân lớp là 1NN và một<br /> dụng các điểm mẫu thu được để phân cụm các điểm mẫu. ngưỡng dr để loại ra những mẫu mã độc mới. Khi một<br /> Tập điểm mẫu của các cụm còn được sử dụng cho quá điểm dữ liệu được đưa vào, chúng ta sẽ xem khoảng cách<br /> trình phân loại tiếp theo. Quy trình tổng thể của phương của nó tới các điểm mẫu. Nếu khoảng cách của nó đến<br /> pháp được mô tả trong Hình 1. điểm mẫu gần nhất nhỏ hơn ngưỡng dr thì điểm dữ liệu<br /> Cụ thể, ta có quy trình như sau: mới đó sẽ được phân vào lớp của điểm mẫu gần nó nhất<br /> và đưa ra báo cáo lớp dự đoán được, ngược lại sẽ đưa nó<br /> 1) Giai đoạn 1: Chạy mã độc trong môi trường sandbox vào tập mã độc chưa biết và đưa vào giai đoạn trích rút<br /> • Đầu vào: File thực thi mã độc điểm mẫu. Tại thời điểm đầu tiên, chưa có điểm mẫu nào<br /> • Đầu ra:Chuỗi các lời gọi hệ thống nên giai đoạn này không được thực hiện.<br /> <br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63<br /> Nguyễn Thị Thu Tra<br /> ang, Nguyễ<br /> ễn Đại Thọ, Vũ Duy Lợii<br /> <br /> <br /> 4) Giai đoạnn 4: Trích rút điểm mẫu<br /> • Đầu vào:: Tập các mã độc<br /> đ chưa biết nhãn lớp<br /> • Đầu ra: Tập<br /> T các điểm mẫu đại diện cho các mã độộc<br /> Rieck và<br /> v các cộng sự ự sử dụng giải thuật được đềề xuất<br /> bởi Gonzalezz trong công trình [9] để trícht rút các điểm<br /> mẫu từ tập cáác mã độc chư ưa biết nhãn lớ<br /> ớp.Bằng cách tham<br /> chiếu khoảngg cách tới điểểm mẫu gần nó nhất, ta tììm ra<br /> được các điểểm mẫu đại diiện cho các mã m độc đó. Phư ương<br /> pháp dựa trêên ý tưởng mã m độc có khooảng các càngg gần<br /> nhau thì khả năng thuộc mộtm cùng họ cààng cao. Do chúng<br /> tôi tập trung vào cải tiến giải<br /> g thuật tríchh rút điểm mẫuu nên<br /> chúng tôi trìnnh bày giải thuuật này ở Hìnhh2và giải thíchh bên<br /> dưới.<br /> <br /> 5) Giai đoạnn 5: Phân cụm<br /> m sử dụng điểm<br /> m mẫu<br /> • Đầu vào:: Tập các điểm<br /> m mẫu đại diệnn cho các mã độc<br /> • Đầu ra: Tập<br /> T các cụm điểm<br /> đ mẫu<br /> Phân cụm v trên toàn bộ tập<br /> m trên các điểểm mẫu thay vì<br /> dữ liệu để goom nhóm các cụm thành một cụm lớn hơ ơn sử<br /> dụng phân cụụm phân cấp (hierarchical<br /> ( c<br /> clustering) [8]. Kết<br /> quả được sử dụng trong quuá trình phân lớp<br /> l tiếp theo.<br /> Giải thích giải thuật trích rút điểm mẫum của Gonzzalez<br /> [9]:<br /> Bước 1: Khởi<br /> K tạo tập prototypes<br /> p = Ø,<br /> Ø biến protottypes<br /> lưu các điểmm mẫu và mảnng distance lư ưu khoảng cácch có Hìình 1. Giải thuật trích rút đi<br /> điểm mẫu của Gonzalez<br /> giá trị bằng ∞ lưu lại khooảng cách củaa điểm dữ liệuu đến<br /> điểm mẫu gầần nó nhất. Nhận<br /> N xét phư<br /> ương pháp: P Phương pháp phân loại dựaa<br /> Bước 2: Kiểm tra khooảng cách lớnn nhất có lớnn hơn trên điểm mẫu [1] là phươngg pháp phân loại l mở, giúpp<br /> ngưỡng dp khhông và lặp đếến khi điều kiiện đó không được chúnng ta có thể phân<br /> p loại và pphát hiện ra nh<br /> hững mẫu mãã<br /> thỏa mãn thìì kết thúc. Tạii vòng lặp đầuu tiên, các khhoảng độc mới. Bên cạạnh đó phươnng pháp này sử s dụng điểm m<br /> cách là ∞ nêên ta chọn nggẫu nhiên mộtt điểm z làm điểm mẫuu (tương tự nhhư nén dữ liệuu) làm giảm dữ ữ liệu phải xử<br /> ử<br /> mẫu. Với cáác vòng lặp tiếp theo ta chhọn điểm mẫuu z là lý nên<br /> n giảm thời gian phân loại. Phương ph háp này cũngg<br /> điểm dữ liệu có khoảng cáách lớn nhất. có tíính năng học tăng cường ccho phép cập nhật mô hìnhh<br /> Bước 3: Với các điểm m dữ liệu khhác điểm mẫuu lưu phânn loại khi có thêm dữ liệuu mới mà khô ông cần huấnn<br /> trong biến prototypes,<br /> p tínnh khoảng cáách của tất cảả các luyệện lại. Nhược điểm của nó làcác điểm mẫu m được tríchh<br /> điểm dữ liệuu đó so với điểm đ mẫu mới được tìm. Nếu rút trên<br /> t toàn bộ tậập dữ liệu có thể dẫn đến những<br /> n dữ liệuu<br /> khoảng cách vừa tính đượcc nhỏ hơn khooảng cách với điểm khônng cùng một họ h mã độc có thể thuộc chu ung một cụm,,<br /> mẫu trước đóó, chúng ta cậpp nhật lại khoảng cách của điểm hoặcc điểm mẫu chưa<br /> c chắc đã ccùng lớp với đại đa số cácc<br /> dữ liệu đó và<br /> v thêm z vào tập các protootypes và quaay lại điểm<br /> m dữ liệu trongg cụm nhưng lại được dùng g làm đại diệnn<br /> bước 2. Sau mỗi lần lặp chúng<br /> c ta sẽ thhu được một điểm cho cụm đó, điều đó là không nnên.<br /> mẫu đại diệnn cho một cụm m dữ liệu.<br /> <br /> <br /> <br /> <br /> Hình 2. Quy trình của phương pháp<br /> p sử dụng<br /> g điểm mẫu<br /> <br /> Từ<br /> T tất cả các mẫu<br /> m mã độc ttrong một họ, phương phápp<br /> B. Cáác phương pháp dựa trên điểm<br /> đ đặc trưngg tổng<br /> t hợp và tíính ra một vecctor đặc trưng<br /> g đại diện choo<br /> a, Phương<br /> P pháp Dendroid họ<br /> h đó thay vì từng vector đđặc trưng đại diện cho mỗii<br /> mẫu<br /> m mã độc (ví ( dụ có 6 họọ mã độc sẽ có ó 6 vector đặcc<br /> Phhương pháp dựa<br /> d trên điểm m đặc trưng Dendroid<br /> D trưng).<br /> t Vectorr đặc trưng nnày có thể là một điểm ảoo<br /> [2] làà một phươngg pháp dựa trêên kỹ thuật khai<br /> k thác hoặc<br /> h có thể trùùng với điểm thật, nó đượcc tính dựa trênn<br /> văn bản và truy xuuất thông tin trrên nền tảng Android.<br /> A<br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64<br /> PHÂN<br /> N LOẠI Mà ĐỘ<br /> ỘC DỰA TRÊN CÁC KỸ TH<br /> HUẬT N-GRAM<br /> M VÀ HỌC MÁ<br /> ÁY<br /> <br /> tiếp cận khai thác văn<br /> v bản. Sau đóđ sử dụng veector đặc đoán<br /> đ thuộc họọ đó. Quy trìnnh phương phháp được trìnhh<br /> trưng đại diện cho họ để phân looại. Điểm dữ liệu mới bày<br /> b trong Hìnhh 3 và được diiễn giải như saau:<br /> gần với<br /> v vector đặc trưng của họọ nào nhất sẽ được dự<br /> <br /> <br /> <br /> <br /> Hình 3. Quy trính phươn<br /> ng pháp sử dụ<br /> ụng điểm đặc trưng - Dendrroid<br /> <br /> 1) Giai đoạnn mô hình hóaa o Cấu trúc<br /> t mã lệnh ccủa mã độc cầần phân loại<br /> Bước 1: Trích<br /> T rút các cấu<br /> c trúc mã lệnh o Tập cácc cấu trúc m<br /> mã lệnh của cáác họ<br /> • Đầu ra: Vector<br /> V đặc trưưng cho mẫu u mã độc cầnn<br /> • Đầu vào:<br /> v Tập các mẫu mã độc huấn luyện (được phân loại<br /> gán nhhãn theo họ)<br /> • Đầu ra:<br /> r Tập các cấu c trúc mã lệnh theo từngg mã Sử dụng độ đoo tf-idf trong khai phá văn n bản và truyy<br /> độc xuấtt thông tin để tạo ra vector đđặc trưng cho mẫu mã độc.<br /> Đầu tiênn tất cả mẫu dữ<br /> d liệu huấn luyện<br /> l của họ phần Bước<br /> B 3: Phân loại<br /> mềm độc hạii được đưa vàoo giai đoạn tríích rút các cấuu trúc • Đầu vào:<br /> mã lệnh. Troong bước này phương<br /> p pháp trích<br /> t rút ra cácc cấu o Vectorr đặc trưng chho mẫu mã độcđ cần phânn<br /> trúc mã lệnh của từng mẫuu mã độc. loại<br /> Bước 2: Mô<br /> M hình hóa và v trích rút đặặc trưng o Các veector đặc trưnng đại diện ch<br /> ho các họ mãã<br /> độc<br /> • Đầu vào:<br /> v Tập các cấu trúc mã lệnhl theo từngg mã • Đầu ra:Nhhãn lớp dự đoáán được<br /> độc<br /> • Đầu ra:<br /> r Các vectorr đặc trưng đạại diện cho cáác họ Trong<br /> T bước nàày sử dụng thhuật toán 1-NN<br /> N để dự đoánn<br /> mã độộc (không phảải cho từng mã m độc) và tậpp cấu nhãn<br /> n lớp của mẫuu mã độc mới.<br /> trúc mã<br /> m lệnhcủa cácc họ.<br /> b,, Phương phááp được đề xuuất bởi P. Shrrestha và cácc<br /> Trong giaai đoạn này, từ<br /> t các mẫu mãã độc đơn lẻ thuộc<br /> t<br /> cộng<br /> g sự[3]<br /> cùng một họọ, chúng ta tổnng hợpcác cấuu trúc mã lệnnhcủa<br /> cả họ để tínhh vector đặc trrưng cho họ đó.<br /> đ Các thành phần Phương pháp nàyn cũng sử ddụng điểm đặcc trưng để đạii<br /> của vector đặặc trưng đượcc tính theo cônng thức tf-idf trong<br /> t n cho các họ, mỗi<br /> diện m họ mã độộc sẽ được đạii diện bởi mộtt<br /> khai phá vănn bản và truy xuất thông tinn áp dụng vớ ới các vecttor đặc trưng giống<br /> g như phư<br /> ương pháp Deendroid.<br /> cấu trúc mã lệnh.<br /> l<br /> 1) Giai<br /> G đoạn xâyy dựng điểm m<br /> mẫu<br /> 2) Giai đoạnn phân tích<br /> • Đầu vào:T<br /> Tập các mẫu m<br /> mã độc huấn luyện<br /> l<br /> • Đầu vào:Các<br /> v vectoor đặc trưng chho các họ mã độc<br /> đ • Đầu ra: Các<br /> C vector đặặc trưng đại diện<br /> d cho từngg<br /> • Đầu ra:Cây<br /> r phân cấp của các họọ mã độc họ mã độc<br /> Trong giiai đoạn này sử dụng thuậật toán phân cụm Cũng<br /> C tương tự ự như phươngg pháp Dendrroid, chúng taa<br /> phân cấp và phân tích liênn kết để tìm raa mối quan hệ giữa gộp tất cả những file mã độc thhuộc cùng mộ ột họ, trích rútt<br /> các họ mã độộc. ra các<br /> c chuỗi có thể t in được ((printable strin ng) trong cácc<br /> 3) Giai đoạnn phân loại file mã độc của cả c họ, sau đó ttính trọng số của<br /> c các chuỗii<br /> bằng g giá trị tf-idff và xây dựngg vector đặc trưng<br /> t đại diệnn<br /> Bước 1: Trích rút các cấu trúc mã lệnh (giống trong<br /> t<br /> cho họ với mỗi chiềuc là giá trị trọng số củaa chuỗi tươngg<br /> giai đoạn môô hình hóa) nhhưng đầu vào chỉ là một mãã độc<br /> tứngg. Trong phươ ơng pháp này, người ta xây dựng hai loạii<br /> cần phân loại<br /> điểmm đặc trưng. Điểm<br /> Đ đặc trưnng thứ nhất đưược tập hợp từừ<br /> Bước 2: Trích<br /> T rút đặc trưng<br /> t tất cả<br /> c các chuỗi có c thể có, điểểm đặc trưng thứ hai đượcc<br /> • Đầu vào:<br /> v xây dựng từ nhữnng chuỗi nổi bbật trong từng họ mã độc (kk<br /> <br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 65<br /> Nguyễn Thị Thu Tra<br /> ang, Nguyễ<br /> ễn Đại Thọ, Vũ Duy Lợii<br /> <br /> <br /> chuỗi có trọnng số cao nhấất), các chuỗii nổi bật trongg các Sau<br /> S đây là hìnnh minh họa điểm mẫu, điiểm đặc trưngg<br /> họ mã độc khhác nhau có thhể khác nhau. của các phương pháp<br /> p để phân bbiệt được sự khác<br /> k nhau củaa<br /> các phương<br /> p pháp dựa trên điểmm mẫu [1], các phương phápp<br /> 2) Giai đoạn<br /> n phân loại dựa trên điểm đặcc trưng Dendrooid [2], phươnng pháp [3] vàà<br /> • Đầu vào:<br /> v Mã độc cần<br /> c phân loại phươơng pháp cải tiến.<br /> t<br /> • Đầu rra: Nhãn lớp dự đoán đượcc của mã độc đó<br /> đ C thích: Δ: lớp 1,O: lớp 22, ☐: lớp 3<br /> Chú<br /> Đầu tiên, người<br /> n ta tính danh sách tf-iidf của từng chuỗi<br /> c<br /> Các điểm được tôô đậm là nhữnng điểm mẫu hoặch điểm đặcc<br /> có thể in đượ<br /> ợc trong mẫu mã<br /> m độc cần phhân loại.<br /> ng của các lớp trong tập dữ lliệu huấn luyệện.<br /> trưn<br /> Với mỗi chuuỗi xuất hiện trong điểm đặc trưng, chúnng ta<br /> chọn các giáá trị tf-idf củaa chuỗi trong danh sách trêên để<br /> tạo ra một vector<br /> v đặc trưưng đại diện cho mã độc chưa<br /> biết. Nếu mộột chuỗi có troong điểm mẫuu nhưng khônng có<br /> trong mã độcc cần phân loại thì giá trị của<br /> c chiều đó trong<br /> t<br /> vector đặc trrưng tương ứnng bằng 0. Mỗỗi điểm đặc trrưng,<br /> chúng ta sẽ tìm<br /> t được mộtt vector khác nhau đại diệnn cho<br /> mã độc chưaa biết. Cuối cùùng, tính độ tưương tự cosin giữa<br /> vector đó vớ ới vector đặc trưng. Mã độộc được phânn vào<br /> lớp của điểm<br /> m đặc trưng màà nó có độ tươ ơng tự cao nhấất.<br /> Nhận xétt các phươn ng pháp dựaa trên điểm đặc<br /> trưng: Denddroid [2] và phương phápp đề xuất bở ởi P.<br /> Shrestha và các cộng sự ự[3] đưa ra phhương pháp huấn Hìình 4. Minh họ<br /> ọa điểm mẫu ccủa phương ph<br /> háp trích rút<br /> luyện khá khhác biệt so vớ ới thông thườờng. Xây dựngg mô điểm<br /> m mẫu [1]<br /> hình từ tất cảả các điểm dữ ữ liệu huấn luuyện cùng mộột lúc<br /> (xử lý theo lôô) thay vì huấnn luyện dần dần<br /> d với mỗi dữ ữ liệu Hình<br /> h 4 mô tả trườ<br /> ờng hợp có thhể xảy ra là điiểm thuộc lớpp<br /> tại một thờii điểm (xử lý l theo luồngg). Ưu điểm m của Δ có<br /> ó thể bị phân vào nhóm cóó điểm mẫu làà lớp O, hoặcc<br /> phương phápp này là vectoor đặc trưng được đ xây dựnng từ điểm<br /> m thuộc lớp Δ là đại diện chho nhiều điểm thuộc lớp O.<br /> tất cả các tậpp dữ liệu tronng một họ vì vậy<br /> v nó có tínhh đại<br /> diện riêng chho họ đó. Và mỗim vector đạại diện cho mộột họ<br /> mã độc thayy vì đại diện cho một mã độc như phư ương<br /> pháp thông thường<br /> t giúp giảm<br /> g thời giaan xử lý trongg quá<br /> trình phân looại. Nhược điiểm của phươnng pháp này là l chỉ<br /> sử dụng duy nhất một điểm m để đại diệnn cho tất cả dữ<br /> ữ liệu<br /> của một họ khik đó sẽ bị mất m mát nhiềuu thông tin cóó thể<br /> làm cho quá trình phân loạại không đượcc chính xác.<br /> <br /> III. ĐỀ XUẤ ẤT PHƯƠNG G PHÁP TRÍC CH RÚT ĐIỂM M<br /> MẪU CẢ ẢI TIẾN<br /> Với phươơng pháp phânn loại dựa trên điểm mẫu [1]], các<br /> điểm mẫu đư ược trích rút ra trên toàn bộộ tập dữ liệu thhì có<br /> thể có nhữngg sai sót vì khik đó có nhữ ững dữ liệu không<br /> k Hình<br /> H 5. Minh họa<br /> h điểm đặc trưng của phư ương pháp<br /> cùng một họ có thể thuộc chung<br /> c một cụụm, hoặc điểm m mẫu Denddroid và phươn<br /> ơng pháp đề xuuất bởi P.<br /> chưa chắc đã đ cùng lớp với v đại đa số các điểm dữ ữ liệu Shrestha vàà các cộng sự[<br /> ự[3]<br /> trong nhóm nhưng<br /> n lại đượ<br /> ợc dùng làm đạiđ diện cho nhóm<br /> n<br /> đó. Trong khhi đó, ý tưởng của phương pháp p phân loại dựa C thích: ✸ là điểm đặc trrưng cho 1 lớp<br /> Chú p.<br /> trên điểm đặc trưng là lấyy ra điểm đặc trưng trong tậập dữ Từ<br /> T Hình 5, một<br /> m điểm đặc trưng được tổng t hợp mộtt<br /> liệu thuộc cùùng một lớp. Vì V vậy, chúngg tôi muốn theeo tư điểm<br /> m đặc trưng được<br /> đ tổng hợpp từ tất cả các điểm dữ liệuu<br /> tưởng của phhương pháp Dendroid<br /> D [2] vàà phương phááp [3] tron<br /> ng một lớp. Điiểm đặc trưngg đó có thể làà một điểm đãã<br /> áp dụng và cảic tiến phươnng pháp dựa trên t điểm mẫuu [1]. tồn tại<br /> t hoặc một điểm<br /> đ ảo khôngg tồn tại trong<br /> g các điểm dữ<br /> ữ<br /> Chúng tôi muốn<br /> m lấy ra nhhững điểm mẫu từ những điểm liệu đã biết. Và một<br /> m lớp chỉ ccó một điểm đặc trưng đạii<br /> trong cùng một<br /> m họ mã độcc. Khi đó mộtt điểm mẫu chhỉ đại n cho nó.<br /> diện<br /> diện cho mộtt họ mà nó thhuộc vào, khônng đại diện chho họ<br /> khác. Từ đó sẽ khắc phụcc được nhược điểm của phư ương<br /> pháp dựa trêên điểm mẫu [1] nói trên. Ngoài ra sauu quá<br /> trình trích rúút chúng ta sẽẽ thu được mộột hay nhiều điểm<br /> mẫu để đại diện cho mộtt họ mã độc, khác với phư ương<br /> pháp Dendrooid [2] và phhương pháp được đ đề xuấtt bởi<br /> P.Shrestha [33] là với mỗi họ chỉ trích rútr được một điểm<br /> đại diện, giúpp giảm sự mấtt mát thông tinn.<br /> <br /> <br /> <br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66<br /> PHÂN LOẠI Mà ĐỘC DỰA<br /> A TRÊN CÁC KỸ THUẬT N-GRAM<br /> N VÀ HỌC<br /> H MÁY<br /> <br /> thêmm cải tiến tronng giai đoạn hhuấn luyện để thu được quyy<br /> trình<br /> h cải tiến đượcc trình bày troong Hình 7.<br /> Quy<br /> Q trình gồm m 2 giai đoạn là giai đoạn huấn<br /> h luyện vàà<br /> giai đoạn dự đoánn.<br /> Trong<br /> T giai đooạn huấn luyệện:<br /> • Giữ nguyêên giải thuật phhân loại sử dụ<br /> ụng điểm mẫu<br /> • Thay đổi giải<br /> g thuật tríchh rút điểm mẫẫu có áp dụngg<br /> ý tưởng củủa phương pháp sử dụng điiểm đặc trưngg<br /> – Dendroiid [2]. Chúngg tôi sẽ trích rút các điểmm<br /> mẫu trên tậập dữ liệu củaa mỗi họ mã độc<br /> đ riêng biệt..<br /> Một họ mã m độc chỉ đư ược đại diện bởi một hayy<br /> nhiều điểmm dữ liệu thuộộc họ mã độc đó. Giải thuậtt<br /> được trìnhh bày trong sơ<br /> ơ đồ khối ở Hìình 8 và đượcc<br /> Hình 6. Min<br /> nh họa điểm mẫu<br /> m của phươ<br /> ơng pháp cải tiến<br /> ti<br /> giải thích bên<br /> b dưới.<br /> Hình 6 chho thấy tất cả các điểm mẫẫu đại diện củaa các • Không sử ử dụng giải thhuật phân cụ ụm trong giaii<br /> lớp ☐ là điểểm dữ liệu thuuộc lớp ☐. Các<br /> C điểm mẫuu của đoạn huấn luyện.<br /> lớp O là điểm m dữ liệu thuuộc lớp O vàccác điểm mẫuu của Trong<br /> T giai đooạn dự đoán:<br /> lớp Δ là điểmm dữ liệu thuộộc lớp Δ. Mặc dù có một điểểm Δ<br /> một mình, nóó tự đại diện cho<br /> c chính nó, không bị các điểm • Giữ nguyêên giải thuật trích rút điểm m mẫu tạo raa<br /> dữ liệu của lớp<br /> l khác đại diện<br /> d nhầm. Vì<br /> V vậy trích rúút đặc điểm mẫu trên tập dữ liiệu chưa phân n loại được đểể<br /> trưng trong phương<br /> p pháp cải tiến luôn đạt trường hợợp tốt tìm ra các cụm mã độc m mới.<br /> nhất, tất cả các<br /> c điểm trongg cụm được đặcđ trưng bởi điểm • Sử dụng giải<br /> g thuật phâân cụm sử dụ ụng các điểm m<br /> mẫu thuộc chhính lớp đó. mẫuđược trích<br /> t rút ở trênn trong quá trrình phân tíchh<br /> gia tăng<br /> Từ tư tưởởng trên, cải tiến của chúnng tôi sẽ can thiệp • Giải thuậtt phân cụm cchỉ áp dụng trênt các điểm<br /> m<br /> vào giai đoạạn trích rút điểm<br /> đ mẫu tronng quá trình huấn mẫu được xây dựng từ ddữ liệu chưa phân<br /> p loại đượcc<br /> luyện, còn quá<br /> q trình dự đoán vẫn đượ ợc thực hiện theo vào các lớớp đã biết, khhông áp dụng phân cụm sử ử<br /> phương thứ ức truyền thốống sử dụngg độ đo khhoảng dụng điểmm mẫu cho cáác điểm mẫu của tập huấnn<br /> cách.Chúng tôi dựa trên quy trình tổnng quát chungg của luyện do các<br /> c điểm mẫuu này đã thuộcc đúng các họọ<br /> phương phápp phân loại dựa<br /> d trên điểm m mẫu và bổ xung mã độc, khhông cần phânn cụm nữa.<br /> <br /> <br /> <br /> <br /> Hình 7. Quy trìn<br /> nh cải tiến<br /> <br /> <br /> <br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67<br /> Nguyễn Thị Thu Tra<br /> ang, Nguyễ<br /> ễn Đại Thọ, Vũ Duy Lợii<br /> <br /> <br /> IV. THỰC<br /> T NGHIIỆM VÀ ĐÁN<br /> NH GIÁ<br /> <br /> A. Chuẩn<br /> C bị dữ liệu<br /> l<br /> Chúng<br /> C tôi sử dụng bộ dữ liệu referencce dataset củaa<br /> phươ ơng pháp dựaa trên điểm m mẫu [1] cho công trình củaa<br /> mình h. Tập dữ liệuu này gồm toàn mã độc tríích xuất từ cơ<br /> ơ<br /> sở dữ<br /> d liệu lớn về v phần mềm m độc hại đượ ợc duy trì tạii<br /> CWWSandbox webbsite và được gán nhãn bở ởi 6 sản phẩm<br /> m<br /> Antiivirus khác nhhau và loại bỏỏ các lớp có ít hơn 20 mẫuu<br /> và lấấy trên một lớ<br /> ớp tối đa 300 m<br /> mẫu thực thi nhị<br /> n phân. Phầnn<br /> mã nhị<br /> n phân đượcc thực thi và ggiám sát bằng g CWSandboxx<br /> thu được 3133 mẫu m báo cáo hành vi thỏa mãn chuẩnn<br /> MISST với 24 mẫẫu mã độc vàà 85 lời gọi hệ thống. Vìì<br /> phươ ơng pháp củaa chúng tôi vàà phương phááp [1] đều tậpp<br /> trun<br /> ng vào phân looại mã độc thhay vì phát hiiện nên bộ dữữ<br /> liệu được sử dụngg chỉ chứa nhữ ững mẫu mã độc,<br /> đ không cóó<br /> mã sạch.<br /> s<br /> <br /> <br /> <br /> <br /> Hìn<br /> nh 9. Mô tả ttập dữ liệu<br /> <br /> <br /> B. Trích<br /> T rút đặc trưng<br /> Trên<br /> T tập dữ liệu,<br /> l chúng tôôi thực hiện trích<br /> t xuất cácc<br /> chuỗỗi lời gọi hệ thống<br /> t theo chhuẩn MIST leever 1 (chỉ cóó<br /> tên của các lời gọọi hệ thống, kkhông có thôn ng tin đối số))<br /> và thu<br /> t được có 85 8 lời gọi hệ thống khác nhau trong tậpp<br /> dữ liệu.<br /> l Sau khi thu được cáác chuỗi lời gọi g hệ thống,,<br /> Hình 8. Giiải thuật đề xu<br /> uất<br /> chúnng tôi tiến hànnh trích xuất vector theo 2-gram<br /> 2 các lờii<br /> Giải th<br /> hích giải thuậtt đề xuất: gọi hệ thống (2 lờ ời gọi hệ thốnng liên tiếp tro<br /> ong báo cáo)..<br /> Sau khi thực nghiiệm, chúng tôôi thấy kết quảả trên trích rútt<br /> Bước 1:: Khởi tạo tậpp prototypes = Ø, mảng disttance<br /> đặc trưng dựa trên sự xuất hiệnn của các lời gọi hệ thốngss<br /> có giá trị bằng<br /> b ∞ để lưuu khoảng cáchh của các điểmm dữ<br /> đạt hiệu<br /> h quả cao hơn trích rút đđặc trưng dựaa trên tần suấtt<br /> liệu trong cùng một họọ đến điểm mẫu m gần nó nhhất ở<br /> xuấtt hiện của cácc lời gọi hệ thốống. Do đó, chúng<br /> c tôi tríchh<br /> thời điểm hiện tại.<br /> rút đặc<br /> đ trưng dựaa trên sự xuất hhiện hay khôn ng của các lờii<br /> Bước 2:((cải tiến). gọi hệ<br /> h thống. Trong tập dữ liệuu có 85 các lờii gọi hệ thốngg<br /> khácc nhau nên khhông gian củaa 1 vector là 85*85.<br /> 8 Nhưngg<br /> • Bướ<br /> ớc 2.1: Chọn tất cả các vecctor đặc trưngg của vì có<br /> c nhiều chiềuu bằng 0 nênn có thể khai thác để tríchh<br /> mộtt lớp để tiến hành<br /> h trích rút điểm mẫu trêên họ xuấtt đặc trưng vàà so sánh các vvector trong th<br /> hời gian tuyếnn<br /> mã độc<br /> đ đó tính. Thảo luận chi tiết của phhương pháp th hời gian tuyếnn<br /> • Bướ ớc 2.2: Kiểm tra khoảng cáách lớn nhất trong<br /> t tính cho trích xuấất đặc trưng đư ược cung cấp p bởi Rieck vàà<br /> mảnng distance cóc nhỏ hơn dp hay không,, nếu Laskkov [10].<br /> khônng nghĩa là tấất cả các điểm<br /> m trong họ mãã độc<br /> đã được<br /> đ một điểm<br /> m mẫu đại diệện cho chúng thì<br /> t ta C. Đánh<br /> Đ giá và so<br /> s sánh<br /> tiến hành thực hiệện bước 2 vớii các họ mã độộ còn Chúng<br /> C tôi đánnh giá giai đoạn phân loại sử dụng điểm m<br /> lại, nếu<br /> n có ta tiến hành tìm điểmm mẫu mới. mẫuu được trích rúút theo phươnng pháp cải tiiến của chúngg<br /> Bước 3: Chọn<br /> C điểm cóó khoảng cáchh lớn nhất đếnn các tôi mà<br /> m không đánnh giá các giaai đoạn trích rútr điểm mẫuu<br /> điểm mẫu tìm m được trướcc đó làm điểm m mẫu tiếp theeo và và phân<br /> p cụm như ư trong bài báoo [1] vì với giai<br /> g đoạn tríchh<br /> thêm nó vàoo tập prototypes. Sau đó cậập nhật lại khhoảng rút điểm<br /> đ mẫu, theeo phương phháp cải tiến thhì độ đo chínhh<br /> cách của cácc điểm dữ liệuu trong họ đó với điểm mẫuu gần xác (precision) củủa các cụm luuôn đạt giá trịị tốt nhất là 1<br /> nhất. Lặp lại bước 2.2 đến khi điều kiện không thỏa mãn.<br /> m<br /> <br /> SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68<br /> PHÂN LOẠI Mà ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY<br /> <br /> do chúng tôi trích rút điểm mẫu từ dữ liệu trong cùng một hơn so với những mẫu mã độc đã biết nên chúng tôi đã<br /> cụm thay vì trên toàn bộ tập dữ liệu. chia như trên. Những thể hiện của 6 lớp để đánh giá khả<br /> năng nhận biết lớp mới chỉ được dùng để đánh giá không<br /> Do sử dụng bộ dữ liệu của phương pháp dựa trên được cho vào giai đoạn huấn luyện. Còn tập 18 lớp chúng<br /> điểm mẫu [1] nên chúng tôi sử dụng ngưỡng dp(được tôi sẽ chia tiếp theo tỷ lệ 70 :30 với 70% dùng để huấn<br /> trình bày trong giải thuật trích rút điểm mẫu ở Hình 2) luyện và 30% là dùng để đánh giá khả năng phân lớp.<br /> bằng 0.65 (là ngưỡng tốt nhất để chọn ra các điểm mẫu Chúng tôi thực hiện 10 lần và lấy kết quả trung bình với<br /> đã được thực nghiệm và nêu ra trong bài báo [1]) để trích cả phương pháp cải tiến và phương pháp [1].<br /> rút ra các điểm mẫu trong một lớp trong phương pháp cải<br /> tiến của chúng tôi. Kết quả của phương pháp dựa trên điểm mẫu [1] :<br /> Bảng II. Kết quả phương pháp dựa trên điểm mẫu [1]<br /> Sau đó, chúng tôi tiến hành phân loại và đánh giá trên<br /> khả năng phân loại những lớp đã biết và khả năng nhận dr Fk Fu<br /> biết những lớp mới. 0.3 0.830 0.994<br /> Để đánh giá khả năng phân lớp, chúng tôi sử dụng độ 0.4 0.890 0.992<br /> đo phân lớp F1microlà độ đo tổng hợp từ hai độ đo là độ đo 0.5 0.932 0.901<br /> chính xác P (precision) và độ hồi tưởng R (recall). 0.6 0.94 0.80<br /> 0.7 0.943 0.716<br /> Định nghĩa các độ đo:<br /> • TPi: Số mẫu thuộc lớp i và được phân đúng vào Do mục tiêu của chúng tôi là chọn ngưỡng dr sao cho<br /> lớp i cả hai độ đo Fk, Fu đạt giá trị cao. Với dr= 0.7 thì độ đo<br /> • FPi: Số mẫu không thuộc lớp i nhưng bị phân sai Fu giảm mạnh trong khi Fk chỉ tăng được ít nên chúng tôi<br /> vào lớp i dừng thực nghiệm ở ngưỡng dr= 0.7. Từ bảng II, ta thấy<br /> • TNi: Số mẫu không thuộc lớp i và được phân giá trị dr để cả Fkvà Fu đều đạt giá trị cao là dr = 0.5, Fk =<br /> đúng không thuộc lớp i 0.932, Fu = 0.901.<br /> • FNi: Số mẫu thuộc lớp i nhưng bị phân sai vào<br /> lớp không phải i.<br /> Độ chính xác trung bình:<br /> <br /> (2)<br /> <br /> Độ hồi tưởng trung bình
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2