ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Anh Vũ
DỰ BÁO NHIỄM MALWARE
TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Anh Vũ
DỰ BÁO NHIỄM MALWARE
TRÊN THIẾT BỊ DI ĐỘNG BẰNG KHAI PHÁ DỮ LIỆU
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2014
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Nguyen Anh Vu
FORECASTING MALWARE INFECTION
IN MOBILE DEVICES BY DATA MINING
Major: Information Technology
Supervisor: Assoc. Prof. Ha Quang Thuy
HÀ NỘI - 2014
i
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc nhất tới PGS.TS
Quang Thy đã tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện khóa
luận tốt nghiệp.
Tôi xin chân thành cảm ơn các thầy, trong trường đại học Công Nghệ - đại
học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng
thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình
thực hiện khóa luận.
Tôi xin cảm ơn các bạn trong lớp K55CLC đã ủng hộ và khuyến khích tôi trong
suốt suốt quá trình học tập tại trường.
Cuối cùng, tôi xin được gửi cám ơn hạn tới gia đình bạn bè, những người
đã luôn bên cạnh, giúp động viên tôi trong quá trình học tập cũng như trong suốt
quá trình thực hiện khóa luận này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2014
Sinh viên
Nguyễn Anh Vũ
ii
DỰ BÁO MALWARE TRÊN THIẾT BỊ DI ĐỘNG
BẰNG KHAI PHÁ DỮ LIỆU
Khóa QH-2010-I/CQ, ngành công nghệ thông tin.
Tóm tắt khóa luận:
Trong những năm gần đây, số lượng malware cùng tỉ lệ nhiễm độc đã tăng lên
đáng kể, đặc biệt là trên nền tảng di động.c phần mềm quét malware đôi khi vẫn bỏ sót
hoặc không nhận dạng được các mã độc do các công cụ y dựa vào một danh sách các
malware đã xác định trước theo thống kê và được cập nhật dần dần. Do vậy, khóa luận này
xin đề xuất một hình dự báo khả năng nhiễm malware theo hướng tiếp cận bằng khai
phá dữ liệu, cụ thể là sử dụng luật kết hợp.
Khóa luận tập trung vào các phương pháp vận dụng luật kết hợp vào bài toán dự
báo malware. Dựa trên các dấu hiệu về trùng hợp malware đặc trưng các thiết bị nhiễm
malware, khóa luận đề nghị một mô hình dự báo dựa trên tập luật biểu diễn theo đặc trưng
thiết bị. Khóa luận cũng y dựng một phần mềm thi hành hình dự báo được đề xuất.
Kết quả thực nghiệm trên tập dữ liệu do các tổ chức chuyên nghiệp cung cấp (tập dữ liệu
Carat tập dữ liệu malware) cho ra 225 luật dự báo thuộc diện luật hiếm (độ hỗ trợ thấp
và độ tin cậy cao).
Từ khóa: dự báo nhiễm malware, luật kết hợp