Luận án Tiến sĩ Máy tính: Nghiên cứu đề xuất đặc trưng đồ thị PIS trong phát hiện mã độc Botnet trên các thiết bị IoT
lượt xem 13
download
Từ việc phân tích tính cấp thiết của đề tài đã trình bày ở trên, luận án xác định mục tiêu nghiên cứu nhằm đề xuất một đặc trưng có cấu trúc đồ thị mới và hiệu quả (độ chính xác cao, độ phức tạp thấp) trong phát hiện mã độc IoT botnet, có khả năng xử lý mã độc IoT botnet đa kiến trúc. Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Máy tính: Nghiên cứu đề xuất đặc trưng đồ thị PIS trong phát hiện mã độc Botnet trên các thiết bị IoT
- Ộ ỤC VÀ ĐÀO TẠ Ệ Ọ Ệ Ệ Ọ Ệ Ọ Ệ Ễ ỨU ĐỀ ẤT ĐẶC TRƯNG ĐỒ Ị ỆN MÃ ĐỘ Ế Ị Ậ Ế Ĩ Ộ –
- Ộ ỤC VÀ ĐÀO TẠ Ệ Ọ Ệ Ệ Ọ Ệ Ọ Ệ Ễ ỨU ĐỀ ẤT ĐẶC TRƯNG ĐỒ Ị ỆN MÃ ĐỘ Ế Ị ệ ố ỗ Ậ Ế Ĩ NGƯỜI HƯỚ Ẫ Ọ ốc Dũng ễ ỳ Ộ –
- LỜI CAM ĐOAN Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu đề xuất đặc trưng đồ thị PSI trong phát hiện mã độc botnet trên các thiết bị IoT” là một công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và TS. Nguyễn Anh Quỳnh, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong nước và quốc tế đã được trích dẫn trong luận án. Các kết quả, số liệu được trình bày trong luận án là hoàn toàn trung thực, một phần kết quả đã được công bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chuyên ngành công nghệ thông tin (tại Danh mục công trình của tác giả), phần còn lại chưa từng được công bố trong bất kỳ công trình nào khác. Hà Nội, ngày tháng năm 2020 Tác giả Nguyễn Huy Trung i
- LỜI CẢM ƠN Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến sĩ tại Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Học viện Khoa học và Công nghệ – Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tại đây, NCS đã được các thầy, cô trong Viện Công nghệ thông tin, Học viện Khoa học và Công nghệ giúp đỡ, chỉ dạy và trang bị những kiến thức nền tảng cần thiết trong suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về lĩnh vực mới và cấp thiết trong bảo mật thông tin liên quan đến phát hiện mã độc nói chung và mã độc botnet nói riêng trên các thiết bị IoT. Trước hết, NCS xin bày tỏ lòng biết ơn chân thành tới hai thầy hướng dẫn khoa học, TS. Ngô Quốc Dũng và TS. Nguyễn Anh Quỳnh. Hai thầy đã luôn giúp đỡ, động viên, khích lệ và cho NCS nhiều kinh nghiệm quý báu, định hướng cách tư duy và cách làm việc trong nghiên cứu khoa học và cuộc sống, giúp NCS vững tin vượt qua những khó khăn trong suốt quá trình thực hiện luận án. Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, một người anh đã cho NCS nhiều lời khuyên quý báu trước khi NCS bắt đầu quá trình học tập nghiên cứu Tiến sĩ. NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng sự Lê Văn Hoàng, Nguyễn Doãn Hiếu đã có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực hiện luận án. Bên cạnh đó, NCS xin gửi lời cảm ơn tới Ban Giám đốc, các Phòng ban liên quan và TS. Sử Ngọc Anh - lãnh đạo Khoa An ninh thông tin của Học viện An ninh nhân dân đã tạo điều kiện về thời gian và tài chính để NCS có thể tập trung học tập và thực hiện luận án này. Cuối cùng, từ tận đáy lòng NCS xin gửi lời cảm ơn vô hạn đến với gia đình, đặc biệt là con gái bởi đó luôn là động lực phấn đấu của NCS, luôn khuyến khích, động viên NSC trong quá trình nghiên cứu khoa học. Luận án này sẽ không thể hoàn thành nếu không có sự ủng hộ, động viên và giúp đỡ của họ. ii
- MỤC LỤC Trang LỜI CAM ĐOAN................................................................................................... i LỜI CẢM ƠN ....................................................................................................... ii MỤC LỤC ............................................................................................................ iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT....................................... vi DANH MỤC CÁC BẢNG.................................................................................. vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................ viii MỞ ĐẦU ............................................................................................................... 1 1. Đặt vấn đề...................................................................................................... 1 1.1. Thông tin cơ bản..................................................................................... 1 1.2. Cơ sở đề xuất nghiên cứu ....................................................................... 3 2. Mục tiêu nghiên cứu ...................................................................................... 5 3. Đối tượng và phạm vi nghiên cứu ................................................................. 5 4. Nội dung và phương pháp nghiên cứu .......................................................... 6 5. Các đóng góp của luận án ............................................................................. 8 6. Bố cục của luận án ........................................................................................ 9 CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ................................................................... 11 1.1. Mã độc IoT botnet .................................................................................... 11 1.1.1. Khái niệm và đặc điểm thiết bị IoT................................................... 11 1.1.2. Khái niệm mã độc IoT botnet ........................................................... 15 1.1.3. Sự tiến hóa của mã độc IoT botnet ................................................... 17 1.1.4. Cấu trúc và nguyên lý hoạt động của mã độc IoT botnet ................. 23 1.1.5. Sự khác biệt giữa mã độc botnet truyền thống và IoT botnet ........... 25 1.2. Học máy và học sâu trong phát hiện mã độc IoT botnet ......................... 28 1.2.1. Học máy ............................................................................................ 28 1.2.2. Học sâu .............................................................................................. 34 iii
- 1.3. Kết luận Chương 1 ................................................................................... 39 CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET ........... 40 2.1. Tổng quan các phương pháp phát hiện mã độc IoT botnet ...................... 40 2.1.1. Phân tích động ................................................................................... 41 2.1.2. Phân tích tĩnh ..................................................................................... 43 2.1.3. Phân tích lai ....................................................................................... 46 2.1.4. So sánh giữa phân tích tĩnh và phân tích động ................................. 47 2.2. So sánh, đánh giá các phương pháp dựa trên phân tích tích trong phát hiện mã độc IoT botnet.................................................................................... 48 2.2.1. Phân tích tĩnh dựa trên đặc trưng phi cấu trúc đồ thị ........................ 49 2.2.2. Phân tích tĩnh dựa trên đặc trưng có cấu trúc đồ thị ......................... 56 2.2.3. Xây dựng bộ cơ sở dữ liệu thử nghiệm ............................................. 63 2.2.4. Các tiêu chí đánh giá ......................................................................... 68 2.2.5. Kết quả thực nghiệm và nhận xét...................................................... 70 2.3. Kết luận Chương 2 và định hướng nghiên cứu ........................................ 73 CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET ............................................................................................................. 75 3.1. Phát biểu bài toán ..................................................................................... 75 3.2. Giải thích bài toán .................................................................................... 76 3.3. Sơ đồ và ý tưởng phương pháp đề xuất ................................................... 79 3.4. Đồ thị lời gọi hàm trong phát hiện mã độc IoT botnet ............................ 81 3.4.1. Khái niệm đồ thị lời gọi hàm ............................................................ 81 3.4.2. Xây dựng đồ thị lời gọi hàm ............................................................. 83 3.5. Xây dựng đồ thị PSI ................................................................................. 88 3.5.1. Các khái niệm liên quan .................................................................... 88 3.5.2. Thuật toán xây dựng đồ thị PSI......................................................... 90 3.6. Đánh giá thực nghiệm .............................................................................. 96 iv
- 3.6.1. Môi trường thực nghiệm ................................................................... 96 3.6.2. Mô hình đánh giá .............................................................................. 96 3.6.3. Các kết quả thực nghiệm và thảo luận ............................................ 101 3.7. Kết luận Chương 3 ................................................................................. 104 CHƯƠNG 4. ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET .................................................................................. 105 4.1. Phát biểu bài toán ................................................................................... 105 4.2. Sơ đồ và ý tưởng phương pháp đề xuất ................................................. 106 4.3. Xây dựng đặc trưng đồ thị PSI-rooted subgraph ................................... 107 4.3.1. Khái niệm ........................................................................................ 107 4.3.2 Thuật toán xây dựng PSI-rooted subraph ........................................ 108 4.4. Thực nghiệm và đánh giá kết quả .......................................................... 112 4.4.1. Môi trường thực nghiệm ................................................................. 112 4.4.2. Mô hình đánh giá ............................................................................ 113 4.4.3. Các kết quả thực nghiệm và thảo luận ............................................ 116 4.5. Kết luận Chương 4 ................................................................................. 122 KẾT LUẬN VÀ KIẾN NGHỊ........................................................................... 124 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ ................................................. 127 TÀI LIỆU THAM KHẢO ................................................................................. 129 v
- DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Viết đầy đủ (tiếng Anh) Viết đầy đủ (tiếng Việt) IoT Internet of things Vạn vật kết nối Internet DL Deep Learning Học sâu ML Machine Learning Học máy SVM Support Vector Machine Máy hỗ trợ vector GPU Graphical Processing Unit Thẻ xử lý đồ họa CFG Control Flow Graph Đồ thị luồng điều khiển PSI Printable String Information Thông tin có ý nghĩa DNN Deep Neural Networ Mạng nơ-ron học sâu ELF Executable Linkable Format Định dạng tập tin ELF DNS Domain Name System Hệ thống tên miền KNN K-nearest neighbour Thuật toán k láng giềng gần nhất RF Random Forest Thuật toán rừng ngẫu nhiên RNN Recurrent Neural Network Mạng nơ-ron hồi quy CNN Convolution Neural Network Mạng nơ-ron tích chập SVM Support Vector Machine Thuật toán máy hỗ trợ vector vi
- DANH MỤC CÁC BẢNG Trang Bảng 1.1. So sánh mã độc botnet trên máy tính truyền thống và IoT 26 Bảng 2.1. Ưu điểm và hạn chế của phân tích động 42 Bảng 2.2. Ưu điểm và hạn chế của phân tích tĩnh 44 Bảng 2.3. So sánh các phương pháp phân tích, phát hiện mã độc IoT botnet 47 Bảng 2.4. So sánh các phương pháp phát hiện mã độc IoT botnet dựa trên đặc 61 trưng tĩnh trong các nghiên cứu gần đây Bảng 2.5. Mô tả tập dữ liệu mẫu để thử nghiệm 67 Bảng 2.6. Kết quả thực nghiệm các hướng tiếp cận dựa trên đặc trưng tĩnh hiện 71 nay trong phát hiện mã độc IoT botnet Bảng 3.1. So sánh giữa đồ thị PSI và đồ thị lời gọi hàm FCG 93 Bảng 3.2. Chi tiết số lượng cạnh và số lượng đỉnh trong đồ thị PSI giữa các lớp 93 mẫu Bảng 3.3. Kết quả phát hiện mã độc IoT botnet bằng đồ thị PSI và đồ thị lời gọi 101 hàm Bảng 3.4. Kết quả so sánh giữa các phương pháp phát hiện IoT botnet 103 Bảng 4.1. Một ví dụ sinh đồ thị con PSI có gốc với độ sâu bằng 2 111 Bảng 4.2. Kết quả của các bộ phân loại với đặc trưng đề xuất 116 Bảng 4.3. Kết quả đánh giá phát hiện mã độc với tập dữ liệu kiến trúc ARM 117 Bảng 4.4. Kết quả đánh giá phát hiện mã độc với tập dữ liệu dựa kiến trúc MIPS 118 Bảng 4.5. So sánh thời gian xử lý 119 Bảng 4.6. So sánh độ chính xác của các bộ phân lớp học máy truyền thống trong 120 phát hiện mã độc IoT botnet vii
- DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Trang Hình 1.1. Số lượng các thiết bị IoT từ năm 2015 – 2025 12 Hình 1.2. Minh họa ứng dụng của Internet of Things (IoT) trong cuộc sống 13 Hình 1.3. Số lượng mã độc botnet trên các thiết bị IoT giai đoạn 2016 – 2018 16 Hình 1.4. Vị trí của mã độc IoT botnet trong các loại mã độc 17 Hình 1.5. Mối quan hệ giữa một số mã độc IoT botnet 18 Hình 1.6. Quy trình lây nhiễm của mã độc IoT botnet 23 Hình 1.7. Một ví dụ minh họa cây quyết định 30 Hình 1.8. Minh họa lề tối đa cho siêu phẳng với phân loại 2 lớp 32 Hình 1.9. Biểu diễn một mạng nơ-ron truyền thẳng 34 Hình 1.10. Một mô hình mạng nơ-ron tích chập 35 Hình 1.11. Mô hình Skip-gram (trái) và CBOW (phải) 37 Hình 1.12. Mô hình túi từ phân tán 38 Hình 1.13. Mô hình bộ nhớ phân tán 38 Hình 2.1. Phân loại các phương pháp phát hiện mã độc IoT botnet 41 Hình 2.2. Các phương pháp phân tích lai 46 Hình 2.3. Tổng quan tiến trình phát hiện mã độc IoT botnet dựa trên các đặc 48 trưng tĩnh Hình 2.4. Phân loại các đặc trưng tĩnh trong phát hiện mã độc IoT botnet 49 Hình 2.5. Minh họa các chuỗi Opcode trong tập tin thực thi mã độc 50 Hình 2.6. Một số chuỗi PSI trong tập tin nhị phân mã độc 52 Hình 2.7. Chuỗi BAD được mô tả dưới dạng ASCII 52 Hình 2.8. Chuỗi BAD được miêu tả dưới dạng Unicode 53 Hình 2.9. Định dạng tập tin ELF 54 Hình 2.10. Quá trình biểu diễn mã độc thông qua ảnh đa mức xám 55 Hình 2.11. Ví dụ ảnh mẫu mã độc dòng Linux.Gafgyt 56 Hình 2.12. Minh họa một đồ thị đơn giản 57 viii
- Hình 2.13. Minh họa một đồ thị có hướng và nhãn 57 Hình 2.14. Đồ thị CFG của một mẫu mã độc botnet Linux.Bashlite 59 Hình 2.15. Minh họa đồ thị Opcode 60 Hình 2.16. Kết quả tải về tập dữ liệu mã độc IoT botnet từ IoTPOT 63 Hình 2.17. Giao thức telnet 64 Hình 2.18. Giao diện của VirusShare sau khi đăng nhập với tài khoản được cấp 65 Hình 2.19. Kết quả tải về tập dữ liệu mã độc IoT botnet từ VirusShare 66 Hình 2.20. Sự phân bố kiến trúc vi xử lý trong các mẫu mã độc IoT botnet 67 Hình 3.1. Tổng quan bài toán phát hiện mã độc IoT botnet dựa trên đặc trưng 76 đồ thị Hình 3.2. Quy trình phương pháp đề xuất phát hiện mã độc IoT botnet 80 Hình 3.3. Minh họa cấu trúc của tập tin bị đóng gói bằng UPX 84 Hình 3.4. Một hàm từ mã độc Linux.Mirai 85 Hình 3.5. Một phần đồ thị lời gọi hàm của mã độc Linux.Mirai 87 Hình 3.6. Các chuỗi bị mã hóa trong Linux.Mirai 89 Hình 3.7. Minh họa lưu trữ dữ liệu đồ thị PSI 92 Hình 3.8. Số lượng các cạnh và đỉnh giữa các lớp mẫu 94 Hình 3.9. Đồ thị lời gọi hàm (trái) và đồ thị PSI (phải) của mẫu mã độc 95 Linux.Bashlite Hình 3.10. Mô hình đánh giá đặc trưng đồ thị PSI trong phát hiện mã độc IoT 97 botnet Hình 3.11. Mô hình cơ bản của kỹ thuật nhúng đồ thị 98 Hình 3.12. Mô hình hoạt động của graph2vec tương đồng với doc2vec 99 Hình 4.1. Minh họa ý tưởng bài toán dùng đồ thị con PSI có gốc 105 Hình 4.2. Tổng quan phương pháp đề xuất sử dụng PSI-rooted subgraph trong 106 phát hiện mã độc IoT botnet Hình 4.3. Một ví dụ đồ thị PSI 107 Hình 4.4. Kết quả thử nghiệm với các độ sâu khác nhau khi duyệt đồ thị con 109 PSI Hình 4.5. Một minh họa đồ thị con PSI có gốc ở đỉnh 11. 111 ix
- Hình 4.6. Biểu đồ phân tán mô tả phân bố các điểm dữ liệu của đồ thị con PSI 112 có gốc trong tập dữ liệu sau khi giảm chiều LSA 3-D Hình 4.7. Minh họa kỹ thuật đánh giá chéo k-fold 113 Hình 4.8. Mô hình đánh giá đặc trưng đồ thị con PSI có gốc trong phát hiện mã 114 độc IoT botnet Hình 4.9. Các bộ phân lớp học máy phổ biến trong phát hiện mã độc 115 Hình 4.10. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên tập dữ 116 liệu Hình 4.11. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên tập dữ 117 liệu kiến trúc ARM Hình 4.12. Kết quả đường cong ROC của Bagging, RF, DT, kNN và SVM trên 118 tập dữ liệu kiến trúc MIPS Hình 4.13. Cấu trúc mô hình Skipgram với trường hợp từ trung tâm là “passes” 121 Hình (i). Mô hình ứng dụng thực tế của phương pháp phát hiện IoT botnet sử 125 dụng đặc trưng đồ thị PSI x
- MỞ ĐẦU 1. Đặt vấn đề 7K{QJWLQF˯E ̫ n Cuộc cách mạng công nghiệp 4.0 hay còn được gọi với những cái tên như Vạn vật kết nối Internet (Internet of Things - IoT) hay công nghiệp Internet (Industrial Internet) làm biến đổi nhanh chóng nền công nghiệp ở mọi quốc gia, diễn ra trên toàn cầu. Với nhiều tên gọi khác nhau nhưng đặc điểm nổi bật nhất của cuộc cách mạng công nghiệp lần thứ 4 đó là việc dịch chuyển các hệ thống máy móc sản xuất truyền thống sang các hệ thống tự động hoá có khả năng tự hành một cách thông minh dựa trên nền tảng lõi là các thiết bị IoT. Thông qua cuộc các mạng công nghiệp 4.0 mà giáo dục, y tế, chính trị, xã hội, kinh tế đã có những thành tựu vượt bậc trong thời gian ngắn. Bên cạnh những tiện ích mà cuộc cách mạng công nghiệp 4.0 mang lại thì an toàn thông tin trên không gian mạng ngày càng trở nên phức tạp, tiềm ẩn nhiều nguy cơ ảnh hưởng trực tiếp tới an ninh quốc gia, lợi ích hợp pháp của người dân. Những nguy cơ này ngày càng hiện hữu khi mà các chuỗi cung ứng, nhà máy, người tiêu dùng và các hoạt động liên quan được kết nối với nhau. Khác biệt với máy tính truyền thống, thiết bị IoT rất đa dạng về chủng loại và kiến trúc phần cứng, chính sự đa dạng của thiết bị IoT khiến sự phát triển về số lượng thiết bị IoT bùng nổ. Dự kiến đến năm 2025 sẽ có khoảng 75 tỷ thiết bị [28] được sử dụng ở nhiều lĩnh vực, ngành nghề và đem tới nhiều trải nghiệm cho người sử dụng như nhà thông minh, giao thông thông minh, y tế thông minh [8]. Theo nghiên cứu của Gartner, đến năm 2020 ước tính 25% các cuộc tấn công hệ thống thông tin tập trung và các thiết bị IoT [18], và sẽ ngày càng nhiều ngành nghề, lĩnh vực áp dụng công nghệ IoT, điều đó sẽ khiến số lượng và quy mô các cuộc tấn công mạng sẽ tiếp tục gia tăng. Bên cạnh đó, nghiên cứu của OWASP (Open Web Application Security Project) cũng cho thấy 75% các thiết bị IoT có nguy cơ bị tấn công xâm nhập [29]. Dưới góc độ của kẻ tấn công, các thiết bị IoT là môi trường hấp dẫn bởi khác với máy tính truyền thống, các thiết bị IoT hoạt động liên tục 24/7, khó cài đặt các giải pháp phòng chống mã độc (anti-malware), sử dụng cơ chế xác thực yếu,… , điều đó khiến kẻ tấn công dễ dàng truy cập mức sâu vào các thiết bị IoT (ví dụ như Busybox) [22]. Với thực tế đó, nhiều cá nhân và tổ chức trong và ngoài nước đã quan tâm, đầu tư nghiên cứu về đảm bảo an toàn thông tin đối với thiết bị IoT. Một khảo sát, thống kê các nghiên 1
- cứu đã công bố từ 2016 – 2018 tại các tạp chí uy tín của các nhà xuất bản lớn trên thế giới như Elsevier, IEEE, Hindawi and Springer [6] cho thấy xác thực vẫn là giải pháp phổ biến trong bảo mật thiết bị IoT và quản lý tin cậy (trust) vẫn đang tiếp tục được đẩy mạnh sự đầu tư nghiên cứu. Ngoài ra có thể kể đến một số nghiên cứu về giải pháp mã hóa nhẹ (light), giao thức và cơ chế truyền thông an toàn đối với thiết bị IoT. - Tại Việt Nam, các giải pháp bảo mật IoT theo 2 hướng chính là giải pháp quản lý và giải pháp công nghệ, kỹ thuật. Đối với các giải pháp quản lý thì có thể kể đến Viện Chiến lược Thông tin và Truyền thông - Bộ Thông tin và Truyền thông đã có đề tài “Nghiên cứu xu thế phát triển, những tác động của công nghệ IoT (Internet of Things) và đề xuất giải pháp quản lý phù hợp”, mã số 40-15-KHKT-RD, đã có những nghiên cứu tổng quan về thiết bị IoT và các ứng dụng của IoT được phát triển ở Việt Nam. Từ những lợi ích đó, nhóm nghiên cứu của Viện đã đưa ra những giải pháp bảo mật, an toàn thông tin cho sự phát triển IoT ở Việt Nam. Tuy nhiên những giải pháp đó mới dừng ở mức chính sách quản lý đã ban hành và sẽ ban hành, các giải pháp về phát triển cơ sở hạ tầng, giải pháp bảo mật ở mức ứng dụng cơ bản cũng như các tiêu chuẩn trong IoT tại Việt Nam. Về giải pháp công nghệ, kỹ thuật thì nhóm nghiên cứu của Trung tâm an toàn an ninh thông tin - Đại học Bách khoa Hà Nội hiện đang nghiên cứu một số giải pháp, hệ thống an ninh mạng với thiết bị IoT, có thể kể đến một số nghiên cứu như Luangoudom sonexay và cộng sự [1], Nguyễn Văn Tánh và cộng sự [2] đã trình bày giải pháp phát hiện tấn công trong mạng IoT, trong đó nghiên cứu chỉ tập trung phân tích chi tiết các dạng tấn công vào giao thức định tuyến RPL (Routing Protocol for Low-Power and Lossy Networks) được thiết kế cho mạng cảm biến không dây và IoT. - Trên thế giới, đã có nhiều cá nhân, tổ chức quan tâm nghiên cứu vấn đề bảo mật cho IoT như. James King và cộng sự [72] đã phát triển giải pháp nhẹ (light) nhằm bảo vệ kênh truyền giữa các thiết bị IoT có tài nguyên hạn chế với các cổng kết nối (gateway). Các nhà nghiên cứu tại Eurecom (Pháp) [10] đã thực hiện khảo sát, đánh giá trên diện rộng mức độ an toàn của các thiết bị IoT cỡ nhỏ như Router, IPCamera và phát hiện ra trong 32.256 phần sụn (firmware) được phân tích: có hơn 38 loại lỗ hổng zero- day; phát hiện nhiều cổng hậu (backdoor) giúp các nhà cung cấp, tin tặc dễ dàng truy cập trái phép vào các thiết bị từ xa bất hợp pháp. Cùng hướng nghiên cứu này và để thúc đẩy sự hợp tác trong chương trình nghiên cứu và phát triển về an toàn thông tin của cộng 2
- đồng chung Châu Âu (EU), Châu Âu đã thành lập Cụm dự án nghiên cứu trên IoT (CERP-IoT, Cluster of European Research Projects on IoT) năm 2010 để tiến hành nghiên cứu chuyên sâu về đảm bảo an ninh, an toàn cho các thiết bị IoT. Các nhà nghiên cứu Nhật bản cũng đã giới thiệu giải pháp IoTProtect [106] nhằm đảm bảo an toàn cho các thiết bị IoT. Cơ chế hoạt động của IoTProtect là sử dụng tác tử phần mềm và danh sách trắng (Whitelist) để kiểm tra định kỳ các tiến trình đang chạy trên thiết bị IoT và sẽ kết thúc các tiến trình khả nghi hoặc không xác định. Bên cạnh đó, dựa trên các nghiên cứu của Yashaswini và cộng sự [109], Rafiullah Khan và cộng sự [16] thấy rằng các nguy cơ đe dọa an ninh, an toàn thông tin đối với các thiết bị IoT bao gồm các hình thức chính như tấn công giả mạo, tấn công bằng phần mềm độc hại, tấn công thăm dò, tấn công từ chối dịch vụ. Trong khi đó, mã độc botnet là nguy cơ đe dọa thường trực nhất đối với các thiết bị IoT [15]. Ví dụ điển hình là tháng 10/2016, nhà cung cấp dịch vụ tên miền lớn của Mỹ là Dyn đã bị mã độc Linux.Mirai tấn công từ chối dịch vụ phân tán (DDoS – Distributed Denial of Service), với lưu lượng được ghi nhận lại là lớn nhất từ trước đến nay ở ngưỡng 1,2 Tbps (Terabit per second) với hơn 1,2 triệu thiết bị IoT bị lây nhiễm [5], đồng thời mã độc Linux.Mirai cũng hướng tới nhiều dịch vụ trực tuyến phổ biến như Google, Amazon,… &˯V ͧÿ ͉xṷt nghiên cͱu Hiện nay, các nghiên cứu về phát hiện mã độc IoT botnet đã thu hút sự quan tâm của các nhà nghiên cứu bảo mật. Những nghiên cứu và phương pháp này được thực hiện dựa trên phát hiện mã độc botnet tự động sử dụng phân tích tĩnh hoặc phân tích động. Luận án này được thúc đẩy bởi vấn đề nghiên cứu mở sau đây: - Hiện nay, thiết bị IoT bùng nổ về số lượng, kéo theo số lượng mã độc IoT botnet cũng gia tăng vượt trội. Dựa trên báo cáo của công ty nghiên cứu thị trường Statista (Đức), số lượng thiết bị IoT trong năm 2018 đạt 23,14 tỷ thiết bị, tăng 13,7% so với năm 2017 [28]. Theo báo cáo của hãng Kaspersky, số lượng mã độc IoT botnet trong năm 2018 cũng tăng khoảng 73% so với năm 2017. - Các thiết bị IoT đa dạng, bao gồm nhiều loại thiết bị điện tử nhưng thường được chia thành 2 nhóm là các thiết bị IoT hạn chế tài nguyên và các thiết bị IoT không hạn 3
- chế tài nguyên. Hiện nay, đã có nhiều nghiên cứu về phát hiện mã độc botnet, tiêu biểu như nghiên cứu của Zhao và cộng sự [27], Chowdhury và cộng sự [9], Homayoun và cộng sự [67]. Tuy nhiên, các nghiên cứu này tập trung vào phát hiện mã độc botnet trên các thiết bị IoT không hạn chế tài nguyên, như máy tính cá nhân truyền thống (Personal Computer). Do đó, trong phần cơ sở đề xuất này, luận án sẽ tập trung giải quyết vấn đề nghiên cứu trên các thiết bị IoT hạn chế tài nguyên (bộ nhớ thấp, năng lực tính toán nhỏ, dung lượng năng lượng pin thấp), ví dụ IP camera, thiết bị định tuyến, thiết bị chuyển mạch, khóa cửa thông minh,… bởi những thiết bị IoT hạn chế tài nguyên ít được triển khai cơ chế bảo mật, đảm bảo an toàn thông tin hoặc các giải pháp bảo mật rất yếu kém, dễ bị tin tặc khai thác, tấn công. - Bên cạnh đó, lĩnh vực nghiên cứu phát hiện mã độc botnet trên các thiết bị IoT hạn chế tài nguyên chưa được quan tâm, đầu tư nghiên cứu, mà chủ yếu các nghiên cứu hiện nay đều dựa trên các bộ luật (rule-based) và dựa trên luồng (flow-based, ví dụ như địa chỉ IP nguồn/đích, giao thức, số lượng gói tin được gửi/và nhận,…) . Các phương pháp trên hiện vẫn còn bộc lộ nhiều hạn chế như khó phát hiện các hành vi độc hại của botnet một cách hiệu quả, dựa trên bộ luật có tỷ lệ phát hiện nhầm cao khi mã độc sử dụng kỹ thuật gây rối, … Chính vì thế, các hướng tiếp cận dựa trên cấu trúc đồ thị, xuất phát từ các thông tin mức luồng dữ liệu để phản ánh hành vi của mã độc botnet là một giải pháp có thể khắc phục những hạn chế trên [3]. Tuy nhiên, các phương pháp theo hướng cấu trúc đồ thị trong phát hiện mã độc IoT botnet hiện có độ phức tạp tính toán lớn. Bên cạnh đó, nghiên cứu của Elisa Bertino và cộng sự [58], Kolias và cộng sự [77], là những nghiên cứu này bước đầu tìm hiểu và giới thiệu một số giải pháp kỹ thuật nhằm hạn chế sự lây nhiễm của mã độc botnet trên thiết bị IoT. Các nghiên cứu tiêu biểu trong phát hiện mã độc IoT botnet có thể kể đến như Haddadpajouh và cộng sự [14], Azmoodeh và cộng sự [36], Su và cộng sự [25]; tuy nhiên những nghiên cứu này hầu hết đưa ra giải pháp, đánh giá và thực nghiệm trên mã độc IoT botnet đơn kiến trúc. Những vấn đề cho thấy việc nghiên cứu các phương pháp phát hiện mã độc IoT botnet mới là cấp thiết, có ý nghĩa về mặt thực tiễn và khoa học, đáp ứng đòi hỏi ngày càng cao của công tác bảo đảm an ninh, an toàn thông tin cho các thiết bị IoT nói riêng và không gian mạng nói chung. Phương pháp đề xuất của luận án giải quyết được các thách thức còn tồn tại sau: 4
- - Thứ nhất là tính đa kiến trúc của các thiết bị IoT, một đặc trưng quan trọng của thiết bị IoT. Trong phạm vi luận án, việc sử dụng hai thuật ngữ thiết bị IoT và thiết bị IoT hạn chế tài nguyên là đồng nhất; - Thứ hai là có tính hiệu quả cao (độ chính xác cao, độ phức tạp thấp); - Thứ ba là hướng tiếp cận không theo hướng dựa trên các bộ luật và dựa trên luồng, mà là dựa trên đồ thị và học máy, học sâu. 2. Mục tiêu nghiên cứu Từ việc phân tích tính cấp thiết của đề tài đã trình bày ở trên, luận án xác định mục tiêu nghiên cứu nhằm đề xuất một đặc trưng có cấu trúc đồ thị mới và hiệu quả (độ chính xác cao, độ phức tạp thấp) trong phát hiện mã độc IoT botnet, có khả năng xử lý mã độc IoT botnet đa kiến trúc. 3. Đối tượng và phạm vi nghiên cứu *) Đối tượng nghiên cứu của đề tài: Để đạt được mục tiêu nghiên cứu đã đặt ra, luận án này tập trung vào nghiên cứu các tập tin thực thi trên thiết bị IoT. Các tập tin thực thi trên thiết bị IoT có thể là mã độc hoặc lành tính, trong đó các tập tin thực thi được thu thập từ nhiều nguồn uy tín như mạng bẫy (honeypot) hoặc được bóc tách từ phần sụn của các thiết bị IoT, sẽ được trình bày chi tiết ở phần sau của luận án này. Hiện nay đã có những nghiên cứu chỉ ra rằng, trong bài toán nghiên cứu phát hiện mã độc thì thường lựa chọn các tập tin thực thi làm mục tiêu phân tích. Nguyên nhân bởi các tập tin thực thi được xem như là ánh xạ một một, giúp đảm bảo tính toàn vẹn các hành vi độc hại của mã độc khi lây nhiễm cũng như việc phân tích về sau của luận án. Bên cạnh đó, các thiết bị IoT chạy trên nền tảng hệ điều hành Linux chiếm đại đa số [31]. Với những lý do trên, đối tượng nghiên cứu, thực nghiệm của luận án là các tập tin thực thi trên thiết bị IoT, có tính đa kiến trúc và có nền tảng trên các hệ điều hành Linux Kernel 2.6 hoặc 3.2. Tuy nhiên, nguyên tắc tổng quát và kiến trúc của phương pháp đề xuất được áp dụng cho hầu hết các thiết bị IoT chạy trên các nền tảng hệ điều hành khác. *) Phạm vi nghiên cứu của đề tài: Bài toán phân tích mã độc được chia thành 3 nhóm chính sau [26]: 5
- (1) Phát hiện mã độc, cung cấp khả năng phân biệt các tập tin mã độc giữa các tập mẫu lành tính; (2) Phân loại mã độc, cung cấp khả năng quyết định mã độc thuộc về loại nào (như virus, worm, trojan, hay botnet); (3) Sự tiến hóa của mã độc, phát hiện ra mối liên hệ kế thừa giữa các loại mã độc. Phân loại mã độc là bài toán phân loại đa lớp và phát hiện mã độc có thể xem như bài toán phân loại hai lớp (nhị phân). Trong phạm vi nghiên cứu, luận án tập trung vào bài toán phát hiện mã độc. Luận án này phát triển hướng tiếp cận mới trong phát hiện mã độc IoT botnet, được trình bày chi tiết trong luận án này với phạm vi nghiên cứu sau: - Có nhiều loại mã độc lây nhiễm trên các thiết bị IoT như Trojan, Worm, Ransomware, … Nhưng trên các thiết bị IoT hạn chế tài nguyên thì ít thông tin người sử dụng để mã độc giám sát, thu thập, mã hóa; trong khi số lượng thiết bị IoT lớn và phân tán khắp nơi nên hiện nay hầu hết mã độc lây nhiễm trên thiết bị IoT là mã độc botnet [49]. Vì lý do đó, luận án chỉ tập trung nghiên cứu, phát hiện mã độc IoT botnet. - Có nhiều cách phân loại thiết bị IoT như dựa trên hãng sản xuất, dựa trên giao thức sử dụng, dựa trên mục đích kết nối, … Nhưng để phù hợp với nội dung nghiên cứu của luận án thì luận án sẽ tập trung vào các thiết bị IoT hạn chế về tài nguyên như năng lượng tiêu thụ thấp, bộ nhớ lưu trữ hạn chế, khả năng tính toán hạn chế. Ví dụ IP camera, thiết bị định tuyến, thiết bị chuyển mạch, khóa cửa thông minh,… - Có 02 hướng chính trong phát hiện mã độc botnet là phân tích tĩnh và phân tích động. Tuy nhiên, để đạt được mục tiêu nghiên cứu, luận án lựa tiếp cận theo phương pháp có khả năng xử lý vấn đề đa kiến trúc của thiết bị IoT hiệu quả và hiệu suất, đó là phân tích tĩnh. 4. Nội dung và phương pháp nghiên cứu *) Nội dung nghiên cứu Để đạt được mục tiêu nghiên cứu đã đề ra ở trên, luận án sẽ tập trung phân tích, đánh giá một số nội dung sau: 6
- - Nghiên cứu sự phát triển, tiến hóa và đặc điểm của mã độc IoT botnet cũng như các phương pháp phát hiện mã độc IoT botnet hiện nay. - Khảo sát, phân tích và đánh giá lại các phương pháp phát hiện mã độc IoT botnet hiện nay dựa trên phân tích tĩnh trên cùng bộ cơ sở dữ liệu lớn và môi trường thử nghiệm. - Nghiên cứu và đề xuất đặc trưng mới có cấu trúc đồ thị trong phát hiện mã độc IoT botnet - Đánh giá đặc trưng đã đề xuất về độ chính xác và độ phức tạp trong phát hiện mã độc IoT botnet bằng cách sử dụng tập dữ liệu lớn và đáng tin cậy, so sánh với những phương pháp hiện tại cùng hướng tiếp nghiên cứu Các nội dung trên được giải quyết và trình bày cụ thể trong các Chương sau của luận án này, cấu trúc cụ thể được trình bày trong phần tiếp theo của luận án này. *) Phương pháp nghiên cứu Nghiên cứu lý thuyết: Tiến hành nghiên cứu, khảo sát, tổng hợp, đánh giá các công trình nghiên cứu liên quan ở trong và ngoài nước để phân tích những vấn đề chưa giải quyết, những vấn đề cần tiếp tục nghiên cứu theo hướng của đề tài. Các công trình nghiên cứu được tìm kiếm tại các kho dữ liệu trực tuyến như: - Google Scholar (https://scholar.google.com/) - ScienceDirect (https://www.sciencedirect.com/) - ACM Digital Library (https://dl.acm.org/) - IEEE Xplore (https://ieeexplore.ieee.org/) - Một số hội thảo về an toàn thông tin trong lĩnh vực công nghiệp uy tín hàng đầu như Blackhat, USENIX, DEF CON, … Trong đó, tập trung nghiên cứu về đặc trưng hành vi vòng đời lây nhiễm của mã độc IoT botnet, nghiên cứu các đoạn mã dịch ngược của các tập tin thực thi trên thiết bị IoT, … Trên cơ sở đó, lựa chọn các nội dung, vấn đề sẽ nghiên cứu, đề xuất và giải quyết. Hệ thống hóa các vấn đề cần thực hiện, đề xuất mô hình bài toán, đưa ra các vấn đề để phân tích, đánh giá và thực hiện. 7
- Nghiên cứu thực nghiệm: Dựa trên tập dữ liệu gồm hơn 10000 mẫu gồm cả mã độc botnet và mẫu lành tính trên thiết bị IoT, chia thành các tập huấn luyện và kiểm thử, sử dụng kỹ thuật kiểm thử chéo (cross-validation), luận án tiến hành các thí nghiệm, thực nghiệm xây dựng đặc trưng mã độc IoT botnet bằng các phương pháp phát hiện mã độc IoT botnet, trên tập dữ liệu các tập tin thực thi trên IoT (mã độc, lành tính). Thực nghiệm đánh giá tính hiệu quả của đặc trưng đồ thị PSI mà luận án đề xuất với học sâu. Thực nghiệm xây dựng và đánh giá đặc trưng đồ thị con PSI có gốc (PSI-rooted subgraph) với các thuật toán học máy để nâng cao hiệu quả trong bài toán phát hiện mã độc IoT botnet. 5. Các đóng góp của luận án Luận án này tập trung giải quyết các nội dung đã nêu trên. Các đóng góp có thể được liệt kê như kết quả của luận án này: - Đóng góp 1: Thực nghiệm, phân tích và đánh giá các phương pháp phát hiện mã độc IoT hiện nay với cùng bộ cơ sở dữ liệu lớn các tập tin thực thi trên IoT (gồm mã độc và lành tính), trong đó có các mẫu mã độc thực tế, quá trình thực nghiệm các phương pháp đó thực hiện trên cùng một cấu hình hệ thống. Kết quả đạt được góp phần đem lại một đánh giá tổng quan về các phương pháp phát hiện mã độc IoT hiện nay, từ đó góp phần giúp các nhà nghiên cứu có thể lựa chọn hướng tiếp cận phù hợp cho bài toán phát hiện mã độc IoT nói chung và IoT botnet nói riêng. - Đóng góp 2: Luận án đề xuất được một phương pháp mới, gọi là đồ thị PSI (Printable String Information) có thể mô phỏng quá trình lây nhiễm của mã độc IoT botnet. Phương pháp đề xuất có độ phức tạp thấp nhưng vẫn đảm bảo độ chính xác cao trong phát hiện mã độc IoT botnet. - Đóng góp 3: Luận án đề xuất cải tiến phương pháp phát hiện mã độc IoT botnet dựa trên đồ thị PSI bằng đồ thị con có gốc PSI (PSI-rooted subgraph) để hoàn thiện quy trình phát hiện mã độc IoT botnet mà luận án đề xuất với độ chính xác cao và độ phức tạp thấp. Toàn bộ mã nguồn nghiên cứu của luận án được công bố mở tại địa chỉ sau: https://github.com/NguyenHuyTrung 8
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận án Tiến sĩ Máy tính: Một số phương pháp nâng cao hiệu quả dự báo lan truyền thông tin trên mạng xã hội
107 p | 35 | 8
-
Luận án Tiến sĩ Máy tính: Một số mở rộng của hệ suy diễn mờ phức cho bài toán hỗ trợ ra quyết định
143 p | 70 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu phương pháp phân loại dữ liệu đám mây điểm LiDAR và ứng dụng
350 p | 26 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu, phát triển phương pháp phát hiện và xử lý tấn công hố đen vào giao thức định tuyến RPL
117 p | 19 | 7
-
Luận án Tiến sĩ Máy tính: Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt
124 p | 13 | 6
-
Luận án Tiến sĩ Máy tính: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet
139 p | 11 | 6
-
Luận án Tiến sĩ Máy tính: Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet
139 p | 25 | 5
-
Luận án Tiến sĩ Máy tính: Một số phương pháp nâng cao độ chính xác dự báo trong mô hình chuỗi thời gian mờ
132 p | 24 | 5
-
Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
133 p | 43 | 5
-
Luận án Tiến sĩ Máy tính và Công nghệ thông tin: Một số phương pháp lai gép trong rút gọn thuộc tính theo tiếp cận tập thô mờ
117 p | 20 | 4
-
Luận án Tiến sĩ Máy tính: Một số kỹ thuật nâng cao hiệu quả tra cứu ảnh theo nội dung dựa trên độ đo khoảng cách thích nghi và phân cụm phổ
139 p | 19 | 4
-
Luận án Tiến sĩ Máy tính: Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử
148 p | 27 | 4
-
Tóm tắt Luận án Tiến sĩ Máy tính: Một số kỹ thuật nâng cao hiệu quả tra cứu ảnh theo nội dung dựa trên độ đo khoảng cách thích nghi và phân cụm phổ
24 p | 12 | 2
-
Tóm tắt Luận án Tiến sĩ Máy tính: Nghiên cứu một số kỹ thuật phát hiện va chạm trong vật thể biến dạng và cánh tay cobot
27 p | 4 | 2
-
Tóm tắt luận án Tiến sĩ Máy tính: Khai phá luật quyết định trên mô hình dữ liệu dạng khối
25 p | 19 | 2
-
Tóm tắt luận án Tiến sĩ Máy tính: Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy
26 p | 17 | 2
-
Tóm tắt Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
27 p | 21 | 2
-
Luận án Tiến sĩ Máy tính: Nghiên cứu một số kỹ thuật phát hiện va chạm trong vật thể biến dạng và cánh tay cobot
114 p | 2 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn