Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình Autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:71

Thêm vào BST

Báo xấu

21
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nội dung và nhiệm vụ chủ yếu của luận văn là nghiên cứu các vấn đề liên quan đến việc dự báo các sự kiện hiếm và sử dụng mô hình bộ mã hóa tự động Autoencoder để dự báo các sự kiện cực hiếm, ứng dụng vào bài toán thực tế dự đoán sự cố trong dây chuyền sản xuất của nhà máy giấy.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình Autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Bùi Minh Thành NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN CỰC HIẾM BẰNG MÔ HÌNH AUTOENCODER VÀ ỨNG DỤNG VÀO DỰ BÁO TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Anh Hà Nội - 2020
2 LỜI CAM ĐOAN Tôi xin cam đoan đề tài: “Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình Autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy” là luận văn do bản thân tôi trực tiếp thực hiện. Tất cả những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài luận đều được trích dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố. Tôi xin hoàn toàn chịu trách nhiệm trước pháp luật về những cam kết này. Hà Nội, ngày 18 tháng 07 năm 2020 Tác giả luận văn Bùi Minh Thành
3 LỜI CẢM ƠN Trong quá trình học tập, nghiên cứu và hoàn thành luận văn này, tôi đã nhận được rất nhiều sự động viên, khuyến khích và giúp đỡ nhiệt tình của các Thầy Cô, anh chị em, bạn bè đồng nghiệp và gia đình. Trước tiên tôi xin cảm ơn Ban giám hiệu, Phòng đào tạo cùng các thầy cô trong Học viện Khoa học và Công nghệ Việt Nam đã giúp đỡ và tạo điều kiện tốt cho tôi học tập trong thời gian qua. Tôi cũng xin cảm ơn các thầy cô trong Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã đã truyền đạt cho tôi những kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập, để tôi có được nền tảng kiến thức hỗ trợ rất lớn cho tôi trong quá trình làm luận văn thạc sĩ. Tôi cũng muốn bày tỏ sự biết ơn sâu sắc đến Tiến sĩ Nguyễn Việt Anh với tư cách là người trực tiếp hướng dẫn, tận tình chỉ bảo và giúp đỡ cho tôi trong suốt quá trình thực hiện luận văn này. Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp vì đã luôn hỗ trợ tôi và khuyến khích liên tục trong suốt những năm học tập và qua quá trình nghiên cứu và viết luận văn này. Thành tựu này sẽ không thể có được nếu không có họ. Xin chân thành cảm ơn tất cả mọi người!
4 Danh mục các ký hiệu và chữ viết tắt Từ viết tắt Nghĩa ANN Artificial neural networks (Mạng nơ-ron nhân tạo) MLP Multi-layer Perceptron (Mạng nơ-ron Perceptron đa lớp) LSTM Long short-term memory (Mạng nơ-ron bộ nhớ ngắn hạn) GRU Gated Recurrent Units (Mạng nơ-ron đơn vị tái phát có kiểm soát) RNN Recurrent Neural Network (Mạng nơ-ron hồi quy hay mạng nơ-ron tái phát) PCA Principal Component Analysis (Phương pháp phân tích thành phần chính) MNIST Modified National Institute of Standards and Technology (Bộ dữ liệu chữ số viết tay) NMT Neural Machine Translation (máy dịch nơ-ron) RELU Rectified Linear Unit AUC Area under the curve ROC Receiver operating characteristic curve mse mean squared error (lỗi bình phương trung bình)
5 Danh mục các bảng Bảng 3.1. Giá trị hàm mất mát mô hình MLP Autoencoder ........................... 48 Bảng 3.2. Tỉ lệ thu hồi MLP Autoencoder ở ngưỡng FPR = 4% ................... 49 Bảng 3.3. Giá trị hàm mất mát mô hình LSTM Autoencoder ........................ 62 Bảng 3.4. So sánh tỉ lệ thu hồi MLP và LSTM Autoencoder ......................... 63 Bảng 3.5. Tỉ lệ thu hồi LSTM Autoencoder ở ngưỡng FPR = 4% ................. 64
6 Danh mục các hình vẽ, đồ thị Hình 2.1. Phương pháp nhân bản mẫu dương tính ......................................... 20 Hình 2.2. Phương pháp giảm số lượng mẫu âm tính ...................................... 21 Hình 2.3. Phương pháp tạo thêm mẫu dương tính bằng thuật toán ................ 22 Hình 2.4. Mô hình Autoencoder mã hóa tự động số 4 .................................... 24 Hình 2.5. Kiến trúc mạng nơ-ron Autoencoder .............................................. 25 Hình 2.6. Kiến trúc mạng MLP Autoencoder ................................................. 27 Hình 2.7. Kiến trúc mạng LSTM Autoencoder .............................................. 28 Hình 2.8. Kiến trúc mạng Convolutional Autoencoder .................................. 29 Hình 2.9. Kết quả mã hóa bộ dữ liệu MNIST bằng PCA và Linear Autoencoder ......................................................................................................................... 31 Hình 2.10. Hình ảnh được khôi phục sau khi nén bằng PCA và Autoencoder ......................................................................................................................... 32 Hình 2.11. Mô hình đào tạo mạng Autoencoder để khử nhiễu hình ảnh ........ 33 Hình 2.12. Hình ảnh sử dụng Autoencoder để khử nhiễu .............................. 34 Hình 2.13. Dử dụng Autoencoder để tô màu hình ảnh ................................... 34 Hình 2.14. Tăng độ phân giải hình ảnh với Convolutional Autoencoder ....... 35 Hình 2.15. Mô hình MLP Autoencoder dự đoán sự kiện hiếm ...................... 36 Hình 2.16. Mô hình LSTM Encoder dự đoán sự kiện hiếm ........................... 37 Hình 3.1. Hình ảnh về một dây chuyền sản xuất trong nhà máy giấy ............ 39 Hình 3.2. MLP Autoencoder 2 lớp ẩn ở khối mã hóa và giải mã ................... 41 Hình 3.3. Dữ liệu trước và sau khi dán nhãn lại ............................................. 43 Hình 3.4. Loại bỏ các trường không cần thiết................................................. 43 Hình 3.5. Dữ liệu sau khi chuẩn hóa ............................................................... 45 Hình 3.6. Lập trình mạng nơ-ron MLP Autoencoder ..................................... 46
7 Hình 3.7. Cấu trúc mô hình MLP Autoencoder .............................................. 46 Hình 3.8. Mô-đun huấn luyện mô hình MLP Autoencoder ............................ 47 Hình 3.9. Huấn luyện mô hình MLP Autoencoder ......................................... 47 Hình 3.10. Lịch sử huấn luyện mạng MLP Autoencoder ............................... 48 Hình 3.11. Kết quả dự báo mô hình MLP Autoencoder ................................. 50 Hình 3.12. Biểu đồ ROC, AUC mô hình MLP Autoencoder ......................... 51 Hình 3.13. Phân bố lỗi theo chỉ mục của MLP Autoencoder ......................... 53 Hình 3.14. Bộ mã hóa tự động LSTM Autoencoder....................................... 55 Hình 3.15. Dữ liệu trước và sau khi dán nhãn lại ........................................... 57 Hình 3.16. Dữ liệu đầu vào cho mô hình LSTM Autoencoder ...................... 58 Hình 3.17. Lập trình mạng nơ-ron LSTM Autoencoder ................................. 59 Hình 3.18. Cấu trúc mô hình LSTM Autoencoder ......................................... 60 Hình 3.19. Mô-đun huấn luyện mô hình LSTM Autoencoder ....................... 60 Hình 3.20. Huấn luyện mô hình LSTM Autoencoder .................................... 61 Hình 3.21. Lịch sử huấn luyện mạng LSTM Autoencoder............................. 62 Hình 3.22. Biểu đồ ROC, AUC mô hình MLP Autoencoder ......................... 63 Hình 3.23. Kết quả dự báo mô hình LSTM Autoencoder .............................. 65 Hình 3.24. Phân bố lỗi theo chỉ mục của MLP Autoencoder ......................... 65
8 MỤC LỤC LỜI CAM ĐOAN ............................................................................................ 2 LỜI CẢM ƠN .................................................................................................. 3 Danh mục các ký hiệu và chữ viết tắt............................................................ 4 Danh mục các bảng ......................................................................................... 5 Danh mục các hình vẽ, đồ thị ......................................................................... 6 MỤC LỤC ........................................................................................................ 8 MỞ ĐẦU ........................................................................................................ 10 1. Lý do chọn đề tài............................................................................... 10 2. Mục đích nghiên cứu ........................................................................ 13 3. Nhiệm vụ nghiên cứu........................................................................ 13 4. Đối tượng và phạm vi nghiên cứu ................................................... 13 5. Phương pháp nghiên cứu ................................................................. 13 Chương 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM ......................................... 14 1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM .................................................... 14 1.1.1. Định nghĩa sự kiện hiếm......................................................... 14 1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội ........................... 15 1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM ............................. 17 Chương 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM................... 19 2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM . 19 2.1.1. Nhân bản mẫu dương tính ..................................................... 19 2.1.2. Giảm số lượng mẫu âm tính .................................................. 20 2.1.3. Tạo thêm các mẫu dương tính bằng thuật toán................... 21 2.1.4. Điều chỉnh trọng số học tập các mẫu .................................... 22 2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu............ 22
9 2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH AUTOENCODER ..................................................................................... 24 2.2.1. Mô hình Autoencoder ............................................................. 24 2.2.2. Sử dụng Autoencoder phát hiện sự kiện hiếm ..................... 36 Chương 3. ỨNG DỤNG MÔ HÌNH AUTOENCODER ĐỂ DỰ BÁO TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY ............................................. 38 3.1. BÀI TOÁN DỰ BÁO SỰ CỐ TRONG NHÀ MÁY GIẤY ............. 38 3.1.1. Phát biểu bài toán ................................................................... 38 3.1.2. Bộ dữ liệu nhà máy giấy ......................................................... 39 3.1.3. Mục tiêu của bài toán ............................................................. 40 3.2. ỨNG DỤNG MÔ HÌNH MLP AUTOENCODER CHO BÀI TOÁN….................................................................................................... 41 3.2.1. Tiếp cận bài toán với mô hình MLP Autoencoder .............. 41 3.2.2. Xây dựng mô hình MLP Autoencoder cho bài toán ........... 41 3.2.3. Các bước lập trình MLP Autoencoder cho bài toán ........... 42 3.2.4. Kết quả thử nghiệm và đánh giá mô hình ............................ 47 3.3. ỨNG DỤNG MÔ HÌNH LSTM AUTOENCODER CHO BÀI TOÁN….................................................................................................... 54 3.3.1. Tiếp cận bài toán với mô hình LSTM Autoencoder............ 54 3.3.2. Xây dựng mô hình LSTM Autoencoder cho bài toán ......... 55 3.3.3. Các bước lập trình LSTM Autoencoder cho bài toán......... 56 3.3.4. Kết quả thử nghiệm và đánh giá mô hình ............................ 61 Chương 4. KẾT LUẬN VÀ KIẾN NGHỊ ................................................... 67 4.1. KẾT LUẬN ........................................................................................ 67 4.2. KIẾN NGHỊ ....................................................................................... 68 TÀI LIỆU THAM KHẢO ............................................................................ 69
10 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay trong bối cảnh cuộc cách mạng công nghiệp 4.0 phát triển như vũ bão, các doanh nghiệp ngày càng chú trọng đầu tư vào các hoạt động nghiên cứu, phát triển và ứng dụng công nghệ thông tin vào quản lý sản xuất kinh doanh. Ngay tại Việt Nam, gần 90% các doanh nghiệp đã và đang từng bước ứng dụng Công nghệ thông tin vào quản lý doanh nghiệp nhằm nâng cao hiệu quả hoạt động sản xuất kinh doanh để có thể bắt kịp với xu hướng toàn cầu. Trong các lĩnh vực công nghệ thông tin áp dụng vào phục vụ sản xuất kinh doanh, các nghiên cứu và ứng dụng để phân loại và dự báo là một trong những hướng ứng dụng được sử dụng nhiều nhất và đem lại hiệu quả cao nhất cho doanh nghiệp, tăng khả năng cạnh tranh của doanh nghiệp trong bối cảnh hội nhập quốc tế sâu rộng. Thông thường trong các lĩnh vực phân loại và dự báo, các nghiên cứu thường hay sử dụng các bộ dữ liệu có số phần tử trong mỗi lớp tương đối cân bằng nhau. Tuy nhiên trong thực tế, số trường hợp có số phần tử trong bộ dữ liệu cân bằng nhau khá ít. Đa số các trường hợp bộ dữ liệu có số phần tử mỗi lớp bất đối xứng, chênh lệch nhau rất nhiều lần. Trong các bài toán phân loại 2 lớp, thường thì các trường hợp của lớp cần dự đoán là những sự kiện xảy ra với tần suất rất thấp. Tuy không thường xuyên xảy ra nhưng những sự kiện này lại có tác động rất lớn và có thể làm mất ổn định cả hệ thống, gây ra nhiều hậu quả nghiêm trọng, thiệt hại cả về kinh tế lẫn tính mạng con người. Các sự kiện này được gọi chung là sự kiện hiếm [1]. Sự kiện hiếm có cả trong tự nhiên [2] (như động đất, sóng thần, bão lũ, núi lửa …) và trong xã hội (như chiến tranh, sự cố trong các nhà máy công nghiệp, sự sụp đổ thị trường tài chính, sự cố hàng không …), thường gây ra thiệt hại và mất mát rất lớn. Chính vì thế việc dự báo trước sự kiện hiếm [3] có ý nghĩa vô cùng to lớn, không chỉ giúp con người giảm bớt được rất nhiều thiệt hại do các sự kiện gây ra mà trong nhiều trường hợp con người có thể ngăn chặn để sự kiện không xảy ra. Do các sự kiện hiếm là các sự kiện rất ít khi xảy ra so với sự kiện bình thường, nên bộ dữ liệu thu thập về sự kiện hiếm rất mất cân bằng. Một bộ dữ
11 liệu về sự kiện hiếm thường có số lượng dữ liệu dán nhãn dương tính chiếm từ 5% đến 10% tổng số mẫu của dữ liệu. Không những vậy có nhiều sự kiện cực kỳ hiếm khi xảy ra, khi đó bộ dữ liệu có số lượng nhãn dương tính chỉ dưới 1%. Với những bộ dữ liệu quá mất cân bằng như vậy, các mô hình phân lớp và dự báo bằng mạng nơ- ron nhân tạo (Artificial neural networks – ANN) truyền thống [4], mô hình thường hoạt động rất tốt với các bộ dữ liệu cân bằng, lại không hoạt động tốt trong việc phân loại và dự báo sự kiện cực hiếm [5]. Chính vì vậy cần phải dùng các phương pháp, mô hình phân loại và dự báo khác để giải quyết các trường hợp này. Một trong những phương pháp rất hiệu quả đó là phương pháp phân loại 1 lớp bằng mô hình Autoencoder [6]. Autoencoder hay còn gọi là bộ mã hóa tự động là một mạng nơ-ron nhân tạo có đầu ra của mạng giống hệt với đầu vào [7]. Bộ mã hóa tự động này được sử dụng để tìm ra các đặc trưng nén dữ liệu hiệu quả nhất bằng phương pháp học không giám sát. Mục đích của Autoencoder là tìm hiểu cách biểu diễn (mã hóa) cho một bộ dữ liệu, thường để giảm kích thước dữ liệu đầu vào [8], bằng cách đào tạo mạng bỏ qua tín hiệu nhiễu [9], chỉ giữ lại các đặc tính quan trọng nhất [10] để khôi phục dữ liệu. Đồng thời, Autoencoder còn có khối chức năng tái tạo lại dữ liệu từ những đặc trưng đã nén, đảm bảo dữ liệu giải mã càng giống với đầu vào càng tốt. Chính vì thế chúng ta có thể đào tạo Autoencoder khái quát hóa các đặc trưng quan trọng nhất của các sự kiện bình thường. Sau quá trình huấn luyện, mô hình có khả năng tái tạo rất tốt với các sự kiện bình thường, nhưng đối với các sự kiện hiếm, sự kiện bất thường lại gây ra tỉ lệ lỗi rất cao. Vì thế những dữ liệu sau khi chạy qua bộ mã hóa tự động Autoencoder có các đặc trưng khác hẳn đầu vào thì rất có khả năng là sự kiện hiếm [11]. Bài luận văn này tập trung nghiên cứu, cải tiến và ứng dụng mô hình Autoencoder để dự báo các sự kiện cực hiếm, tiếp theo sẽ áp dụng mô hình vào dự đoán trước các sự cố trong dây chuyền sản xuất ở các nhà máy giấy [12]. Để sản xuất ra những tấm giấy, các nhà máy giấy có một dây chuyền gồm rất nhiều bộ phận hoạt động liên tục suốt ngày đêm. Tuy nhiên do đặc điểm là các tấm giấy rất mỏng, dễ bị đứt, nên khi có một bộ phận nào đó của dây chuyền trục trặc, sự đồng bộ giữa các bộ phận không còn trơn tru, các tấm giấy lớn sẽ
12 bị phá vỡ. Bất cứ khi nào xảy ra sự cố phá vỡ các tấm giấy, toàn bộ dây chuyền sản xuất của nhà máy sẽ phải dừng lại để kiểm tra và khôi phục. Thông thường phải mất hơn một giờ để máycó thể khôi phục hoạt động trở lại bình thường. Trong khoảng thời gian chết này, nhà máy thiệt hại khoảng 10 nghìn đô-la và các kỹ sư phải vào những khu vực nguy hiểm để kiểm tra và khôi phục lại dây chuyền sản xuất. Trung bình sự cố xảy ra một vài lần mỗi ngày, gây tổn thất cho doanh nghiệp hàng triệu đô-la mỗi năm, kèm theo mối nguy hiểm, rủi ro cho sức khỏe của công nhân phục hồi hệ thống. Chính vì thế ngay cả việc giảm được 5% số sự cố cũng mang lại lợi ích đáng kể trong nhà máy cả về kinh tế lẫn sức khỏe nhân viên. Để phục vụ việc dự báo trước sự cố phá vỡ các tấm giấy, doanh nghiệp đã cho lắp đặt 60 cảm biến đặt ở các bộ phận khác nhau dọc theo dây chuyền. Các cảm biến được lấy mẫu tự động định kỳ 2 phút/lần tạo ra các mẫu dữ liệu. Khi nào có sự cố trong dây chuyền sản xuất, mẫu dữ liệu đầu tiên sau khi xảy ra sự cố sẽ được đánh dấu dương tính và loại bỏ qua các mẫu thu thập được trong khoảng thời gian nghỉ để khắc phục sự cố. Chính vì thế số lượng mẫu dương tính trong bộ dữ liệu thu thập được từ các cảm biến chiếm tỉ lệ cực kỳ thấp, chỉ khoảng 0.67% tổng số mẫu. Bài luận văn này nghiên cứu và xây dựng mô hình bộ mã hóa tự động Autoencoder nhằm đạt được 2 mục tiêu chính: dự đoán trước sự cố phá vỡ tấm giấy trong dây chuyền sản xuất của nhà máy giấy và xác định các bộ phận có khả năng cao gây ra sự cố. Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình Autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy” làm luận văn tốt nghiệp thạc sĩ của mình.
13 2. Mục đích nghiên cứu Áp dụng một số mô hình bộ mã hóa tự động Autoencoder vào bài toán dự báo sự kiện cực hiếm. 3. Nhiệm vụ nghiên cứu Nội dung và nhiệm vụ chủ yếu là nghiên cứu các vấn đề liên quan đến việc dự báo các sự kiện hiếm và sử dụng mô hình bộ mã hóa tự động Autoencoder để dự báo các sự kiện cực hiếm, ứng dụng vào bài toán thực tế dự đoán sự cố trong dây chuyền sản xuất của nhà máy giấy. 4. Đối tượng và phạm vi nghiên cứu Đối tượng và phạm vi nghiên cứu của đề tài luận văn này là một số mô hình mạng nơ-ron nhân tạo, một số giải pháp xử lý bộ dữ liệu phân lớp sự kiện hiếm nổi bật, mô hình bộ mã hóa tự động Autoencoder. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu được sử dụng xuyên suốt trong quá trình thực hiện bài luận văn là phương pháp nghiên cứu lý thuyết và phương pháp thực nghiệm.
14 CHƯƠNG 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM Chương 1 bài luận văn giới thiệu tổng quan về khái niệm sự kiện hiếm, các sự kiện hiếm trong tự nhiên và xã hội cùng tác động của nó đến cuộc sống con người. Tiếp đó, chương này sẽ trình bày ý nghĩa và tầm quan trọng của bài toán dự báo trước sự kiện hiếm và một số nghiên cứu khoa học nổi bật về các sự kiện hiếm gặp trong thực tế. 1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM 1.1.1. Định nghĩa sự kiện hiếm Các sự kiện hiếm là các sự kiện xuất hiện một cách riêng biệt, được quan sát không thường xuyên xảy ra. Đây là các sự kiện xảy ra với tần suất rất thấp và thường có tác động lan rộng và có thể làm mất ổn định toàn bộ hệ thống, gây ra các hậu quả nghiêm trọng. Các phân tích và nghiên cứu khoa học về các sự kiện hiếm thường tập trung vào các sự kiện gây ra tác động tiêu cực đáng kể đến xã hội, thường là thiệt hại về mặt kinh tế hoặc ảnh hưởng tới sức khỏe và tính mạng con người. Thông thường, dựa vào tần suất xảy ra của sự kiện, chúng ta phân loại các sự kiện hiếm thành 3 loại: sự kiện hiếm, sự kiện rất hiếm và sự kiện cực hiếm. − Sự kiện hiếm (tương đối hiếm): Số mẫu dương tính có tần suất xuất hiện từ 5-10% tổng số mẫu. − Sự kiện rất hiếm: Số mẫu dương tính có tần suất xuất hiện từ 1-5% tổng số mẫu. − Sự kiện cực hiếm: Số mẫu dương tính có tần suất xuất hiện từ nhỏ hơn 1% tổng số mẫu. Đối với các sự kiện tương đối hiếm, các mô hình và phương pháp phân loại và dự báo truyền thống thông qua quá trình xử lý mẫu vẫn cho một độ chính xác tương đối, còn với các sự kiện rất hiếm hay cực hiếm các mô hình mạng nơ-ron truyền thống hầu như rất khó học được từ các mẫu dương tính trong quá trình đào tạo. Chính vì thế đối với các sự kiện cực hiếm này chúng ta cần xây dựng một mô hình khác hợp lý hơn để dự báo.
15 1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội Trong đời sống, chúng ta chứng kiến rất nhiều sự kiện hiếm xảy ra cả trong tự nhiên và xã hội. Trong các hiện tượng tự nhiên, điển hình nhất cho các sự kiện hiếm được nhiều nhà nghiên cứu quan tâm là các hiện tượng thiên tai như: động đất, sóng thần, bão lũ, núi lửa, đại dịch, sét đánh... Đây là những sự kiện rất ít khi xảy ra, có khi hàng chục năm mới lại có một lần. Tuy nhiên một khi những sự kiện này xuất hiện thì thường gây ra thiệt hại về kinh tế vô cùng to lớn và có thể gây nên mất mát to lớn về con người nếu chúng không được cảnh báo kịp thời. Sức tàn phá khủng khiếp của các sự kiện thiên tai này trong một số năm gần đây được thể hiện qua những thống kê dưới đây: − Năm 2008, một trận động đất mạnh 8.0 độ richter ở Tứ Xuyên, Trung Quốc đã làm gần 380.000 người chết, hàng triệu người mất việc làm, thiệt hại kinh tế trực tiếp hơn 3 tỷ đô-la và kéo theo mất mát hàng chục tỉ đô-la các năm sau đó để hồi phục. − Năm 2011, trận động đất 9.0 độ richter ở ngoài khơi Nhật Bản đã gây ra sóng thần dọc bờ biển Thái Bình Dương, ảnh hưởng trực tiếp tới hơn 20 quốc gia. Đồng thời trận động đất sóng thần này gây ra sự cố rò rỉ phóng xạ ở nhà máy điện hạt nhân tại Fukushima, Nhật Bản. Cuộc khủng hoảng kép này đã làm hơn 15.000 người chết, 125.000 căn nhà bị phá hủy, chất phóng xạ rò rỉ ra một khu vực rộng lớn, ảnh hưởng kinh tế ước tính lên tới hàng trăm tỉ đô-la. − Hàng năm, trên vành đai lửa Thái Bình Dương xảy ra hàng chục vụ phun trào núi lửa, trong đó có nhiều vụ rất nghiêm trọng gây ra cái chết hàng chục nghìn người do không được kịp thời dự báo trước để di tản cư dân trong khu vực. − Dịch bệnh Covid-19 ảnh hưởng tới tất cả các quốc gia trên thế giới, hàng triệu người nhiễm bệnh, hàng trăm nghìn người chết, nền kinh tế của tất cả các nước đều sụt giảm nghiêm trọng, ước tính thiệt hại kinh tế trên toàn thế giới lên tới hàng chục nghìn tỷ đô-la. Bên cạnh những hiện tượng hiếm gây nhiều thiệt hại về người và của, trong tự nhiên cũng có nhiều sự kiện hiếm ít gây ra tổn thất hơn nhưng cũng
16 được nhiều nhà khoa học quan tâm nghiên cứu, điển hình như các hiện tượng thiên văn học: nhật thực, nguyệt thực, sự sáp nhập các sao, hố đen… Trong xã hội cũng có rất nhiều sự kiện hiếm khi xuất hiện nhưng một khi xảy ra cũng gây ra những thiệt hại rất to lớn về kinh tế như chiến tranh, sự sụp đổ thị trường tài chính, sự cố hàng không, nổ nhà máy hạt nhân … Thường các sự kiện này rất hiếm khi xảy ra, có thể hàng thập kỷ mới lại xuất hiện, tuy nhiên khi xảy ra cũng gây rất nhiều thiệt hại, cả về con người lẫn vật chất. Một số sự kiện hiếm trong xã hội gây ra rất nhiều mất mát có thể kể đến như: − Chiến tranh thế giới thứ 2 (1937-1945) gây ra cái chết hơn 61 triệu người, thiệt hại kinh tế hàng nghìn tỉ đô-la. − Thảm họa hạt nhân Chernobyl năm 1986 gây ra cái chết 31 người trực tiếp, sơ tán hơn 330.000 người, ước tính hàng chục ngàn người chết do ảnh hưởng phóng xạ các năm sau đó. − 2 vụ rơi máy bay Boeing 737-Max 8 năm 2018-2019 do lỗi thiết kế đã gây ra cái chết toàn bộ hành khách và phi hành đoàn, mất nhiều tháng mới tìm được nguyên nhân lỗi. Boeing thiệt hại hàng chục đến hàng trăm tỉ đô-la. − Sự sụp đổ thị trường chứng khoán phố Wall 1929 bắt đầu cho cuộc đại khủng hoảng kinh tế kéo dài 12 năm, kéo theo hàng chục triệu người thất nghiệp, vô số doanh nghiệp phá sản. Đối với phạm vi một doanh nghiệp, chúng ta cũng thấy rất nhiều sự kiện hiếm, thường là các sự cố xảy ra trong cơ quan, nhà máy, đặc biệt rất nhiều trong các dây chuyền sản xuất công nghiệp. Các sự cố này có thể gây ngừng hoạt động của cả nhà máy trong thời gian dài, ảnh hưởng rất lớn tới sức khỏe, tính mạng và kinh tế của doanh nghiệp.
17 1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM Do các sự kiện hiếm cả trong tự nhiên lẫn xã hội thường gây ra thiệt hại và mất mát về vật chất và sinh mạng vô cùng to lớn nên việc dự báo trước sự kiện hiếm [13] có ý nghĩa rất to lớn. Nếu có thể dự báo trước các sự kiện bất thường không mong muốn này, con người sẽ có thời gian để chuẩn bị ứng phó, từ đó giảm bớt được rất nhiều thiệt hại về kinh tế cũng như sức khỏe, tính mạng mọi người. Đối với các bộ dữ liệu cân bằng về số lượng mẫu trong mỗi lớp, một trong những phương pháp phân lớp và dự báo thành công và hiệu quả nhất là sử dụng các mô hình mạng nơ-ron nhân tạo (Artificial neural networks - ANN), đặc biệt là các mạng học sâu. Tuy nhiên khi áp dụng các mô hình dự báo truyền thống này vào bộ dữ liệu về sự kiện hiếm, hầu hết các mô hình này lại gặp rất nhiều khó khăn và trở nên rất không chính xác. Nguyên nhân chính của việc này được chỉ ra là do tần suất xảy ra vô cùng thấp của sự kiện hiếm dẫn đến số lượng mẫu có nhãn dương tính cũng vô cùng ít ỏi so với số mẫu dán nhãn âm tính. Chính vì sự mất cân bằng này quá lớn, trong quá trình huấn luyện mạng, các mô hình dự báo thường rất dễ dàng học tập từ các mẫu âm tính và bỏ qua không học các mẫu dương tính, dẫn tới việc dự báo của mô hình không hiệu quả. Chính vì thế để dự báo trước sự kiện hiếm, đặc biệt là các sự kiện cực hiếm (có xác suất dưới 1%) các nhà nghiên cứu khoa học đã nghiên cứu và đề xuất ra nhiều thuật toán và phương pháp xử lý đặc thù. Một số nghiên cứu về bài toán về sự kiện hiếm cả trong tự nhiên và xã hội nổi bật được nêu ra dưới đây: Trong cuốn sách “Modelling extremal events: For insurance and finance” [14] nhóm tác giả Embrechts P. đã nghiên cứu và mô hình hóa các sự kiện hiếm, sự kiện cực đoan trong với ngành bảo hiểm và tài chính. Trong bài báo khoa học “Extreme events: Dynamics, statistics and prediction.” [15] nhóm tác giả Ghil M. đã phân tích, thống kê và dự đoán các sự kiện cực đoan, tập trung nghiên cứu và áp dụng vào dự đoán các chấn động
18 địa lý. Trong cuốn sách “Extreme events and natural hazards: The complexity perspective.” [2] nhóm tác giả Sharma S. đã phân tích nguyên nhân các khó khăn, phức tạp và đề ra một số phương pháp giải quyết khi nghiên cứu các sự kiện cực hiếm trong tự nhiên gây nguy hiểm cho con người. Ngoài ra còn có rất nhiều tác giả với nhiều bài báo khoa học nghiên cứu về các sự kiện cực hiếm khác. Mục 2.1 bài luận văn sẽ trình bày cụ thể nội dung các phương pháp chính đã và đang được nghiên cứu trên thế giới để dự báo các sự kiện hiếm.
19 CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM Chương 2 bài luận văn sẽ đi sâu nghiên cứu và trình bày về một số phương pháp đã và đang được sử dụng để giải quyết các bài toán dự báo sự kiện hiếm trong các bài nghiên cứu trên thế giới. Tiếp theo đó trong mục 2.2, bài luận văn sẽ trình bày về mô hình bộ mã hóa tự động Autoencoder, một mô hình vô cùng hiệu quả đã được ứng dụng vào rất nhiều lĩnh vực công nghệ thông tin khác nhau và phương pháp ứng dụng mô hình Autoencoder để phát hiện và dự báo trước các sự kiện cực hiếm. 2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM Trong mục 1.2, nguyên nhân chính gây khó khăn cho việc dự đoán sự kiện hiếm trong các mô hình ANN được chỉ ra là do sự mất cân bằng giữa số lượng mẫu mỗi lớp: tỉ lệ mẫu dương tính rất nhỏ so với số mẫu âm tính. Chính vì thế các nhà nghiên cứu khoa học đã đề xuất ra các phương pháp nhằm cân bằng lại số lượng các mẫu dương tính và mẫu âm tính. Các kết quả thực nghiệm đã chứng minh các giải pháp này đã cải thiện đáng kể tính hiệu quả của các mô hình dự báo sự kiện hiếm. Các phương pháp cân bằng số lượng mẫu mỗi lớp nổi bật nhất sẽ được trình bày chi tiết dưới đây. 2.1.1. Nhân bản mẫu dương tính Nhân bản mẫu dương tính là phương pháp tăng số lượng mẫu dương tính bằng cách lặp lại các mẫu dương tính nhiều lần (hình 2.1) nhằm giảm bớt sự chênh lệch giữa số lượng mẫu dương tính và âm tính. Đây là giải pháp đơn giản nhất giúp tăng tỉ lệ nhãn dương tính và không tốn nhiều chi phí tính toán. Tuy nhiên nhược điểm của phương pháp này là do các mẫu dương tính chỉ đơn thuần nhân bản lên không có bất kỳ sự thay đổi nào nên nếu số mẫu dương tính quá nhỏ, mô hình đào tạo được khuyến khích học vẹt các mẫu dương tính, giảm bớt sự khái quát hóa các đặc điểm. Chính vì vậy phương pháp nhân bản nhãn dương tính có giới hạn số lần lặp. Nếu số lượng mẫu dương tính quá nhỏ, chúng ta lặp lại hàng chục lần rất dễ gây ra hiện tượng overfit trong quá trình huấn luyện.
20 Hình 2.1. Phương pháp nhân bản mẫu dương tính 2.1.2. Giảm số lượng mẫu âm tính Giảm số lượng mẫu âm tính là phương pháp loại bỏ ngẫu nhiên hoặc có chọn lọc các mẫu âm tính (hình 2.2) nhằm mục đích giảm tỉ lệ chênh lệch giữa số lượng mẫu dương tính và âm tính. Thông thường bước đầu tiên chúng ta cố gắng giảm các nhiễu ở mẫu âm tính. Điều này rất tốt cho quá trình đào tạo giúp mạng nơ-ron học tập tốt hơn. Tuy nhiên thường tỉ lệ nhiễu không quá nhiều nên sau đó để giảm số lượng mẫu âm tính cần sử dụng các phương pháp chọn mẫu (subsampling) ngẫu nhiên hoặc có chọn lọc bằng thuật toán chọn mẫu. Nhưng phương pháp giảm số lượng mẫu âm tím cũng có nhược điểm là nếu chúng ta giảm số lượng mẫu âm tính quá nhiều lần, chúng ta mất đi các giá trị đa dạng chứa trong các mẫu bị loại bỏ, mạng được đào tạo sẽ giảm dần sự chính xác. Vì thế khi sử dụng phương pháp này chúng ta cần lựa chọn thuật toán và tỉ lệ chọn mẫu phù hợp.