Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:56

Thêm vào BST

Báo xấu

17
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt" được hoàn thành với mục tiêu nhằm đề xuất một phương pháp để phân tích và nhận biết hành vi trong đám đông sử dụng bản đồ mật độ nhiệt và dòng chuyển động quang học. Kỹ thuật về thích ứng miền cũng được sử dụng trong nghiên cứu để giải quyết vấn đề ít dữ liệu, giảm thời gian huấn luyện cũng như tăng độ chính xác khi gặp các dữ liệu mới.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NHẬT LINH NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI BẤT THƯỜNG TRONG ĐÁM ĐÔNG SỬ DỤNG BẢN ĐỒ MẬT ĐỘ NHIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2021
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NHẬT LINH NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI BẤT THƯỜNG TRONG ĐÁM ĐÔNG SỬ DỤNG BẢN ĐỒ MẬT ĐỘ NHIỆT Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Tạ Việt Cường NGƯỜI ĐỒNG HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Thanh Hà HÀ NỘI - 2021
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Tạ Việt Cường và PGS TS Lê Thanh Hà. Tất cả các kiến thức liên quan được sử dụng trong luận văn đều được trích dẫn nguồn gốc một cách rõ ràng tại danh mục tài liệu tham khảo trong luận văn. Luận văn không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo. Các kết quả thực nghiệm trong luận văn đều thực sự được tiến hành thực tế. Nếu có bất kỳ sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả luận văn tốt nghiệp của mình. Hà Nội, ngày tháng năm 2021 Học viên
LỜI CẢM ƠN Đầu tiên, tôi muốn gửi lời cảm ơn chân thành nhất tới TS. Tạ Việt Cường và PGS. TS. Lê Thanh Hà, là những người đã luôn tận tình hướng dẫn tôi nghiên cứu đề tài này. Nếu không có sự định hướng, những lời dạy bảo của các thầy thì luận văn này của tôi rất khó có thể hoàn thiện được. Tôi xin cảm ơn Khoa công nghệ thông tin, Trường Đại học Công nghệ đã tạo điều kiện, môi trường thuận lợi cho học viên trong quá trình học tập, nghiên cứu và hoàn thiện luận văn thạc sĩ. Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới các thầy, cô, bạn bè trong khoa Công nghệ thông tin, ngành Khoa học máy tính, đã luôn nhiệt tình giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, người thân, những người luôn quan tâm, động viên để giúp tôi có động lực học tập, nghiên cứu và hoàn thiện đề tài nghiên cứu này. Bước đầu đi vào nghiên cứu, tìm hiểu các vấn đề cho việc “Phân tích hành vi bất thường của đám đông sử dụng bản đồ mật độ nhiệt” với kiến thức còn hạn chế, do vậy tôi không tránh khỏi những thiếu sót trong luận văn này. Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô và bạn bè để hoàn thiện luận văn hơn nữa. Tôi xin chân thành cảm ơn!
TÓM TẮT Trong lĩnh vực camera giảm sát, việc theo dõi và phân tích hành vi đám đông là một nhiệm vụ không hề dễ dàng. Do vấp phải các khó khăn khi giải quyết vấn đề về sự thay đổi quy mô, ánh sáng và mật độ đám đông nên các nghiên cứu về phân tích hành vi đám đông còn ít, các nghiên cứu phần nhiều đang dừng lại ở việc phát hiện có bất thường trong đám đông hay không như trong các nghiên cứu [15], [16], hoặc đếm số người hay theo dõi đối tượng trong đám đông [11]. Các nghiên cứu về hành vi đều tập trung vào hành vi của con người, kết quả này rất khó áp dụng để phân tích hành vi của cả đám đông. Do vậy, chúng tôi thực hiện nghiên cứu nhằm phát triển một phương pháp mới có thể phát hiện, phân loại chính xác hành vi bất thường trong đám đông dày đặc, đáp ứng nhanh với bài toán thực tế. Kết quả phân tích hành vi đám đông có thể ứng dụng trong một loạt các lĩnh vực mới, chẳng hạn như đảm bảo an toàn trong các sự kiện quy mô lớn, các địa điểm đông người như sân bay, nhà ga, bến xe…, lập kế hoạch khắc phục thảm họa và an toàn giao thông, giám sát đám đông cho các ứng dụng về an toàn và giám sát, tự động phát hiện các sự cố hoặc hành động bất thường trong đám đông. Việc phân tích hành vi đám đông phải đối mặt với nhiều khó khăn hơn là phân tích hành vi của đối tượng riêng lẻ. Dữ liệu về đám đông là ít và thiếu hụt các ví dụ thực tế về những chủ đề cần được phát hiện trong khi dữ liệu có sẵn thường có chất lượng thấp do nhiều yếu tố ảnh hưởng như: nhiễu, góc quay camera, che khuất… Trong nghiên cứu của mình, chúng tôi sẽ đánh giá phương pháp phát hiện hành vi bất thường trong đám đông với điều kiện ít dữ liệu và thích nghi tốt với thực tế, sử dụng bản đồ mật độ nhiệt và dòng chuyển động quang học. Để giải quyết vấn đề ít dữ liệu, chúng tôi kết hợp giữa bộ dữ liệu tổng hợp và bộ dữ liệu thực tế và dựa trên cơ sở đó để thử nghiệm và đánh giá các mô hình. Từ khóa: hành vi đám đông, đám đông bất thường , bản đồ nhiệt, dòng chuyển động quang học, học sâu
MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN TÓM TẮT DANH MỤC THUẬT NGỮ Chương 1: GIỚI THIỆU..................................................................................... 1 1.1. Tổng quan bài toán ...........................................................................1 1.2. Các vấn đề cần giải quyết .................................................................3 1.3. Bố cục luận văn ................................................................................4 Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN .............................................. 6 2.1. Tổng quan về học sâu .......................................................................6 2.2. Mạng nơ-ron tích chập......................................................................9 2.3. Mạng nơ-ron hồi quy ..................................................................... 11 2.4. Mạng CSRNet................................................................................ 13 2.5. Mạng FlowNet ............................................................................... 16 2.6. Kỹ thuật tăng cường dữ liệu .......................................................... 21 2.7. Các nghiên cứu liên quan .............................................................. 24 Chương 3: PHƯƠNG PHÁP ĐỀ XUẤT ....................................................... 26 3.1. Tổng quan ...................................................................................... 26 3.2. Phương pháp đề xuất ..................................................................... 26 3.3. Mô hình mạng đề xuất ................................................................... 29 3.4. Áp dụng kỹ thuật tăng cường dữ liệu ............................................ 31 Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .............................................. 33 4.1. Tập dữ liệu sử dụng ....................................................................... 33 4.2. Thông số mạng huấn luyện............................................................ 36 4.3. Kết quả thực nghiệm...................................................................... 37 Chương 5: KẾT LUẬN .................................................................................... 43 5.1. Các vấn đề đã giải quyết trong luận văn ....................................... 43 5.2. Hướng nghiên cứu trong tương lai ................................................ 43 TÀI LIỆU THAM KHẢO ................................................................................ 44
DANH MỤC THUẬT NGỮ Thuật ngữ Diễn giải RGB Ảnh màu CNN Mạng nơ-ron tích chập RNN Mạng nơ-ron hồi quy LSTM Mạng ghi nhớ phụ thuộc dài ngắn MAE Mean absolute error/Sai số tuyệt đối trung bình CSRNet Congested Scene Recognition Network VGG-16 Mạng VGG 16 lớp ResNet-18 Mạng ResNet 18 lớp. GD Gradient Descent SGD Stochastic Gradient Descent MLP Multi Layer Perceptron/Mạng xếp chồng Perceptron
DANH MỤC BẢNG Bảng 4.1: Thống kê dữ liệu tập pretrain ......................................................... 33 Bảng 4.2: Thống kê số lượng mẫu theo nhãn của tập pretrain .................... 33 Bảng 4.3: Thống kê số lượng mẫu theo nhãn của tập thực tế ...................... 34 Bảng 4.4: Thống kê các bối cảnh trong tập dữ liệu thực tế .......................... 35 Bảng 4.4: PA1 chỉ sử dụng ảnh màu ............................................................... 39 Bảng 4.5: PA2 ảnh màu và bản đồ nhiệt ........................................................ 39 Bảng 4.6: PA3 sử dụng RGB và dòng quang ................................................ 39 Bảng 4.7: PA4 ảnh màu, dòng quang học và bản đồ nhiệt .......................... 39 Bảng 4.8: Kết quả thực nghiệm phương án đề xuất ...................................... 39 Bảng 4.9: Ma trận sai số cho trường hợp chỉ sử dụng kết quả huấn luyện trước, không đào tạo thêm trên tập thực tế ................................................................ 40 Bảng 4.10: Không sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế. ............................................................................................................................. 41 Bảng 4.11: Có sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế. ............................................................................................................................. 41
DANH MỤC HÌNH Hình 1.1: Các hành vi bất thường trong đám đông .......................................2 Hình 1.2: Ví dụ về sự độ nhiễu cao của tập dữ liệu. .....................................4 Hình 2.1: Lịch sử phát triển của học máy (nguồn wikipedia) ......................6 Hình 2.2: Cấu trúc mạng MLP ......................................................................7 Hình 2.3: Hoạt động của thuật toán Gradient Descent (nguồn wikipedia) ...8 Hình 2.4: Mảng ma trận RGB 6x6x3 (nguồn wikipedia) .............................9 Hình 2.5: luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng9 Hình 2.6: Biểu đồ miêu tả về hiện tượng mất mát đạo hàm . .................... 10 Hình 2.7: Residual block . .......................................................................... 11 Hình 2.8: Kiến trúc chi tiết mạng nơ ron ResNet ...................................... 11 Hình 2.9: Vòng lặp trong mạng RNN chuẩn (nguồn [23]) ........................ 13 Hình 2.10: Vòng lặp trong mạng LSTM (nguồn [23]) .............................. 13 Hình 2.11: Tích chập 3x3 với các hệ số giãn nở 1, 2, 3............................. 15 Hình 2.12: So sánh giữa tích chập giãn nở và max pooling, tích chập và upsampling. Bộ lọc Sobel 3x3 được sử dụng ở cả 2 trường hợp và hệ số giãn nở r=2. ............................................................................................................. 16 Hình 2.13: Ví dụ về 2 loại dòng quang. ..................................................... 18 Hình 2.14: Luồng quang dày đặc của hoạt động đi bộ. ............................. 18 Hình 2.15: Tổng quan mô hình FlowNet (nguồn[4]). ................................ 19 Hình 2.16: Cấu trúc mạng mã hóa của FlowNetS và FlowNetCorr (nguồn[4]).. .................................................................................................................... 20 Hình 2.17: Cấu trúc mạng giải mã của FlowNet (nguồn[4]). .................... 21 Hình 2.18: Mối quan hệ giữa dữ liệu và hiệu quả mô hình trong học sâu (nguồn: [21]). ........................................................................................................... 22 Hình 2.19: So sánh các phương pháp cải thiện dữ liệu.............................. 23 Hình 2.20: Phân biệt các phương pháp tăng cường dữ liệu. ...................... 24 Hình 3.1: Chuyển động của đám đông ....................................................... 26 Hình 3.2: Luồng chuyển động của đám đông ............................................ 27
Hình 3.3: Cảnh đám đông hoảng loạn và bản đồ nhiệt tương ứng ............ 28 Hình 3.4: Cảnh đám đông xung đột và bản đồ nhiệt tương ứng ................ 28 Hình 3.5: Phương pháp huấn luyện đề xuất ............................................... 29 Hình 3.6: Mô hình mạng đề xuất. .............................................................. 30 Hình 3.7: Dữ liệu đầu vào của mạng huấn luyện. ...................................... 30 Hình 3.8: Dữ liệu thay đổi qua các phép tăng cường dữ liệu .................... 32 Hình 4.1: Hình ảnh trong tập MED ............................................................ 34 Hình 4.2: Một số hình ảnh trong tập dữ liệu thực tế .................................. 35 Hình 4.3: Tổ chức dữ liệu đào tạo ............................................................. 35 Bảng 4.5: Thống kê các bối cảnh trong tập dữ liệu thực tế ....................... 37 Hình 4.4: Biểu đồ độ chính xác qua mỗi epoch. ........................................ 40 Hình 4.5: Biểu đồ giá trị mất mát qua mỗi epoch. ..................................... 40 Hình 4.6: Một số mẫu “Bình thường” đoán nhận thành “Hoảng loạn”. .... 41 Hình 4.7: Một số mẫu “Xung đột” đoán nhận thành “Hoảng loạn”. ......... 42 Hình 4.8: Biểu đồ độ chính xác theo epoch với các kỹ thuật tăng cường dữ liệu .................................................................................................................... 42
1 Chương 1: GIỚI THIỆU 1.1. Tổng quan bài toán Phân tích hành vi là một trong những nhiệm vụ thách thức nhất trong lĩnh vực Thị giác máy tính (Computer Vision). Trong mảng phân tích hoạt động của con người, phân tích hành vi cá nhânnhận được nhiều sự chú ý hơn. Mặt khác, các phân tích dựa trên các cảnh đông người ít hơn đáng kể. Phân tích hành vi đám đông có thể có tác động lớn đến một loạt của các miền ứng dụng mới, chẳng hạn như trong an toàn công cộng nói chung, các sự kiện quy mô lớn, lập kế hoạch ứng phó với thiên tai và hoạt động giao thông vận tải. Giám sát một đám đông cho các ứng dụng giám sát và an toàn là thiết yếu trong các lĩnh vực đó. Tự động phát hiện các sự cố hoặc các hành vi hỗn loạn trong đám đông. Cụ thể hóa các khu vực bất thường là rất có giá trị đối với các cơ quan hữu quan. Hành vi bình thường đề cập đến hành vi mong đợi/dự kiến ở cá nhân. Cách một người tương tác với những người khác, các hành vi của họ thường phù hợp với mong đợi của xã hội. Khi những kỳ vọng này và hành vi cá nhân là đồng bộ, hành vi được coi là bình thường. Trong mọi xã hội, có những kỳ vọng xã hội, chuẩn mực, giá trị, hơn thế nữa, v.v. quy định quy tắc ứng xử của mỗi cá nhân. Miễn là mọi người tuân thủ những điều này, hành vi của họ được coi là bình thường. Nếu một mẫu của hành vi đi ngược lại những gì được xã hội coi là bình thường, đây có thể được định nghĩa là hành vi bất thường [22]. Tương tự như vậy, chúng ta có thể định nghĩa những hành vi bất thường trong đám đông theo những hoàn cảnh cụ thể. Ví dụ ở nơi công cộng như đường phố, nhà ga, các hành vi được coi là bất thường là đánh nhau, đuổi nhau, chạy trốn…, trên khán đài của sân vận động, các cổ động viên không theo dõi cổ vũ các vận động viên mà xô xát với nhau hoặc với lực lượng chức năng. Đó là các ví dụ về hành vi bất thường trong đám đông.
2 Bình thường Đám đông xung đột Đám đông hoảng loạn Hình 1.1: Các hành vi bất thường trong đám đông Phân tích cảnh đám đông phải đối mặt với nhiều thách thức hơn so với hoạt động cá nhân của con người do nhiều nguyên nhân. Với mật độ của những người được tìm thấy trong những cảnh như vậy thường gây khó khăn cho các thuật toán để xác định chính xác các thực thể riêng lẻ. Việc xác định các bộ phận cơ thể và chúng còn khó hơn các mô hình chuyển động tương ứng để phân loại hoạt động cá nhân của mỗi người tham gia. Hành vi của đám đông thường thể hiện các hành vi nổi cộm và các hoạt động tự tổ chức, đặc biệt là trong các sự kiện bất thường. Hơn nữa, những nội dung mà chúng ta tiếp cận được thường có chất lượng thấp và thiếu hụt các sự kiện bất thường tiêu biểu trong đám đông, vì chúng chỉ được cung cấp cho các cơ quan chức năng vì lý do pháp lý và quyền riêng tư cá nhân. Trong khuôn khổ nghiên cứu này, chúng tôi sẽ nghiên cứu và cố gắng phân loại 3 loại hành vi trong đám đông, đó là: đám đông bình thường, đám đông xung đột, đám đông hoảng loạn. Đám đông xung đột là có xung đột giữa 2 hoặc nhiều người trong cảnh đông đúc. Đám đông hoảng loạn là hiện tượng đám đông sợ hãi, chạy trốn khỏi sự đe dọa của một sự kiện nào khác như thiên tai, hỏa hoạn, khủng bố… Nghiên cứu này trình bày một phương pháp luận mới để phát hiện sự kiện bất thường trong cảnh đông đúc và đáp ứng nhanh hơn khi áp dụng với dữ liệu thực tế với điều kiện ít dữ liệu. Để đạt được mục đích này, một kiến trúc mạng nơ-ron mới được phát triển, kết hợp giữa ảnh, bản đồ mật độ đám đông và thông tin luồng quang học để xác định các sự kiện bất thường trong đám đông. Để huấn
3 luyện mạng, một tập dữ liệu tổng hợp chứa các cảnh có hành vi bất thường được sử dụng. Để đánh giá và kiểm tra phương pháp, chúng tôi đã xây dựng một tập dữ liệu thực tế, bằng cách thu thập từ các nguồn trên Internet. 1.2. Các vấn đề cần giải quyết Vấn đề 1: Sự thiếu hụt của dữ liệu thực tế: Dữ liệu về hành vi bất thường trong đám đông trên các nguồn công khai phần lớn được đưa lên bởi các cá nhân, thu lại được bằng thiết bị cá nhân. Nguồn dữ liệu này thường ít và rất khó bóc tách, thu thập. Dữ liệu từ các camera giám sát đặt tại các địa điểm công cộng như quảng trường, sân bay, bến tàu… thường được bảo mật và sử dụng nội bộ. Chỉ có các bộ phận có thẩm quyền hoặc các cơ quan chức năng mới có quyền truy cập, do đó để tiếp cận được các dữ liệu từ nguồn này là rất khó khăn và gần như không thể. Do đó việc tập hợp dữ liệu để sử dụng trong luận văn gặp rất nhiều khó khăn. Vấn đề 2: Chất lượng của dữ liệu: Các video tập hợp được có sự đa dạng về thông số như góc quay, độ zoom, độ phân giải, bitrate, hệ màu... Các video tập hợp được là đến từ nhiều nguồn, ghi lại bởi nhiều thiết bị như camera giám sát, điện thoại thông minh, máy quay cá nhân, các bản tin trên truyền hình…, nên các góc quay không đồng nhất. Góc quay ở camera giám sát thì cố định, còn ở thiết bị cá nhân thường ở góc nhìn thứ nhất, bị thay đổi liên tục theo người quay. Việc tải video lên mạng cũng đã làm chất lượng của các video này bị giảm đi đáng kể, độ phân giải của các video không quá cao, thậm chí rất thấp. Ngoài ra, sự kiện bất thường có thể xảy ra ở mọi lúc, mọi nơi, mọi hoàn cảnh nên các yếu tố như thời tiết, ánh sáng là rất đa dạng, có thể xuất hiện cả những đối tượng không liên quan trong khung hình mà khi thực hiện phân tích phải loại bỏ để thu được kết quả tốt nhất.
4 Số lượng điểm ảnh không đồng đều Góc quay không đồng nhất Sai khác về ánh sáng Hình 1.2: Ví dụ về sự độ nhiễu cao của tập dữ liệu. Vấn đề 3: Yêu cầu dữ liệu lớn: Cách giải quyết bài toán của luận án dựa trên các mô hình học sâu, tích chập nên cần rất nhiều dữ liệu để huấn luyện, cộng thêm việc khan hiếm về dữ liệu như đã đề cập ở vấn đề 1. Để xử lý vấn đề này, luận án sử dụng các kiến thức về thích ứng miền (domain adaptation) để giảm thiểu dữ liệu cần thu thập. Ngoài ra, nghiên cứu cũng như sử dụng các phương pháp tăng cường dữ liệu để làm đa dạng dữ liệu huấn luyện. Vấn đề 4: Đáp ứng nhanh với dữ liệu thực tế: Cảnh đám đông trên thực tế rất phong phú. Chuyển động của đám đông thay đổi nhanh và không thể đoán trước được. Các hành vi bất thường trong đó cũng rất đa dạng ở cách thể hiện, do đó cần một phương pháp để có thể áp dụng với bối cảnh mới mà không yêu cầu quá nhiều dữ liệu. 1.3. Bố cục luận văn Luận văn chia thành 5 phần cụ thể như sau:
5 Chương 1: Giới thiệu. Chương này trình bày về bài toán nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt, những khó khăn trong quá trình thực hiện bài toán. Chương 2: Các nghiên cứu, kiến thức liên quan đến luận văn. Chương này bàn luận đến những lý thuyết, các nghiên cứu hay các hệ thống được dùng trong luận văn hoặc có liên quan tương tự được tham khảo. Chương 3: Phương pháp đề xuất. Chương này trình bày hướng tiếp cận bài toán, cách huấn luyện đề xuất và mô hình mạng đề xuất. Chương 4: Thực nghiệm và đánh giá. Chương này bàn luận đến quá trình cài đặt cũng như các kết quả thực nghiệm và đánh giá mô hình. Chương 5: Kết luận. Chương này đề cập đến các vấn đề đã giải quyết và hướng nghiên cứu trong tương lai.
6 Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1. Tổng quan về học sâu Trí tuệ nhân tạo là một ngành thuộc lĩnh vực khoa học máy tính. Là tri thức do con người lập trình tạo nên với mục đích giúp máy tính có thể tự động thực hiện các hành vi thông minh như con người, ví dụ như xe điện tự hành của Tesla, hệ thống tự động nhận diện khuôn mặt của Facebook, trợ lý ảo của Google, Microsoft, hệ thống gợi ý mua hàng....Học Máy là một lĩnh vực nằm trong Trí tuệ nhân tạo, nó có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể. Khi mà khả năng tính toán của các máy tính được cải thiện rất nhiều về hiệu suất và lượng dữ liệu khổng lồ được thu thập, Học Máy đã tiến thêm một bước dài và một lĩnh vực mới được ra đời gọi là Học Sâu. Học Sâu đã giúp máy tính thực thi những việc tưởng chừng như không thể vào 10 năm trước: phân loại số đối tượng khác nhau rất lớn trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng nói và chữ viết tay của con người, giao tiếp với con người, chơi cờ, chơi các trò chơi điện tử.... Hình 2.1: Lịch sử phát triển của học máy (nguồn wikipedia) 2.1.1. Perceptron và mạng MLP Một trong những nền móng đầu tiên của mạng nơ-ron và học sâu là thuật toán perceptron learning algorithm (hoặc gọn là perceptron). Perceptron là một thuật toán giúp giải quyết bài toán phân lớp nhị phân, được đưa ra bởi Frank Rosenblatt năm 1957. Thuật toán perceptron hội tụ nếu hai lớp dữ liệu là phân tách được một cách tuyến tính. Mô hình mạng nơ-ron được sử dụng nhiều nhất là
7 mô hình mạng nhiều tầng ẩn, truyền thẳng. Tổng quát, một mạng MLP có nhiều hơn 2 tầng, trừ tầng đầu vào, trong đó gồm một tầng đầu ra và các tầng ẩn. Hình 2.2: Cấu trúc mạng MLP Thuật toán lan truyền ngược Giải thuật Lan truyền ngược là giải thuật quan trọng trong mô hình Học Sâu, nó giúp cho các mô hình học sâu có thể dễ dàng thực thi tính toán được. Với các mạng nơ-ron hiện đại, nhờ giải thuật này mà thuật toán tối ưu đạo hàm nhanh hơn gấp hàng triệu lần so với cách thực hiện truyền thống. Mạng lan truyền ngược là công cụ tính toán mạnh mẽ cho nhiều lĩnh vực khác nữa như dự báo thời tiết, phân tích dòng nước, các bài toán vi phân.... Về cơ bản, đây là một kĩ thuật để tính được đạo hàm một cách nhanh chóng. Việc tính được đạo hàm của hàm số phức tạp mô tả quan hệ giữa đầu vào và đầu ra của một mạng nơ-ron là rất quan trọng, việc này giúp các mạng nơ-ron thoát được những hạn chế của perceptron về việc chỉ biểu diễn được các quan hệ tuyến tính. Để mô tả các quan hệ phi tuyến tính, sau mỗi lớp mạng sẽ là một hàm kích hoạt phi tuyến tính, ví dụ hàm sigmoid hoặc tanh. Với các lớp ẩn, mạng MLP được chứng minh rằng có khả năng xấp xỉ hầu hết bất kỳ hàm số nào qua định lý gần đúng phổ quát [21]. 2.1.2. Thuật toán tối ưu Trong học máy nói riêng và phương pháp tối ưu nói chung, chúng ta luôn phải tìm giá trị cực đại hoặc cực tiểu của một hàm số nào đó. Nhìn chung, việc tìm cực tiểu toàn cục của các hàm mất mát trong học máy là rất phức tạp, thậm chí có trường hợp là không thể. Để giải quyết vấn đề này, chúng ta sẽ cố gắng tìm các điểm cực tiểu địa phương, và ở một mức độ nào đó, được coi đó là
8 nghiệm cần tìm của bài toán. Các điểm cực tiểu địa phương là nghiệm của phương trình đạo hàm bằng 0. Nếu tìm được toàn bộ các điểm cực tiểu, ta chỉ cần tìm điểm cực tiểu địa phương nào làm cho hàm số có giá trị nhỏ nhất. Tuy nhiên, trong phần lớn các trường hợp, việc giải phương trình đạo hàm bằng 0 là không thể. Nguyên nhân từ việc các điểm dữ liệu có số chiều lớn, hoặc từ việc có quá nhiều điểm dữ liệu, hoặc hàm số không liên tục tại điểm cần tính đạo hàm. Hình 2.3: Hoạt động của thuật toán Gradient Descent (nguồn wikipedia) Thuật toán Gradient Descent (GD) hoạt động như sau: xuất phát từ một điểm mà chúng ta coi là gần với nghiệm của bài toán, sau đó dùng một phép lặp để tiến dần đến điểm cần tìm, tức đến khi đạo hàm gần với 0. Stochastic Gradient Descent (SGD) là một biến thể của GD, GD và SGD là những phương pháp được dùng nhiều nhất. Ngoài ra, còn có các thuật toán tối tư khác như Momentum, Adagrad, RMSprop và đặc biệt là Adam. Do thuật toán Adam hoạt động khá tốt, tiến nhanh tới mức tối thiểu hơn các phương pháp khác nên được chọn để sử dụng trong khuôn khổ nghiên cứu.
9 2.2. Mạng nơ-ron tích chập 2.2.1. Mạng CNN Trong mạng nơ-ron, mô hình mạng nơ-ron tích chập (CNN) là 1 trong những mô hình để nhận dạng và phân loại hình ảnh. Trong đó, xác định đối tượng và nhận dạng khuôn mặt là 1 trong số những lĩnh vực mà CNN được sử dụng rộng rãi. CNN phân loại hình ảnh bằng cách lấy 1 hình ảnh đầu vào, xử lý và phân loại nó theo các hạng mục nhất định (Ví dụ: Người, cây, động vật, ...). Máy tính coi hình ảnh đầu vào là 1 mảng pixel và nó phụ thuộc vào độ phân giải của hình ảnh. Dựa trên độ phân giải hình ảnh, máy tính sẽ thấy H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ dày). Hình 2.4: Mảng ma trận RGB 6x6x3 (nguồn wikipedia) Hình dưới đây là toàn bộ luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị. Hình 2.5: luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng 2.2.2. Mạng ResNet ResNet (Residual Network) được giới thiệu rộng rãi vào năm 2015 và cho đến hiện tại thì có rất nhiều phiên bản ResNet với số lớp khác nhau như ResNet- 18, ResNet-34, ResNet-50, ResNet-101, ResNet-152,...được hiểu là kiến trúc ResNet và theo sau là số lớp nhất định.
10 Mạng ResNet (R) là một mạng CNN được thiết kế để làm việc với hàng trăm hoặc hàng nghìn lớp chập. Một vấn đề xảy ra khi xây dựng mạng CNN với nhiều lớp chập sẽ xảy ra hiện tượng mất mát đạo hàm dẫn tới quá trình học tập không tốt. Hiện tượng mất mát đạo hàm (Vanishing Gradient) Trước hết thì lan truyền ngược là kỹ thuật thường được sử dụng trong quá trình đào tạo. Về tổng quan, ý tưởng của thuật toán lá sẽ đi từ lớp đầu ra ngược đến lớp đầu vào và tính toán đạo hàm của hàm mất mát tương ứng với từng tham số của mạng. Thuật toán Gradient Descent sau đó được sử dụng để cập nhật lại các giá trị cho các tham số đó. Hình 2.6: Biểu đồ miêu tả về hiện tượng mất mát đạo hàm . Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các tham số của mạng đào tạo được hội tụ. Chúng ta sẽ định nghĩ trước số lượng vòng lặp để thực hiện quá trình này. Nếu số lượng vòng lặp quá nhỏ thì ta gặp phải trường hợp mạng có thể sẽ không cho ra kết quả tốt và ngược lại thời gian đào tạo sẽ lâu nếu số lượng vòng lặp quá lớn. Tuy nhiên, trong thực tế giá trị đạo hàm thường sẽ có giá trị nhỏ dần khi đi xuống các lớp thấp hơn. Dẫn đến kết quả là các cập nhật thực hiện bởi Gradients Descent không làm thay đổi nhiều tham số của các lớp đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt. Hiện tượng như vậy gọi là mất mát đạo hàm, và mạng ResNet được phát minh để giải quyết vấn đề này. Kiến trúc mạng ResNet Giải pháp mà ResNet đưa ra là sử dụng kết nối "tắt" qua một hay nhiều lớp.