Luận văn Thạc sĩ Máy tính: Hệ thống điểm danh tự động học sinh Trung học phổ thông qua camera trong lớp học

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:77

Thêm vào BST

Báo xấu

36
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài này nghiên cứu mạng Nơ-ron tích chập (Convolution Neural Network - CNN), mà cụ thể là YOLO v2 (You Only Look Once - YOLO) ứng dụng trong bài toán. Nghiên cứu bài toán theo vết đối tượng. Xây dựng các thuật giải với dữ liệu tại một trường THPT. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Máy tính: Hệ thống điểm danh tự động học sinh Trung học phổ thông qua camera trong lớp học

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Nguyễn Thị Sen HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG HỌC SINH TRUNG HỌC PHỔ THÔNG QUA CAMERA TRONG LỚP HỌC LUẬN VĂN THẠC SĨ MÁY TÍNH Thành phố Hồ Chí Minh - 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Nguyễn Thị Sen HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG HỌC SINH TRUNG HỌC PHỔ THÔNG QUA CAMERA TRONG LỚP HỌC Chuyên ngành : Khoa học máy tính Mã số : 8480101 LUẬN VĂN THẠC SĨ MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. PHẠM THẾ BẢO Thành phố Hồ Chí Minh - 2018
LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn khoa học của PGS.TS. Phạm Thế Bảo. Các thông tin và số liệu của luận văn có nguồn gốc rõ ràng, cụ thể, các trích dẫn theo đúng quy định. Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan và chưa từng được sử dụng hay công bố trong bất kỳ công trình nghiên cứu nào khác. Thành phố Hồ Chí Minh tháng 9 năm 2018 Học viên Nguyễn Thị Sen
LỜI CẢM ƠN Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến Thầy PGS.TS. Phạm Thế Bảo - giảng viên hướng dẫn luận văn. Trong quá trình tìm hiểu và nghiên cứu đề tài, tôi đã gặp rất nhiều khó khăn nhưng nhờ Thầy luôn động viên, hết lòng hướng dẫn và giúp đỡ nên tôi đã hoàn thành luận văn này. Tôi cũng xin gửi lời cảm ơn chân thành đến quý Thầy/Cô – Trường Đại học Sư phạm Thành phố Hồ Chí Minh đã tận tâm dạy dỗ và truyền đạt những kiến thức quý báu trong quá trình học tập. Đồng thời, tôi cũng xin cảm ơn thầy/cô Khoa Công nghệ Thông tin và Phòng Sau Đại học đã hỗ trợ và tạo điều kiện cho tôi trong thời gian qua. Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, trường THPT Vũng Tàu – nơi tôi đang công tác, đã luôn động viên và giúp đỡ tôi trong suốt quá trình học tập cũng như thực hiện luận văn. Thành phố Hồ Chí Minh tháng 9 năm 2018 Học viên thực hiện Nguyễn Thị Sen
MỤC LỤC Trang Trang phụ bìa Lời cam đoan Lời cảm ơn Mục lục Danh mục thuật ngữ và viết tắt Danh mục các bảng Danh mục hình vẽ, biểu đồ Chương 1. GIỚI THIỆU ..................................................................... 1 1.1. Đặt vấn đề...................................................................................... 1 1.2. Mục tiêu của luận văn ................................................................... 2 1.3. Nội dung thực hiện ........................................................................ 2 1.4. Những khó khăn thách thức .......................................................... 3 1.5. Các hướng tiếp cận ........................................................................ 4 1.6. Hướng giải quyết ........................................................................... 8 1.7. Bố cục luận văn ............................................................................. 8 Chương 2. CƠ SỞ LÝ THUYẾT ..................................................... 10 2.1. Mạng nơ-ron nhân tạo ................................................................. 10 2.1.1. Cấu trúc của mạng nơ-ron .................................................... 10 2.1.2. Một số dạng mạng nơ-ron ..................................................... 14 2.1.3. Quá trình học của mạng nơ-ron ............................................ 14 2.1.4. Mạng nơ-ron nhân tạo trong xử lí ảnh .................................. 14 2.2. Mạng nơ-ron tích chập ................................................................ 15 2.2.1. Tích chập............................................................................... 16 2.2.2. Lớp hàm kích hoạt ................................................................ 17
2.2.3. Lớp tổng hợp ......................................................................... 18 2.2.4. Lớp kết nối đầy đủ ................................................................ 19 2.2.5. Nguyên lý hoạt động của mạng nơ-ron tích chập ................. 19 2.3. Mô hình YOLO ........................................................................... 20 2.3.1. Cấu trúc mạng YOLO ........................................................... 22 2.3.2. Nguyên tắc hoạt động của YOLO ........................................ 23 2.3.3. Quá trình huấn luyện của YOLO .......................................... 24 2.4. Lọc theo mức độ tương quan của hàm nhân ............................... 27 2.4.1. Các vấn đề liên quan ............................................................. 29 2.4.2. Phương pháp theo dõi đối tượng bằng lọc theo mức độ tương quan của hàm nhân ............................................................... 31 Chương 3. XÂY DỰNG THUẬT TOÁN ......................................... 40 3.1. Phát hiện đối tượng đầu học sinh ................................................ 41 3.2. Theo vết chuyển động đầu học sinh trong lớp học ..................... 44 3.3. Xác định vị trí đầu học sinh dựa trên trung bình ........................ 46 3.4. Điểm danh học sinh ..................................................................... 47 Chương 4. KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN .............................................................................. 49 4.1. Môi trường thực nghiệm ............................................................. 49 4.2. Xây dựng dữ liệu ......................................................................... 49 4.3. Kết quả ........................................................................................ 49 4.3.1. Thời gian thực hiện ............................................................... 49 4.3.2. Phát hiện đối tượng đầu học sinh.......................................... 50 4.3.3. Xác định vị trí đối tượng đầu học sinh ................................. 52 4.4. Đánh giá ...................................................................................... 53 4.4.1. Ưu điểm ................................................................................ 53 4.4.2. Nhược điểm........................................................................... 54
4.5. Hướng phát triển ......................................................................... 59 TÀI LIỆU KHAM KHẢO .................................................................... 60
DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT THPT Trung học phổ thông TP Thành Phố CNN Convolution Neural Network YOLO You Only Look Once YOLO v1 You Only Look Once version 1 YOLO v2 You Only Look Once version 2 YOLO v3 You Only Look Once version 3 EFK Extended Kalman Filter UKF Unscented Kalman Filter DL Deep Learning ANN Artificial Neural Network DBN Deep Belief Network CNN Convolutional Neural Network RNN Recurrent Neural Network R-CNN Regions with Convolutional Neural Network RELU Rectified Linear Unit IOU Intersection Over Union DCF Discriminatively Correlation Filters SRDCF Spatially Regularized Discriminatively Correlation Filters KCF Kernelized Correlation Filter TLD Tracking-Learning-Detection MOSSE Minimum Output Sum of Squared Error HOG Histogram of Oriented Gradients DFT Discrete Fourier Transform RGB Red, Green and Blue
DANH MỤC CÁC BẢNG Bảng 4.1. Thời gian trung bình trên một frame. ..................................... 49 Bảng 4.2. Độ chính xác của giai đoạn phát hiện..................................... 50 Bảng 4.3. Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh. 51 Bảng 4.4 Độ chính xác của giai đoạn xác định vị trí. ............................. 52
DANH MỤC HÌNH VẼ, BIỂU ĐỒ Hình 2.1. Cấu trúc một nơ ron ................................................................ 11 Hình 2.2. Cấu trúc nơ-ron đầy đủ 3 tầng ................................................ 11 Hình 2.3. Cấu trúc nơ-ron đầy đủ có nhiều tầng ..................................... 12 Hình 2.4. Cấu trúc nơ-ron không có tầng ẩn ........................................... 13 Hình 2.5. Mô hình CNN.......................................................................... 16 Hình 2.6. Phương pháp tích chập ............................................................ 17 Hình 2.7. Tính toán với phương pháp MaxPooling ................................ 19 Hình 2.8. Nguyên lý hoạt động của mạng nơ-ron tích chập ................... 20 Hình 2.9. Hệ thống phát hiện đối tượng dựa vào YOLO........................ 21 Hình 2.10. Mạng phát hiện đối tượng có 24 lớp tích chập và 2 lớp kết nối đầy đủ.............................................................................. 23 Hình 2.11. Mô hình phát hiện đối tượng bằng phương pháp hồi quy .... 25 Hình 2.12. Các mẫu huấn luyện thu được bằng cách thay đổi theo chu kỳ của một mẫu cơ sở không thể đại diện cho nội dung hình ảnh đúng cách. ...................................................................... 29 Hình 2.13. Ma trận chuẩn hóa không gian. ............................................. 35 Hình 2.14. Sơ đồ thuật toán lọc theo mức độ tương quan ...................... 39 Hình 3.1. Mô hình mô tả hoạt động bài toán .......................................... 40 Hình 4.1. Phát hiện nhiều bao biên trên một đối tượng ở một frame ..... 54 Hình 4.2. Phát hiện nhiều bao biên trên một đối tượng ở frame sau so với hình 4.1 ............................................................................. 55 Hình 4.3. Kết quả thuật toán 2 ................................................................ 55 Hình 4.4. Không thể phát hiện do quá ít thông tin.................................. 56 Hình 4.5. Có đối tượng bị vật thể che khuất ........................................... 56 Hình 4.6. Các bao biên đối tượng bị sai.................................................. 57 Hình 4.7. Frame đầu tiên của video ........................................................ 57
Hình 4.8. Frame bắt đầu phát hiện .......................................................... 58 Hình 4.9. Theo vết chưa chính xác ......................................................... 59 Biểu đồ 4.1. Độ chính xác phát hiện đối tượng đầu học sinh của các lớp kiểm tra và độ chính xác trung bình phát hiện đối tượng . 51 Biểu đồ 4.2. Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh và tỉ lệ trung bình độ chính xác các lớp kiểm tra ............. 52 Biểu đồ 4.3. Độ chính xác của giai đoạn sau khi sử dụng phép chiếu để xác định vị trí phát hiện đối tượng đầu học sinh. ............. 53
1 Chương 1. GIỚI THIỆU Chương 1 luận văn sẽ trình bày tổng quan bài toán “Hệ thống điểm danh tự động học sinh THPT qua camera trong lớp học”. 1.1. Đặt vấn đề Ngày nay công nghệ thông tin phát triển không ngừng, điều này đồng nghĩa với sự phát triển song hành các thiết bị phần cứng lẫn phần mềm đáp ứng nhu cầu con người ngày càng cao và phức tạp. Trong đó phải kể đến sự phát triển của các thiết bị thu nhận hình ảnh từ thế giới thực, chẳng hạn như các hệ thống giám sát bằng camera và hệ thống giám sát này xuất hiện khắp nơi: nhà riêng, đường phố, siêu thị, cửa hàng, cơ quan, trường học,… [1]-[3]. Thông qua thiết bị thu nhận hình ảnh này nhu cầu khai thác của con người ở mỗi lĩnh vực khác nhau sẽ có nhu cầu khác nhau, có rất nhiều bài toán được đặt ra đòi hỏi phải xử lí các hình ảnh thu nhận được từ hệ thống giám sát [3]. Chẳng hạn như: Các hệ thống giám sát của một ngân hàng nhằm phát hiện các hành vi khả nghi của tội phạm; Hệ thống giám sát ngoài đường phố nhằm phát hiện tội phạm, những người vi phạm luật giao thông; Hệ thống giám sát tại siêu thị, cửa hàng để chống trộm cắp,… Mỗi bài toán sẽ cần những thuật toán – phương pháp xử lý khác nhau để đạt hiệu quả tốt cho từng môi trường khác nhau. Hiện nay tại các trường học đã và đang sử dụng hệ thống giám sát thông qua camera gắn cố định trong phòng học nhằm quản lí nền nếp và hỗ trợ điểm danh cả học sinh lẫn giáo viên trong quá trình diễn ra tiết học tránh tình trạng học sinh trốn tiết học. Cụ thể, tôi đã khảo sát một số trường THPT tại Thành phố Vũng Tàu có sử dụng camera giám sát trong lớp học cũng với mục đích tương tự.
2 Sau khi các trường đầu tư một khoản kinh phí rất lớn để trang bị các thiết bị cần thiết thì việc quản lí và khai thác các thiết bị cũng gặp rất nhiều khó khăn. Nhân viên hoặc giáo viên được phân công trong nhiệm vụ trực giám sát camera phải thường xuyên thay đổi kích thước hiển thị màn hình để kiểm tra sĩ số học sinh khi bắt đầu mỗi tiết học và trực cả buổi học để làm công việc này, một công việc đòi hỏi mất rất nhiều thời gian và kinh phí lẫn sức khỏe. Hiện nay, trên thị trường có nhiều loại thiết bị hỗ trợ điểm danh như: quét vân tay, hay quẹt thẻ từ … [4] , [5]. Tuy nhiên, các giải pháp trên rất khó để ứng dụng trong trường học; đặc biệt là ở trường THPT với đặc thù của học sinh chưa tự giác (quẹt thẻ giùm), tạo ùn tắc (khi quét vân tay) hay dễ hư hỏng. Từ bài toán thực tế của các trường THPT thành phố Vũng Tàu tôi nghiên cứu “Hệ thống điểm danh tự động học sinh THPT qua camera trong lớp học” để có thể áp dụng mang lại hiệu quả cao với trang thiết bị đã có sẵn của các trường. 1.2. Mục tiêu của luận văn + Nghiên cứu mạng Nơ-ron tích chập (Convolution Neural Network - CNN), mà cụ thể là YOLO v2 (You Only Look Once - YOLO) ứng dụng trong bài toán. + Nghiên cứu bài toán theo vết đối tượng. + Xây dựng các thuật giải với dữ liệu tại một trường THPT. 1.3. Nội dung thực hiện Để có thể giải quyết được bài toán điểm danh học sinh trong trường THPT thông qua camera được lắp đặt tại lớp, chúng tôi cần giải quyết các bài toán:  Xác định đầu học sinh trong các frame ảnh, để xác định đối tượng người – mà cụ thể là học sinh trong lớp thì có nhiều phương pháp như: xác định người, xác định khuôn mặt, … Nhưng vì camera được lắp đặt trong phòng học thường cao hơn đầu của học sinh nhiều nên việc xác định khuôn mặt sẽ rất khó,
3 không những vậy việc xác định người bằng các phương pháp cũng rất khó. Từ đây chúng tôi đề xuất xác định vị trí trong ảnh có vùng đầu của học sinh để làm tiền đề cho bài toán điểm danh.  Trong quá trình dữ liệu lấy từ camera sẽ có những học sinh luôn di chuyển vì thế chúng tôi sẽ bắt đầu xác định vị trí đầu của học sinh khi giáo viên bắt đầu vào lớp và học sinh đứng lên chào giáo viên. Trong khoảng thời gian này vẫn sẽ có những học sinh chuyển động đầu và thân thể; nhưng không đáng kể; và vì có chuyển động nên có thể đường biên đầu học sinh này chồng lắp đầu học sinh khác. Để giả quyết vấn đề này chúng tôi sẽ xác định vị trí đầu học sinh trong nhiều frame của một đoạn video dữ liệu từ camera rồi tổng hợp để có kết quả tốt nhất về vị trí đầu của học sinh trong lớp học.  Vì học sinh có thể di chuyển đầu trong quá trình xác định đầu nên chúng tôi cần tìm được tâm vùng đầu của từng học sinh trong lớp ở video, nếu chúng ta xác định đầu trong tất cả các frame của video thì sẽ mất nhiều thời gian nên rất khó để áp dụng vào thực tế, nên chúng tôi sẽ đề xuất dùng phương pháp theo vết chuyển động của đối tượng đầu học sinh để tìm được các vùng tâm của từng học sinh.  Từ dữ liệu này, chúng tôi sẽ tìm vị trí trung bình của vùng đầu từng học sinh của lớp học. Sau đó chúng tôi sẽ chiếu vị trí trung bình này xuống sơ đồ lớp học để có thể điểm danh tất cả học sinh của lớp. 1.4. Những khó khăn thách thức Trong quá trình khảo sát và thu thập dữ liệu tại một số trường THPT tại TP Vũng Tàu tôi nhận thấy có những khó khăn thách thức:  Chất lượng hình ảnh phụ thuộc cơ sở vật chất của trường vì phụ thuộc vào kinh phí và thời điểm lắp đặt camera.
4  Các yếu tố ảnh hưởng đến chất lượng video: ánh sáng, thời tiết… gây nhiễu làm hình ảnh không rõ nét. Các thành phần khác trong phòng học làm che khuất các đối tượng muốn theo dõi như quạt, rèm cửa,…  Vị trí đặt camera giám sát cũng ảnh hưởng một phần không nhỏ đến dữ liệu muốn thu thập. 1.5. Các hướng tiếp cận Để giải quyết bài toán điểm danh học sinh trong lớp học thông qua camera được lắp đặt trong lớp học, chúng ta cần giải quyết từng bài toán đó là: phát hiện đầu, theo vết chuyển động đầu, tìm vị trí trung bình đầu, chiếu vị trí trung bình vào sơ đồ lớp học. a. Phát hiện chuyển động của đối tượng đầu học sinh trong lớp học Phát hiện đối tượng đầu học sinh trong lớp học là bài toán xác định đối tượng trong video và cần xác minh sự hiện diện của các đối tượng trong chuỗi ảnh và cũng có thể định vị chính xác. Các hệ thống theo dõi đối tượng thường bắt đầu bằng quá trình phát hiện đối tượng, ngoài ra phát hiện đối tượng được lặp lại trong chuỗi ảnh sẽ cần thiết cho việc hỗ trợ và xác minh cho quá trình theo vết đối tượng. Một số cách tiếp cận phát hiện đối tượng:  Phát hiện đối tượng dựa trên đặc trưng Tùy vào đặc trưng được chọn, ta có các cách tiếp cận khác nhau như: dựa trên hình dáng, dựa trên màu sắc [6], [7]. Trong đó, cách tiếp cận dựa trên màu sắc được xem là thông dụng nhất vì đặc trưng màu sắc thì dễ dàng lấy được và chi phí tính toán thấp.
5  Phát hiện đối tượng dựa trên mẫu Nếu như có một mẫu mô tả đối tượng, thì việc phát hiện đối tượng trở thành quá trình so khớp các đặc trưng giữa mẫu và chuỗi ảnh dưới sự phân tích, xác định xem mẫu có xuất hiện trong hình hay không, nếu có khoanh vùng khu vực tương ứng. Có hai kiểu so khớp mẫu, so khớp mẫu cố định và so khớp mẫu biến dạng [8]. Phát hiện đối tượng với việc so khớp chính xác thường tốn nhiều chi phí và chất lượng so khớp phụ thuộc vào chi tiết và mức độ chính xác của mẫu đối tượng.  Phát hiện đối tượng chuyển động Phát hiện đối tượng chuyển động từ hệ thống giám sát được quan tâm rất nhiều bởi hầu hết các hệ thống này giám sát thông qua video và được ứng dụng trong rất nhiều lĩnh vực, có rất nhiều kỹ thuật phát hiện chuyển động của đối tượng được sử dụng. Đối với vấn đề phát hiện đối tượng chuyển động có thể dùng biện pháp trừ nền. Bước đầu xây dựng mô hình nền, mô hình nền này có thể được học qua nhiều frame ảnh nếu nền bị thay đổi, ngược lại ta có thể chọn một nền có sẵn nếu nền không bị thay đổi. Sau đó, ta sẽ dùng mô hình nền này để so sánh với frame ảnh hiện tại và kết quả là ta sẽ nhận biết được đâu là vùng phần nền, đâu là các phần chuyển động. Ngoài ra, cũng có nhiều kỹ thuật tiếp cận để phát hiện chuyển động trong hình ảnh video liên tục. Có thể so sánh khung hình hiện tại với hình nền chúng ta chụp từ ban đầu khi bật camera hoặc từ khung hình trước. Đối với kỹ thuật trừ nền thì giảm được việc xử lý. Tuy nhiên, cách tiếp cận có một bất lợi lớn, ví dụ nếu có một đối tượng đang di chuyển ở frame đầu tiên nhưng sau đó nó đã biến mất. Với kỹ thuật Yolo v2 thì xử lý phức tạp hơn, xử lý nhiều hơn nhưng lại thích nghi với mọi môi trường, kể cả môi trường ít thay đổi hoặc thay đổi nhiều. Nhược điểm là nếu đối tượng có kích thước nhỏ, bị che khuất thì hệ
6 thống không phát hiện ra nhưng đối với bài toán cụ thể vẫn đáp ứng được vì ở đây đối tượng là học sinh trong lớp học nên có vị trí ngồi với khoảng cách cố định ít thay đổi. Chính vì vậy, đề xuất giải pháp sử dụng Yolo v2 để phát hiện đối tượng đầu học sinh. b. Theo vết đối tượng đầu học sinh trong lớp. Với bài toán cụ thể, phát hiện và theo dõi đối tượng học sinh trong thời gian thực (real-time object tracking) cũng là vấn đề mà lĩnh vực thị giác máy tính (computer vision) rất quan tâm trong thời gian qua. Mức độ khó khăn của vấn đề này phụ thuộc nhiều vào đối tượng được phát hiện và theo vết như thế nào. Hiện nay, có rất nhiều phương pháp theo vết chuyển động, cụ thể như:  So khớp mẫu So khớp mẫu là phương pháp nhằm phân loại đối tượng dựa vào mức độ tương tự giữa những đối tượng xem xét với mẫu cho trước. Trong trường hợp được ứng dụng để giải quyết yêu cầu rất cụ thể như cho trước một mẫu và một hình bất kì đa mức xám lớn hơn mẫu, xác định xem đối tượng mẫu có xuất hiện trong hình hay không, nếu có thì khoanh vùng khu vực tương ứng đó, nếu không thì báo là không tồn tại đối tượng. Ưu điểm của phương pháp này là không chịu ảnh hưởng bởi nhiễu và hiệu ứng chiếu sáng, có thể theo vết chuyển động được các đối tượng biến dạng nhưng độ phức tạp tính toán cao, chất lượng so khớp phụ thuộc vào chi tiết và độ chính xác của mẫu đối tượng.  Mean shift Dorin Comaniciu [9] đã giới thiệu phương pháp theo vết Mean shift. Đây là một phương pháp theo vết tối ưu hóa tối thiểu cục bộ. Mean shift là một phương pháp đơn giản và hiệu quả cho theo vết thời gian thực, thích hợp các video có đối tượng thay đổi do máy quay chuyển động, có ảnh nền lộn xộn nhưng nó chỉ tối ưu hoá cục bộ chứ không toàn cục. Khi màu nền và màu đối tượng giống nhau, phương pháp này sẽ không thể theo vết đối tượng được.
7  Lọc Kalman Lọc Kalman đã được biết như là một phương pháp cổ điển, nổi tiếng được phát minh từ năm 1960 bởi R.E.Kalman. Nó là một thuật toán theo vết tối ưu nhất trong trường hợp hệ là tuyến tính và nhiễu có phân phối Gauss với nguyên lý “dự đoán – hiệu chỉnh” [10] sử dụng thuật toán hồi quy để ước lượng biến trạng thái của hệ thống. Nhưng trong thực tế không phải luôn đảm bảo các yêu cầu ràng buộc của bộ lọc Kalman mà nó hoàn toàn có thể được biểu diễn bởi các phương trình phi tuyến, đồng thời nhiễu là phi Gauss. Để giải quyết vấn đề này nhiều phương pháp được đưa ra nhằm cải tiến bộ lọc Kalman truyền thống như: EKF (Extended Kalman Filter), UKF (Unscented Kalman Filter)... Mục đích của các bộ lọc này nhằm tuyến tính hóa các hệ thống phi tuyến bằng phương pháp khai triển Taylor các hàm phi tuyến thành chuỗi các hàm số sơ cấp tuyến tính. Các giải pháp này thường gặp phải các nhược điểm như khối lượng tính toán đòi hỏi quá lớn với các hệ thống phức tạp và nhiễu đo đạc bị phân cực lớn.  Lọc tương quan Ma et al. [11] đề xuất các bộ lọc mức độ tương quan trên mỗi lớp tích chập và suy luận phân cấp đáp ứng tối đa trên mỗi lớp để xác định vị trí mục tiêu. Ý tưởng chính của thuật toán lọc tương quan sẽ học một bộ lọc trong suốt quá trình theo dõi, sao cho bộ lọc khi tích chập với ảnh bao biên đối tượng thì kết quả sẽ có thông tin tập trung xung quanh tâm của đối tượng. Mỗi phương pháp có điểm mạnh và điểm yếu riêng, tuy nhiên phương pháp lọc tương quan có thể khắc phục được những nhược điểm của các phương pháp khác như: theo vết các đối tượng tốt trong trường hợp phi tuyến và không phải nhiễu Gauss.
8 1.6. Hướng giải quyết Từ các nhận xét trên chúng tôi đề xuất phương pháp giải quyết cho từng bài toán: (a) Bài toán 1 – xác định vùng đầu học sinh, chúng tôi sử dụng mô hình học chuyên sâu (Deep Learning – DL) để huấn luyện và xác định các vùng trong ảnh là đầu của học sinh vì DL cho phép “thấy” được nhiều chi tiết nhỏ qua quá trình học rất hiệu quả. (b) Bài toán 2 – theo vết chuyển động các vùng đầu học sinh, vì vùng đầu học sinh (người Việt Nam) có màu đồng nhất (học sinh phổ thông không được nhuộm tóc khi đi học – theo nội quy) nên phương pháp theo vết chuyển động theo bộ lọc tương quan (trong xác suất thống kê) sẽ có ưu thế hơn so với các phương pháp khác. (c) Bài toán 3 – tìm vị trí trung bình tâm các vùng đầu, chúng tôi dùng phương pháp tính tâm trung bình để tìm tâm của các vị trí đầu của một học sinh. (d) Bài toán 4 – điểm danh học sinh theo sơ đồ, chúng tôi dùng phương pháp chiếu với độ đo Euclide được dùng để điểm danh học sinh theo sơ đồ lớp. 1.7. Bố cục luận văn Bố cục luận văn được chia thành 4 chương: Chương 1 trình bày một số vấn đề từ thực tế làm phát sinh vấn đề cần nghiên cứu. Trong đó cũng sẽ giới thiệu những mục tiêu, nội dung nghiên cứu, các giải pháp giải quyết vấn đề, những khó khăn thách thức khi giải quyết bài toán và cuối cùng là bố cục trình bày của luận văn. Chương 2 trình bày những vấn đề lý thuyết nghiên cứu trong đề tài: mạng nơ-ron nhân tạo, mạng nơ-ron tích chập, lọc theo mức độ tương quan. Chương 3 trình bày thuật giải sử dụng để giải quyết từng bài toán.
9 Chương 4 trình bày kết quả nghiên cứu và hướng phát triển của đề tài trong tương lai.