intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video

Chia sẻ: Bobietbo | Ngày: | Loại File: PDF | Số trang:90

57
lượt xem
11
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài "Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video" sẽ giúp các bạn có thêm cơ hội tìm hiểu, học tập và nghiên cứu thêm nhiều kiến thức về công nghệ thông tin nói chung và kiến thức về xử lý ảnh nói riêng. Để xây dựng hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video cần tìm hiểu nhiều tài liệu và kiến thức liên quan về trí tuệ nhân tạo, mạng nơ-ron, kiến thức về học máy và nhất là bài toán về nhận dạng và theo vết chuyển động trong video.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video

  1. Trang 1 / 90 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ-TIN HỌC THÀNH PHỐ HỒ CHÍ MINH LÊ THÁI TÚ TIỀN HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO LUẬN VĂN THẠC SĨ Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHẠM THẾ BẢO TP. HỒ CHÍ MINH – THÁNG 6 NĂM 2019 Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  2. Trang 2 / 90 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân được hướng dẫn bởi PGS.TS. Phạm Thế Bảo. Các số liệu, kết quả trình bày trong luận văn này là trung thực. Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ. Học viên Lê Thái Tú Tiền Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  3. Trang 3 / 90 Học viên đã bảo vệ thành công luận văn ngày 04/6/2019, tại Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số 115/QĐ-ĐNT ngày 20/5/2019 của Hiệu trưởng Trường ĐH Ngoại ngữ-Tin học TP.HCM, với sự tham gia của: Chủ tịch Hội đồng: PGS.TS. Trần Văn Lăng ĐH Lạc Hồng (Đồng Nai) Phản biện 1: TS. Nguyễn Đức Cường ĐH Ngoại ngữ-Tin học TP.HCM Phản biện 2: PGS.TS. Nguyễn Thanh Bình ĐH Bách Khoa (ĐHQG TP.HCM) Ủy viên: PGS.TS. Lê Hoàng Thái ĐH KHTN (ĐHQG TP.HCM) Thư ký: Tiến sĩ Trần Minh Thái ĐH Ngoại ngữ-Tin học TP.HCM Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  4. Trang 4 / 90 DANH MỤC CÁC CHỮ VIẾT TẮT TT TỪ VIẾT TỪ ĐẦY ĐỦ NGHĨA TẮT 1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo 2 CNN Convolutional Neural Network Mạng nơ-ron tích chập 3 FCNN Full Convolution Neural Mạng nơ-ron tích chập Network đầy đủ 4 HOG Histogram of orientation Lược đồ định hướng của gradients các gradient 5 LCT Long-term correlation tracking Theo vết tương quan dài hạn 6 MOSSE Minimum output sum of Bình phương sai số tổng squared error đầu ra nhỏ nhất 7 MLP Multilayer Perceptron Mạng thần kinh nhân tạo truyền thẳng nhiều lớp 8 R-CNN Region proposals + CNN CNN khu vực 9 SVM Support vector machine Máy vectơ hỗ trợ 10 YOLO You only look once Bạn chỉ nhìn một lần Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  5. Trang 5 / 90 DANH MỤC CÁC HÌNH VẼ TT TÊN NỘI DUNG TRANG 1 Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời 15 gian thực 2 Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn 16 3 Hình 2.1 Cấu trúc của mạng thần kinh nhân tạo 24 4 Hình 2.2 Ma trận trong cửa sổ trượt 26 5 Hình 2.3 Cấu trúc các lớp của CNN 28 6 Hình 2.4 Trường tiếp nhận cục bộ 30 7 Hình 2.5 Nơ-ron trong lớp ẩn 1 30 8 Hình 2.6 Nơ-ron trong lớp ẩn 2 31 9 Hình 2.7 Một sơ đồ đặc trưng 31 10 Hình 2.8 Lớp tổng hợp trong CNN 33 11 Hình 2.9 Sự kết hợp giữa các lớp tích chập và max-pooling 33 12 Hình 2.10 Các lớp tạo thành một CNN cho ra 10 giá trị 34 13 Hình 2.11 Giai đoạn phân vùng ảnh 37 14 Hình 2.12 Giai đoạn xác định đối tượng 38 15 Hình 2.13 Chín hình dạng mẫu của một đối tượng 40 16 Hình 3.1 Mô hình bài toán điểm danh học sinh dùng 51 camera 17 Hình 4.1 Danh sách các video quay các lớp học 68 18 Hình 4.2 Danh sách các frame hình được chọn huấn luyện 69 từ 30 video 19 Hình 4.3 Đối tượng bị vật thể che khuất tại lớp TĐC34A 79 20 Hình 4.4 Phát hiện sai đối tượng lớp TKT33-3N 79 Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  6. Trang 6 / 90 TT TÊN NỘI DUNG TRANG 21 Hình 4.5 Hình frame thứ 76 của lớp TCB33-3N 80 22 Hình 4.6 Hình frame thứ 91 của lớp TCB33-3N 81 23 Hình 4.7 Hình frame thứ 99 của video M06 (lớp TCB33- 81 3N) 24 Hình 4.8 Hình frame thứ 27 lớp TNT34 82 25 Hình 4.9 Hình frame thứ 45 của lớp TNT34 82 26 Hình 4.10 Hình frame thứ 99 của video M42 (lớp TNT34) 83 27 Hình 4.11 Hình frame thứ 27 của lớp TTP34 83 28 Hình 4.12 Hình frame thứ 99 của lớp TTP34 84 Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  7. Trang 7 / 90 DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ TT TÊN NỘI DUNG TRANG 1 Sơ đồ 1.1 Sơ đồ mô tả phát hiện đối tượng chuyển động 16 2 Bảng 4.1 Danh sách 45 video dùng làm dữ liệu 61 – 63 3 Bảng 4.2 Danh sách 45 video phân nhóm theo buổi 63 4 Bảng 4.3 Danh sách 45 video phân nhóm theo phòng 64 5 Bảng 4.4 Danh sách 45 video phân nhóm theo tầng 64 6 Bảng 4.5 Danh sách 45 video phân nhóm theo ánh sáng 64 7 Bảng 4.6 Độ chính xác của bài toán điểm danh phân nhóm 67 theo buổi 8 Biểu đồ 4.1 Độ chính xác của bài toán điểm danh phân nhóm 68 theo buổi 9 Bảng 4.7 Độ chính xác của bài toán điểm danh phân nhóm 68 theo phòng 10 Biểu đồ 4.2 Độ chính xác của bài toán điểm danh phân nhóm 69 theo phòng 11 Bảng 4.8 Độ chính xác của bài toán điểm danh phân nhóm 70 theo tầng 12 Biểu đồ 4.3 Độ chính xác của bài toán điểm danh phân nhóm 70 theo tầng 13 Bảng 4.9 Độ chính xác của bài toán điểm danh phân nhóm 71 theo ánh sáng 14 Biểu đồ 4.4 Độ chính xác của bài toán điểm danh phân nhóm 71 theo ánh sáng 15 Bảng 4.10 Độ chính xác của bài toán điểm danh phân nhóm 72 theo lớp học 16 Biểu đồ 4.5 Độ chính xác của bài toán điểm danh phân nhóm 73 theo lớp học Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  8. Trang 8 / 90 MỤC LỤC LỜI CAM ĐOAN...................................................................................................... 2 DANH MỤC CÁC CHỮ VIẾT TẮT ....................................................................... 4 DANH MỤC CÁC HÌNH VẼ................................................................................... 5 DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ ............................................................... 7 MỤC LỤC ................................................................................................................. 8 LỜI CẢM ƠN ......................................................................................................... 10 TỔNG QUAN ....................................................................................... 11 Đặt vấn đề ................................................................................................. 11 Giới thiệu bài toán..................................................................................... 13 Các hướng tiếp cận ................................................................................... 14 1.3.1 Xác định vị trí vùng đầu trong ảnh ..................................................... 14 1.3.2 Theo vết chuyển động của đối tượng ................................................. 18 Đề xuất hướng giải quyết .......................................................................... 21 CƠ SỞ LÝ THUYẾT ............................................................................ 23 Mạng nơ-ron nhân tạo ............................................................................... 23 Mạng nơ-ron tích chập .............................................................................. 26 2.2.1 Tổng quan ........................................................................................... 26 2.2.2 Mô hình của CNN .............................................................................. 27 2.2.3 Xây dựng CNN cho phân loại ảnh ..................................................... 29 Phát hiện đối tượng ................................................................................... 34 2.3.1 Tổng quan ........................................................................................... 34 2.3.2 Phương pháp phát hiện đối tượng ...................................................... 36 Theo vết chuyển động dựa trên tương quan ............................................. 42 2.4.1 Giới thiệu ............................................................................................ 42 2.4.2 Những vấn đề liên quan đến thuật toán .............................................. 44 2.4.3 Thuật toán theo vết đối tượng dựa trên đặc trưng tương quan ........... 47 Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  9. Trang 9 / 90 2.4.4 Tổng kết .............................................................................................. 49 XÂY DỰNG THUẬT TOÁN............................................................... 50 Phát hiện vùng đầu học sinh trong ảnh ..................................................... 51 Theo vết chuyển động ............................................................................... 57 Tính vị trí tâm trung bình vùng đầu từng học sinh ................................... 60 Điểm danh học sinh trong lớp học ............................................................ 61 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN .............................................. 64 Môi trường thực nghiệm ........................................................................... 64 Xây dựng dữ liệu....................................................................................... 64 Kết quả ...................................................................................................... 69 4.3.1 Kết quả chi tiết.................................................................................... 70 4.3.2 Các trường hợp sai trong bài toán điểm danh học sinh ...................... 78 Đánh giá .................................................................................................... 84 4.4.1 Ưu điểm .............................................................................................. 85 4.4.2 Nhược điểm ........................................................................................ 85 Hướng phát triển ....................................................................................... 86 TÀI LIỆU THAM KHẢO ....................................................................................... 88 Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  10. Trang 10 / 90 LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cám ơn chân thành đến quý thầy cô Trường Đại học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh, Quý thầy cô đã tham gia giảng dạy cho lớp Cao học Công nghệ thông tin khóa 1, những người đã nhiệt tình cung cấp kiến thức, chỉ dạy tận tình những bài học quý báu trong suốt thời gian tôi học tập tại Trường. Tôi xin chân thành cám ơn sâu sắc đến PGS.TS. Phạm Thế Bảo, mặc dù rất bận rộn với vô số công việc trong vai trò Trưởng bộ môn Ứng dụng tin học Trường Đại học Khoa học tự nhiên cũng như trong công tác giảng dạy nhưng Thầy đã hướng dẫn rất tận tình, chu đáo, cung cấp nhiều kiến thức chuyên môn kịp thời và bổ ích trong suốt thời gian tôi thực hiện luận văn này. Tôi cũng xin cảm ơn Quý thầy cô, anh chị cán bộ, nhân viên thuộc Ban Khoa học-Hợp tác và Đào tạo sau đại học Trường Đại học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng tôi hoàn thành khóa học. Mặc dù đã cố gắng để hoàn thành tốt luận văn nhưng chắc chắn sẽ không tránh khỏi thiếu sót, rất mong nhận được sự chỉ bảo của Quý thầy cô. Thành phố Hồ Chí Minh, tháng năm 2019 Học viên thực hiện Lê Thái Tú Tiền Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  11. Trang 11 / 90 TỔNG QUAN Đặt vấn đề Hiện nay đã có rất nhiều ứng dụng về xử lý video trong việc giám sát đối tượng như: con người, phương tiện giao thông, hàng hóa, động vật, thực vật… ; các ứng dụng về việc đếm số lượt xe trên đường, thống kê các loại xe, hoặc hàng hóa; những ứng dụng về thống kê số người ra vào một cửa hàng, siêu thị, bệnh viện…[6] đã được nhiều nhóm nghiên cứu thực hiện và triển khai. Trên thế giới đã có nhiều ứng dụng nhận dạng, quản lý, giám sát hoặc thống kê rất đa dạng. Tại một số trường cao đẳng và đại học nước ngoài, các lớp học thường có số lượng sinh viên tham gia đông đến nỗi khó có thể kiểm soát liệu sinh viên có thực sự tham gia lớp học hay không. Nếu dùng cách điểm danh truyền thống bằng cách kí vào danh sách thì có khả năng sinh viên sẽ kí hộ lẫn nhau, điểm danh tên từng người lại mất thời gian [4][17]. Tuy nhiên, công nghệ nhận dạng khuôn mặt nay đã có thể giải quyết vấn đề này. Để vào lớp và được điểm danh, sinh viên sẽ phải quét nhận dạng khuôn mặt để khớp với dữ liệu đã lưu của trường. Vì vậy trừ khi bạn có anh em sinh đôi, nếu không giờ trốn học của bạn sẽ không còn là điều dễ dàng nữa. Trường Quản trị ESG ở Pari đang thử nghiệm phần mềm nhận diện khuôn mặt tại hai lớp học trực tuyến để đảm bảo các sinh viên tham gia không xao lãng trong giờ học. Trường sử dụng phần mềm có tên là Nestor, webcam trên máy tính cá nhân của mỗi sinh viên sẽ phân tích chuyển động mắt và biểu hiện khuôn mặt để tìm ra liệu sinh viên đó có đang tập trung vào các video bài giảng hay không. Sau đó, phần mềm này sẽ tự động tạo ra các câu đố trắc nghiệm về nội dung bài giảng để kiểm tra sự tập trung của người học. Công nghệ này cũng vô cùng hữu dụng với giáo viên, để có thể điều chỉnh bài giảng dựa trên phần nào học viên ít chú ý nhất [11]. Tại Việt Nam đa số các ứng dụng xử lý video thường tập trung vào giám sát các đối tượng con người trong việc phòng chống tội phạm, phát hiện hành vi Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  12. Trang 12 / 90 khả nghi của đối tượng; hoặc là các ứng dụng thống kê xe qua trạm thu phí, đếm số lượt ra vào của các loại xe trong một bãi giữ xe, hoặc giám sát, dự báo và phỏng đoán tình hình kẹt xe tại các giao lộ dựa trên lưu lượng xe đông hoặc số lượng xe được thống kê của các ứng dụng [7].… Việc thực hiện điểm danh học sinh tại các trường học hiện chưa được thấy triển khai ở Việt Nam, mặc dù có rất nhiều trường được trang bị hệ thống camera rất hiện đại với số lượng từ 5 - 10 camera/trường, thậm chí có trường bố trí hơn 30 camera trong phạm vi toàn trường (các trường THCS trên địa bàn Quận 6, Quận 11, Quận Bình Tân và nhiều quận khác cũng được trang bị rất nhiều camera như vậy). Tuy nhiên hệ thống này chủ yếu chỉ để giám thị, giáo viên quan sát, xem lại khi có sự cố, hoàn toàn chưa có xử lý, thống kê và đếm học sinh một cách tự động. Do đó việc thực hiện đề tài điểm danh học sinh trong một lớp học là một nhu cầu theo tôi là cần thiết trong các trường tiểu học, trung học cơ sở, trung học phổ thông cũng như một số trường trung cấp có nhu cầu giám sát và quản lý học sinh. Thực hiện đề tài này sẽ giúp tôi có thêm cơ hội tìm hiểu, học tập và nghiên cứu thêm nhiều kiến thức về công nghệ thông tin nói chung và kiến thức về xử lý ảnh nói riêng. Để xây dựng hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video cần tìm hiểu nhiều tài liệu và kiến thức liên quan về trí tuệ nhân tạo, mạng nơ-ron, kiến thức về học máy và nhất là bài toán về nhận dạng và theo vết chuyển động trong video. Thực hiện đề tài này cũng là cơ hội kết hợp những kiến thức đã được học trong chương trình đào tạo ứng dụng vào thực tiễn. Phạm vi nghiên cứu của đề tài bao gồm nghiên cứu nhận dạng đối tượng, chủ yếu nhận dạng đặt trưng vùng đầu, sau đó theo vết chuyển động để xác định số lượng đối tượng vùng đầu học sinh có trong phòng học. Một số phương pháp có thể sử dụng nghiên cứu thực hiện: - Phát hiện đối tượng chuyển động (sử dụng các phương pháp): Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  13. Trang 13 / 90 + Optical flow + GMM (Gaussian Mixture Model) + Trừ ảnh + Phương pháp Otsu (phân vùng ảnh) - Theo vết chuyển động (có thể dùng phương pháp): + Camshift + Particle filter Đề tài được thực hiện tại các trường học cấp 2, cấp 3 hoặc các trường Trung cấp có lớp học bố trí học sinh ngồi theo sơ đồ. Giới thiệu bài toán Tại Trường Trung cấp Thủy sản (địa chỉ: 511 An Dương Vương, Phường An Lạc A, Quận Bình Tân, Tp.HCM) có gần 900 học sinh của 27 lớp thuộc quản lý của sáu khoa của Trường, trong đó gần 90% học sinh theo học nghề là các đối tượng học sinh tốt nghiệp THCS (tuổi từ 15 trở lên), các em đa số còn rất nhỏ, hầu hết phụ huynh đều rất lo lắng cho con em họ có đi học đầy đủ, đúng giờ hay không, có bỏ học, trốn tiết hay không. Thầy Cô giáo chủ nhiệm, bộ phận giám thị cũng có nhu cầu điểm danh học sinh từng lớp theo buổi và theo tiết để biết học sinh có duy trì sĩ số hay không; phát hiện kịp thời các trường hợp nghỉ, bỏ học. Do đó, ngoài việc giảng dạy thì công tác quản lý các em là một yêu cầu hết sức cần thiết và rất quan trọng với nhà trường. Ban giám hiệu và Phòng công tác học sinh giao cho các giám thị phối hợp với giáo viên đứng lớp thường xuyên điểm danh đầu giờ, giữa giờ và cuối giờ để phát hiện các em đi trễ, bỏ học hoặc nghỉ học để kịp thời thông báo cho Phụ huynh ngay trong buổi học hoặc chậm nhất là sau khi kết thúc giờ học. Với số lượng lớp học và học sinh đông như vậy công việc điểm danh hàng ngày tốn rất nhiều thời gian và nhân lực của Trường, thậm chí còn ảnh hưởng Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  14. Trang 14 / 90 đến giờ lên lớp của các giáo viên bộ môn vì giám thị phải thường xuyên vào lớp điểm danh từng em và thống kê ngay lập tức để có số lượng chính xác nhất. Xuất phát từ thực tế trên, việc lắp đặt camera trong các phòng học để điểm danh học sinh có mặt trong lớp bằng hệ thống tự động sẽ giúp giảm tải công việc cho các giám thị, giảm nhân lực cho nhà trường, tăng hiệu quả giám sát học sinh. Đó là lý do để tôi thực hiện đề tài này. Đề tài nghiên cứu được thực hiện trên tập dữ liệu là video quay tại các lớp học của Trường Trung cấp Thủy sản. Những video này được quay bằng các camera lắp cố định trong những lớp học. Các hướng tiếp cận 1.3.1 Xác định vị trí vùng đầu trong ảnh Nhận dạng người và đếm số lượng người trong môi trường thực tế là một thách thức đối với việc xử lý video. Thực tế theo tìm hiểu thì cũng đã có rất nhiều các ứng dụng đếm người dùng. Ví dụ như: Tự động đếm hành khách lên xuống xe buýt, xe lửa, tàu điện hoặc hệ thống giao thông công cộng khác [18]. Việc nhận dạng các học sinh trong một lớp học phức tạp hơn do nhiều yếu tố như: ánh sáng từng thời điểm trong ngày khác nhau (do mây), không gian lớp học (quá rộng hoặc quá hẹp), số lượng học sinh quá đông hay các em ngồi không theo thứ tự cao thấp, tức là học sinh cao ngồi dưới, học sinh thấp ngồi trên hoặc những học sinh có thân hình to (mập) ngồi trước những học sinh có dáng nhỏ (gầy). Do đó việc nhận dạng và điểm danh học sinh khó có thể dùng phương pháp nhận dạng khuôn mặt, nhưng nếu dùng camera để trên cao hướng xuống lớp học và nhận dạng vùng đầu của các em học sinh thì sẽ khả thi hơn rất nhiều. Thông thường việc nhận dạng đầu thường dùng phương pháp ước lượng di chuyển của người đi bộ dựa trên phân loại các lớp kết hợp với HOG/SVM theo đề xuất của Dalal và Triggs [20]. Phương pháp phát hiện đầu dựa trên các phép tính toán rời rạc và các lớp LPB. Nhận dạng vùng đầu tích hợp thời gian thực Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  15. Trang 15 / 90 bằng cách sử dụng mô hình ẩn của Markov cho kết quả khá tốt. Hình 1.1 mô tả cách thức phát hiện đối tượng theo thời gian thực được xây dựng theo mô hình phân cấp, phát hiện đối tượng theo từng vùng ảnh liên tục [16]. Phát hiện Phân loại định hướng Ước tính liên tục t t +1 Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời gian thực [16] Mô hình này được chia làm hai giai đoạn: - Giai đoạn đầu tiên bao gồm một lớp HOG/SVM đơn giản sử dụng mô hình chỉ một đầu ở độ phân giải thấp. Hệ thống dò tìm này tương tự như thiết bị được Dalal và Trigg đề xuất. Tập dữ liệu bao gồm khoảng 10.000 hình ảnh được huấn luyện và chú thích thủ công để tạo ra các mẫu ngẫu nhiên tốt nhất. Từ những mẫu sai về khung ảnh không có người đi bộ, hệ thống sẽ được huấn luyện lại để hạn chế nhận dạng sai so với giai đoạn huấn luyện ban đầu. Sử dụng một bộ kiểm tra độc lập để đạt được ngưỡng phát hiện tốt nhất có thể. - Giai đoạn thứ hai sử dụng một mô hình dựa trên một phần mà mô hình được đào tạo phát hiện của giai đoạn đầu tiên. Mặc dù người đi bộ có thể thay đổi rất nhiều về tư thế và ngoại hình, người đứng đầu chỉ thay đổi chút ít về Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  16. Trang 16 / 90 ngoại hình. Tuy nhiên, kết quả phát hiện lại tốt hơn so với hệ thống phát hiện đa mô hình. Phương pháp tính toán entropy H(Ω) của gradient ảnh cho cả hướng và độ lớn của tập huấn luyện hoàn chỉnh Ω theo công thức (1.1). Trung bình IG(ω) được tính bằng cách lấy trung bình từng khối theo chiều kim đồng hồ và các đặc điểm độ lớn ψ (công thức 1.2). 𝑯(𝛀) = - ∑𝝍 𝝐 𝛀 𝑷(𝝍) ∗ 𝒍𝒅(𝑷(𝝍)) (1.1) ̅ )𝑯(𝜴|𝝎 IG(𝛚) = 𝑯(𝛀) − 𝑷(𝛚)𝑯(𝛀|𝛚) − 𝑷(𝝎 ̅) (1.2) Hình 1.2 cho thấy độ lệch thông tin theo chiều kim đồng hồ của các mẫu dương so với các mẫu âm và so sánh với các kết quả huấn luyện có được sau giai đoạn đầu tiên. Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn [16] Lưu ý rằng các entropy của các mẫu âm được chọn ngẫu nhiên gần như được phân bố đồng đều trên ảnh trong khi entropy của mẫu dương cho thấy một cấu trúc tương đối đầy đủ tương tự như lúc đầu. Để khắc phục vấn đề này, hệ thống sẽ tập trung vào các vùng thông tin có liên quan của ảnh, từ đó tạo ra ba cửa sổ có kích thước giống hệt nhau để mật độ thông tin trên mỗi cửa sổ gần bằng nhau và lớn nhất có thể. Các cửa sổ được Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  17. Trang 17 / 90 sử dụng để tính toán cho quá trình phân loại là tính toán của vector mô tả. Sau khi gán kích thước và vị trí của các bộ phận, dữ liệu đào tạo tương ứng được trích xuất cho mọi phần từ tập huấn luyện và đào tạo các mô hình riêng lẻ. Áp dụng các phương pháp của Felzenszwalb [23] bằng cách tính toán Mi cho các vị trí góc của các phần trong ảnh, trong đó i = 1, ..., N là các chỉ số thành phần tương ứng. Để xây dựng lược đồ, bộ dò tìm thành phần được chạy trên các vị trí khác nhau trong hộp giới hạn của giai đoạn đầu dò tìm. Từ lược đồ của các điểm phù hợp, sẽ tính toán lược đồ cho trung tâm đầu dự kiến theo công thức (1.3) trong đó giá trị cho mỗi mục của lược đồ Mi(x, y) là điểm trùng khớp của hệ thống dò tìm tại vị trí đã dịch (xy, yd) trừ độ lệch biến dạng được xác định bởi công thức (1.4). Độ biến dạng được mô hình hóa dưới dạng hình elip có trục được di chuyển từ điểm phát hiện (xd, yd) bằng cách dịch chuyển giữa các phần vị trí và góc trung tâm (xci, yci). 𝑴𝒊 (𝒙, 𝒚) = 𝒎𝒂𝒙𝒙𝒅 ,𝒚𝒅 (𝒅𝒊 (𝒙𝒅 , 𝒚𝒅 ) − 𝝎𝒊 (𝒙 ̃ )) ̃, 𝒚 (1.3) 𝝎𝒊 (𝒙 ̃𝟐 + 𝜷𝒊 𝒚 ̃) = √𝜶𝒊 𝒙 ̃, 𝒚 ̃𝟐 (1.4) 𝒅(𝒙, 𝒚) = 𝒅𝑹 + ∑𝒊 𝑴𝒊 (𝒙, 𝒚) (1.5) Trong đó: (𝒙 ̃) = (𝒙𝒅 − 𝒙𝒄𝒊 − 𝒙, 𝒚 − 𝒚𝒄𝒊 − 𝒚). ̃, 𝒚 Sau giai đoạn huấn luyện đầu tiên và một phần mô hình huấn luyện với các tham số (𝛼𝑖 , 𝛽𝑖 ) trong công thức (1.4) được huấn luyện bằng cách chuẩn hóa hồi quy theo chu kỳ (1.6), (1.7) và (1.8). 𝒆(𝜶, 𝜷) = 𝛀 − 𝒕𝒂𝒏𝒉(𝒅(𝜶, 𝜷)), (1.6) 𝑱(𝜶, 𝜷) = 𝒆𝑻 𝒆 + 𝒄(𝜶𝟐 + 𝜷𝟐 ), (1.7) (𝜶, 𝜷) = 𝒂𝒓𝒈𝒎𝒊𝒏(𝑱(𝜶, 𝜷)). (1.8) Trong công thức (1.6) Ω biểu thị vectơ của các nhãn được chú thích bằng ̅} của tất cả dữ liệu huấn luyện trong khi d(α, β) biểu thị vectơ của điểm {𝜔, 𝜔 phát hiện tính toán cho tất cả các mẫu đào tạo theo công thức (1.5). Tham số c Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  18. Trang 18 / 90 trong công thức (1.7) là trọng số trong hàm tính toán (1.8) và là một tham số được gán trong quá trình huấn luyện. 1.3.2 Theo vết chuyển động của đối tượng Trong xử lý ảnh ngoài việc phát hiện ra đối tượng còn có theo vết chuyển động. Các phương pháp phát hiện chuyển động trong camera đã được nghiên cứu và phát triển rất nhiều đem lại nhiều thành tựu cho công nghệ xử lý ảnh. Chúng ta biết kết quả thu nhận từ các camera giám sát hoặc webcam là các frame ảnh. Frame ảnh thu nhận được từ các camera hoặc webcam sẽ được xử lý qua các công đoạn sau: Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân loại chúng được tiến hành xử lý và được kết quả là đối tượng đang cần theo vết ở vị trí nào, để tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát đối tượng theo một ngưỡng nhất định như sơ đồ 1.1 [7]. Camera Chuỗi ảnh Tiền xử lý ảnh Theo vết đối tượng Tách đối tượng Phát hiện đối tượng Xử lý theo yêu cầu Sơ đồ 1.1 Mô tả phát hiện và theo vết đối tượng chuyển động Có rất nhiều hướng tiếp cận để giải quyết vấn đề trên. Việc lựa chọn phương pháp áp dụng phải dựa vào tình huống cụ thể, đối với trường hợp có ảnh nền không thay đổi việc phát hiện đối tượng chuyển động có thể bằng các phương pháp trừ nền. Các giải thuật này sẽ được trình bày sau đây. Hướng giải quyết là xây dựng mô hình nền, sau đó sử dụng mô hình này cùng với frame ảnh hiện tại để rút ra được các chuyển động xung quanh. Để có thể tiếp cận chúng ta cần phải xây dựng được mô hình nền. Có nhiều phương pháp xây dựng mô hình Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  19. Trang 19 / 90 nền bởi các tác giả: Anurag Mittal dùng adaptive kernel density estimation được tính bằng [10]. Kết quả tốt tuy nhiên khó khăn về không gian lưu trữ, tính toán phức tạp, tốc độ không đáp ứng thời gian thực. Haritaoglu dùng giải thuật W4, Stauffer sử dụng Mixture of Gaussian [15] để xây dựng mô hình nền… Nhằm phát hiện được các đối tượng chuyển động, xác định xem những đối tượng này có đúng là những đối tượng cần phát hiện hay không. Đây là các khó khăn cần khắc phục. Việc phát hiện đối tượng có thể được thực hiện bằng các phương pháp máy học. Các phương pháp này có thể kể đến như: mạng nơ-ron, adaptive boosting, cây quyết định, máy vector hỗ trợ. Điểm chung của các phương pháp này đều phải trải qua giai đoạn huấn luyện trên một tập dữ liệu. Tập dữ liệu này phải đủ lớn, bao quát hết được các trạng thái của đối tượng. Sau đó các đặc trưng sẽ được rút trích ra trên bộ dữ liệu huấn luyện này. Việc lựa chọn đặc trưng sử dụng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các phương pháp máy học. Một số đặc trưng thường được sử dụng như: đặc trưng về màu sắc, đặc trưng về góc cạnh, đặc trưng histogram… Sau khi đã có được đặc trưng, chúng tôi sẽ đánh nhãn lớp cụ thể cho các đặc trưng đó để sử dụng trong việc huấn luyện. Trong quá trình huấn luyện, các phương pháp máy học sẽ sinh ra một hàm để ánh xạ những đặc trưng đầu vào tương ứng với nhãn lớp cụ thể. Sau khi đã huấn luyện xong thì các phương pháp máy học trên sẽ được dùng để phân lớp cho những đặc trưng mới. Đặc điểm của phương pháp này là độ chính xác cao. Tuy nhiên nó gặp phải khó khăn trong việc thu thập dữ liệu huấn luyện ban đầu, tốn thời gian và chi phí cho quá trình học máy. Đầu vào của bài toán theo dõi và giám sát đối tượng chuyển động là các khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động sẽ đưa ra các đối tượng chuyển động. Các đối tượng được phát hiện sẽ qua quá trình phân lớp đối tượng để xem thuộc lớp nào, sự vật nào. Và cuối cùng là quá trình xử lý để theo dõi đối tượng đó là việc tìm ra đường chuyển động của đối tượng, dự đoán chuyển động, xử lý nhập nhằng trong chuyển động...[1]. Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
  20. Trang 20 / 90 Khối phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên trong hệ thống giám sát thông minh bằng hình ảnh. Vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo. Chính vì thế nó ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát thông minh. Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống. Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống. Khối xử lý theo vết đối tượng là khối xử lý không thể thiếu trong hệ thống giám sát thông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến đầu ra của toàn bộ hệ thống. Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ đưa lại tính chính xác và độ tin cậy cho hệ thống giám sát. Việc xử lý của hệ thống giám sát thông minh bằng hình ảnh là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau: Bài toán 1: Phát hiện các đối tượng chuyển động là bước cơ bản đầu tiên trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách các các đối tượng chuyển động từ những hình ảnh nền của các đối tượng đó. Phương pháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, các phương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời và các phương pháp dựa trên luồng thị giác. Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã được tìm ra theo các lớp đã được định nghĩa trước như: lớp người, lớp phương tiện, lớp động vật,… Đây là bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng. Hiện tại có hai hướng chính tiếp cận để giải quyết bài toán này đó là: hướng tiếp cận dựa trên hình dáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng. Hướng tiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2