intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học máy tính: Phương pháp phát hiện mặt người sử dụng đặc trưng HOG

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:61

39
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài là nghiên cứu loại đặc trưng HOG, cách sử dụng nó kết hợp với SVM (Support Vector Machines) để phát hiện khuôn mặt người trong ảnh thu từ camera giám sát. Đây là một vấn đề cần giải quyết để xây dựng thử nghiệm một hệ thống hỗ trợ điểm danh tự động học sinh. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Phương pháp phát hiện mặt người sử dụng đặc trưng HOG

  1. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐINH QUANG HUY PHƯƠNG PHÁP PHÁT HIỆN MẶT NGƯỜI SỬ DỤNG ĐẶC TRƯNG HOG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, 2018
  2. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐINH QUANG HUY PHƯƠNG PHÁP PHÁT HIỆN MẶT NGƯỜI SỬ DỤNG ĐẶC TRƯNG HOG Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. NGUYỄN TOÀN THẮNG Thái Nguyên, 2018
  3. 1 LỜI CAM ĐOAN Tên tôi là: Đinh Quang Huy Sinh ngày: 06/08/1981 Học viên lớp cao học CHK15A - Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên. Hiện đang công tác tại: Sở Giáo dục và Đào tạo tỉnh Thái Nguyên. Xin cam đoan: Đề tài “Phương pháp phát hiện mặt người sử dụng đặc trưng HOG” do TS. Nguyễn Toàn Thắng hướng dẫn là công trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng. Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật. Thái Nguyên, ngày tháng năm 2018 Tác giả luận văn Đinh Quang Huy
  4. 2 LỜI CẢM ƠN Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn TS. Nguyễn Toàn Thắng, luận văn với Đề tài “Phương pháp phát hiện mặt người sử dụng đặc trưng HOG”. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn TS. Nguyễn Toàn Thắng đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Phòng đào tạo Sau đại học Trường Đại học Công nghệ Thông tin và Truyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn. Sở Giáo dục và Đào tạo tỉnh Thái nguyên nơi tôi công tác đã tạo điều kiện tối đa cho tôi thực hiện khóa học này. Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. Thái Nguyên, ngày 17 tháng 6 năm 2018 Tác giả luận văn Đinh Quang Huy
  5. 3 MỤC LỤC Trang LỜI CAM ĐOAN ...................................................................................................... 1 LỜI CẢM ƠN ............................................................................................................ 2 MỤC LỤC .................................................................................................................. 3 DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... 5 DANH MỤC HÌNH ẢNH ......................................................................................... 6 DANH MỤC BẢNG BIỂU ....................................................................................... 8 MỞ ĐẦU .................................................................................................................... 9 1. Mục tiêu của đề tài ..................................................................................... 10 2. Hướng nghiên cứu của đề tài ..................................................................... 11 3. Ý nghĩa khoa học và thực tiễn của đề tài ................................................. 11 CHƯƠNG I. TỔNG QUAN VỀ PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH VÀ VIDEO .............................................................................................. 12 1.1. Phát hiện điểm ......................................................................................... 12 1.2. Phép trừ nền ............................................................................................. 14 1.3. Phân vùng ................................................................................................. 18 1.3.1. Mean-Shift Clustering....................................................................18 1.3.2. Phân đoạn Hình ảnh Sử dụng Đồ thị-Cuts. ...................................19 1.3.3. Đường nét hoạt động .....................................................................20 1.4. Học có giám sát ........................................................................................ 21 1.5. Thuật toán Viola–Johns và các vấn đề liên quan. ................................ 23 1.5.1. Thuật toán Viola–Johns .................................................................23 1.5.2. Đánh Giá Thuật Toán Viola-Jones ................................................24
  6. 4 1.6. Adaboost ................................................................................................... 26 1.7. Đặc trưng Haar wavelet .......................................................................... 30 CHƯƠNG 2. ĐẶC TRƯNG HOG VÀ CÁCH SỬ DỤNG HOG KẾT HỢP VỚI SVM TRONG PHÁT HIỆN MẶT NGƯỜI.................................. 33 2.1. Phương pháp phát hiện mặt người sử dụng HOG. .............................. 33 2.2. Rút trích đặc trưng HOG trong ảnh ..................................................... 38 2.3. Chuẩn hóa vector đặc trưng cho từng block ........................................ 42 2.4. Integral Image, công thức đệ quy tính Integral Image ........................ 43 2.5. Chuẩn hóa ánh sáng với bộ lọc Retinal filter........................................44 2.6. Phương pháp phân lớp SVM ..................................................................47 CHƯƠNG 3. XÂY DỰNG CHƯƠNG TRÌNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................................................................ 50 3.1. Môi trường thử nghiệm........................................................................... 50 3.2. Dữ liệu thử nghiệm .................................................................................. 50 3.2.1. Cơ sở dữ liệu UOF...........................................................................50 3.2.2. Cơ sở dữ liệu FEI.............................................................................51 3.2.3. Cơ sở dữ liệu JAFFE .......................................................................51 3.2.4. Cơ sở dữ liệu LFW ...........................................................................52 3.3. Kết quả thử nghiệm ................................................................................. 52 KẾT LUẬN .............................................................................................................. 56 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 58
  7. 5 DANH MỤC CÁC TỪ VIẾT TẮT Từ hoặc cụm từ Từ Tiếng Anh Từ tiếng Việt Histogram of Oriented HOG Lược đồ gradient định hướng Gradient HMM Hidden Markov Model Mô hình Markov ẩn SVM Support Vector Machines
  8. 6 DANH MỤC HÌNH ẢNH Hình 1.1: Các điểm quan tâm được phát hiện bằng cách áp dụng (a) Harris, (b) các toán tử KLT, và (c) SIFT. .........................................................................................12 Hình 1.2: Hỗn hợp mô hình Gaussian cho phép trừ nền. ..........................................15 Hình 1.3: Tách hình nền dựa trên phân hủy Eigenspace (không gian được xây dựng với các vật thể trong FOV của máy ảnh ....................................................................17 Hình 1.4: Phân chia hình ảnh trong (a), sử dụng phân đoạn dịch chuyển trung bình (b) và vết cắt bình thường (c). ...................................................................................17 Hình 1.5: Đặc trưng Haar - Like ...............................................................................23 Hình 1.6: Tính tích phân ảnh.....................................................................................23 Hình 1.7: Cách tính P(x, y) .......................................................................................24 Hình 1.8: Kiểm tra kết quả chương trình so với bộ dữ liệu test................................25 Hình 1.9: Kết quả phát hiện khuôn mặt bị sai lệch với khuôn mặt đeo kính ............26 Hình 1.10: Mô hình phân tầng kết hợp các bộ phân loại yếu để xác định khuôn mặt ...................................................................................................................................27 Hình 1.11: Kết hợp các bộ phận loại yếu thành bộ phận loại mạnh .........................28 Hình 1.12: Sơ đồ khối thuật toán Adaboost ..............................................................28 Hình 1.13. Minh họa tầng phân loại..........................................................................31 Hình 2.1. Mô hình phương pháp phát hiện khuôn mặt sử dụng đặc trưng HOG .....33 Hình 2.2: Minh họa các mẫu cửa sổ tìm kiếm kích thước 64x128 ...........................34 Hình 2.3: Minh họa ô kích thước 8x8 trong cửa sổ tìm kiếm ...................................35 Hình 2.4: Minh họa cho HOG ...................................................................................35 Hình 2.5: Minh họa cho việc cộng thêm và nhân thêm vào giá trị của từng điểm ảnh ...................................................................................................................................36 Hình 2.6: Minh họa cho sự thay đổi giá trị các vector gradient khi có sự thay đổi về ánh sáng .....................................................................................................................36
  9. 7 Hình 2.7: Hình ảnh minh họa cho sự gộp các ô để tạo nên các khối có sự chồng lấp. ...................................................................................................................................37 Hình 2.8: R-HOG và C-HOG [7] ..............................................................................38 Hình 2.9: Mỗi khối (block) gồm nhiều ô (cell). Trong hình trên ta thấy một khối gồm 9 ô ......................................................................................................................39 Hình 2.10: Các khối được xếp chồng lên nhau .........................................................39 Hình 2.11: Tính góc và biên độ theo X-gradient và Y-gradient ...............................40 Hình 2.12: Các bước rút trích đặc trưng HOG [10] ..................................................42 Hình 2.13: Integral Image [11]..................................................................................43 Hình 2.14 Các bước trong bộ lọc Retinal filter .........................................................45 Hình 2.15: Kết quả của việc tiền xử lý với bộ lọc Retina filter ................................46 Hình 2.16. Siêu phẳng tách với khoảng cách lề cực đại ...........................................47 Hình 3.1: Cơ sở dữ liệu mẫu UOF ............................................................................51 Hình 3.2: Cơ sở dữ liệu mẫu FEI ..............................................................................51 Hình 3.3: Cơ sở dữ liệu mẫu JAFFE .........................................................................52 Hình 3.4: Cơ sở dữ liệu mẫu LFW ............................................................................52 Hình 3.5: Giao diện chương trình .............................................................................55 Hình 3.6: Giao diện chương trình khi thực hiện phát hiện được khuôn mặt ............55
  10. 8 DANH MỤC BẢNG BIỂU Bảng 1.1: Bảng đánh giá thuật toán Viola - Jones ....................................................25 Bảng 3.1: Đánh giá hiệu quả phát hiện khuôn mặt ...................................................53 Bảng 3.2: Đánh giá độ chính xác phát hiện khuôn mặt ............................................54
  11. 9 MỞ ĐẦU Thị giác máy là một lĩnh vực thu hút nhiều nghiên cứu và thể hiện khả năng ứng dụng cao trong những năm gần đây. Một trong những bài toán được đặc biệt quan tâm là phát hiện vật thể trong ảnh/video. Phát hiện vật thể thường là bước khởi đầu cho các hệ thống theo dõi/giám sát và nhận diện. Phát hiện mặt người là một chủ đề nghiên cứu thuộc lĩnh vực thị giác máy tính đã được phát triển từ đầu những năm 90 của thế kỷ trước, cho tới hiện nay, đây vẫn là một chủ đề nghiên cứu mở, nhận được sự quan tâm của nhiều nhà nghiên cứu từ nhiều lĩnh vực nghiên cứu khác nhau. Điều này là do có rất nhiều ứng dụng thực tế cần tới một hệ thống phát hiện mặt người, từ các hệ thống quản lý đăng nhập đơn giản cho tới các ứng dụng giám sát tại các địa điểm công cộng, hoặc quản lý dân số và pháp lý. Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xác định khuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu như ngày nay. Các nghiên cứu đi từ bài toán đơn giản là ảnh chỉ chứa một khuôn mặt người nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng, cho đến ảnh màu với nhiều khuôn mặt người trong cùng ảnh, khuôn mặt có quay một góc nhỏ, hay bị che khuất một phần, và với ảnh nền của ảnh phức tạp (ảnh chụp ngoài thiên nhiên) nhằm đáp ứng nhu cầu thật sự cần thiết của con người. Bài toán xác định khuôn mặt người (Face detection) là một kỹ thuật máy tính để xác định các vị trí và các kích thước của khuôn mặt trong ảnh bất kỳ (ảnh kỹ thuật số). Kỹ thuật này nhận biết các đặt trưng khuôn mặt và bỏ qua những thứ khác như: tòa nhà, cây cối, cơ thể... Một số ứng dụng của bài toán xác định khuôn mặt là: hệ thống tương tác giữa người và máy (điều kiển máy tính qua các cử động của khuôn mặt), hệ thống nhận dạng người (giúp cho các cơ quan an ninh quản lý con người), hệ thống quan sát theo dõi, hệ thống quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra
  12. 10 người lái xe có ngủ gật hay không, hệ thống phân tích cảm xúc trên khuôn mặt, và hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số... Hiện nay có rất nhiều phương pháp phát hiện khuôn mặt người, dựa vào các tính chất của các phương pháp, ta có thể chia ra làm bốn hướng tiếp cận chính như sau: Hướng tiếp cận dựa trên tri thức: mã hoá hiểu biết của con người về các loại khuôn mặt và tạo ra các tập luật để xác định khuôn mặt. Hướng tiếp cận dựa trên đặc tả không thay đổi: mục tiêu các thuật toán tìm ra các đặt trưng mô tả cấu trúc khuôn mặt người (các đặt trưng không thay đổi với tư thế, vị trí đặt thiết bị thu hình, độ sáng tối thay đổi...). Hướng tiếp cận dựa trên so khớp mẫu: dùng các mẫu chuẩn hay các đặc trưng của khuôn mặt người. Hướng tiếp cận dựa trên diện mạo: phương pháp học từ một tập ảnh huấn luyện mẫu để xác định khuôn mặt người. Phương pháp nhận diện được sử dụng rất phổ biến hiện nay dựa trên thuật toán của Viola-Johns. Tuy nhiên, phương pháp này có thời gian huấn luyện rất dài, yêu cầu số mẫu lớn. Một số cải tiến đã được đưa ra để giải quyết vấn đề này, trong đó có việc sử dụng đặc trưng HOG (Histogram of Oriented Gradient). Mục tiêu của đề tài là nghiên cứu loại đặc trưng HOG, cách sử dụng nó kết hợp với SVM (Support Vector Machines) để phát hiện khuôn mặt người trong ảnh thu từ camera giám sát. Đây là một vấn đề cần giải quyết để xây dựng thử nghiệm một hệ thống hỗ trợ điểm danh tự động học sinh. 1. Mục tiêu của đề tài Mục tiêu của đề tài nghiên cứu các vấn đề sau: - Nghiên cứu Haar wavelet và Adaboost; - Nghiên cứu thuật toán Viola - Johns; - Nghiên cứu đặc trưng HOG; - Nghiên cứu cách sử dụng đặc trưng HOG với SVM trong phát hiện mặt người. - Xây dựng bộ dữ liệu khuôn mặt để thử nghiệm; - Thực hiện huấn luyện và test; - Phân tích, đánh giá kết quả thu được; so sánh kết quả thu được với kết quả của một số phương pháp phát hiện đã được công bố.
  13. 11 - Xây dựng thử nghiệm chương trình phát hiện khuôn mặt từ camera giám sát lớp học. 2. Hướng nghiên cứu của đề tài - Nghiên cứu Haar wavelet và Adaboost, thuật toán Viola - Johns; - Nghiên cứu cách sử dụng đặc trưng HOG với SVM trong phát hiện mặt người. - Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả thu được; so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh kết quả thu được bằng phương pháp sử dụng đặc trưng HOG với các phương pháp khác đã được công bố. 3. Ý nghĩa khoa học và thực tiễn của đề tài Đề tài có ý nghĩa thực tiễn trong việc xây dựng một hệ thống thử nghiệm hỗ trợ điểm danh tự động cho trường phổ thông. Hệ thống này gồm một đề tài về phát hiện khuôn mặt và một đề tài về nhận diện khuôn mặt.
  14. 12 CHƯƠNG I. TỔNG QUAN VỀ PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH VÀ VIDEO Mọi phương pháp nhận dạng đều yêu cầu cơ chế phát hiện đối tượng trong mỗi hình ảnh hoặc khi đối tượng xuất hiện trong video. Cách tiếp cận phổ biến để phát hiện đối tượng là sử dụng thông tin trong một hình ảnh đơn. Tuy nhiên, một số phương pháp phát hiện đối tượng sử dụng thông tin thời gian được tính từ một chuỗi các hình ảnh để giảm số lần phát hiện sai. Thông tin thời gian này thường ở sự khác biệt hình ảnh, làm nổi bật các vùng thay đổi trong các hình ảnh liên tiếp. 1.1. Phát hiện điểm Phát hiện điểm [1] được sử dụng để tìm các điểm quan tâm trong các hình ảnh có kết cấu biểu cảm ở các vùng tương ứng. Điểm quan tâm được sử dụng nhiều trong các ngữ cảnh chuyển động, âm thanh stereo, và các vấn đề theo dõi. Chất lượng mong muốn của điểm quan tâm là sự bất biến của nó đối với những thay đổi về độ chiếu sáng và quan điểm của máy ảnh. Trong các tài liệu, các phát hiện điểm thường được sử dụng bao gồm: phát hiện điểm Moravec, phát hiện điểm Harris, máy dò KLT, và phát hiện SIFT. Để đánh giá, so sánh các điểm quan tâm, chúng ta tham khảo nghiên cứu của Mikolajczyk và Schmid. Để tìm các điểm quan tâm, thuật toán của Moravec tính toán sự thay đổi của các điểm ảnh hình ảnh trong một bảng kích thước 4x4 theo hướng ngang, dọc, đường chéo và chọn tối thiểu bốn biến thể như các giá trị đại diện cho cửa sổ. Một điểm được xác nhận là quan tâm nếu sự thay đổi cường độ cục bộ tối đa kích thước 12x12. Hình 1.1: Các điểm quan tâm được phát hiện bằng cách áp dụng (a) Harris, (b) các toán tử KLT, và (c) SIFT.
  15. 13 Máy dò Harris tính toán các dẫn xuất hình ảnh bậc nhất, (𝐼𝑥, 𝐼𝑦, ) theo các hướng x và y để làm nổi bật các biến thể cường độ hướng, sau đó một ma trận thời gian thứ hai mã hóa biến thể này, được đánh giá cho mỗi điểm ảnh trong một khu vực lân cận nhỏ: ∑ 𝐼𝑥2 ∑ 𝐼𝑥 𝐼𝑦 𝑀=( ) (1) ∑ 𝐼𝑥 𝐼𝑦 ∑ 𝐼𝑦2 Một điểm quan tâm được xác định bằng cách sử dụng phương thức và dấu vết của M đo lường sự biến thiên trong một khu vực lân cận 𝑅 = 𝑑𝑒𝑡(𝑀) − 𝑘. 𝑡𝑟(𝑀)2 , trong đó k là hằng số. Các điểm quan tâm được đánh dấu bằng ngưỡng R sau khi áp dụng sự khử không tối đa (kết quả hình 1.1 (a)). Ma trận thời gian tương tự M được đưa ra trong phương trình (1) được sử dụng trong bước phát hiện điểm quan tâm của phương pháp theo dõi KLT. Xác định điểm quan tâm R được tính bằng cách sử dụng giá trị riêng tối thiểu của 𝑀, 𝜆𝑚𝑖𝑛 . Các điểm quan tâm được lựa chọn bởi ngưỡng R. Trong số các điểm quan tâm, KLT loại bỏ các điểm quan tâm mà không gian gần nhau (Hình 1.1 (b)).Về mặt định lượng cả Harris và KLT đều nhấn mạnh các biến thể cường độ bằng các biện pháp tương tự nhau. Ví dụ, R ở Harris có liên quan đến đa thức đặc trưng được sử dụng để tìm các giá trị riêng của 𝑀: 𝜆2 + 𝑑𝑒𝑡(𝑀) − 𝜆 . 𝑡𝑟(𝑀) = 0, trong khi KLT tính trực tiếp các giá trị riêng. Trong thực tế, cả hai phương pháp này đều tìm thấy gần như cùng một điểm quan tâm. Sự khác biệt duy nhất là tiêu chí KLT bổ sung thực thi một khoảng cách không gian được xác định trước giữa các điểm quan tâm đã phát hiện. Về lý thuyết, ma trận M là bất biến đối với phép quay và dịch. Tuy nhiên, không phải bất biến đối với các biến đổi affine hoặc projective. Để giới thiệu sự phát hiện mạnh mẽ các điểm quan tâm dưới các biến đổi khác nhau, Lowe đã giới thiệu phương pháp SIFT (Quy mô biến đổi không đổi) bao gồm bốn bước. Thứ nhất, một không gian được xây dựng bằng cách hợp nhất hình ảnh với các bộ lọc Gaussian ở các quy mô khác nhau. Hình ảnh đã hợp nhất được sử dụng để
  16. 14 tạo ra các hình ảnh khác nhau của Gaussians (DoG). Các điểm quan tâm đề xuất sau đó được chọn từ các cực tiểu và cực đại của các hình ảnh DoG trên tỷ lệ. Bước tiếp theo cập nhật vị trí của mỗi đề xuất bằng cách nội suy các giá trị màu sắc và sử dụng các điểm ảnh lân cận. Trong bước thứ ba, loại bỏ các đề xuất tương phản thấp, dọc theo các cạnh. Cuối cùng, các điểm quan tâm còn lại được định hướng dựa trên các đỉnh trong biểu đồ của các đường định hướng gradient trong một khu vực nhỏ xung quanh điểm đề xuất. Máy dò SIFT tạo ra một số điểm quan tâm lớn hơn so với các máy dò điểm quan tâm khác. Điều này là do thực tế các điểm quan tâm ở các quy mô khác nhau và độ phân giải khác nhau (hình chóp) được tích trữ. Theo kinh nghiệm SIFT tốt hơn hầu hết các điểm dò và linh hoạt hơn cho các biến dạng hình ảnh. 1.2. Phép trừ nền Phát hiện đối tượng có thể đạt được bằng cách xây dựng một biểu diễn của cảnh được gọi là mô hình nền, sau đó tìm ra độ lệch từ mô hình cho mỗi khung. Bất kỳ thay đổi nhỏ nào trong vùng hình ảnh từ hình nền cho thấy một đối tượng chuyển động. Các điểm ảnh tạo thành các vùng thay đổi được đánh dấu để xử lý tiếp. Thông thường, thuật toán thành phần kết nối được áp dụng để có được các vùng kết nối tương ứng với các đối tượng. Quá trình này được gọi là phép trừ nền [1]. Sự khác biệt khung của các khung liền kề đã được nghiên cứu kỹ lưỡng từ cuối những năm 70. Tuy nhiên, phép trừ nền đã trở nên phổ biến theo sau công trình của Wren et al. Để tìm hiểu sự thay đổi dần dần về thời gian, Wren et al. đề xuất mô hình hoá màu sắc của mỗi điểm ảnh, 𝐼 (𝑥, 𝑦) của một nền tĩnh cố định với một không gian màu 3D (Y, U, và V) Gaussian, 𝐼(𝑥, 𝑦) ~ 𝑁(𝜇 (𝑥, 𝑦) , ∑( 𝑥, 𝑦)). Các thông số mô hình, trung bình (x, y) và hiệp phương sai £(x, y), được học từ các quan sát màu sắc trong một số khung liên tiếp. Khi mô hình nền được tạo ra, đối với mỗi điểm ảnh (𝑥, 𝑦) trong khung đầu vào, tính khả năng màu của nó đến từ 𝑁(𝜇(𝑥, 𝑦), ∑(𝑥, 𝑦)) được tính toán, và các điểm ảnh đi chệch hướng mô hình nền
  17. 15 được dán nhãn là các điểm ảnh nổi. Tuy nhiên, một Gaussian không phải là một mô hình tốt cho những cảnh ngoài trời vì nhiều màu sắc có thể được quan sát ở một vị trí nhất định do chuyển động đối tượng lặp đi lặp lại, bóng hoặc phản xạ. Một cải tiến đáng kể trong mô hình nền đã đạt được bằng cách sử dụng mô hình thống kê đa phương thức để mô tả màu nền cho mỗi điểm ảnh. Ví dụ, Stauffer và Grimson sử dụng một hỗn hợp của Gaussians để mô hình màu điểm ảnh. Trong phương pháp này, một điểm ảnh trong khung hiện tại được kiểm tra đối với mô hình nền bằng cách so sánh nó với mọi Gaussian trong mô hình cho đến khi tìm thấy một Gaussian phù hợp. Nếu so khớp được tìm thấy, giá trị trung bình và phương sai của Gaussian phù hợp được cập nhật, nếu không Gaussian mới có nghĩa là bằng với màu điểm ảnh hiện tại và một số phương sai ban đầu được đưa vào hỗn hợp. Mỗi điểm ảnh được phân loại dựa trên việc phân phối phù hợp có phải là quá trình nền hay không. Di chuyển các khu vực, được phát hiện bằng cách sử dụng phương pháp này, cùng với các mô hình nền được thể hiện trong hình 1.2. (a) Hình ảnh từ một dãy trong đó một người đang đi ngang qua hiện trường. (b) Giá trị trung bình của các Gaussian có trọng số cao nhất ở mỗi vị trí điểm ảnh. Các phương tiện này đại diện cho màu sắc cho mỗi điểm ảnh tạm thời nhất và do đó phải đại diện cho nền tĩnh. (c) Các phương tiện của Gauss với trọng lượng cao thứ hai; những phương tiện này đại diện cho màu sắc được quan sát ít thường xuyên hơn. (d) Kết quả trừ nền. Các tiền cảnh bao gồm các điểm ảnh trong khung hiện tại mà phù hợp với một trọng số thấp Gaussian. Hình 1.2: Hỗn hợp mô hình Gaussian cho phép trừ nền. Cách tiếp cận khác là kết hợp thông tin cảnh dựa trên vùng (không gian) thay vì chỉ sử dụng thông tin dựa trên màu. Elgammal và Davis sử dụng ước lượng mật độ hạt nhân không tham số để mô hình nền cho mỗi điểm ảnh. Trong quá trình trừ,
  18. 16 điểm ảnh hiện tại không chỉ khớp với điểm ảnh tương ứng trong mô hình nền, mà còn đến vị trí điểm ảnh gần đó. Do đó, phương pháp này có thể xử lý sự chập chờn của ảnh hoặc các chuyển động nhỏ trong nền. Li và Leung kết hợp các tính năng kết cấu và màu để thực hiện phép trừ nền trên khối 5 x 5 điểm ảnh. Do cấu trúc không thay đổi nhiều với sự thay đổi độ chiếu sáng, nên phương pháp này ít bị ảnh hưởng bởi ánh sáng. Toyama và cộng sự đề xuất một thuật toán ba cấp để giải quyết vấn đề trừ nền. Ngoài phép trừ cấp điểm ảnh, họ sử dụng miền và thông tin mức khung. Ở cấp điểm ảnh, họ đề xuất sử dụng bộ lọc Wiener để dự đoán có tính xác suất về màu nền dự kiến. Ở cấp vùng, các vùng tiền cảnh bao gồm màu đồng nhất được điền vào. Ở cấp khung, nếu hầu hết các điểm ảnh trong khung hiển thị đột ngột thay đổi, giả sử rằng các mô hình nền màu điểm ảnh dựa trên không còn hợp lệ. Vào thời điểm này, mô hình nền dựa trên điểm ảnh được lưu trữ trước đó được hoán đổi, hoặc mô hình được khởi tạo lại. Cách tiếp cận thay thế cho phép trừ nền là đại diện cho các biến thể cường độ của một điểm ảnh trong một chuỗi ảnh như các trạng thái rời rạc tương ứng với các sự kiện trong môi trường. Rittscher et al sử dụng mô hình Markov ẩn (HMM) để phân loại các khối nhỏ của một hình ảnh giống như một trong ba trạng thái này. Trong bối cảnh phát hiện ánh sáng trong và ngoài sự kiện trong một căn phòng, Stenger et al sử dụng HMM cho phép trừ nền. Ưu điểm của việc sử dụng HMM là các sự kiện nhất định, khó có thể mô hình chính xác bằng cách sử dụng các phương pháp mô hình nền không giám sát, có thể được học bằng các mẫu huấn luyện. Thay vì mô phỏng các biến thể của từng điểm ảnh, Oliver et al đề xuất một cách tiếp cận toàn diện bằng cách sử dụng phân tích eigenspace. Đối với các khung đầu vào 𝑘, 𝐼2 : 𝑖 = 1 … 𝑘, có kích thước 𝑛 × 𝑚, ma trận nền B có kích thước 𝑘 × 𝑙 được tạo thành bởi các phân tầng m trong mỗi khung, sau đó là 𝑙 = (𝑛 × 𝑚), và sự phân hủy giá trị riêng đến hiệp phương sai của 𝐵, 𝐶 = 𝐵𝑇 𝐵. Sau đó nền được đại diện bởi các vector riêng mô tả hầu hết n, 𝑢𝑖 , trong đó 𝑖 < 𝑛 < 𝑘, bao gồm tất cả những ánh sáng có thể có trong vùng quan sát (FOV). Do đó, phương pháp tiếp cận này ít nhạy cảm với ánh sáng. Các đối tượng nền được phát hiện bằng cách chiếu
  19. 17 hình ảnh hiện tại lên vùng không gian và tìm ra sự khác biệt giữa hình ảnh được tái tạo và thực tế. Hình 1.3. hiển thị các vùng đối tượng phát hiện được sử dụng phương pháp tiếp cận eigenspace ): (a) một hình ảnh đầu vào với các đối tượng, (b) tái tạo hình ảnh sau khi chiếu hình ảnh đầu vào lên không gian eigenspace, (c) Lưu ý rằng các đối tượng nền được xác định rõ ràng. Hình 1.3: Tách hình nền dựa trên phân hủy Eigenspace (không gian được xây dựng với các vật thể trong FOV của máy ảnh Một hạn chế của các phương pháp tiếp cận nói trên là cần nền tĩnh. Hạn chế này được giải quyết bởi Monnet et al., và Zhong và Sclaroff. Cả hai phương pháp này đều có thể xử lý được nền thời gian khác nhau (ví dụ: sóng trên mặt nước, các đám mây di chuyển…). Các phương pháp này mô hình các vùng hình ảnh như các quá trình tự động hồi quy trung bình (ARMA) cung cấp cách để tìm hiểu và dự đoán mô hình chuyển động trong một cảnh. Quy trình ARMA là một mô hình chuỗi thời gian, được tạo thành từ các thành phần tự hồi quy và di chuyển trung bình, trong đó quá trình tự hồi quy có thể được mô tả như là một tổng trọng số của các giá trị trước đó và một lỗi tiếng ồn trắng. Hình 1.4: Phân chia hình ảnh trong (a), sử dụng phân đoạn dịch chuyển trung bình (b) và vết cắt bình thường (c). Tóm lại, hầu hết các phương pháp theo dõi cho những camera cố định, ví dụ, Haritaoglu et al và Collins et al sử dụng phương pháp trừ nền để phát hiện các vùng
  20. 18 quan tâm. Bởi vì các phương pháp trừ gần đây có khả năng mô hình hoá độ sáng, tiếng ồn và chuyển động định kỳ của vùng nền, do đó có thể phát hiện chính xác các đối tượng trong nhiều trường hợp. Trong thực tế, phép trừ nền cho ta các vùng đối tượng không đầy đủ trong nhiều trường hợp, nghĩa là các đối tượng có thể tràn vào một số vùng, hoặc có thể có lỗ bên trong đối tượng vì không bảo đảm rằng các đối tượng không khác biệt so với nền. 1.3. Phân vùng Mục đích của thuật toán là phân chia hình ảnh thành các vùng tương tự nhau. Mỗi thuật toán phân vùng giải quyết hai vấn đề, các tiêu chí cho một phân vùng tốt và phương pháp để đạt được phân vùng hiệu quả [1]. 1.3.1. Mean-Shift Clustering Đối với vấn đề phân vùng hình ảnh [1], Comaniciu và Meer đề xuất phương pháp chuyển dịch trung bình để tìm các cụm trong không gian hỗn hợp với không gian màu [𝑙, 𝑢, 𝑣, 𝑥, 𝑦], trong đó [𝑙, 𝑢, 𝑣] đại diện cho màu sắc và [𝑥, 𝑦] đại diện cho vị trí không gian. Với hình ảnh, thuật toán được khởi tạo với số lượng lớn các trung tâm cụm giả thuyết được chọn ngẫu nhiên từ dữ liệu. Sau đó, mỗi trung tâm cụm được di chuyển đến mức trung bình của dữ liệu nằm bên trong ellip đa chiều tập trung vào trung tâm cụm. Vectơ được xác định bởi các trung tâm cụm cũ và mới được gọi là vector thay đổi trung bình. Vectơ thay đổi trung bình được tính toán lặp đi lặp lại cho đến khi các trung tâm cụm không thay đổi vị trí của chúng. Lưu ý rằng trong quá trình dịch lặp lại có nghĩa là một số cụm có thể được hợp nhất. Hiển thị phân đoạn sử dụng phương pháp chuyển dịch trung bình Trong hình 1.4 (b), sử dụng mã nguồn có sẵn tại MeanShiftSegmentSrc. Khả năng phân cụm trung bình thay đổi có thể mở rộng cho nhiều ứng dụng khác như phát hiện cạnh, điều chỉnh hình ảnh, và theo dõi. Sự phân đoạn dựa trên chuyển đổi trung bình đòi hỏi phải tinh chỉnh các tham số khác nhau để có được sự phân đoạn tốt hơn, ví dụ như lựa chọn màu sắc và
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2