intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng LBP-CNN cho bài toán nhận diện cảm xúc mặt người

Chia sẻ: Bobietbo | Ngày: | Loại File: PDF | Số trang:54

66
lượt xem
20
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn Thạc sĩ Công nghệ thông tin "Ứng dụng LBP-CNN cho bài toán nhận diện cảm xúc mặt người" được hoàn thành với các nội dung chính như các phương pháp phát hiện khuôn mặt người; mạng nơ-ron tích chập; Xác định vị trí khuôn mặt; mô hình CNN với đặc trưng LBP;...Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng LBP-CNN cho bài toán nhận diện cảm xúc mặt người

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN SƠN HÓA ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI LUẬN VĂN THẠC SĨ NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 TP.HỒ CHÍ MINH – Tháng 05 Năm 2019
  2. B GIÁO DỤC BỘ D C VÀ ĐÀO ÀO T TẠO TRƯỜNG NG ĐẠII HỌC H C NGO NGOẠII NG NGỮ- TIN H HỌC THÀNH PHỐ HỒ H CHÍ MINH NGUY NGUYỄN SƠN N HÓA NG DỤNG ỨNG D NG LBP-CNN LBP CNN CHO BÀI TOÁN NH NHẬN DIỆN N CẢM M XÚC MẶ MẶT NGƯ ƯỜI LUẬ ẬN VĂN N TH THẠC CSSĨ NGÀNH: CÔNG NGH NGHỆ THÔNG TIN MÃ SỐ Ố:: 60480201 NGƯỜIHƯỚNG DẪN KHOA HỌC:: PGS.TS PH PHẠM M THẾ TH BẢ ẢO HỒ CHÍ MINH – Tháng 05 N TP.HỒ Năm m 2019
  3. LỜI CAM ĐOAN Luận văn này là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS Phạm Thế Bảo. Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực. Tôi hoàn toàn chịu trách nhiệm về lời cam đoan này. Người cam đoan Nguyễn Sơn Hóa
  4. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Mục lục Chương 1: Tổng quan ...................................................................................................... 6 1.1 Giới thiệu .................................................................................................................. 6 1.2 Các hướng tiếp cận ................................................................................................... 7 1.3 Khó khăn và thách thức ............................................................................................ 9 1.4 Đề xuất hướng giải quyết ......................................................................................... 9 Chương 2: Cơ sở lý thuyết ............................................................................................. 11 2.1 Các phương pháp phát hiện khuôn mặt người........................................................ 11 2.1.1 Hướng tiếp cận dựa trên tri thức ...................................................................... 11 2.1.2 Hướng tiếp cận dựa trên so khớp mẫu ............................................................. 13 2.1.3 Hướng tiếp cận dựa trên diện mạo................................................................... 15 2.2 LBP ........................................................................................................................ 19 2.3 Mạng nơ-ron tích chập ........................................................................................... 27 2.3.1 Tổng quan mạng nơ-ron nhân tạo.................................................................... 27 2.3.2 Mạng nơ-ron tích chập..................................................................................... 28 Chương 3: Xây dựng thuật giải ..................................................................................... 32 3.1 Xác định vị trí khuôn mặt ....................................................................................... 32 3.2 Trích đặc trưng LBP ............................................................................................... 34 3.3 Mô hình CNN với đặc trưng LBP .......................................................................... 35 Chương 4: Kết quả và hướng phát triển ...................................................................... 37 4.1 Cơ sở dữ liệu........................................................................................................... 37 4.1.1 Cơ sở dữ liệu CK+ ........................................................................................... 37 4.1.2 Cơ sở dữ liệu FER2013 ................................................................................... 37 4.2 Môi trường thực nghiệm ......................................................................................... 40 4.3 Thiết kế thực nghiệm .............................................................................................. 40 4.4 Kết quả .................................................................................................................... 41 4.4.1 Cơ sở dữ liệu CK+ ........................................................................................... 41 4.4.2 Cơ sở dữ liệu FER2013 ................................................................................... 45 4.5 Đánh giá .................................................................................................................. 49 4.5.1 Ưu điểm ........................................................................................................... 49 4.5.2 Khuyết điểm..................................................................................................... 49 4.6 Hướng phát triển ..................................................................................................... 50 Tài liệu tham khảo .......................................................................................................... 51 Trang 1/51
  5. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN LỜI CẢM ƠN Chân thành cảm ơn các Thầy, Cô khoa CNTT Trường Đại học Huflit TPHCM cũng như các Thầy Cô đã giảng dạy và truyền đạt nhiều kiến thức quý báu. Đặc biệt cảm ơn PGS.TS Phạm Thế Bảo đã dành rất nhiều thời gian và tận tình hướng dẫn trong suốt quá trình thực hiện luận văn. Trang 2/51
  6. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN DANH MỤC TỪ VIẾT TẮT FER Facial Expression Recognition LBP-CNN Local Binary Pattern Convolutional Neural Networks FACS Face Action Coding System CK+ The Extended Cohn-Kanada AU-Coded Expression Database Trang 3/51
  7. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN DANH MỤC CÁC SƠ ĐỒ, HÌNH VẼ, BẢNG BIỂU - Sơ đồ 1 - Các bước căn bản trong FER - Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân giải n=4, 8, 16 - Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khuôn mặt - Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khuôn mặt và hình nền đơn giản; (b) Ảnh chỉ có 1 khuôn mặt và hình nền phức tạp; (c) Ảnh có nhiều khuôn mặt - Hình 4 - Mẫu khuôn mặt, có 16 vùng và 23 quan hệ (các mũi tên) - Hình 5 - Mô hình mạng nơ-ron theo Rowley - Hình 6 - Mô hình Markov ẩn: (a) các vector quan sát để huấn luyện cho HMM; (b) năm trạng thái ẩn - Hình 7 - Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có những trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong; trạng thái mắt có năm trạng thái nhỏ bên trong - Hình 8 - Tập hợp các điểm xung quanh Ptt: (a) bán kính 1 pixel; (b) bán kính 2.5 pixel; (c) bán kính 4 pixel - Hình 9 - Các biến thể của LBP LBP đồng dạng - Hình 10 - Bảng thống kê các mẫu của uniform LBP - Hình 11 - Minh họa các trường hợp của LBP khi quay với góc 15 độ: (a) ảnh xoay α độ; (b) tám mẫu LBP tương ứng - Hình 12 - Ví dụ về quá trình tính toán đặc trưng - Hình 13 - Cấu trúc nơ-ron nhân tạo - Hình 14 - Mô hình mạng neural tích chập - Hình 15 - Mô hình trường tiếp nhận cục bộ - Hình 16 - Quan hệ neuron ẩn và pooling - Hình 17 - Số lượng neuron tương ứng Trang 4/51
  8. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN - Hình 18 - Kích thước giảm - Hình 19 - Phát hiện khuôn mặt với Viola-Jones - Hình 20 - Trích xuất đặc trưng LBP ảnh khuôn mặt người - Hình 21 - Mô hình chúng tôi thiết kế cho CNN phân lớp 07 cảm xúc mặt người - Hình 22 - Ảnh mẫu của cơ sở dữ liệu CK+ - Hình 23 - Một số ảnh và nhãn gây nhầm lẫn trong FER2013 - Hình 24 - Cấu trúc csv của cơ sở dữ liệu FER2013 - Hình 25 - Biểu đồ phân bố cảm xúc trong cơ sở dữ liệu FER2013 - Hình 26 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu CK+ - Hình 27 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu FER2013 - Hình 28 - Một số dữ liệu phân loại sai trong dữ liệu CK+ - Hình 29 - Một số dữ liệu phân loại sai trong dữ liệu FER2013 - Biểu đồ 4.1 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu CK+ - Biểu đồ 4.2 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu FER2013 - Bảng 4.1 - Kết quả phân loại của CNN trên cơ sở dữ liệu CK+ - Bảng 4.2 - Kết quả phân loại của CNN trên cơ sở dữ liệu FER2013 Trang 5/51
  9. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Chương 1: Tổng quan 1.1 Giới thiệu Nhận dạng cảm xúc mặt người (Facial Expression Recognition – FER) giữ vai trò quan trọng trong tương tác giữa người và máy, trong các hệ thống an ninh với sự phổ biến của các camera an ninh ở các sân bay, văn phòng, trường đại học, máy ATM, ngân hàng… FER còn có thể được sử dụng trong nghiên cứu tâm lý học hành vi, chăm sóc khách hàng hay trong các hệ thống khuyến nghị dựa trên hình ảnh. Biểu hiện trên khuôn mặt thể hiện tâm trạng hoặc trạng thái cảm xúc của một cá nhân ở một thời điểm cụ thể như buồn, hạnh phúc, tức giận… Paul Ekman [1] cho thấy sáu cảm xúc phổ biến là buồn (sad), hạnh phúc (happy), tức giận (angry), sợ hãi (fear), ghê tởm (disgust) và ngạc nhiên (surprise). Phát hiện khuôn mặt là bước đầu tiên của nhận dạng cảm xúc khuôn mặt, trong đó khuôn mặt được xác định từ ảnh đầu vào và loại bỏ các đối tượng khác (nếu có). Sau khi đã xác định được khuôn mặt người, bước tiếp theo thực hiện trích xuất đặc trưng và biểu diễn các đặc trưng đó. Với đặc trưng thu được, công việc cuối cùng là phân loại các đặc trưng vào một trong 6 loại cảm xúc phổ biến ở trên, sơ đồ 1. Nhiều công trình nghiên cứu đã được thực hiện nhằm nâng cao độ chính xác cho bài toán FER. Tiếp cận ở giai đoạn trích xuất và biểu diễn đặc trưng có các phương pháp như Gabor Wavelet, LBP (Local Binary Pattern), PCA (Principal Component Analysis), LDA (Linear Discriminant Analysis), LDP (Local Directional Pattern), HOG (Histogram of Oriented Gradients). Mỗi phương pháp đều có ưu khuyết điểm riêng, LBP với ưu điểm chính là ít chịu ảnh hưởng của những thay đổi về độ sáng, góc quay, độ co giãn, chi phí tính toán thấp, tốc độ xử lý nhanh nên được ứng dụng nhiều trong bài toán phát hiện và nhận diện khuôn mặt. Ở giai đoạn phân loại, rất nhiều thuật toán cũng đã được nghiên cứu và công bố như Mô hình Markov ẩn (Hidden Markov Model), Naïve Bayesian, KNN (K-nearset Neighbours), SVM (Suport Vector Machine), Mạng nơ ron tích chập (Convolutaion Neural Networks – CNN)… [1][2][3]. Trong đó, CNN thể hiện ưu thế vượt trội với khả năng xử lý tập dữ liệu lớn cũng như rất nhiều kiến trúc mạng được nghiên cứu và công bố… Với những ưu điểm đó của LBP và CNN, luận văn tập trung tìm hiểu, nghiên cứu kiến trúc mà dữ liệu đầu vào của CNN là đặc trưng LBP hay còn gọi là mạng nơ ron tích chập mẫu nhị phân cục bộ (LBP-CNN – Local Trang 6/51
  10. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Binary Pattern Convolutional Neural Networks) cho bài toán nhận dạng cảm xúc mặt người. Sơ đồ 1 - Các bước căn bản trong FER 1.2 Các hướng tiếp cận Nhận dạng cảm xúc mặt người (FER) là quá trình giúp nhận biết tâm trạng và cảm xúc của mỗi cá nhân. Rất nhiều công trình đã được thực hiện. FER có hai hướng tiếp cận chính [2][3] đó là: • Dựa theo diện mạo (appearance); cách tiếp cận dựa theo diện mạo sẽ xem xét các thông tin có được từ giá trị cường độ của các điểm ảnh hay toàn bộ ảnh bằng cách áp dụng các phép biến đổi, bộ lọc hoặc phương pháp máy học, thống kê… • Dựa theo hình học (geometric); trong cách tiếp cận dựa theo hình học, hình dạng, khoảng cách, vị trí của sự thay đổi của các thành phần mặt như: cơ mặt, mắt, miệng, trán… sẽ được xem xét. Năm 1978, Ekman giới thiệu một hệ thống để đo biểu hiện khuôn mặt được gọi là FACS (Face Action Coding System - Hệ thống mã hoá hành động mặt) dựa trên tâm lý học [4]. FACS được phát triển bằng cách phân tích các mối quan hệ giữa sự co giãn cơ và sự thay đổi diện mạo khuôn mặt do chúng gây ra. Sự co giãn của các cơ chịu trách nhiệm cho cùng một hành động được đánh dấu như là một đơn vị hành động (Action Unit - AU). Mặt có thể được chia thành các đơn vị hành động mặt trên (Upper Face AU) và các đơn Trang 7/51
  11. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN vị hành động mặt dưới (Lower Face AU). Có 46 AU đại diện cho sự thay đổi biểu hiện trên khuôn mặt và 12 AU liên quan đến hướng nhìn mắt và hướng đầu. AU có tính mô tả cao về cử động khuôn mặt, tuy nhiên chúng không cung cấp bất kỳ thông tin đại diện nào. Các AU được gán nhãn với sự mô tả của các hành động. Nhiệm vụ phân tích cảm xúc bằng cách sử dụng FACS là dựa trên sự phân rã các biểu hiện quan sát được vào tập các AU, sau đó cảm xúc được xác định. Caifeng Shan, Shaogang Gong, Peter W. McOwan [5] đã thực hiện kiểm tra, so sánh đặc trưng LBP với đặc trưng Gabor Wavelet kết hợp với các thuật toán phân lớp như LDA, KNN, SVM trên một số cơ sở dữ liệu như JAFFE, CK+. Cụ thể, LBP kết hợp với SVM đạt 88.9% trong khi Gabor và SVM chỉ đạt 86.8% (Table 6). LBP và SVM đạt 80.2% chiếm ưu thế hơn hẵn với 73.4% của LBP và LDA+NN (Table 8). Ưu điểm tốc độ của LBP cũng được nhóm tác giả kiểm chứng trên Matlab, 0.03s là thời gian xử lý của LBP trong khi Gabor cần 30s để hoàn thành công việc trích xuất đặc trưng. Điều này dễ hiểu bởi Gabor xử lý số chiều đặc trưng là 42,650 trong khi đó LBP chỉ phải xử lý 2478. Hầu hết các tiếp cận FER đều hoạt động tốt với các cơ sở dữ liệu được kiểm soát nhưng lại thất bại trong môi trường thực tế. Lý do là vì các tập dữ liệu này có các ảnh nền khác nhau, đôi khi phức tạp với nhiều ngoại vật xen kẻ với ảnh người… vì thế không thể đưa ra được các cảm xúc chung. Shan và cộng sự thực nghiệm với các tập dữ liệu khác nhau. Nhóm thực thiện huấn luyện phân loại với thuật toán SVM bằng việc trích xuất đặc trưng LBP (Local Binary Pattern) trên tập dữ liệu Cohn-Kanade. Sau đó kiểm tra bộ phân lớp đã được huấn luyện trên tập dữ liệu MMI và JAFFE. Họ quan sát thấy, hiệu suất tổng quát trên các tập dữ liệu là thấp hơn nhiều, chẳng hạn như khoảng 50% trên cơ sở dữ liệu MMI và khoảng 40% trên cơ sở dữ liệu JAFFE (Table 18). Nhóm của Littlewort và cộng sự huấn luyện các đặc trưng Gabor Wavelet theo SVM trên tập dữ liệu Cohn-Kanade và kiểm tra chúng trên cơ sở dữ liệu khác, tỷ lệ công nhận đạt được cũng chỉ là 56% -60%. [6] Gần đây, một số thuật toán học sâu đã được đề xuất trong học máy và áp dụng cho phát hiện và nhận dạng các đối tượng thị giác, phân loại hình ảnh, xác minh khuôn mặt và nhiều vấn đề nghiên cứu khác. Các nền tảng học sâu như CNN, Stacked AutoEncoders (SAE) và Deep Belief Network (DBN) đã được trình bày, nhiều phương Trang 8/51
  12. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN pháp tiếp cận theo hướng học sâu cũng được phát triển dựa trên các nền tảng này. Những tiếp cận học sâu sử dụng một số lượng lớn các hình ảnh để học và đạt được hiệu suất cao. Shiam và Aza [7] đã ứng dụng CNN để thực hiện nhận diện cảm xúc mặt người. Họ thực hiện huấn luyện CNN với nhiều mức sâu khác nhau và sử dụng tập ảnh xám từ trang web Kaggle với kết quả đạt được là 65%. Nhóm tác giả cũng thực nghiệm kết hợp đặc trưng HOG với CNN và kết quả đạt được không thay đổi nhiều so với CNN thuần túy. Mundher Al-Shabi, Wooi Ping Cheah, Tee Connie [8] đã nghiên cứu đặc trưng SIFT kết hợp với CNN và đạt 73.4% trên FER2013 và 99.1% trên CK+. 1.3 Khó khăn và thách thức Tuy đạt được những kết quả tương đối khả quan do sự phát triển của nhiều phương pháp như trí tuệ nhân tạo, mạng nơ ron… nhưng bài toán nhận dạng cảm xúc mặt người vẫn còn tồn tại nhiều khó khăn và thách thức. Khó khăn trong việc phát hiện mặt người khi ảnh đầu vào có nhiều ngoại vật khác, hướng nghiêng của mặt hay mặt bị che khuất một phần cũng là một thách thức lớn. Ngoài ra khi xác định được khuôn mặt người, kích thước ảnh mặt được cắt ra thường nhỏ nên độ phân giải tương đối thấp, chưa kể một số ảnh đầu vào có độ phân giải thấp gây khó khăn cho bước tiếp theo là trích xuất và biểu diễn đặc trưng. Nhầm lẫn giữa các cảm xúc như ghê tởm (disgust), tức giận (angry) khi phân loại cũng là thách thức cho bài toán FER vì mức độ tương đồng. Hay môi trường sẽ tác động đến việc nhận biết các cảm xúc, như ánh sáng quá chói làm hệ thống không phân biệt sự khác biệt này. 1.4 Đề xuất hướng giải quyết Với những khó khăn và thách thức trên, luận văn giới hạn với tập ảnh đầu vào có mặt người nhìn thẳng, ít hoặc không có các vật cản che khuất như kính râm, nón… Chúng tôi tập trung vào bài toán nhận dạng cảm xúc nên áp dụng thuật toán phát hiện khuôn mặt người trong ảnh do Viola & John công bố để xác định vùng khuôn mặt trong ảnh, phương pháp này cho phép xác định khuôn mặt được chụp thẳng với độ chính xác rất cao và xử lý với thời gian nhanh [3][6]. Đặc trưng LBP có những ưu điểm giúp hệ thống ít bị tác động từ môi trường trường xung quanh như ánh sáng, kích thước, góc quay, và tốc độ Trang 9/51
  13. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN xử lý nhanh [5] nên chúng tôi sẽ trích đặc trưng trên khuôn mặt bằng phương pháp LBP. Với sức mạnh của phương pháp học sâu (Deep Learning) hiện nay mà cụ thể là mạng neural tích chập (Convolution Neural Network – CNN) cho nhận dạng xử lý ảnh cũng như nhận dạng cảm xúc mặt người [7], chúng tôi đề xuất dùng CNN để nhận dạng từ đặc trưng LBP đã được trích trước đó. Trang 10/51
  14. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Chương 2: Cơ sở lý thuyết 2.1 Các phương pháp phát hiện khuôn mặt người Đã có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến ngày nay là ảnh màu [11][12]. Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh, chúng ta có thể chia các phương pháp này thành bốn hướng tiếp cận chính sau: - Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các loại khuôn mặt người thành các luật. Thông thường các luật mô tả quan hệ của các đặc trưng. - Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật toán đi tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ không thay đổi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay đổi. - Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của khuôn mặt người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh). - Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mô hình học ở đây được học từ một tập ảnh huấn luyện cho trước. Sau đó hệ thống sẽ xác định khuôn mặt người. Một số tác giả còn gọi hướng tiếp cận này là hướng tiếp cận theo phương pháp học. 2.1.1 Hướng tiếp cận dựa trên tri thức Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định khuôn mặt người. Đây là hướng tiếp cận dạng top-down. Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt và các quan hệ tương ứng. Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một miệng. Các quan hệ của các đặc trưng có thể được mô tả như quan hệ về khoảng cách và vị trí. Thông thường các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác định thông qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải Trang 11/51
  15. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN khuôn mặt. Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ tri thức con người sang các luật một cách hiệu quả. Nếu các luật này quá chi tiết (chặt chẽ) thì khi xác định có thể xác định thiếu các khuôn mặt có trong ảnh, vì những khuôn mặt này không thể thỏa mãn tất cả các luật đưa ra. Nhưng các luật tổng quát quá thì có thể chúng ta sẽ xác định lầm một vùng nào đó không phải là khuôn mặt mà lại xác định là khuôn mặt. Và cũng khó khăn khi cần mở rộng yêu cầu của bài toán để xác định các khuôn mặt có nhiều tư thế khác nhau. Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân giải n=4, 8, 16 Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định các khuôn mặt. Hệ thống của hai tác giả này bao gồm ba mức luật. Ở mức cao nhất, dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên có thể là khuôn mặt. Ở mức kế tiếp, hai ông dùng một tập luật để mô tả tổng quát hình dáng khuôn mặt. Còn ở mức cuối cùng lại dùng một tập luật khác để xem xét ở mức chi tiết các đặc trưng khuôn mặt. Một hệ thống đa độ phân giải có thứ tự được dùng để xác định, hình 1. Các luật ở mức cao nhất để tìm ứng viên như: “vùng trung tâm khuôn mặt (phần tối hơn trong hình 2) có bốn phần với một mức độ đều cơ bản”, “phần xung quanh bên trên của một khuôn mặt (phần sáng hơn trong hình 2) có một mức độ đều cơ bản”, và “mức độ khác nhau giữa các giá trị xám trung bình của phần trung tâm và phần bao bên trên là đáng kể”. Ở mức hai, xem xét biểu đồ của các ứng viên để loại bớt ứng viên nào không phải là khuôn mặt, đồng thời dò ra cạnh bao xung quanh ứng viên. Ở mức cuối cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt và miệng. Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số lượng tính toán trong xử lý. Mặc dù tỉ lệ chính xác chưa cao, nhưng đây là tiền đề cho nhiều nghiên cứu sau này. Trang 12/51
  16. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khuôn mặt Kotropoulos và Pitas đưa một phương pháp dùng trên độ phân giải thấp. Hai ông dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt. Kanade đã thành công với phương pháp chiếu để xác định biên của khuôn mặt, các hàm để chiếu ảnh theo phương ngang và thẳng đứng, hình 3. (a) (b) (c) Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khuôn mặt và hình nền đơn giản; (b) Ảnh chỉ có 1 khuôn mặt và hình nền phức tạp; (c) Ảnh có nhiều khuôn mặt Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu cục bộ cho ta biết vị trí miệng, đỉnh mũi, và hai mắt. Các đặc trưng này đủ để xác định khuôn mặt. 2.1.2 Hướng tiếp cận dựa trên so khớp mẫu Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm. Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng. Thông qua các giá trị tương quan này mà các tác giả quyết định có hay không có tồn tại khuôn mặt trong ảnh. Hướng tiếp cận này có lợi thế là rất dễ cài đặt, nhưng không hiệu quả khi có sự thay đổi về tỉ lệ, tư thế và hình dáng. Sinha dùng một tập nhỏ các bất biến ảnh trong không gian ảnh để mô tả không gian các mẫu ảnh. Tư tưởng chính của ông dựa vào sự thay đổi mức độ sáng của các vùng khác nhau của khuôn mặt (như hai mắt, hai má, và trán), quan hệ về mức độ sáng của các vùng còn lại thay đổi không đáng kể. Xác định các cặp tỉ số của mức độ sáng của một số Trang 13/51
  17. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN vùng (một vùng tối hơn hay sáng hơn) cho ta một lượng bất biến khá hiệu quả. Các vùng có độ sáng đều được xem như một mẫu tỉ số mà là mẫu thô trong không gian ảnh của một khuôn mặt với độ thích hợp ít dùng để chọn như các đặc trưng chính của khuôn mặt như hai mắt, hai má, và trán. Lưu giữ thay đổi độ sáng của các vùng trên khuôn mặt trong một tập thích hợp với các cặp quan hệ sáng hơn – tối hơn giữa các vùng nhỏ. Một khuôn mặt được xác định khi một ảnh phù hợp tất cả các cặp sáng hơn – tối hơn. Ý tưởng này xuất phát từ sự khác biệt của cường độ giữa các vùng kề cục bộ, sau này được mở rộng trên cơ sở biến đổi Wavelet để biểu diễn cho xác định người đi bộ, xác định xe hơi, xác định khuôn mặt. Hình 4 cho thấy mẫu nổi bật trong 23 quan hệ được định nghĩa. Dùng các quan hệ này để phân loại, có 11 quan hệ thiết yếu (các mũi tên màu đen) và 12 quan hệ xác thực (các mũi tên xám). Mỗi mũi tên là một quan hệ. Một quan hệ thỏa mãn mẫu khuôn mặt khi tỉ lệ giữa hai vùng vượt qua một ngưỡng và 23 quan hệ này vượt ngưỡng thì xem như xác định được một khuôn mặt. Phương pháp so khớp mẫu theo thứ tự để xác định khuôn mặt người do Miao trình bày. Ở giai đoạn đầu tiên, ảnh sẽ được xoay từ -200 đến 200 với mỗi bước là 50 và theo thứ tự. Xây dựng ảnh đa độ phân giải, rồi dùng phép toán Laplace để xác định các cạnh. Một mẫu khuôn mặt gồm các cạnh mô tả sáu thành phần: hai lông mày, hai mắt, một mũi, và một miệng. Hình 4 - Mẫu khuôn mặt, có 16 vùng và 23 quan hệ (các mũi tên) Wei và Lai dùng bộ lọc để phân đoạn kết hợp thuật toán tìm láng giềng gần nhất xác định ứng viên khuôn mặt, từ ứng viên này sau đó so khớp với các mẫu đã xác định trước để biết ứng viên có phải là khuôn mặt hay không. Tỉ lệ chính xác là 80%. Trang 14/51
  18. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN 2.1.3 Hướng tiếp cận dựa trên diện mạo Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu. Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khuôn mặt và không phải là khuôn mặt. Các đặc tính đã được học ở trong hình thái các mô hình phân bố, hay các hàm biệt số có thể dùng các đặc tính này để xác định khuôn mặt người. Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định. Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải khuôn mặt bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện p(x | khuôn mặt) và p(x | không phải khuôn mặt). Có thể dùng phân loại Bayes hoặc khả năng cực đại để phân loại một ứng viên là khuôn mặt hay không phải là khuôn mặt. Không thể cài đặt trực tiếp phân loại Bayes bởi vì số chiều của x khá cao, bởi vì p(x | khuôn mặt) và p(x | không phải khuôn mặt) là đa thức và chưa thể hiểu nếu xây dựng các dạng tham số hóa một cách tự nhiên cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Có khá nhiều nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham số hay không có tham số cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt số (như: mặt phẳng quyết định, siêu phẳng để tách dữ liệu, hàm ngưỡng) để phân biệt hai lớp dữ liệu: khuôn mặt và không phải khuôn mặt. Bình thường, các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn, rồi sau đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) để phân loại, hoặc xây dựng mặt quyết định phi tuyến bằng mạng nơ-ron đa tầng. Hoặc dùng SVM (Support Vector Machine) và các phương thức kernel, chiếu hoàn toàn các mẫu vào không gian có số chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phẳng quyết định, phân loại các mẫu khuôn mặt và không phải khuôn mặt. 2.1.3.1 Eigenface Kohonen đã đưa ra phương pháp dùng vector riêng để nhận dạng khuôn mặt, ông dùng một mạng nơ-ron đơn giản để chứng tỏ khả năng của phương pháp này trên các ảnh Trang 15/51
  19. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN đã được chuẩn hóa. Mạng nơ-ron tính một mô tả của khuôn mặt bằng cách xấp xỉ các vector riêng của ma trận tương quan của ảnh. Các vector riêng sau này được biết đến với cái tên Eigenface. Kirby và Sirovich chứng tỏ các ảnh có các khuôn mặt có thể được mã hóa tuyến tính bằng một số lượng vừa phải các ảnh cơ sở. Tính chất này dựa trên biến đổi Karhunen-Lòeve, mà còn được gọi dưới một cái tên khác là PCA và biến đổi Hotelling. Ý tưởng này được xem là của Pearson trình bày đầu tiên vào năm 1901 và sau đó là Hotelling vào năm 1933. Cho một tập các ảnh huấn luyện có kích thước n x m được mô tả bởi các vector có kích thước m x m, các vector cơ sở cho một không gian con tối ưu được xác định thông qua lỗi bình phương trung bình khi chiếu các ảnh huấn luyện vào không gian con này. Các tác giả gọi tập các vector cơ sở tối ưu này là ảnh riêng, sau đó gọi cho đơn giản là vector riêng của ma trận hiệp phương sai, được tính từ các ảnh khuôn mặt đã vector hóa trong tập huấn luyện. Turk và Pentland áp dụng PCA để xác định và nhận dạng khuôn mặt. Tương tự, dùng PCA trên tập huấn luyện ảnh các khuôn mặt để sinh các ảnh riêng (còn gọi là Eigenface) để tìm một không gian con (không gian khuôn mặt) trong không gian ảnh. Các ảnh khuôn mặt được chiếu vào không gian con này và được gom nhóm lại. Tương tự các ảnh không có khuôn mặt dùng để huấn luyện cũng được chiếu vào cùng không gian con và gom nhóm lại. Các ảnh khi chiếu vào không gian khuôn mặt thì không bị thay đổi tính chất cơ bản, trong khi chiếu các ảnh không có khuôn mặt thì xuất hiện nhiều sự khác nhau. Xác định sự có mặt của một khuôn mặt trong ảnh thông qua tất cả khoảng cách giữa các vị trí trong ảnh và không gian ảnh. Khoảng cách này dùng để xem xét có hay không có khuôn mặt người, kết quả khi tính toán các khoảng cách sẽ cho ta một bản đồ về khuôn mặt. Có thể xác định được từ cực tiểu cục bộ của bản đồ này. Có nhiều nghiên cứu về xác định khuôn mặt, nhận dạng, và trích đặc trưng từ ý tưởng vector riêng, phân rã và gom nhóm. 2.1.3.2 Mạng Nơ-ron Mạng nơ-ron được áp dụng khá thành công trong các bài toán nhận dạng mẫu, như: nhận ký tự, đối tượng, robot tự động vận hành. Xác định khuôn mặt người có thể xem là bài toán nhận dạng hai loại mẫu, có nhiều kiến trúc mạng nơ-ron đã được trình bày. Một Trang 16/51
  20. Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN thuận lợi khi dùng mạng nơ-ron để xác định khuôn mặt là tính khả thi của hệ thống học khi có sự phức tạp trong lớp của các mẫu khuôn mặt. Tuy nhiên, một điều trở ngại là các kiến trúc mạng đều tổng quát, khi áp dụng thì phải xác định rõ ràng số lượng tầng, số lượng node, tỉ lệ học … cho từng trường hợp cụ thể, hình 5. Hình 5 - Mô hình mạng nơ-ron theo Rowley 2.1.3.3 Support Vector Machine Support Vector Machine (SVM) là một kỹ thuật học được Vapnik đề xuất. Phương pháp này rất hiệu quả với tập dữ liệu lớn, nhưng lại gặp khó khăn khi cần phải mô tả lại chính xác các khuôn mặt (vì tính biến thiên của khuôn mặt). Osuna áp dụng phương pháp này đầu tiên để xác định khuôn mặt người. SVM được xem như là một kiểu mới dùng huấn luyện để phân loại theo hàm đa thức. Trong khi hầu hết các phương pháp khác dùng huấn luyện để phân loại (Mạng Bayes, Nueral, RBF) đều dùng tiêu chí tối thiểu lỗi huấn luyện (rủi ro do kinh nghiệm), trong khi SVM dùng quy nạp (được gọi là tối thiểu rủi ro cấu trúc), mục tiêu là làm tối thiểu một bao bên trên lỗi tổng quát. Một phân loại SVM là một phân loại tuyến tính, dùng một mặt phẳng để tách dữ liệu. Dựa trên một kết hợp có các trọng số của một tập con nhỏ các vector huấn luyện, các vector này được gọi là support vector. Ước lượng mặt phẳng tương đương với việc giải một bài toán tuyến tính bậc hai. Osuna đã phát triển một phương pháp hiệu quả để huấn luyện một SVM với tỉ lệ lớn để áp dụng cho bài toán xác định khuôn mặt người. Ông dùng 10,000,000 mẫu có kích thước 19 x 19 điểm ảnh, hệ thống của ông có tỉ lệ lỗi ít hơn Sung và Poggio, nhưng nhanh hơn gần 30 lần. SVM cũng có thể dùng xác định khuôn mặt người và người đi bộ với phân tích Wavelet. Trang 17/51
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2