BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Thanh Nhã XÂY DỰNG MÔ HÌNH KẾT HỢP ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG CẢM XÚC CON NGƯỜI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thành phố Hồ Chí Minh - 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Thanh Nhã
XÂY DỰNG MÔ HÌNH KẾT HỢP ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG CẢM XÚC CON NGƯỜI
Chuyên ngành: Khoa học máy tính Mã số : 8480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VIẾT HƯNG
Thành phố Hồ Chí Minh - 2019
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Xây dựng mô hình kết hợp ảnh thường và
ảnh nhiệt để ước lượng cảm xúc con người” là do tôi tìm hiểu, nghiên cứu và
thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Viết Hưng. Luận văn không
có sự sao chép từ các tài liệu, công trình nghiên cứu khác mà không ghi rõ
nguồn trong tài liệu tham khảo.
Tôi xin chịu trách nhiệm về kết quả thực hiện và lời cam đoan này.
Thành phố Hồ Chí Minh, ngày 27 tháng 12 năm 2019
LỜI CẢM ƠN
Trước hết tôi xin chân thành gởi lời cảm ơn sâu sắc đến Thầy của tôi,
Tiến sĩ Nguyễn Viết Hưng, người đã định hướng, chỉ bảo, giúp đỡ tận tình
trong cả quá trình học tập, nghiên cứu và hoàn thiện luận văn này.
Tôi cũng xin bày tỏ lòng biết ơn đến quý Thầy, cô giáo đã trực tiếp tham
gia giảng dạy và truyền đạt kiến thức quý báu cho tôi trong suốt quá trình học
cao học tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Đồng thời, tôi
xin được cảm ơn tới quý Thầy cô Khoa Công nghệ thông tin, Phòng Sau đại
học Trường Đại học Sư phạm Thành phố Hồ Chí Minh đã tận tình dạy dỗ và
hướng dẫn cho tôi trong suốt quá trình học tập tại Trường.
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè của tôi.
Những người luôn bên cạnh, động viên và ủng hộ tôi để tôi có đủ niềm tin,
động lực để hoàn thành khóa học và luận văn của mình.
Tp Hồ Chí Minh, ngày 27 tháng 12 năm 2019
MỤC LỤC
Trang
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các ký hiệu và chữ viết tắt
Danh mục các bảng biểu
Danh mục các hình vẽ
MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ........................................................................................ 1
2. Mục tiêu và nhiệm vụ nghiên cứu .............................................................. 2
3. Đóng góp của luận văn ............................................................................... 3
4. Đối tượng và phạm vi nghiên cứu .............................................................. 3
5. Phương pháp nghiên cứu............................................................................ 3
6. Ý nghĩa khoa học và thực tiễn ................................................................... 4
7. Cấu trúc luận văn ....................................................................................... 4
Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ............................. 6
1.1. Các công trình nghiên cứu liên quan ...................................................... 6
1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc của
con người ............................................................................................... 10
1.3. Sơ lược về cơ sở dữ liệu cảm xúc ......................................................... 11
Chương 2. CƠ SỞ LÝ THUYẾT ................................................................. 15
2.1. Bài toán phát hiện cảm xúc khuôn mặt ................................................. 15
2.2. Kiến trúc Mạng nơ-ron tích chập (Convolutional neural network) ...... 17
2.2.1. Lớp Convolution ............................................................................... 17
2.2.2. Lớp pooling ..................................................................................... 18
2.2.3. Lớp Fully Connected ...................................................................... 19
2.3. Học chuyển giao .................................................................................... 20
2.4. Mạng huấn luyện Resnet (Residual Network) ...................................... 21
2.5. Độ đo đánh giá mô hình phân lớp ......................................................... 25
Chương 3. ƯỚC LƯỢNG CẢM XÚC CỦA NGƯỜI DỰA TRÊN ẢNH
THƯỜNG VÀ ẢNH NHIỆT ...................................................... 27
3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE) ....... 27
3.2. Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt .................. 32
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................ 37
4.1. Môi trường thực nghiệm ....................................................................... 37
4.2. Dữ liệu đầu vào ..................................................................................... 37
4.3. Phân tích đánh giá ................................................................................. 38
4.3.1. Kết quả thực nghiệm ....................................................................... 38
4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32] ... 43
4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36] ... 44
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................ 46
CÔNG TRÌNH CÔNG BỐ ........................................................................... 48
TÀI LIỆU THAM KHẢO ............................................................................ 49
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Nguyên mẫu Diễn giải Chữ viết tắt
Mô hình xuất hiện tích AAM Active Appearance Model cực
Đơn vị hành động, xác AU Action Units định độ co của cơ mặt
Convolutional Neural Mô hình mạng nơ-ron CNN Networks tích chập
Mô hình máy Boltzman DBM Deep Boltzmann Machine học sâu
Electrocardiogram Tín hiệu điện tâm đồ ECG
Electroencephalogram Tín hiệu điện não đồ EEG
Phương pháp không Eigenspace Method based gian riêng dựa trên các EMC on Class features đặc trưng của lớp
Facial Action Coding Hệ thống mã hóa hành FACS System động mặt
Facial Thermal Feature Cơ sở các điểm đặc FTFP Points trưng nhiệt mặt
HMM Hidden Markov Models Mô hình Markov ẩn
Histogram of Oriented Biểu đồ của các HOG Gradients gradient định hướng
Kotani Thermal Facial Cơ sở dữ liệu ảnh nhiệt KTFE Emotion
Mô hình nhị phân cục LBP Local Binary Pattern bộ
LDA Linear Discriminant Phương pháp phân tích
Analysis phân biệt tuyến tính
Mô hình định hướng LDP Local Directional Pattern cục bộ
Natural Visible and NVIE Cơ sở dữ liệu ảnh nhiệt Infrared facial Expression
Principal Component Phương pháp phân tích PCA Analysis thành phần chính
Posttraumatic Stress PTSD Chấn thương tâm lý Disorder
ROI Region of Interest Khu vực quan tâm
Phương pháp Máy SVM Support Vector Machines vector hỗ trợ
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8] .................................................. 13
Bảng 2.1. Bảng chi tiết kiến trúc mạng Resnet 18, 50,101 và 153 lớp [50] ... 24
Bảng 2.2. Định nghĩa các giá trị cho việc đánh giá thực thi mô hình ............. 25
Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val)
và 20% cho kiểm tra (test set) ......................................................... 37
Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê
tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu
(Sa) và ngạc nhiên (Su) ................................................................... 38
Bảng 4.4. So sánh phân tích với phương pháp [32] trên 5 cảm xúc ............... 44
Bảng 4.3. So sánh phân tích với phương pháp [36] ........................................ 45
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lông mày, mắt, mũi,
miệng [17] ......................................................................................... 7
Hình 1.2. Trích xuất ROI trong phương thức [32] ............................................ 9
Hình 1.3. Thuật toán xác định cảm xúc [33] ..................................................... 9
Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình thường,
giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm. .......................... 12
Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46] ..................................... 14
Hình 2.1. Mô hình phát hiện cảm xúc sử dụng phương pháp học máy truyền
thống ................................................................................................ 15
Hình 2.2. Kiến trúc cơ bản của mạng tích chập .............................................. 17
Hình 2.3. Minh họa phép tích chập [47] ......................................................... 18
Hình 2.4. Minh họa phương thức maxpooling và average pooling [48] ........ 19
Hình 2.5. Minh họa kết nối đầy đủ và phân lớp [49] ...................................... 20
Hình 2.6. Hình so sánh độ lỗi của mô hình trước và sau khi thêm các lớp
mạng [50] ........................................................................................ 22
Hình 2.7. ResNets block .................................................................................. 23
Hình 2.8. So sánh mạng truyền thống với Resnet (18/34 lớp) [50] ................ 24
Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8] .................... 28
Hình 3.2. Thư mục lưu trữ dữ liệu thô KTFE chứa video ảnh thường ........... 29
Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500-PRO
(Video chứa các frame ảnh nhiệt) ................................................... 30
Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau khi xóa vùng
dư thừa trên ảnh nhiệt (bên trái)...................................................... 31
Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới thêm
vào ................................................................................................... 33
Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong
ConvNet của pre-trained model và fully connected layer mới. ...... 34
Hình 3.7. Mô hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt ...... 35
Hình 4.1. Kết quả dự đoán của mô hình ......................................................... 39
Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50 ......................... 40
Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50 ......................... 41
Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-
Resnet-50 ........................................................................................ 42
Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50 ..... 43
Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32] ............... 44
Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36] ............... 45
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong kỷ nguyên công nghệ số và sự bùng nổ của các ứng dụng cho
cuộc cách mạng công nghiệp lần thứ tư, trao đổi thông tin của người và máy
đóng một vai trò cực kì quan trọng. Những nghiên cứu hỗ trợ cho máy móc và
robot hiểu được con người và giao tiếp tốt với con người đang được thu hút từ
nhiều ngành nghề.
Hai nguồn thông tin chính giúp người và máy có thể trao đổi được một
cách nhanh chóng và hiệu quả đó là giọng nói và hình ảnh [1], [2], [3]. Trong
dữ liệu hình ảnh mặt người, những biểu hiện trên khuôn mặt chiếm 55% cơ sở
để giúp con người có thể hiểu nhau trong quá trình trao đổi và nói chuyện [4].
Bên cạnh đó, rất dễ dàng cho con người có thể hiểu nhau thông qua những
biểu hiện khuôn mặt trong giao tiếp xã hội, nhưng đó lại là một bài toán khó
đối với máy tính và robot. Do đó, nghiên cứu về biểu hiện trên khuôn mặt
được thu hút rất nhiều nghiên cứu và đạt được nhiều kết quả khích lệ [5], [6],
[7], [8], [9], [10].
Cảm xúc là một trong những biểu hiện của khuôn mặt nhưng khó để hiểu
hết được cảm xúc bằng thông tin của ảnh thông thường. Cảm xúc, trong
nghiên cứu này, được định nghĩa không chỉ là biểu hiện bề ngoài của khuôn
mặt (do sự di chuyển của các khối cơ) mà còn là sự thay đổi vật lí về nhiệt độ
diễn ra trong các mạch máu. Để có thể lấy được đầy đủ thông tin như định
nghĩa trên, với ảnh thông thường là chuyện không thể. Ngoài các vấn đề như
chất lượng ảnh thu được kém khi nguồn sáng yếu, màu da khác nhau, ảnh
thông thường không phản ánh được cảm xúc của những người ít khi thể hiện
hay cảm xúc trái ngược với biểu hiện của khuôn mặt. Bên cạnh đó, ảnh nhiệt
không phụ thuộc vào nguồn sáng, đồng thời nó phản ánh được cảm xúc của
những người ít khi thể hiện cảm xúc. Việc kết hợp sử dụng thêm thông tin của
ảnh nhiệt, giúp máy tính lẫn con người dự đoán chính xác hơn về cảm xúc của
2
con người [8], [9]. Hầu hết các nghiên cứu tập trung vào dự đoán 6 loại cảm
xúc như: giận dữ (anger), ghê tởm (disgust), hạnh phúc (happiness), sợ hãi
(fear), ngạc nhiên (surprise) và buồn (sadness).
Hiện nay, có rất nhiều nghiên cứu cảm xúc (biểu hiện khuôn mặt) dựa
trên ảnh thông thường, có thể tham khảo tại [9], [10]. Tuy nhiên, rất ít nghiên
cứu cảm xúc dựa trên ảnh nhiệt và kết hợp ảnh nhiệt và ảnh thông thường.
Xuất phát từ các cơ sở đó, đề tài “Xây dựng mô hình kết hợp ảnh
thường và ảnh nhiệt để ước lượng cảm xúc con người” được thực hiện dựa
trên biểu hiện trên khuôn mặt bằng cách kết hợp ảnh có thể nhìn thấy và ảnh
nhiệt. Luận văn làm rõ cơ sở lý thuyết và các nghiên cứu liên quan cũng như
thực nghiệm, đánh giá kết quả đạt được trong thực tế và khả năng phát triển
của đề tài.
2. Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu: Xây dựng mô hình kết hợp ảnh thông thường và ảnh nhiệt để
ước lượng cảm xúc.
Nhiệm vụ: Để đạt mục tiêu trên, đề tài thực hiện những nhiệm vụ sau
đây:
- Tìm hiểu tổng quan tình hình nghiên cứu về nhận dạng, phân tích và
dự đoán cảm xúc của người bằng ảnh thường và ảnh nhiệt.
- Nghiên cứu các cơ sở lý thuyết của đề tài.
- Nghiên cứu mô hình học sâu để trích xuất đặc trưng của ảnh thường
và ảnh nhiệt.
- Xây dựng đa mô hình ước lượng cảm xúc của người dựa trên ảnh
thường và ảnh nhiệt.
- Tiến hành thực nghiệm và đánh giá kết quả đạt được.
- Đề xuất hướng phát triển trong tương lai của đề tài.
3
3. Đóng góp của luận văn
Đóng góp của luận văn là xây dựng mô hình kết hợp ước lượng cảm xúc
dựa trên nguồn dữ liệu ảnh thường và ảnh nhiệt. Bên cạnh đó, xây dựng cơ sở
dữ liệu cảm xúc ảnh thường và ảnh nhiệt.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng: Cảm xúc của con người thông qua thông tin khuôn mặt
người.
Phạm vi nghiên cứu:
- Cảm xúc (emotion) trong nghiên cứu này không chỉ là những biểu
hiện bên ngoài của khuôn mặt mà đó còn có cả những thay đổi thành
phần vật lí bên trong của khuôn mặt.
- Nhận biết và dự đoán sự thay đổi cảm xúc trong đề tài này chính là
ước lượng cảm xúc của người dựa trên hai nguồn thông tin (ảnh
thường và ảnh nhiệt) của khuôn mặt người (human emotion
estimation).
- Nhận dạng bảy cảm xúc cơ bản: buồn rầu, hạnh phúc, sợ hãi, giận
dữ, ngạc nhiên, ghê tởm và bình thường.
- Nghiên cứu được thực hiện và kiểm thử trên cơ sở dữ liệu KTFE.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
- Tìm hiểu các công trình nghiên cứu liên quan.
- Tìm hiểu về bài toán ước lượng cảm xúc con người.
- Tìm hiểu về hình ảnh thường, ảnh nhiệt và trích xuất các đặc trưng
quan trọng dựa trên cơ sở dữ liệu KTFE.
- Tìm hiểu các phương pháp trích xuất đặc trưng và phân loại.
- Tìm hiểu mô hình học sâu cho bài toán ước lượng cảm xúc.
Phương pháp nghiên cứu thực nghiệm
- Tiến hành phân tích, xây dựng mô hình và cài đặt.
4
- So sánh và đánh giá kết quả đạt được.
6. Ý nghĩa khoa học và thực tiễn
Về mặt lý thuyết:
Xây dựng đa mô hình từ nhiều nguồn dữ liệu khác nhau phục vụ không
chỉ cho thị giác máy tính mà còn phục vụ cho cả hướng tâm lí học, và nhiều
hướng khác.
Về mặt thực tiễn:
Việc sử dụng trí tuệ nhân tạo ứng dụng vào giải quyết bài toán thực tế là
cần thiết và cấp bách trong việc hội nhập thời đại công nghiệp 4.0 như yêu
cầu của Thủ tướng Chính phủ.
7. Cấu trúc luận văn
Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, nội dung luận
văn được xây dựng gồm các phần sau:
Chương mở đầu
Chương này giới thiệu tổng quan về đề tài gồm các nội dung như: lý do
chọn đề tài, mục tiêu và nhiệm vụ nghiên cứu, đối tượng và phạm vi nghiên
cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn cũng như cấu
trúc chung của đề tài.
Chương 1. Tổng quan tình hình nghiên cứu
Chương này giới thiệu tổng quan về tình hình nghiên cứu và tìm hiểu về
cơ sở dữ liệu ảnh thường và ảnh nhiệt. Những kiến thức cơ bản này là tiền đề
để áp dụng vào việc xây dựng đa mô hình dựa trên hai nguồn dữ liệu (ảnh
thường và ảnh nhiệt).
Chương 2. Cơ sở lý thuyết
Chương này giới thiệu lý thuyết về mạng CNN, kỹ thuật học chuyển
giao, mô mình mạng pre-trained và độ đo đánh giá mô hình.
Chương 3. Uớc lượng cảm xúc của người dựa trên ảnh thường và
ảnh nhiệt
5
Chương này vận dụng những kiến thức đã nêu ở chương một và chương
hai để xây dựng đa mô hình phân lớp từ nhiều nguồn dữ liệu khác nhau và
hợp nhất quyết định sau mỗi nguồn được phân loại riêng lẻ nhằm nâng cao độ
chính xác.
Chương 3. Thực nghiệm và đánh giá
Chương này phân tích về những ưu điểm, nhược điểm, so sánh và đánh
giá kết quả mô hình ước lượng cảm xúc trên ảnh thường, ảnh nhiệt và mô
hình kết hợp.
Chương 4. Kết luận và hướng phát triển
Chương này tổng kết lại những gì đã đạt được và chưa đạt được trong
luận văn để từ đó đề xuất những hướng nghiên cứu tiếp theo để nâng cao độ
chính xác về bài toán ước lượng cảm xúc của con người.
6
Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.1. Các công trình nghiên cứu liên quan
Trong các bài toán phân tích cảm xúc hay ước lượng cảm xúc đều có ba
bước chính: phát hiện khuôn mặt, rút trích đặc trưng và phân loại cảm xúc.
Trong rút trích đặc trưng, ta có thể phân loại làm hai nhánh chính đó là
phương pháp dựa trên đặc trưng biểu hiện (hình dạng) và phương pháp dựa
trên đặc trưng hình học.
Bản chất của rút trích đặc trưng là tìm ra một ánh xạ sao cho hỗ trợ việc
phân loại cảm xúc tốt nhất. Phương pháp rút trích đặc trưng dựa trên hình
học, trích xuất thông tin đặc trưng bằng hình dạng, khoảng cách và vị trí của
các thành phần trên khuôn mặt. Công việc đầu tiên trong lĩnh vực này là hệ
thống mã hóa hành động mặt (FACS), được thiết kế bởi Ekman [11]. FACS
mã hóa một biểu hiện khuôn mặt trong 44 đơn vị hành động trên khuôn mặt
(AU). Ngoài ra các phương pháp dựa trên đặc trưng hình học còn sử dụng mô
hình Active Appearance Model (AAM) hoặc các biến thể của nó. Vị trí của
các vùng trên khuôn mặt này sau đó được sử dụng theo nhiều cách khác nhau
để trích xuất hình dạng các đặc điểm khuôn mặt và chuyển động các đặc điểm
khuôn mặt khi cảm xúc thay đổi. Choi và cộng sự [12] sử dụng AAM với sự
giảm thiểu bậc hai, và một perceptron đa lớp, để nhận biết biểu hiện khuôn
mặt. Một ví dụ gần đây về kỹ thuật dựa trên AAM để nhận dạng biểu hiện
khuôn mặt được trình bày trong [13], trong đó các thuật toán cải tiến AAM
khác nhau được so sánh và đánh giá. Trong [14], [15] các tác giả cũng đã đưa
ra một cách tiếp cận dựa trên đặc trưng hình học để lập mô hình, theo dõi và
nhận dạng các biểu hiện khuôn mặt.
7
Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lông mày, mắt, mũi, miệng [17]
Các đặc trưng dựa trên hình học mô tả hình dạng của khuôn mặt và các
thành phần của khuôn mặt trong khi các đặc điểm dựa trên đặc trưng thể hiện
được tạo ra từ biểu hiện trên khuôn mặt. Các đặc trưng xuất hiện đã được sử
dụng thành công để nhận dạng cảm xúc như toán tử mô hình nhị phân cục bộ
(LBP) [16], biểu đồ của gradient định hướng (HOG) [17, 18], cục bộ mô hình
định hướng (LDP) [19], thông tin kết cấu dựa trên bộ lọc Gabor [20], phân
tích thành phần chính (PCA) [21] và phân tích phân biệt tuyến tính (LDA)
[22]. Những tiến bộ gần đây trong ảnh hồng ngoại nhiệt đã giúp chúng ta có
được tín hiệu sinh lý, nhiệt độ cơ thể, thông qua các phương tiện không xâm
nhập và không tiếp xúc [23]. Khi một cảm xúc xảy ra, nhiệt độ trên khuôn
mặt xuất hiện do lưu lượng máu mà cơ thể phát ra qua các mạch máu ở dưới
da [24], sự thay đổi này có thể đủ điều kiện và định lượng để có thể nghiên
cứu cảm xúc thông qua ảnh nhiệt. M.M.Khan và các cộng sự của ông [25] đề
xuất sử dụng các điểm đặc trưng nhiệt mặt (FTFP) tỷ lệ chính xác dao động từ
66,3% đến 83,8% với năm loại cảm xúc. Di Giacinto cùng cộng sự [26] khám
phá cảm xúc sợ hãi ở những bệnh nhân bị rối loạn stress sau chấn thương
8
(PTSD). Nó cho thấy rằng nhiệt độ trên mặt ở bệnh nhân PTSD là thấp hơn so
với những người được kiểm soát. Trong [27] các tác giả phân loại các cảm
xúc bất ngờ, hạnh phúc, bình thường từ hai yếu tố đầu vào. Dữ liệu đầu vào
đầu tiên bao gồm các lựa chọn của một tập hợp các vùng thích hợp khi thực
hiện trích xuất đặc trưng, đầu vào thứ hai là ma trận hiệp phương sai mức xám
được sử dụng để tính toán các bộ mô tả vùng của ảnh nhiệt. Liu và Wang [28]
đã phân tích dữ liệu chuỗi nhiệt độ mặt, tính toán thống kê và các tính toán
biểu đồ khác biệt về nhiệt độ. Hơn nữa, mô hình Hidden Markov (HMM)
được sử dụng để phân biệt hạnh phúc, ghê tởm và sợ hãi với tỷ lệ công nhận
tương ứng là 68,11%, 57,14% và 52,30%. Họ đã sử dụng các mẫu từ cơ sở dữ
liệu NVIE (biểu hiện trên khuôn mặt tự nhiên và hồng ngoại) để đánh giá kết
quả. Nguyen.H và cộng sự [29] đề xuất phương pháp kết hợp ảnh nhìn thấy và
chuỗi ảnh nhiệt để ước lượng bảy cảm xúc cơ bản. Kết quả được đánh giá với
hai phương pháp phân loại t-PCA và n-EMC trên tập cơ sở dữ liệu KTFE.
B.R. Nhan và T.Chau [30] nhận dạng cảm xúc dựa trên phân tích tần số
thời gian từ chuỗi thời gian trung bình của năm vùng quan tâm trên mặt nhiệt.
Shan He và các cộng sự [31] đề xuất phương pháp nhận dạng cảm xúc với
Deep Boltzmann Machine (DBM) trên cơ sở dữ liệu NVIE đạt tỷ lệ công
nhận là 51,3% . Trong bài báo [32], một phương pháp nhận dạng cảm xúc dựa
vào vùng quan tâm (ROI), như hình 3, và phân loại bằng cách sử dụng SVM
nhiều lớp. Thuật toán được kiểm tra trên cơ sở dữ liệu KTFE công nhận năm
cảm xúc cơ bản gồm tức giận, sợ hãi, hạnh phúc, buồn và bình thường với độ
chính xác 87,50%.
9
Hình 1.2. Trích xuất ROI trong phương thức [32]
Trong nghiên cứu [33], nhóm Wang đã đề ra thuật toán như Hình 1.3.
Tuy nhiên, thuật toán này có những ràng buộc ban đầu để xác định ví trị mắt
mũi miệng cho phần rút trích đặc trưng.
Hình 1.3. Thuật toán xác định cảm xúc [33]
Trong nghiên cứu công bố vào cuối năm 2018, nhóm Basu [34] đã đưa
ra hệ thống phân loại đặc trưng của cá nhân như P, E hay N dựa vào mô hình
của Eysenck. Hệ thống sử dụng mô hình kết hợp ảnh thường và ảnh nhiệt
10
trong đó ảnh nhiệt sử dụng mô hình mạch máu. Mô hình Markov ẩn dùng để
tìm ra thể hiện cảm xúc với đặc trưng kết hợp được rút trích ở trên. Mặc dù
kết quả đạt khá cao với gần 90% cho việc phân loại cảm xúc nhưng nhóm tác
giả chỉ thực hiện trên 4 cảm xúc cơ bản dễ phân loại. Ngoài ra, một điểm yếu
của nghiên cứu này là việc giới hạn về số dữ liệu.
Trong năm 2018, nhóm Wang [35], cũng đề ra một phương pháp dựa
trên mô hình học sâu và SVM để phân loại cảm xúc. Mục đích của nhóm
hướng tới nhu cầu thực tế với việc chi phí cho camera nhiệt rất tốn kém nên
việc huấn luyện được thực hiện với cả dữ liệu ảnh thường và ảnh nhiệt nhưng
việc kiểm tra được thực hiện chỉ với dữ liệu ảnh thường.
Trong nghiên cứu [36], nhóm Thu Nguyen đề xuất một phương pháp
trích xuất các vùng quan tâm (ROI) trên dữ liệu ảnh nhiệt. Sau đó tiến hành
ước lượng cảm xúc với các phương pháp kinh điển trong lĩnh vực thị giác
máy tính bao gồm: PCA, EMC và kết hợp PCA-EMC trên cơ sở dữ liệu
KTFE đạt tỷ lệ công nhận tương ứng là 90,42%, 89,99%, 85,94%.
1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc
của con người
Từ tổng quan các kết quả nghiên cứu đạt được của các nhóm nghiên cứu
đã có rất nhiều kết quả khả quan và ứng dụng được trong bài toán thực tế. Tuy
nhiên, với những hệ thống này thường nhận dạng trên ảnh thường. Điều đó
dẫn đến kết quả không chính xác trong những trường hợp như thiếu ánh sáng,
ảnh bị mờ, màu da hoặc đối với người không thể hiện biểu cảm trên khuôn
mặt nên khó phát hiện được cảm xúc. Đây là thách thức lớn đòi hỏi cần có
những hướng nghiên cứu và tiếp cận mới để khắc phục những hạn chế của
ảnh nhìn thấy được nhằm tăng tỉ lệ chính xác hơn trong ước lượng cảm xúc.
Đối với ảnh nhiệt cũng gặp phải một số hạn chế như nhiệt độ cơ thể thay
đổi khi đối tượng tập thể dục hoặc nhiệt độ môi trường xung quanh. Ngoài ra
11
khi đối tượng đeo kính (Eyeglass) sẽ dẫn đến mất thông tin hữu ích xung
quanh khuôn mặt nhiệt bởi vì vật liệu thủy tinh ngăn chặn phần lớn năng
lượng nhiệt.
Ngoài ra, việc kết hợp các phương pháp khác nhau để nhận dạng cảm
xúc giúp cải thiện tỷ lệ chính xác hơn cũng là một bài toán cần được nghiên
cứu và phát triển mạnh mẽ trong tương lai.
1.3. Sơ lược về cơ sở dữ liệu cảm xúc
Nhận dạng khuôn mặt người, phân tích cảm xúc và tương tác giữa người
và máy ngày càng được quan tâm, số lượng cơ sở dữ liệu sinh ra để phục vụ
cho việc nghiên cứu về nhận dạng khuôn mặt và cảm xúc ngày càng nhiều
nhưng phổ biến ở cơ sở dữ liệu ảnh thường như CK+ [37], Fer2013 [38] và
còn nhiều cơ sở dữ liệu cảm xúc khác [39], cơ sở dữ liệu cảm xúc thường
được tạo ra trong phòng thí nghiệm nên hầu như cảm xúc được thể hiện một
cách sắp đặt (posed) và thể hiện quá mức.
12
Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình
thường, giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm.
Bên cạnh đó, có loại cảm xúc được gây ra (induced) không phải do tự
phát, tự sinh ra mà cảm xúc được thể hiện qua sự tương tác giữa người tham
gia và các cá nhân khác hoặc xem qua các phương tiện nghe nhìn để gợi lên
những cảm xúc thực hơn, tự nhiên hơn.
Ngoài ra, cảm xúc được thể hiện trong các bộ dữ liệu tự phát
(Spontaneous) được coi là gần nhất với các tình huống thực tế trong đời sống
hàng ngày. Tuy nhiên, đối với loại cảm xúc tự phát này diễn ra trong khi
người đó không biết trước được họ sẽ được ghi hình, quá trình thu thập dữ
liệu sẽ chạm đến quyền riêng tư, việc gán nhãn phải được thực hiện một cách
thủ công vì phải qua các bước phân tích dự đoán của chuyên gia, cơ sở dữ liệu
tự phát thường bao gồm các đoạn phim được trích xuất từ phim ảnh [42],
đoạn clip trên YouTube.
13
Có rất ít cơ sở dữ liệu mặt nhiệt được phát triển để hỗ trợ nghiên cứu về
biểu hiện và cảm xúc trên khuôn mặt người. IRIS [44] và NIST / Equinox
[45], bao gồm các cặp ảnh được gắn nhãn với ba cảm xúc chính đặt ra dưới
nhiều ánh sáng và tư thế đầu khác nhau. Cơ sở dữ liệu Natural Visible and
Infrared Facial Expression (NVIE) chứa 215 đối tượng, mỗi đối tượng hiển
thị bảy cảm xúc [43]. Bộ dữ liệu Kotani Thermal Facial Emotion (KTFE) là
cơ sở dữ liệu cảm xúc, được ghi lại trong phòng thí nghiệm và cũng được kích
hoạt thông qua phương tiện nghe nhìn [8].
Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8]
Số lượng Dải sóng Cơ sở dữ liệu Loại cảm xúc đối tượng camera nhiệt
8-12µm, Mỉm cười, cau mày 600 NIST/Equinox 3-5µm và ngạc nhiên.
Ngạc nhiên, cười và 30 7-14µm IRIS giận dữ.
Hạnh phúc, giận dữ,
bình thường, ghê tởm, 215 8-14µm NVIE sợ hãi, buồn rầu và ngạc
nhiên.
Hạnh phúc, giận dữ,
bình thường, ghê tởm, 30 8-14µm KTFE sợ hãi, buồn rầu và ngạc
nhiên.
Tất cả các vật thể, cả tự nhiên lẫn nhân tạo, đều phát ra năng lượng nhiệt
hồng ngoại. Bằng cách phát hiện sự khác biệt nhiệt độ rất tinh vi, công nghệ
hình ảnh nhiệt cho thấy những gì mà mắt thường không nhìn thấy được.
14
Máy ảnh nhiệt thường phát hiện bức xạ trong dải hồng ngoại dài của phổ
điện từ (khoảng 9.000–14.000 nm hoặc 9–14 µm) và tạo ra hình ảnh của bức
xạ đó, được gọi là thermograms. Khi camera chụp ảnh nhiệt, các vật thể ấm
áp nổi bật so với các nền lạnh hơn, con người và các động vật máu nóng khác
trở nên dễ dàng nhìn thấy ngay cả trong bóng tối hoàn toàn và điều kiện môi
trường đầy thách thức.
Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46]
15
Chương 2. CƠ SỞ LÝ THUYẾT
2.1. Bài toán phát hiện cảm xúc khuôn mặt
Như đã trình bày ở phần tình hình nghiên cứu, phân tích cảm xúc hay
ước lượng cảm xúc là một bài toán phân lớp đã được nghiên cứu trong một
thời gian khá dài. Một hệ thống nhận diện cảm xúc khuôn mặt thường được
triển khai gồm 3 bước: phát hiện khuôn mặt, rút trích đặc trưng và phân lớp.
Hình 2.1 mô tả mô hình phát hiện cảm xúc khuôn mặt sử dụng phương pháp
học máy truyền thống.
Hình 2.1. Mô hình phát hiện cảm xúc sử dụng phương pháp học máy truyền thống
- Phát hiện khuôn mặt và tiền xử lý: Ảnh khuôn mặt được lấy từ
nguồn dữ liệu hình ảnh tĩnh hoặc từ các camera, nguồn dữ liệu này có thể trải
qua một số bước tiền xử lý nhằm tăng chất lượng hình ảnh để giúp việc phát
hiện cảm xúc trở nên hiệu quả hơn.
- Trích xuất đặc trưng: Bước này rất quan trọng, đặc biệt với các
phương pháp truyền thống, các đặc trưng khuôn mặt được tính toán dựa trên
các thuật toán có sẵn như LBP, AAM, HOG… kết quả thường là một vector
đặc trưng làm đầu vào cho bước sau.
16
- Phân lớp và nhận diện cảm xúc: Đây là một bài toán phân lớp điển
hình, rất nhiều các thuật toán có thể áp dụng trong bước này như KNN, SVM,
LDA, HMM,…
Một đặc điểm nổi bật của các phương pháp Học máy truyền thống là độ
chính xác của mô hình dự đoán phụ thuộc rất nhiều vào chất lượng các đặc
trưng được lựa chọn, các đặc trưng này càng phù hợp với bài toán đưa ra thì
kết quả thu được càng tốt. Đây là điểm mạnh, và cũng là điểm yếu của các
phương pháp này, bởi việc trích chọn đặc trưng chính là sự đóng góp của bàn
tay con người (rút trích đặc trưng thủ công) trong việc cải tiến các mô hình,
nó yêu cầu sự hiểu biết thấu đáo về bài toán cần giải quyết, các thuật toán sử
dụng và các thông số trong mô hình huấn luyện. Các đặc trưng được thiết kế
riêng cho từng bài toán khác biệt, do vậy hiếm khi chúng có thể được tái sử
dụng với các bài toán mới mà cần phải được cải thiện hay thay thế bởi các đặc
trưng khác.
Khác với phương pháp học máy truyền thống, Mạng nơ-ron tích chập
(CNN - Convolutional Neural Network) là một trong những mô hình mạng
học sâu phổ biến nhất hiện nay, có khả năng nhận dạng và phân loại hình ảnh
với độ chính xác rất cao, thậm chí còn tốt hơn con người trong nhiều trường
hợp. Mô hình này đã và đang được phát triển, ứng dụng vào các hệ thống xử
lý ảnh lớn của Facebook, Google hay Amazon… cho các mục đích khác nhau
như tìm kiếm ảnh hoặc gợi ý sản phẩm cho người tiêu dùng.
Sự ra đời của mạng CNN là dựa trên ý tưởng cải tiến cách thức các mạng
nơ-ron nhân tạo truyền thống học thông tin trong ảnh. Do sử dụng các liên kết
đầy đủ giữa các điểm ảnh vào node, các mạng nơ-ron nhân tạo truyền thẳng
(Feedforward Neural Network) bị hạn chế rất nhiều bởi kích thước của ảnh,
ảnh càng lớn thì số lượng liên kết càng tăng nhanh và kéo theo sự bùng nổ
khối lượng tính toán. Ngoài ra sự liên kết đầy đủ này cũng là sự dư thừa khi
với mỗi bức ảnh, các thông tin chủ yếu thể hiện qua sự phụ thuộc giữa các
17
điểm ảnh với những điểm xung quanh nó mà không quan tâm nhiều đến các
điểm ảnh ở cách xa nhau. Mạng CNN ra đời với kiến trúc thay đổi, có khả
năng xây dựng liên kết chỉ sử dụng một phần cục bộ trong ảnh kết nối đến
node trong lớp tiếp theo thay vì toàn bộ ảnh như trong mạng nơ-ron truyền
thẳng.
2.2. Kiến trúc Mạng nơ-ron tích chập (Convolutional neural network)
Các lớp cơ bản trong một mạng nơ-ron tích chập (CNN) gồm các lớp cơ
bản: Lớp tích chập (Convolutional), Lớp lấy mẫu (Pooling) và Lớp kết nối
đầy đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để tạo ra
các mô hình huấn luyện phù hợp cho từng bài toán khác nhau
Hình 2.2. Kiến trúc cơ bản của mạng tích chập
2.2.1. Lớp Convolution
Lớp tích chập được dùng để phát hiện và rút trích đặc trưng của ảnh.
Giống như các lớp ẩn khác, lớp tích chập lấy dữ liệu đầu vào và thực hiện các
phép biến đổi để tạo ra dữ liệu đầu vào cho lớp kế tiếp (đầu ra của lớp này là
đầu vào của lớp sau). Phép biến đổi được sử dụng là phép tính tích chập. Mỗi
lớp tích chập chứa một hoặc nhiều bộ lọc - bộ phát hiện đặc trưng (filter -
feature detector) cho phép phát hiện và trích xuất những đặc trưng khác nhau
của ảnh. Phép tích chập được thực hiện bằng cách trượt bộ lọc theo dữ liệu
đầu vào. Tại mỗi vị trí, phép nhân ma trận và tính tổng các giá trị để đưa vào
bản đồ đặc trưng (feature map).
18
Đặc trưng ảnh là những chi tiết xuất hiện trong ảnh, từ đơn giản như
cạnh, hình khối, chữ viết tới phức tạp như mắt, mặt, chó, mèo, bàn, ghế, xe,
đèn giao thông, v.v. Bộ lọc phát hiện đặc trưng là bộ lọc giúp phát hiện và
trích xuất các đặc trưng của ảnh, có thể là bộ lọc góc, cạnh, đường chéo, hình
tròn, hình vuông, v.v.
Hình 2.3. Minh họa phép tích chập [47]
2.2.2. Lớp pooling
Lớp này thường theo ngay sau lớp tích chập, nó được sử dụng để giảm
kích thước của hình ảnh đầu ra, tăng tốc độ tính toán và hiệu năng trong việc
phát hiện các đặc trưng nhưng vẫn giữ được các thông tin quan trọng của ảnh
đầu vào. Có nhiều phương thức pooling được sử dụng như maxpooling (lấy
giá trị lớn nhất), Min-pooling (lấy giá trị nhỏ nhất), Average-pooling (lấy giá
trị trung bình), Sum pooling (lấy giá trị tổng) cho các giá trị nằm trong bộ
khung.
19
Hình 2.4. Minh họa phương thức maxpooling và average pooling [48]
2.2.3. Lớp Fully Connected
Lớp Fully Connected được thiết kế hoàn toàn tương tự như trong mạng
nơ-ron truyền thống. Đầu vào cho lớp này là một vector của các con số (ma
trận đầu vào đã được dàn phẳng thành 1 vector). Tại lớp mạng này, mỗi một
nơ-ron của lớp này sẽ liên kết tới mọi nơ-ron của lớp khác.
Mục đích của lớp Fully Connected là sử dụng các đặc trưng được trích
xuất bởi phần convolution và pooling để phân loại hình ảnh đầu vào thành các
lớp khác nhau dựa trên bộ dữ liệu huấn luyện. Thông thường lớp kết Fully
Connected thường kết hợp với hàm Softmax.
20
Hình 2.5. Minh họa kết nối đầy đủ và phân lớp [49]
2.3. Học chuyển giao
Học chuyển giao là quá trình khai thác, tái sử dụng các tri thức đã được
học bởi một mô hình huấn luyện trước đó (Pretrained Model) vào giải quyết
một bài toán mới mà không phải xây dựng một mô hình huấn luyện khác từ
đầu.
Kỹ thuật này thường được áp dụng khi huấn luyện mô hình với một bộ
cơ sở dữ liệu tương đối nhỏ là sử dụng Học chuyển giao để tận dụng một
mạng CNN đã được huấn luyện trước đó với bộ dữ liệu rất lớn như ImageNet
(1,2 triệu ảnh với 1.000 thể loại khác nhau). Có 02 cách học chuyển giao:
- Mạng CNN này sẽ chỉ được sử dụng như một bộ trích chọn đặc trưng
cho bộ cơ sở dữ liệu huấn luyện mới, bằng cách thay thế các lớp Fully-
connected ở cuối mạng và giữ cố định các tham số cho toàn bộ các lớp còn lại
của mạng.
- Không chỉ thay thế và huấn luyện lại bộ nhận dạng cuối cùng của mạng
CNN, mà đồng thời ta thực hiện tối ưu, tinh chỉnh (Fine-tune) một vài hoặc
tất cả các lớp trong mạng.
21
Ý tưởng của việc tái sử dụng mạng CNN là dựa trên nhận định rằng các
đặc trưng được học trong các lớp đầu của mạng là các đặc trưng chung nhất,
hữu dụng với phần lớn bài toán, ví dụ: đặc trưng về cạnh, hình khối hay các
khối màu… Các lớp sau đó của mạng CNN sẽ nâng dần độ cụ thể, riêng biệt
của các chi tiết phục vụ cho bài toán nhận dạng cần giải quyết. Do đó, ta hoàn
toàn có thể tái sử dụng lại các lớp đầu của mạng CNN mà không phải mất
nhiều thời gian và công sức huấn luyện từ đầu.
2.4. Mạng huấn luyện Resnet (Residual Network)
ResNet được phát triển bởi Kaiming He và cộng sự [50] và đã giành
chiến thức cuộc thi nhận dạng ảnh quy mô lớn vào năm 2015 cũng là một
trong những mạng huấn luyện CNN nổi tiếng nhất nhờ thành tích ấn tượng
mà nó đạt được trong cuộc thi. Cuộc thi này có tên chính thức là ILSVRC –
ImageNet Large Scale Visual Recognition Challenge [51], được ImageNet -
một hãng cơ sở dữ liệu ảnh - tổ chức thường niên và được coi là cuộc thi
Olympics quy mô thế giới trong lĩnh vực thị giác máy tính. Mục đích của
cuộc thi là nhằm thử nghiệm các công nghệ mới giúp cho máy tính có thể
hiểu, phân tích, phát hiện và nhận dạng các vật thể trong một bức ảnh. Resnet
giải quyết được vấn đề của học sâu truyền thống như khi mạng càng sâu (tăng
số lượng lớp) thì đạo hàm sẽ bị vanishing (biến mất) hoặc explodes (bùng nổ).
Vấn đề này có thể giải quyết bằng cách thêm Batch Normalization nó giúp
chuẩn hóa đầu ra giúp các hệ số trở nên cân bằng hơn không quá nhỏ hoặc
quá lớn nên sẽ giúp model dễ hội tụ hơn. Vấn đề thứ 2 do sự suy thoái
(degradation), Khi model càng sâu thì độ chính xác của model (accuracy) bắt
đầu bão hòa thậm chí là giảm. Như hình vẽ
bên dưới khi mô hình càng nhiều lớp xếp chồng thì độ lỗi trong quá trình học
(training error) lại cao hơn mô hình có ít lớp. Như vậy, vấn đề ở đây không
phải là do mô hình học quá khớp (overfitting) mà vấn đề này giống như chúng
ta thêm nhiều lớp vào mạng học sâu truyền thống, các lớp sau khi thêm vào sẽ
22
không học thêm được gì nên độ chính xác sẽ tương tự như mạng học sâu
truyền thống mà không tăng. Resnet được ra đời nhằm giải quyết vấn đề này.
Hình 2.6. Hình so sánh độ lỗi của mô hình trước và sau khi thêm các lớp mạng [50]
ResNet có kiến trúc gồm nhiều residual block, ý tưởng chính là bỏ qua
một hoặc nhiều lớp bằng cách thêm kết nối với layer trước. Ý tưởng của
residual block là khi đầu vào x đi qua một số layer ta thu được F(x) sau đó
cộng thêm x vào H(x) = F(x) + x. Mô hình sẽ dễ học hơn khi thêm đặc trưng
(feature) từ lớp trước vào.
23
Hình 2.7. ResNets block
ResNet có cấu trúc gần giống VGG với nhiều lớp xếp chồng (stack
layer) làm cho model sâu hơn. Không giống VGG, ResNet có nhiều lớp hơn
như Resnet 34 lớp, Resnet 50 lớp , Resnet 101 lớp và Resnet 152 lớp.
24
Bảng 2.1. Bảng chi tiết kiến trúc mạng Resnet 18, 50,101 và 153 lớp [50]
Kết quả so sánh giữa mạng truyền thống và mạng Resnet cho học trên
cùng bộ cơ sở dữ liệu imagenet cho thấy mạng Resnet hiệu quả hơn khi độ
sâu của mô hình càng tăng. Điều này chỉ ra rằng vấn đề suy thoái
(degradation) được giải quyết tốt.
Hình 2.8. So sánh mạng truyền thống với Resnet (18/34 lớp) [50]
25
2.5. Độ đo đánh giá mô hình phân lớp
Để xác định một số độ đo, ta định nghĩa bảng dữ liệu như sau:
Bảng 2.2. Định nghĩa các giá trị cho việc đánh giá thực thi mô hình
Phân lớp cảm xúc
Dự đoán Class= Class=
Nhãn lớp Hạnh phúc Không thuộc hạnh phúc
Class = hạnh phúc TP FN
Class = Không thuộc hạnh phúc FP TN
Trong đó:
- True Positive (TP): chấp nhận đúng
- False Negative (FN): từ chối sai
- False Positive (FP): chấp nhận sai
- True Negative (TN): từ chối đúng
Khi đó, độ chính xác (Accuracy) là tỉ lệ giữa số điểm được phân loại
đúng và tổng số điểm. Accuracy chỉ phù hợp với các bài toán mà kích thước
các lớp dữ liệu là tương đối như nhau
(2.1) Accuracy (M) = TP + TN TP + FN + FP + TN
Độ lỗi của mô hình M:
(2.2) error_rate(M) = 1 – Accuracy(M)
Khi kích thước các lớp dữ liệu là chênh lệch precision và recall thường được
sử dụng
- Độ chính xác Precision: là tỉ lệ số điểm true positive trong số những
điểm được phân loại là positive (TP + FP)
(2.3) Precision = TP TP + FP
26
- Độ đo tính toàn vẹn Recall: là tỉ lệ số điểm true positive trong số những
điểm thực sự là positive (TP + FN).
(2.4) Recall = TP TP + FN
Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là
cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót
các điểm thực sự positive là thấp.
Độ đo F1-Score:
Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao,
tức càng gần một càng tốt. Phép đánh giá dựa trên Precision-Recall được sử
dụng đó là F1-Score.
F1-Score có giá trị nằm trong nửa khoảng (0,1]. F1-Score càng cao, bộ
phân lớp càng tốt.
(2.5) 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2𝑅𝑒𝑐𝑎𝑙𝑙. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
27
Chương 3. ƯỚC LƯỢNG CẢM XÚC CỦA NGƯỜI DỰA TRÊN
ẢNH THƯỜNG VÀ ẢNH NHIỆT
Mô hình kết hợp ước lượng cảm xúc trong luận văn này là bài toán kết hợp
các mô hình phân lớp riêng lẻ với cơ sở dữ liệu đầu vào là ảnh thường và ảnh
nhiệt được trích xuất từ cơ sở dữ liệu KTFE nhằm xác định một lớp cảm xúc
cụ thể của hình ảnh nằm trong bộ phân lớp cảm xúc. Mỗi mô hình phân lớp
gồm 03 thành phần mỗi thành phần tùy theo từng bài toán mà cấu trúc bên
trong có thể thay đổi sao cho phù hợp để giải quyết bài toán một cách tốt nhất:
- Phần đầu vào: Sử dụng hình ảnh theo từng loại cảm xúc (ảnh nhiệt và
ảnh thường).
- Phần xử lý: Xây dựng bộ phân lớp CNN (Resnet-50). Có thể sử dụng
các thuật toán máy học để nâng cao hiệu suất và kết quả chính xác trên điều
kiện đo lường đánh giá mô hình phân lớp.
- Phần đầu ra: sau khi đi qua hệ thống học sâu cho ra kết quả phân lớp đã
được định danh sẵn. Kết quả ở phần này có dạng một vector với n chiều
(trong đó n = 7 là số lớp cảm xúc được định danh sẵn). Dựa vào xác suất
trong vector đầu ra để kết luận ảnh này tương thích với cảm xúc nào trong
các loại cảm xúc được xác định ban đầu (giận dữ (An), ghê tởm (Di), sợ hãi
(Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu (Sa) và ngạc nhiên (Su)).
Kết quả dự đoán từ hai mô hình riêng lẻ trên ảnh thường và ảnh nhiệt sẽ
được kết hợp thông qua một hàm tính toán để tăng kết quả ước lượng.
3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE)
Hiện nay, có rất ít cơ sở dữ liệu mà trong đó chứa cả ảnh thường và ảnh
nhiệt. Ngoài ra, có một số cơ sở dữ liệu ảnh nhiệt gặp vấn đề khi thiết kế
trong thu thập dữ liệu, đó là hiện tượng trễ thời gian. Chính vì vậy, trong
nghiên cứu này chúng tôi đề xuất sử dụng cơ sở dữ liệu cảm xúc và khuôn
28
mặt nhiệt Kotani Thermal Facial Emotion (KTFE) [8] để nghiên cứu phân
tích biểu hiện khuôn mặt trở nên thực tế hơn.
KTFE chứa bảy cảm xúc tự phát bao gồm 130 GB của 30 đối tượng là
người Việt, người Nhật, người Thái từ 11 đến 32 tuổi với bảy cảm xúc, các
video cảm xúc trên khuôn mặt có thể nhìn thấy và khuôn mặt nhiệt.
Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8]
Cơ sở dữ liệu KTFE có một số ưu điểm:
- Thứ nhất, đây là một trong những video có thể nhìn thấy và nhiệt tự
nhiên đầu tiên. Những cơ sở dữ liệu này sẽ cho phép các nhà nghiên cứu biểu
hiện trên khuôn mặt và cảm xúc để có nhiều cách tiếp cận thực tế hơn.
- Thứ hai, cơ sở dữ liệu này đã khắc phục lỗi trễ thời gian mà cơ sở dữ
liệu cũ gặp khi thực hiện các thiết lập thử nghiệm.
- Thứ ba, đã có một số nghiên cứu trong dữ liệu KTFE và thu được một
số kết quả để hỗ trợ các nhà nghiên cứu sử dụng cơ sở dữ liệu này.
29
Các kết quả về dữ liệu nhiệt cho chúng ta một tương lai đầy hứa hẹn về
nghiên cứu trên khuôn mặt tốt hơn.
Bên cạnh ưu điểm thì cơ sở dữ liệu này hạn chế như số lượng của mỗi
cảm xúc không giống nhau và dữ liệu ảnh thường với cảm xúc chưa thể hiện
rõ qua biểu cảm trên khuôn mặt.
Từ cơ sở dữ liệu thô KTFE gồm các đoạn video chứa các frame ảnh
được đặt tên và lưu trong 07 thư mục tương ứng với 07 loại cảm xúc (file lưu
có đuôi *.avi chứa các frame ảnh thường và đuôi *.SVX chứa các frame ảnh
nhiệt). Tên file được đặt theo tên của đối tượng được quay trong lúc thực
nghiệm, mỗi đối tượng gồm 2 file ghi lại quá trình thể hiện cảm xúc bằng
camera NEC R300 được sử dụng để thu nhận hình ảnh video màu thông
thường và ảnh nhiệt.
Hình 3.2. Thư mục lưu trữ dữ liệu thô KTFE chứa video ảnh thường
Từ những file dữ liệu trên chúng tôi tiến hành xây dựng bộ dữ liệu ảnh
thường và ảnh nhiệt để hỗ trợ việc ước lượng cảm xúc. Cụ thể, với mỗi cảm
xúc chúng tôi tiến hành tách các frame ảnh trong dữ liệu gốc thành các file
dạng hình ảnh thường và ảnh nhiệt lưu vào thư mục “Fusion-Photo”. Trong
30
thư mục này phân chia thành các thư mục con đại diện cho các cảm xúc, bao
gồm: bình thường (Neutral), sợ hãi (Fear), giận dữ (Anger), ghê tởm
(Disgust), ngạc nhiên (Surprise), buồn rầu (Sadness), hạnh phúc (Happiness).
Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500- PRO (Video chứa các frame ảnh nhiệt)
Gán nhãn dữ liệu dựa trên tên thư mục đã được lưu trong cơ sở dữ liệu
thô và được kiểm duyệt bằng cách quan sát của nhóm độc lập (nhóm sinh viên
lớp Sư phạm Tin năm cuối của Khoa Công nghệ Thông tin, Trường Đại học
Sư phạm Thành phố Hồ Chí Minh) trong quá trình trích xuất ảnh bằng công
cụ phần mềm hỗ trợ có tên là NS9500-PRO. Phần mềm này giúp theo dõi quá
trình thu nhận, điều chỉnh, phân tích, trích xuất dữ liệu cần thiết.
31
Ảnh chưa xóa vùng dư thừa (vùng nền, ảnh hưởng của nhiệt độ môi trường)
Ảnh đã tùy chỉnh chỉ giữ lại các vùng quan tâm
Ảnh đã được cắt đôi và lưu vào các thư mục cảm xúc tương ứng chuẩn bị cho quá trình huấn luyện mạng
File ảnh thường được đặt tên theo cấu trúc:
Ví dụ VI _IR_sadness_vysa2_678.
File ảnh nhiệt đặt tên chỉ cần thay < VI_IR_thành
Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau
khi xóa vùng dư thừa trên ảnh nhiệt (bên trái)
Cặp ảnh này được xuất ra và lưu vào đúng thư mục cảm xúc đã được cấu
trúc sẵn. Sau khi hoàn tất việc trích xuất các frame ảnh tương tự như trên,
chúng tôi cho cắt tự động (dựa vào chiều dài) thành 02 loại ảnh riêng biệt và
lưu vào 2 thư mục khác nhau tương ứng từng loại cảm xúc của ảnh thường và
ảnh nhiệt.
Đối với ảnh nhiệt chúng tôi đã xóa bỏ nền và các vùng dư thừa nhằm giữ
lại các vùng quan tâm (vùng mà nhiệt độ thay đổi khi cảm xúc thay đổi) bằng
cách dựa vào thanh công cụ quản lý nhiệt độ trong phần mềm NS9500-PRO
32
để chọn ra các vùng có nhiệt độ lớn hơn hoặc bằng 300 C, ảnh nhiệt được lưu
với kích thước 554x413. Đối với ảnh thường chúng tôi cắt vùng chứa khuôn
mặt bằng cách sử dụng thuật toán Viola-Jones để nhận dạng khuôn mặt sau đó
cắt vùng mặt và lưu lại với kích thước 224x224 (đúng với kích thước đầu vào
của mạng Resnet).
3.2. Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt
Chúng tôi huấn luyện mô hình mạng học sâu sử dụng mô hình mạng
Resnet-50 bằng phương pháp transfer learning, ở mô hình này chúng tôi dùng
kỹ thuật fine-tune, sau đó bằng cách sử dụng trọng số đã được học và tiếp tục
huấn luyện trên tập dữ liệu cảm xúc KTFE. Việc sử dụng pre-trained model
giúp tăng tốc độ trong quá trình học và tăng độ chính xác của mô hình.
Trong hình 3.5 và hình 3.6, chúng tôi sử dụng mạng Resnet-50 để xây
dựng mô hình phân lớp cảm xúc từ nguồn dữ liệu ảnh thường (tương tự đối
với ảnh nhiệt). Sau đó, chúng tôi tiến hành kết hợp quyết định từ hai bộ phân
lớp này. Để áp dụng mô hình học sâu vào nhận dạng cảm xúc, ngoài sử dụng
kỹ thuật transfer learning chúng tôi áp dụng kỹ thuật data augmentation (tăng
dữ liệu) thông qua các phép biến đổi cơ bản như việc lật ngược ảnh theo chiều
dọc hoặc chiều ngang (Flip), phóng to hoặc thu nhỏ ảnh (scale), tăng/giảm
góc nghiêng của hình (Translation), dịch chuyển ảnh sang
trái/phải/trên/dưới nhằm giải quyết vấn đề ít dữ liệu.
Phần dữ liệu được đưa vào hệ thống phân loại thực nghiệm được phân
chia ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện (training set) và tập
dữ liệu kiểm tra (testing set).
Quá trình huấn luyện: Dữ liệu hình ảnh làm đầu vào cho hệ thống máy
học. Với số lượng hình ảnh tổ hợp từ 07 loại cảm xúc trên tập training set.
Mô hình của chúng tôi thực hiện fine-tune lại toàn bộ mạng. Nhưng trước đó
sẽ thực hiện "warm-up" nghĩa là cho đóng băng (freeze) toàn bộ các lớp, chỉ
thực hiện training lớp mới vừa được thêm vào (lớp Fully Connected) với 2
33
epochs. Rồi sau đó un-freeze và thực hiện fine-tune trên toàn bộ mô hình,
learning rate cũng được gán nhỏ lại (lr = 0.0001).
Đóng băng tất cả Layers của pre-trained model
Chỉ train FC layer
FC, 7=> Softmax Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới
thêm vào
34
Unfreeze và train tất cả Layers của mô hình
FC, 7=> Softmax
(Vẽ tham khảo từ nguồn https://medium.com/analytics-vidhya/cnns-architectures- lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5)
Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong ConvNet của pre-trained model và fully connected layer mới.
35
Quá trình phân loại trên tập kiểm tra: Sau khi huấn luyện mạng trên tập
training set, hệ thống lưu trữ lại cấu trúc và các trọng số weight giữa các node
của mô hình. Sau đó tiến hành đưa hình ảnh bất kỳ vào hệ thống. Ảnh này
cũng phải thực hiện lại các công đoạn tiền xử lý ảnh, chuẩn hóa kích thước
tương ứng với hệ thống phân lớp đã được huấn luyện trước đó. Kết quả cuối
cùng sẽ cho biết được ảnh đầu vào cần kiểm tra thuộc cảm xúc nào trong tập
các cảm xúc được định sẵn.
Hình 3.7. Mô hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt
Để xác định loại cảm xúc tốt nhất, chúng tôi hợp nhất hai mô hình Vi-
Restnet-50 và Ther-Restnset-50 bằng công thức tuyến tính với tham số được
xác định dựa vào tỉ lệ dự đoán đúng của từng mô hình (dựa vào f1-score) và
xác suất của mỗi lớp có được sau tầng Softmax kết quả đầu ra được giới hạn
trong phạm vi từ 0 tới 1. Lớp cảm xúc phù hợp nhất sẽ mang lại xác suất cao
nhất.
(3.1)
36
Với là tỷ lệ giữa f1-score của mô hình Vi-Resnet-50 và mô hình Ther-
Resnet-50 trên từng cảm xúc. và là xác suất dự đoán của từng mô
hình, và là trọng số áp dụng dựa vào tỷ lệ dự đoán của mô hình thông
qua f1-score.
Cuối cùng, cảm xúc p(x) được chọn dựa vào giá trị lớn nhất của f
= arg max ( ) (3.2)
37
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Môi trường thực nghiệm
Về thông tin máy tính chạy thực nghiệm:
- Hệ điều hành: Window 10 – 64 bit.
- Bộ vi xử lý: Intel(R) Core(TM) i5-7400 CPU @ 3.00GHz, ~ 3.0GHz.
- Bộ nhớ RAM: 16.0 GB.
Về ngôn ngữ lập trình:
- Sử dụng ngôn ngữ lập trình Python 3.6.4 cùng với các gói thư viện
OpenCV3, Keras và Tensorflow.
4.2. Dữ liệu đầu vào
Đối với cơ sở dữ liệu, chúng tôi sử dụng bộ cơ sở dữ liệu đã xây dựng
được trình bày ở trên từ cơ sở dữ liệu Kotani Thermal Facial Emotions
(KTFE) [8] chứa 7 cảm xúc. Chúng tôi sử dụng 80% dữ liệu cho huấn luyện
và thử nghiệm là 20%. Số lượng ảnh thường và ảnh nhiệt là như nhau (một
cặp ảnh)
Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val) và 20% cho kiểm tra (test set)
Số ảnh từng cảm xúc
Tên lớp
Tổng
Kiểm tra (test)
Huấn luyện (train)
Kiểm chứng (val)
Giận dữ
896
280
1400
224
Ghê tởm
704
220
1100
176
Sợ hãi
1408
440
2200
352
Hạnh phúc
1472
460
2300
368
Bình thường
1274
398
1990
318
Buồn rầu
1536
480
2400
384
38
Số ảnh từng cảm xúc
Tên lớp
Tổng
Kiểm tra (test)
Huấn luyện (train)
Kiểm chứng (val)
Ngạc nhiên
832
260
1300
208
4.3. Phân tích đánh giá
Để đánh giá khách quan hiệu suất của phương pháp nghiên cứu được đề
xuất, trong phần này chúng tôi tiến hành phân tích kết quả thực nghiệm đạt
được. Tiếp theo, chúng tôi so sánh phương pháp đề xuất với phương pháp
trong [36] trên cùng cơ sở dữ liệu nhưng khác phương pháp và chỉ so sánh kết
quả trên ảnh nhiệt.
4.3.1. Kết quả thực nghiệm
Bảng 4.2 trình bày kết quả thí nghiệm trên dữ liệu kiểm thử của 07 lớp
cảm xúc. Chúng tôi so sánh các thông số về độ chính xác (precision), độ đo
tính toàn vẹn (recall) và trung bình điều hòa (F1-score) để đánh giá các
phương pháp phân loại. Trong hầu hết các trường hợp, phương pháp của
chúng tôi luôn cho recall cao hơn precision, đồng nghĩa với tỉ lệ bỏ sót các
điểm thực sự positive là thấp.
Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu (Sa) và ngạc nhiên (Su)
7 loại cảm xúc cơ bản
Mô hình Độ đo
An
Di
Fe
Ha
Ne
Sa
Su
Precision 77.96% 84.38% 80.30% 84.29% 80.63% 83.47% 87.95%
Vi-
Recall
87.14% 88.41% 90.80% 92.25% 86.88% 93.13% 88.46%
Resnet-50
F1-score 82.29% 86.35% 85.23% 88.09% 83.63% 88.04% 88.21%
Ther-
Precision 86.32% 86.51% 85.15% 89.70% 86.79% 88.12% 90.65%
Resnet-50
Recall
91.25% 94.77% 90.57% 93.93% 90.38% 92.71% 93.27%
39
7 loại cảm xúc cơ bản
Mô hình Độ đo
An
Di
Fe
Ha
Ne
Sa
Su
F1-score 88.72% 90.46% 87.78% 91.77% 88.55% 90.36% 91.94%
Precision 85.34% 89.28% 86.79% 94.96% 89.81% 88.61% 91.26%
Fu-
Recall
93.57% 92.73% 94.09% 95.17% 93.63% 94.79% 94.42%
Resnet-50
F1-score 89.27% 90.97% 90.29% 95.06% 91.68% 91.60% 92.82%
Hình 4.1. Kết quả dự đoán của mô hình
Hình 4.2 cho thấy mô hình Vi-Resnet-50 thu được tỷ lệ phân lớp chính
xác là 89.58%. Trong đó một số cảm xúc nhận dạng đạt độ chính cao như
hạnh phúc đạt 92.25%, buồn rầu đạt 93.13% và sợ hãi đạt 90.80%. Tuy nhiên,
có một số cảm xúc đạt tỉ lệ chưa cao như giận dữ đạt 87.14%, ghê tởm đạt
88.41%, bình thường đạt 86,87%. Từ kết quả này cho thấy, nếu chỉ sử dụng
ảnh có thể nhìn thấy để nhận dạng cảm xúc sẽ làm giảm độ chính xác. Bởi vì,
ảnh có thể nhìn thấy còn nhiều hạn chế như nhạy cảm với điều kiện ánh sáng
40
và một số người thường không biểu hiện cảm xúc thật. Mặc dù kết quả nhận
dạng chưa cao nhưng nó phù hợp với những phân tích ban đầu của chúng tôi.
Do vậy, chúng tôi tiếp tục tiến hành thực nghiệm với ảnh nhiệt.
Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50
Hình 4.3 trình bày kết quả của mô hình Ther-Resnet-50 chạy trên bộ dữ
liệu ảnh nhiệt thu được tỷ lệ phân lớp chính xác là 92.41%, tăng 2.83% so
với ảnh thường và hầu hết các lớp cảm xúc đều tăng, mặc dù có hai cảm xúc
giảm nhưng tỷ lệ giảm rất thấp. Kết quả nhận dạng cảm xúc cho thấy hạnh
phúc đạt 93.93%, cao hơn 1.68% so với Vi-Resnet-50, ghê tởm 94.77%, trong
khi Vi-Resnet-50 chỉ đạt 88.41%, tăng 6.36%, ngạc nhiên đạt 93.27%, tăng
4.81% và tự nhiên đạt 90.38%, tăng 3.5% so với Vi-Resnet-50. Bên cạnh đó
cảm xúc sợ hãi đạt 90.57%, giảm 0.23% và buồn rầu đạt 92.71%, giảm 0.42%
so với Vi-Resnet-50. Từ đó cho thấy, nhiệt độ và cảm xúc của con người có
mối quan hệ mật thiết với nhau. Chúng tôi tin rằng dữ liệu nhiệt là thông tin
41
bổ sung quan trọng để hỗ trợ nhận dạng cảm xúc người chính xác hơn. Do
vậy, chúng tôi tiếp tục thực nghiệm với phương pháp đề xuất là kết hợp ảnh
thường và ảnh nhiệt.
Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50
Hình 4.4 thể hiện kết quả của mô hình kết hợp ảnh thường và ảnh nhiệt
Fu-Resnet-50. Kết quả cho thấy tỷ lệ phân lớp chính xác là 94.06%. Hầu hết
các cảm xúc đều đạt tỷ lệ cao so với mô hình phân lớp trên ảnh thường hoặc
ảnh nhiệt. Trong đó, hạnh phúc đạt 95.17%, buồn rầu đạt 94.79 %, ngạc nhiên
đạt 94,42%, sợ hãi đạt 94.09%, giận dữ đạt 93.57%, ghê tởm đạt 92.73%
42
Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50
43
Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50
Như vậy, từ kết quả thu được trong bảng 4.2 và biểu đồ so sánh ở hình
4.5, cho thấy kết quả khi nhận dạng trên phương pháp kết hợp đề xuất cao
hơn so với nhận dạng trên ảnh thường hoặc ảnh nhiệt. Điều đó chứng tỏ vai
trò của từng bộ phân lớp khi kết hợp giúp cho quá trình nhận dạng đạt kết quả
tốt hơn.
4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32]
Để phân tích, đánh giá kết quả của phương pháp đề xuất với kết quả của
tác giả trong bài báo [32] sử dụng cơ sở dữ liệu KTFE, chúng tôi so sánh kết
quả 5 cảm xúc tương ứng là: giận dữ, sợ hãi, hạnh phúc, bình thường và buồn
rầu.
44
Bảng 4.3. So sánh phân tích với phương pháp [32] trên 5 cảm xúc
Phương pháp Tỷ lệ nhận dạng trung bình
Phương pháp [32] 87.50%
Phương pháp 32
Ther-Resnet-50
96.00
94.00
92.00
90.00
88.00
% Ệ L Ỷ T
86.00
84.00
82.00
80.00
A N G E R
F E A R
H A P P I N E S S
N E U T R A L
S A D N E S S
91.77% Ther-ResNet-50
Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32]
Bảng 4.3 và hình 4.6 cho thấy tỷ lệ nhận dạng trung bình đạt được bằng
phương pháp đề xuất tốt hơn so với các phương pháp trong [32] để ước lượng
cảm xúc trên cùng cơ sở dữ liệu.
4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36]
Phương pháp được đề xuất trên ảnh nhiệt được so sánh với kết quả thu
được trên cùng một cơ sở dữ liệu KTFE. Với phương pháp [36], các tác giả đề
xuất trích xuất vùng quan tâm - ROI và sử dụng các phương pháp PCA và
EMC. Các ROI tìm thấy cung cấp thông tin hữu ích thực sự khi cảm xúc thay
45
đổi. Nó xác định các khu vực nơi nhiệt độ tăng hoặc giảm đáng kể khi cảm
xúc thay đổi và tập trung ở trán, xung quan mắt, gò má và hàm trên. Bảng 4.4
và hình 4.7 cho thấy hiệu suất đạt được bằng phương pháp đề xuất tốt hơn so
với các phương pháp khác. Bởi vì chúng tôi đã sử dụng mô hình mạng học
sâu và áp dụng kỹ thuật học chuyển giao để trích xuất đặc trưng tự động nên
thu được nhiều thông tin hữu ích hơn.
Bảng 4.4. So sánh phân tích với phương pháp [36]
Phương pháp Tỷ lệ nhận dạng trung bình
90.42% Phương pháp [36]
phương pháp [35]
Ther-Resnet-50
100
98
96
94
92
90
% Ệ L Ỷ T
88
86
84
82
80
G I Ậ N D Ữ G H Ê T Ở M S Ợ H Ã I
B U Ồ N R Ầ U
B Ì N H T H Ư Ờ N G
H Ạ N H P H Ú C
N G Ạ C N H I Ê N
AXIS TITLE
92.44% Ther-ResNet-50
Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36]
Như vậy, trên cơ sở dữ liệu KTFE thì phương pháp đề xuất của chúng tôi
có tỷ lệ nhận dạng trung bình cao hơn so với phương pháp trong bài báo [36].
46
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong luận văn này, chúng tôi giới thiệu phương pháp ước lượng cảm
xúc của con người dựa trên kết hợp hình ảnh thường và hình ảnh nhiệt nhằm
khắc phục ảnh hưởng của ánh sáng môi trường và giảm tác động của những
đối tượng ít thể hiện cảm xúc ra bên ngoài. Ngoài ra chúng tôi đã sử dụng kỹ
thuật học chuyển giao với mạng đã được học trước trên bộ dữ liệu lớn và áp
dụng vào bài toán của mình nhằm giảm thời gian học và tăng độ chính xác
cho từng bộ phân lớp.
Chúng tôi đã đưa ra một hàm tính toán sự kết hợp ước lượng cảm xúc
trên ảnh thường và ảnh nhiệt để tăng kết quả ước lượng.
Các thuật toán được kiểm tra trên cơ sở dữ liệu KTFE. Bảy cảm xúc cơ
bản: giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn rầu, ngạc nhiên và bình
thường được nhận dạng với độ chính xác cao là: 89.58%, 92.41% và 94.06%
tương ứng cho: Vi-Resnet-50, Ther-Resnet-50 và Fu-Resnet-50.
Kết quả cho thấy rằng nhiệt độ và cảm xúc có mối liên quan chặt chẽ với
nhau. Sử dụng thông tin nhiệt độ sẽ tăng tính chính xác cho nhận dạng cảm
xúc con người.
Bên cạnh những kết quả đã đạt được, còn có những vấn đề mà thời điểm
hiện tại luận văn chưa thực hiện:
- Chưa kết hợp các phương pháp rút trích đặc trưng truyền thống và kết
hợp với mô hình học sâu nhằm so sánh kết quả với phương pháp rút trích đặc
trưng tự động của mô hình học sâu.
- Chưa thực nghiệm với các mô hình mạng khác như ZF Net (2013),
VGG Net (2014), Densenet(2016), v.v.
Trong tương lai, chúng tôi tiếp tục nghiên cứu thêm về mối quan hệ giữa
biểu hiện của người và cảm xúc cũng như mối quan hệ giữa nhiệt độ và cảm
xúc. Chúng tôi sẽ tiếp tục cải thiện công thức kết hợp các bộ phân lớp để đóng
góp kết quả tốt hơn. Thêm vào đó có thể mở rộng kết hợp các nguồn thông tin
47
khác về cảm xúc như âm thanh, text để có thêm nhiều thông tin trong nhận
dạng cảm xúc hơn. Từ những kiến thức đó, chúng tôi sẽ xây dựng ứng dụng
thực tế có thể hỗ trợ tương tác giữa con người và máy tính tốt hơn.
48
CÔNG TRÌNH CÔNG BÔ
Bài báo khoa học: N. Tran, K. Tran, D. Nguyen, H. Nguyen “A Method
to Combine Thermal and Visible images for Human Emotions Detection” đã
được chấp nhận trình bày tại hội nghị 4th International Conference on
Advanced Engineering and ICT-Convergence 2020 (ICAEIC-2020).
Bài báo khoa học: N. Nguyen, N. Tran, H. Nguyen, et al. “A
Spontaneous Visible and Thermal Facial Expression of Human Emotion
Database” đã được trình bày tại hội nghị the 2019 6th NAFOSTED
Conference on Information and Computer Science (NICS).
49
TÀI LIỆU THAM KHẢO
[1] C. Bartneck.: How convincing is Mr. Datas smile: Affective
expressions of machines", User Modeling and User-Adapted Interaction, vol.
11, pp. 279-295 (2001).
[2] R.A. Brooks.: Flesh and Machines: How Robots will change us,
Pantheon Books, New York (2002).
[3] R.W. Picard.: Affective Computing, MA: MIT Press (2000).
[4] A. Mehrabian.: Nonverbal communication, Transaction Publishers
(1977).
[5] I. Cohen, N. Sebe, A. Garg, L.S. Chen, T.S. Huang.: Facial
expression recognition from video sequences: temporal and static modeling,
Journal of Computer Vision and Image Understanding, no. 91, pp. 160-187
(2003).
[6] Z. Liu and S. Wang.: Emotion recognition using Hidden Markov
Model from facial temperature sequence, LNCS 6975, pp.240-247 (2011).
[7] B. Martinez, M. Valstar, B. Jiang, and M. Pantic.: Automatic
analysis of facial actions: A survey, IEEE Transactions on Affective
Computing 2017.
[8] H. Nguyen, K. Kotani, F. Chen, and B. Le, A thermal facial emotion
database and its analysis, in PSIVT, 2014, pp. 397–408.
[9] C.Ciprian, O. Marc, C. Jeffrey, and E. Sergio.: Survey on RGB, 3D,
Thermal, and Multimodal Approaches for Facial Expression Recognition:
History, Trends, and Affect-related Applications, IEEE Transactions On
Pattern Analysis And Machine Intelligence, 2016.
[10] S. Evangelos, G. Hatice, and C. Andrea.: Automatic Analysis of
Facial Affect: A Survey of Registration, Representation, and Recognition,
IEEE Transactions On Pattern Analysis And Machine Intelligence 2015.
50
[11] P. Ekman, V. Friesen, “Facial action coding system: a technique for
the measurement of facial movement”, Rivista Di Psichiatria 47 (2), pp. 126–
138, 1978.
[12] H. Choi, S.Y. Oh, “Realtime Facial Expression Recognition Using
Active Appearance Model and Multilayer Perceptron”, in Proceedings of the
International Joint Conference SICE-ICASE, Busan, Korea, pp. 5924–5927,
October 2006.
[13] A. Asthana, J. Saragih, M. Wagner, R. Goecke, “Evaluating AAM
Fitting Methods for Facial Expression Recognition”, in Proceedings of the
International Conference on Affective Computing and Intelligent Interaction,
Amsterdam, The Netherlands; pp. 1–8, September 2009.
[14] N. Sebe, M.S. Lew, Y. Sun, I. Cohen, T. Gevers, T.S. Huang,
“Authentic facial expression analysis”. Image Vision Comput, pp.1856–1863,
2007.
[15] Y. Chang, C. Hu, R. Feris, M. Turk, “Manifold based analysis of
facial expression”. Image Vision Comput, pp.605–614, 2006.
[16] S. Moore, R. Bowden, “Local binary patterns for multi-view facial
expression recognition”. Computer Vision Image Underst, pp.541–558, 2011
[17] D. Ghimire, J. Lee, “Histogram of orientation gradient feature-
based facial expression classification using bagging with extreme learning
machine”. Adv. Sci. Lett, pp.156–161, 2012.
[18] A. Dhall, A. Asthana, R. Goecke, T. Gedeon, “Emotion Recognition
Using PHOG and LPQ Features”. In Proceedings of the IEEE International
Conference on Face and Gesture Recognition and Workshop, Santa Barbara,
CA, USA, pp. 878–883, 2011.
[19] T. Jabid, H. Kabir, O. Chae, “Robust facial expression recognition
based on local directional pattern”. ETRI J, pp.784–794, 2010.
51
[20] I. Kotsia, I. Buciu, I. Pitas, “An analysis of facial expression
recognition under partial facial image occlusion”. Image Vision Comput,
pp.1052–1067, 2008.
[21] D.T. Lin, “Facial expression classification using PCA and
hierarchical radial basic function network”. J. Inf. Sci. Eng, pp.1033–1046,
2006.
[22] Z. Wang, Q. Ruan, “Facial Expression Recognition Based
Orthogonal Local Fisher Discriminant Analysis”. In Proceedings of the
International Conference on Signal Processing (ICSP), Beijing, China, pp.
1358–1361, 2010.
[23] T.J. Phillips, “High performance thermal imaging technology",
Advanced Semiconductor Magazine, vol. 15, no. 7, pp. 32-36, 2002.
[24] S. Ioannou, V. Gallese, A. Merla, “Thermal infrared imaging
inpsychophysiology: potentialities and limits”, Psychophysiology 51 pp.951–
963, 2014.
[25] L. Trujillo, G. Olague, R. Hammoud, B. Hernandez. “Automatic
feature localization in thermal images for facial expression recognition",
IEEE Computer Society Conference on Computer Vision and Pattern
Recognition-Workshops, CVPR Workshops, p. 14, 2005.
[26] A. Di Giacinto, M. Brunetti, G. Sepede, A. Ferretti, A. Merla,
“Thermal signature of fear conditioning in mild post traumatic stress
disorder”, Neuroscience 266, pp.216–223, 2014.
[27] B. Hern´andez, G. Olague, R. Hammoud, L. Trujillo, E. Romero.
“Visual learning of texture descriptors for facial expression recognition in
thermal imagery", Computer Vision and Image Understanding, vol. 106,
2007.
[28] Z. Liu and S. Wang. “Emotion recognition using Hidden Markov
Model from facial temperature sequence", LNCS 6975, pp.240-247, 2011.
52
[29] H. Nguyen, K. Kotani, F. Chen, B. Le, “Fusion of Visible Images
and Thermal Image Sequences for Automated Facial Emotion Estimation”,
Journal of Mobile Multimedia, Vol. 10, No. 3&4, pp.294-308, 2014.
[30] B.R. Nhan and T. Chau.: “Classifying affective states using thermal
infrared imaging of the human face", IEEE Transactions on Biomedical
Engineering, vol. 57, pp. 979987, 2010.
[31] H. Shan, S. Wang, W. Lan, H. Fu, Q. Ji, “Facial Expression
Recognition using Deep Boltzmann Machine from Thermal Infrared Images”,
Humaine Association Conference on Affective Computing and Intelligent
Interaction, pp.239-244, 2013.
[32] A. Basu, A. Routray, S. Shit, A. Deb, “Human Emotion
Recognition from Facial Thermal Image based on Fused Statistical Feature
and Multi-Class SVM”, IEEE INDICON, pp.1-5, 2015.
[33] S. Wang, S. He, Y. Wu, M. He, and Q. Ji, “Fusion of visible and
thermal images for facial expression recognition,” Front. Comput. Sci., vol. 8,
no. 2, pp. 232–242, 2014.
[34] A. Basu, A. Dasgupta, A. Thyagharajan, A. Routray, R. Guha, and
P. Mitra, “A portable personality recognizer based on affective state
classification using spectral fusion of features,” IEEE Trans.Affect. Comput,
2018.
[35] S. Wang, B. Pan, H. Chen and Q. Ji, "Thermal Augmented
Expression Recognition", in IEEE Transactions on Cybernetics, vol. 48, no. 7,
pp. 2203-2214, July 2018.
[36] T. Nguyen, K. Tran, H. Nguyen, “Towards Thermal Region of
Interest for Human Emotion Estimation”, 10th International Conference on
Knowledge and Systems Engineering, KSE 2018, pp.1-6, 2018.
[37] Lucey P, Cohn JF, Kanade T, Saragih J, Ambadar Z, Matthews I,
“The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action
53
unit and emotion-specified expression”, In: IEEE Computer Society
Conference on Computer Vision and Pattern Recognition Workshops
(CVPRW), pp. 94-101, 2010.
[38] I Goodfellow, D Erhan, PL Carrier, A Courville, M Mirza, B
Hamner, W Cukierski, Y Tang, DH Lee, Y Zhou, C Ramaiah, F Feng, R Li,
X Wang, D Athanasakis, J Shawe-Taylor, M Milakov, J Park, R Ionescu, M
Popescu, C Grozea, J Bergstra, J Xie, L Romaszko, B Xu, Z Chuang, and Y
Bengio, "Challenges in Representation Learning: A report on three machine
learning contests." arXiv 2013.
[39] Ebner NC, Riediger M, Lindenberger U, “Faces-A database of
facial expressions in young, middle-aged, and older women and men:
Development and validation”, in Behavior Research Methods, vol. 42, no. 1,
pp. 351-362, 2010.
[40] S. Mohammad Mavadati, Mohammad H. Mahoor, Kevin Bartlett,
Philip Trinh, effrey F. Cohn, “DISFA: A spontaneous facial action intensity
database”, Article (PDF Available) in IEEE Transactions on Affective
Computing, vol. 4, no. 2, 151-160, April 2013.
[41] Dhall A, Goecke R, Lucey S, Gedeon T, “Acted facial expressions
in the wild database”, Australian National University, Canberra.,Technical
Report TR-CS-11, 2, 2011.
[42] Rosas VP, Mihalcea R, Morency L-P, “Multimodal sentiment
analysis of Spanish online videos”, IEEE Intelligent Systems, vol 28, no. 3,
pp. 38-45, 2013.
[43] S. Wang, Z. Liu, S. Lv, Y. Lv, G. Wu, P. Peng, F. Chen, X. Wang,
“A Natural Visible and Infrared Facial Expression Database for Expression
Recognition and Emotion Inference”, IEEE Transactions on Multimedia, vol.
12, no. 7, pp. 682-691, 2010.
[44] http://vcipl-okstate.org/pbvs/bench/.
54
[45] http://www.equinoxsensors.com/.
[46] https://en.wikipedia.org/wiki/Thermal_radiation/.
[47] https://www.freecodecamp.org/news/an-intuitive-guide-to-
convolutional-neural-networks-260c2de0a050/.
[48] Website CS231n Convolutional Neural Networks for Visual
Recognition at http://cs231n.github.io/convolutional-networks/.
[49] https://livebook-qa.manning.com/book/grokking-deep-learning-for-
computer-vision/chapter-3/v-1/97.
[50] He, K., Zhang, X., Ren, S., Sun, J. “Deep residual learning for
image recognition”. In: CVPR. 2016.
[51] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Fei-Fei
L. “ImageNet Large Scale Visual Recognition Challenge”. International
Journal of Computer Vision, vol 115, no. 3, pp. 211–252, 2015.