BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Thanh Nhã XÂY DỰNG MÔ HÌNH KẾT HỢP ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG CẢM XÚC CON NGƯỜI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2019

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Trần Thanh Nhã

XÂY DỰNG MÔ HÌNH KẾT HỢP ẢNH THƯỜNG VÀ ẢNH NHIỆT ĐỂ ƯỚC LƯỢNG CẢM XÚC CON NGƯỜI

Chuyên ngành: Khoa học máy tính Mã số : 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VIẾT HƯNG

Thành phố Hồ Chí Minh - 2019

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Xây dựng mô hình kết hợp ảnh thường và

ảnh nhiệt để ước lượng cảm xúc con người” là do tôi tìm hiểu, nghiên cứu và

thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Viết Hưng. Luận văn không

có sự sao chép từ các tài liệu, công trình nghiên cứu khác mà không ghi rõ

nguồn trong tài liệu tham khảo.

Tôi xin chịu trách nhiệm về kết quả thực hiện và lời cam đoan này.

Thành phố Hồ Chí Minh, ngày 27 tháng 12 năm 2019

LỜI CẢM ƠN

Trước hết tôi xin chân thành gởi lời cảm ơn sâu sắc đến Thầy của tôi,

Tiến sĩ Nguyễn Viết Hưng, người đã định hướng, chỉ bảo, giúp đỡ tận tình

trong cả quá trình học tập, nghiên cứu và hoàn thiện luận văn này.

Tôi cũng xin bày tỏ lòng biết ơn đến quý Thầy, cô giáo đã trực tiếp tham

gia giảng dạy và truyền đạt kiến thức quý báu cho tôi trong suốt quá trình học

cao học tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Đồng thời, tôi

xin được cảm ơn tới quý Thầy cô Khoa Công nghệ thông tin, Phòng Sau đại

học Trường Đại học Sư phạm Thành phố Hồ Chí Minh đã tận tình dạy dỗ và

hướng dẫn cho tôi trong suốt quá trình học tập tại Trường.

Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè của tôi.

Những người luôn bên cạnh, động viên và ủng hộ tôi để tôi có đủ niềm tin,

động lực để hoàn thành khóa học và luận văn của mình.

Tp Hồ Chí Minh, ngày 27 tháng 12 năm 2019

MỤC LỤC

Trang

Lời cam đoan

Lời cảm ơn

Mục lục

Danh mục các ký hiệu và chữ viết tắt

Danh mục các bảng biểu

Danh mục các hình vẽ

MỞ ĐẦU .......................................................................................................... 1

1. Lý do chọn đề tài ........................................................................................ 1

2. Mục tiêu và nhiệm vụ nghiên cứu .............................................................. 2

3. Đóng góp của luận văn ............................................................................... 3

4. Đối tượng và phạm vi nghiên cứu .............................................................. 3

5. Phương pháp nghiên cứu............................................................................ 3

6. Ý nghĩa khoa học và thực tiễn ................................................................... 4

7. Cấu trúc luận văn ....................................................................................... 4

Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ............................. 6

1.1. Các công trình nghiên cứu liên quan ...................................................... 6

1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc của

con người ............................................................................................... 10

1.3. Sơ lược về cơ sở dữ liệu cảm xúc ......................................................... 11

Chương 2. CƠ SỞ LÝ THUYẾT ................................................................. 15

2.1. Bài toán phát hiện cảm xúc khuôn mặt ................................................. 15

2.2. Kiến trúc Mạng nơ-ron tích chập (Convolutional neural network) ...... 17

2.2.1. Lớp Convolution ............................................................................... 17

2.2.2. Lớp pooling ..................................................................................... 18

2.2.3. Lớp Fully Connected ...................................................................... 19

2.3. Học chuyển giao .................................................................................... 20

2.4. Mạng huấn luyện Resnet (Residual Network) ...................................... 21

2.5. Độ đo đánh giá mô hình phân lớp ......................................................... 25

Chương 3. ƯỚC LƯỢNG CẢM XÚC CỦA NGƯỜI DỰA TRÊN ẢNH

THƯỜNG VÀ ẢNH NHIỆT ...................................................... 27

3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE) ....... 27

3.2. Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt .................. 32

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................ 37

4.1. Môi trường thực nghiệm ....................................................................... 37

4.2. Dữ liệu đầu vào ..................................................................................... 37

4.3. Phân tích đánh giá ................................................................................. 38

4.3.1. Kết quả thực nghiệm ....................................................................... 38

4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32] ... 43

4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36] ... 44

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................ 46

CÔNG TRÌNH CÔNG BỐ ........................................................................... 48

TÀI LIỆU THAM KHẢO ............................................................................ 49

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Nguyên mẫu Diễn giải Chữ viết tắt

Mô hình xuất hiện tích AAM Active Appearance Model cực

Đơn vị hành động, xác AU Action Units định độ co của cơ mặt

Convolutional Neural Mô hình mạng nơ-ron CNN Networks tích chập

Mô hình máy Boltzman DBM Deep Boltzmann Machine học sâu

Electrocardiogram Tín hiệu điện tâm đồ ECG

Electroencephalogram Tín hiệu điện não đồ EEG

Phương pháp không Eigenspace Method based gian riêng dựa trên các EMC on Class features đặc trưng của lớp

Facial Action Coding Hệ thống mã hóa hành FACS System động mặt

Facial Thermal Feature Cơ sở các điểm đặc FTFP Points trưng nhiệt mặt

HMM Hidden Markov Models Mô hình Markov ẩn

Histogram of Oriented Biểu đồ của các HOG Gradients gradient định hướng

Kotani Thermal Facial Cơ sở dữ liệu ảnh nhiệt KTFE Emotion

Mô hình nhị phân cục LBP Local Binary Pattern bộ

LDA Linear Discriminant Phương pháp phân tích

Analysis phân biệt tuyến tính

Mô hình định hướng LDP Local Directional Pattern cục bộ

Natural Visible and NVIE Cơ sở dữ liệu ảnh nhiệt Infrared facial Expression

Principal Component Phương pháp phân tích PCA Analysis thành phần chính

Posttraumatic Stress PTSD Chấn thương tâm lý Disorder

ROI Region of Interest Khu vực quan tâm

Phương pháp Máy SVM Support Vector Machines vector hỗ trợ

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8] .................................................. 13

Bảng 2.1. Bảng chi tiết kiến trúc mạng Resnet 18, 50,101 và 153 lớp [50] ... 24

Bảng 2.2. Định nghĩa các giá trị cho việc đánh giá thực thi mô hình ............. 25

Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val)

và 20% cho kiểm tra (test set) ......................................................... 37

Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê

tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu

(Sa) và ngạc nhiên (Su) ................................................................... 38

Bảng 4.4. So sánh phân tích với phương pháp [32] trên 5 cảm xúc ............... 44

Bảng 4.3. So sánh phân tích với phương pháp [36] ........................................ 45

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lông mày, mắt, mũi,

miệng [17] ......................................................................................... 7

Hình 1.2. Trích xuất ROI trong phương thức [32] ............................................ 9

Hình 1.3. Thuật toán xác định cảm xúc [33] ..................................................... 9

Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình thường,

giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm. .......................... 12

Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46] ..................................... 14

Hình 2.1. Mô hình phát hiện cảm xúc sử dụng phương pháp học máy truyền

thống ................................................................................................ 15

Hình 2.2. Kiến trúc cơ bản của mạng tích chập .............................................. 17

Hình 2.3. Minh họa phép tích chập [47] ......................................................... 18

Hình 2.4. Minh họa phương thức maxpooling và average pooling [48] ........ 19

Hình 2.5. Minh họa kết nối đầy đủ và phân lớp [49] ...................................... 20

Hình 2.6. Hình so sánh độ lỗi của mô hình trước và sau khi thêm các lớp

mạng [50] ........................................................................................ 22

Hình 2.7. ResNets block .................................................................................. 23

Hình 2.8. So sánh mạng truyền thống với Resnet (18/34 lớp) [50] ................ 24

Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8] .................... 28

Hình 3.2. Thư mục lưu trữ dữ liệu thô KTFE chứa video ảnh thường ........... 29

Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500-PRO

(Video chứa các frame ảnh nhiệt) ................................................... 30

Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau khi xóa vùng

dư thừa trên ảnh nhiệt (bên trái)...................................................... 31

Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới thêm

vào ................................................................................................... 33

Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong

ConvNet của pre-trained model và fully connected layer mới. ...... 34

Hình 3.7. Mô hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt ...... 35

Hình 4.1. Kết quả dự đoán của mô hình ......................................................... 39

Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50 ......................... 40

Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50 ......................... 41

Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-

Resnet-50 ........................................................................................ 42

Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50 ..... 43

Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32] ............... 44

Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36] ............... 45

1

MỞ ĐẦU

1. Lý do chọn đề tài

Trong kỷ nguyên công nghệ số và sự bùng nổ của các ứng dụng cho

cuộc cách mạng công nghiệp lần thứ tư, trao đổi thông tin của người và máy

đóng một vai trò cực kì quan trọng. Những nghiên cứu hỗ trợ cho máy móc và

robot hiểu được con người và giao tiếp tốt với con người đang được thu hút từ

nhiều ngành nghề.

Hai nguồn thông tin chính giúp người và máy có thể trao đổi được một

cách nhanh chóng và hiệu quả đó là giọng nói và hình ảnh [1], [2], [3]. Trong

dữ liệu hình ảnh mặt người, những biểu hiện trên khuôn mặt chiếm 55% cơ sở

để giúp con người có thể hiểu nhau trong quá trình trao đổi và nói chuyện [4].

Bên cạnh đó, rất dễ dàng cho con người có thể hiểu nhau thông qua những

biểu hiện khuôn mặt trong giao tiếp xã hội, nhưng đó lại là một bài toán khó

đối với máy tính và robot. Do đó, nghiên cứu về biểu hiện trên khuôn mặt

được thu hút rất nhiều nghiên cứu và đạt được nhiều kết quả khích lệ [5], [6],

[7], [8], [9], [10].

Cảm xúc là một trong những biểu hiện của khuôn mặt nhưng khó để hiểu

hết được cảm xúc bằng thông tin của ảnh thông thường. Cảm xúc, trong

nghiên cứu này, được định nghĩa không chỉ là biểu hiện bề ngoài của khuôn

mặt (do sự di chuyển của các khối cơ) mà còn là sự thay đổi vật lí về nhiệt độ

diễn ra trong các mạch máu. Để có thể lấy được đầy đủ thông tin như định

nghĩa trên, với ảnh thông thường là chuyện không thể. Ngoài các vấn đề như

chất lượng ảnh thu được kém khi nguồn sáng yếu, màu da khác nhau, ảnh

thông thường không phản ánh được cảm xúc của những người ít khi thể hiện

hay cảm xúc trái ngược với biểu hiện của khuôn mặt. Bên cạnh đó, ảnh nhiệt

không phụ thuộc vào nguồn sáng, đồng thời nó phản ánh được cảm xúc của

những người ít khi thể hiện cảm xúc. Việc kết hợp sử dụng thêm thông tin của

ảnh nhiệt, giúp máy tính lẫn con người dự đoán chính xác hơn về cảm xúc của

2

con người [8], [9]. Hầu hết các nghiên cứu tập trung vào dự đoán 6 loại cảm

xúc như: giận dữ (anger), ghê tởm (disgust), hạnh phúc (happiness), sợ hãi

(fear), ngạc nhiên (surprise) và buồn (sadness).

Hiện nay, có rất nhiều nghiên cứu cảm xúc (biểu hiện khuôn mặt) dựa

trên ảnh thông thường, có thể tham khảo tại [9], [10]. Tuy nhiên, rất ít nghiên

cứu cảm xúc dựa trên ảnh nhiệt và kết hợp ảnh nhiệt và ảnh thông thường.

Xuất phát từ các cơ sở đó, đề tài “Xây dựng mô hình kết hợp ảnh

thường và ảnh nhiệt để ước lượng cảm xúc con người” được thực hiện dựa

trên biểu hiện trên khuôn mặt bằng cách kết hợp ảnh có thể nhìn thấy và ảnh

nhiệt. Luận văn làm rõ cơ sở lý thuyết và các nghiên cứu liên quan cũng như

thực nghiệm, đánh giá kết quả đạt được trong thực tế và khả năng phát triển

của đề tài.

2. Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu: Xây dựng mô hình kết hợp ảnh thông thường và ảnh nhiệt để

ước lượng cảm xúc.

Nhiệm vụ: Để đạt mục tiêu trên, đề tài thực hiện những nhiệm vụ sau

đây:

- Tìm hiểu tổng quan tình hình nghiên cứu về nhận dạng, phân tích và

dự đoán cảm xúc của người bằng ảnh thường và ảnh nhiệt.

- Nghiên cứu các cơ sở lý thuyết của đề tài.

- Nghiên cứu mô hình học sâu để trích xuất đặc trưng của ảnh thường

và ảnh nhiệt.

- Xây dựng đa mô hình ước lượng cảm xúc của người dựa trên ảnh

thường và ảnh nhiệt.

- Tiến hành thực nghiệm và đánh giá kết quả đạt được.

- Đề xuất hướng phát triển trong tương lai của đề tài.

3

3. Đóng góp của luận văn

Đóng góp của luận văn là xây dựng mô hình kết hợp ước lượng cảm xúc

dựa trên nguồn dữ liệu ảnh thường và ảnh nhiệt. Bên cạnh đó, xây dựng cơ sở

dữ liệu cảm xúc ảnh thường và ảnh nhiệt.

4. Đối tượng và phạm vi nghiên cứu

Đối tượng: Cảm xúc của con người thông qua thông tin khuôn mặt

người.

Phạm vi nghiên cứu:

- Cảm xúc (emotion) trong nghiên cứu này không chỉ là những biểu

hiện bên ngoài của khuôn mặt mà đó còn có cả những thay đổi thành

phần vật lí bên trong của khuôn mặt.

- Nhận biết và dự đoán sự thay đổi cảm xúc trong đề tài này chính là

ước lượng cảm xúc của người dựa trên hai nguồn thông tin (ảnh

thường và ảnh nhiệt) của khuôn mặt người (human emotion

estimation).

- Nhận dạng bảy cảm xúc cơ bản: buồn rầu, hạnh phúc, sợ hãi, giận

dữ, ngạc nhiên, ghê tởm và bình thường.

- Nghiên cứu được thực hiện và kiểm thử trên cơ sở dữ liệu KTFE.

5. Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết

- Tìm hiểu các công trình nghiên cứu liên quan.

- Tìm hiểu về bài toán ước lượng cảm xúc con người.

- Tìm hiểu về hình ảnh thường, ảnh nhiệt và trích xuất các đặc trưng

quan trọng dựa trên cơ sở dữ liệu KTFE.

- Tìm hiểu các phương pháp trích xuất đặc trưng và phân loại.

- Tìm hiểu mô hình học sâu cho bài toán ước lượng cảm xúc.

Phương pháp nghiên cứu thực nghiệm

- Tiến hành phân tích, xây dựng mô hình và cài đặt.

4

- So sánh và đánh giá kết quả đạt được.

6. Ý nghĩa khoa học và thực tiễn

Về mặt lý thuyết:

Xây dựng đa mô hình từ nhiều nguồn dữ liệu khác nhau phục vụ không

chỉ cho thị giác máy tính mà còn phục vụ cho cả hướng tâm lí học, và nhiều

hướng khác.

Về mặt thực tiễn:

Việc sử dụng trí tuệ nhân tạo ứng dụng vào giải quyết bài toán thực tế là

cần thiết và cấp bách trong việc hội nhập thời đại công nghiệp 4.0 như yêu

cầu của Thủ tướng Chính phủ.

7. Cấu trúc luận văn

Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, nội dung luận

văn được xây dựng gồm các phần sau:

Chương mở đầu

Chương này giới thiệu tổng quan về đề tài gồm các nội dung như: lý do

chọn đề tài, mục tiêu và nhiệm vụ nghiên cứu, đối tượng và phạm vi nghiên

cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn cũng như cấu

trúc chung của đề tài.

Chương 1. Tổng quan tình hình nghiên cứu

Chương này giới thiệu tổng quan về tình hình nghiên cứu và tìm hiểu về

cơ sở dữ liệu ảnh thường và ảnh nhiệt. Những kiến thức cơ bản này là tiền đề

để áp dụng vào việc xây dựng đa mô hình dựa trên hai nguồn dữ liệu (ảnh

thường và ảnh nhiệt).

Chương 2. Cơ sở lý thuyết

Chương này giới thiệu lý thuyết về mạng CNN, kỹ thuật học chuyển

giao, mô mình mạng pre-trained và độ đo đánh giá mô hình.

Chương 3. Uớc lượng cảm xúc của người dựa trên ảnh thường và

ảnh nhiệt

5

Chương này vận dụng những kiến thức đã nêu ở chương một và chương

hai để xây dựng đa mô hình phân lớp từ nhiều nguồn dữ liệu khác nhau và

hợp nhất quyết định sau mỗi nguồn được phân loại riêng lẻ nhằm nâng cao độ

chính xác.

Chương 3. Thực nghiệm và đánh giá

Chương này phân tích về những ưu điểm, nhược điểm, so sánh và đánh

giá kết quả mô hình ước lượng cảm xúc trên ảnh thường, ảnh nhiệt và mô

hình kết hợp.

Chương 4. Kết luận và hướng phát triển

Chương này tổng kết lại những gì đã đạt được và chưa đạt được trong

luận văn để từ đó đề xuất những hướng nghiên cứu tiếp theo để nâng cao độ

chính xác về bài toán ước lượng cảm xúc của con người.

6

Chương 1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Các công trình nghiên cứu liên quan

Trong các bài toán phân tích cảm xúc hay ước lượng cảm xúc đều có ba

bước chính: phát hiện khuôn mặt, rút trích đặc trưng và phân loại cảm xúc.

Trong rút trích đặc trưng, ta có thể phân loại làm hai nhánh chính đó là

phương pháp dựa trên đặc trưng biểu hiện (hình dạng) và phương pháp dựa

trên đặc trưng hình học.

Bản chất của rút trích đặc trưng là tìm ra một ánh xạ sao cho hỗ trợ việc

phân loại cảm xúc tốt nhất. Phương pháp rút trích đặc trưng dựa trên hình

học, trích xuất thông tin đặc trưng bằng hình dạng, khoảng cách và vị trí của

các thành phần trên khuôn mặt. Công việc đầu tiên trong lĩnh vực này là hệ

thống mã hóa hành động mặt (FACS), được thiết kế bởi Ekman [11]. FACS

mã hóa một biểu hiện khuôn mặt trong 44 đơn vị hành động trên khuôn mặt

(AU). Ngoài ra các phương pháp dựa trên đặc trưng hình học còn sử dụng mô

hình Active Appearance Model (AAM) hoặc các biến thể của nó. Vị trí của

các vùng trên khuôn mặt này sau đó được sử dụng theo nhiều cách khác nhau

để trích xuất hình dạng các đặc điểm khuôn mặt và chuyển động các đặc điểm

khuôn mặt khi cảm xúc thay đổi. Choi và cộng sự [12] sử dụng AAM với sự

giảm thiểu bậc hai, và một perceptron đa lớp, để nhận biết biểu hiện khuôn

mặt. Một ví dụ gần đây về kỹ thuật dựa trên AAM để nhận dạng biểu hiện

khuôn mặt được trình bày trong [13], trong đó các thuật toán cải tiến AAM

khác nhau được so sánh và đánh giá. Trong [14], [15] các tác giả cũng đã đưa

ra một cách tiếp cận dựa trên đặc trưng hình học để lập mô hình, theo dõi và

nhận dạng các biểu hiện khuôn mặt.

7

Hình 1.1. Ví dụ về đặc trưng hình học của mặt gồm lông mày, mắt, mũi, miệng [17]

Các đặc trưng dựa trên hình học mô tả hình dạng của khuôn mặt và các

thành phần của khuôn mặt trong khi các đặc điểm dựa trên đặc trưng thể hiện

được tạo ra từ biểu hiện trên khuôn mặt. Các đặc trưng xuất hiện đã được sử

dụng thành công để nhận dạng cảm xúc như toán tử mô hình nhị phân cục bộ

(LBP) [16], biểu đồ của gradient định hướng (HOG) [17, 18], cục bộ mô hình

định hướng (LDP) [19], thông tin kết cấu dựa trên bộ lọc Gabor [20], phân

tích thành phần chính (PCA) [21] và phân tích phân biệt tuyến tính (LDA)

[22]. Những tiến bộ gần đây trong ảnh hồng ngoại nhiệt đã giúp chúng ta có

được tín hiệu sinh lý, nhiệt độ cơ thể, thông qua các phương tiện không xâm

nhập và không tiếp xúc [23]. Khi một cảm xúc xảy ra, nhiệt độ trên khuôn

mặt xuất hiện do lưu lượng máu mà cơ thể phát ra qua các mạch máu ở dưới

da [24], sự thay đổi này có thể đủ điều kiện và định lượng để có thể nghiên

cứu cảm xúc thông qua ảnh nhiệt. M.M.Khan và các cộng sự của ông [25] đề

xuất sử dụng các điểm đặc trưng nhiệt mặt (FTFP) tỷ lệ chính xác dao động từ

66,3% đến 83,8% với năm loại cảm xúc. Di Giacinto cùng cộng sự [26] khám

phá cảm xúc sợ hãi ở những bệnh nhân bị rối loạn stress sau chấn thương

8

(PTSD). Nó cho thấy rằng nhiệt độ trên mặt ở bệnh nhân PTSD là thấp hơn so

với những người được kiểm soát. Trong [27] các tác giả phân loại các cảm

xúc bất ngờ, hạnh phúc, bình thường từ hai yếu tố đầu vào. Dữ liệu đầu vào

đầu tiên bao gồm các lựa chọn của một tập hợp các vùng thích hợp khi thực

hiện trích xuất đặc trưng, đầu vào thứ hai là ma trận hiệp phương sai mức xám

được sử dụng để tính toán các bộ mô tả vùng của ảnh nhiệt. Liu và Wang [28]

đã phân tích dữ liệu chuỗi nhiệt độ mặt, tính toán thống kê và các tính toán

biểu đồ khác biệt về nhiệt độ. Hơn nữa, mô hình Hidden Markov (HMM)

được sử dụng để phân biệt hạnh phúc, ghê tởm và sợ hãi với tỷ lệ công nhận

tương ứng là 68,11%, 57,14% và 52,30%. Họ đã sử dụng các mẫu từ cơ sở dữ

liệu NVIE (biểu hiện trên khuôn mặt tự nhiên và hồng ngoại) để đánh giá kết

quả. Nguyen.H và cộng sự [29] đề xuất phương pháp kết hợp ảnh nhìn thấy và

chuỗi ảnh nhiệt để ước lượng bảy cảm xúc cơ bản. Kết quả được đánh giá với

hai phương pháp phân loại t-PCA và n-EMC trên tập cơ sở dữ liệu KTFE.

B.R. Nhan và T.Chau [30] nhận dạng cảm xúc dựa trên phân tích tần số

thời gian từ chuỗi thời gian trung bình của năm vùng quan tâm trên mặt nhiệt.

Shan He và các cộng sự [31] đề xuất phương pháp nhận dạng cảm xúc với

Deep Boltzmann Machine (DBM) trên cơ sở dữ liệu NVIE đạt tỷ lệ công

nhận là 51,3% . Trong bài báo [32], một phương pháp nhận dạng cảm xúc dựa

vào vùng quan tâm (ROI), như hình 3, và phân loại bằng cách sử dụng SVM

nhiều lớp. Thuật toán được kiểm tra trên cơ sở dữ liệu KTFE công nhận năm

cảm xúc cơ bản gồm tức giận, sợ hãi, hạnh phúc, buồn và bình thường với độ

chính xác 87,50%.

9

Hình 1.2. Trích xuất ROI trong phương thức [32]

Trong nghiên cứu [33], nhóm Wang đã đề ra thuật toán như Hình 1.3.

Tuy nhiên, thuật toán này có những ràng buộc ban đầu để xác định ví trị mắt

mũi miệng cho phần rút trích đặc trưng.

Hình 1.3. Thuật toán xác định cảm xúc [33]

Trong nghiên cứu công bố vào cuối năm 2018, nhóm Basu [34] đã đưa

ra hệ thống phân loại đặc trưng của cá nhân như P, E hay N dựa vào mô hình

của Eysenck. Hệ thống sử dụng mô hình kết hợp ảnh thường và ảnh nhiệt

10

trong đó ảnh nhiệt sử dụng mô hình mạch máu. Mô hình Markov ẩn dùng để

tìm ra thể hiện cảm xúc với đặc trưng kết hợp được rút trích ở trên. Mặc dù

kết quả đạt khá cao với gần 90% cho việc phân loại cảm xúc nhưng nhóm tác

giả chỉ thực hiện trên 4 cảm xúc cơ bản dễ phân loại. Ngoài ra, một điểm yếu

của nghiên cứu này là việc giới hạn về số dữ liệu.

Trong năm 2018, nhóm Wang [35], cũng đề ra một phương pháp dựa

trên mô hình học sâu và SVM để phân loại cảm xúc. Mục đích của nhóm

hướng tới nhu cầu thực tế với việc chi phí cho camera nhiệt rất tốn kém nên

việc huấn luyện được thực hiện với cả dữ liệu ảnh thường và ảnh nhiệt nhưng

việc kiểm tra được thực hiện chỉ với dữ liệu ảnh thường.

Trong nghiên cứu [36], nhóm Thu Nguyen đề xuất một phương pháp

trích xuất các vùng quan tâm (ROI) trên dữ liệu ảnh nhiệt. Sau đó tiến hành

ước lượng cảm xúc với các phương pháp kinh điển trong lĩnh vực thị giác

máy tính bao gồm: PCA, EMC và kết hợp PCA-EMC trên cơ sở dữ liệu

KTFE đạt tỷ lệ công nhận tương ứng là 90,42%, 89,99%, 85,94%.

1.2. Một số thách thức trong lĩnh vực nghiên cứu nhận dạng cảm xúc

của con người

Từ tổng quan các kết quả nghiên cứu đạt được của các nhóm nghiên cứu

đã có rất nhiều kết quả khả quan và ứng dụng được trong bài toán thực tế. Tuy

nhiên, với những hệ thống này thường nhận dạng trên ảnh thường. Điều đó

dẫn đến kết quả không chính xác trong những trường hợp như thiếu ánh sáng,

ảnh bị mờ, màu da hoặc đối với người không thể hiện biểu cảm trên khuôn

mặt nên khó phát hiện được cảm xúc. Đây là thách thức lớn đòi hỏi cần có

những hướng nghiên cứu và tiếp cận mới để khắc phục những hạn chế của

ảnh nhìn thấy được nhằm tăng tỉ lệ chính xác hơn trong ước lượng cảm xúc.

Đối với ảnh nhiệt cũng gặp phải một số hạn chế như nhiệt độ cơ thể thay

đổi khi đối tượng tập thể dục hoặc nhiệt độ môi trường xung quanh. Ngoài ra

11

khi đối tượng đeo kính (Eyeglass) sẽ dẫn đến mất thông tin hữu ích xung

quanh khuôn mặt nhiệt bởi vì vật liệu thủy tinh ngăn chặn phần lớn năng

lượng nhiệt.

Ngoài ra, việc kết hợp các phương pháp khác nhau để nhận dạng cảm

xúc giúp cải thiện tỷ lệ chính xác hơn cũng là một bài toán cần được nghiên

cứu và phát triển mạnh mẽ trong tương lai.

1.3. Sơ lược về cơ sở dữ liệu cảm xúc

Nhận dạng khuôn mặt người, phân tích cảm xúc và tương tác giữa người

và máy ngày càng được quan tâm, số lượng cơ sở dữ liệu sinh ra để phục vụ

cho việc nghiên cứu về nhận dạng khuôn mặt và cảm xúc ngày càng nhiều

nhưng phổ biến ở cơ sở dữ liệu ảnh thường như CK+ [37], Fer2013 [38] và

còn nhiều cơ sở dữ liệu cảm xúc khác [39], cơ sở dữ liệu cảm xúc thường

được tạo ra trong phòng thí nghiệm nên hầu như cảm xúc được thể hiện một

cách sắp đặt (posed) và thể hiện quá mức.

12

Hình 1.4. Cơ sở dữ liệu FACES [39] thể hiện 6 loại cảm xúc: bình

thường, giận dữ, hạnh phúc, buồn rầu, sợ hãi và ghê tởm.

Bên cạnh đó, có loại cảm xúc được gây ra (induced) không phải do tự

phát, tự sinh ra mà cảm xúc được thể hiện qua sự tương tác giữa người tham

gia và các cá nhân khác hoặc xem qua các phương tiện nghe nhìn để gợi lên

những cảm xúc thực hơn, tự nhiên hơn.

Ngoài ra, cảm xúc được thể hiện trong các bộ dữ liệu tự phát

(Spontaneous) được coi là gần nhất với các tình huống thực tế trong đời sống

hàng ngày. Tuy nhiên, đối với loại cảm xúc tự phát này diễn ra trong khi

người đó không biết trước được họ sẽ được ghi hình, quá trình thu thập dữ

liệu sẽ chạm đến quyền riêng tư, việc gán nhãn phải được thực hiện một cách

thủ công vì phải qua các bước phân tích dự đoán của chuyên gia, cơ sở dữ liệu

tự phát thường bao gồm các đoạn phim được trích xuất từ phim ảnh [42],

đoạn clip trên YouTube.

13

Có rất ít cơ sở dữ liệu mặt nhiệt được phát triển để hỗ trợ nghiên cứu về

biểu hiện và cảm xúc trên khuôn mặt người. IRIS [44] và NIST / Equinox

[45], bao gồm các cặp ảnh được gắn nhãn với ba cảm xúc chính đặt ra dưới

nhiều ánh sáng và tư thế đầu khác nhau. Cơ sở dữ liệu Natural Visible and

Infrared Facial Expression (NVIE) chứa 215 đối tượng, mỗi đối tượng hiển

thị bảy cảm xúc [43]. Bộ dữ liệu Kotani Thermal Facial Emotion (KTFE) là

cơ sở dữ liệu cảm xúc, được ghi lại trong phòng thí nghiệm và cũng được kích

hoạt thông qua phương tiện nghe nhìn [8].

Bảng 1.1. Một số cơ sở dữ liệu ảnh nhiệt [8]

Số lượng Dải sóng Cơ sở dữ liệu Loại cảm xúc đối tượng camera nhiệt

8-12µm, Mỉm cười, cau mày 600 NIST/Equinox 3-5µm và ngạc nhiên.

Ngạc nhiên, cười và 30 7-14µm IRIS giận dữ.

Hạnh phúc, giận dữ,

bình thường, ghê tởm, 215 8-14µm NVIE sợ hãi, buồn rầu và ngạc

nhiên.

Hạnh phúc, giận dữ,

bình thường, ghê tởm, 30 8-14µm KTFE sợ hãi, buồn rầu và ngạc

nhiên.

Tất cả các vật thể, cả tự nhiên lẫn nhân tạo, đều phát ra năng lượng nhiệt

hồng ngoại. Bằng cách phát hiện sự khác biệt nhiệt độ rất tinh vi, công nghệ

hình ảnh nhiệt cho thấy những gì mà mắt thường không nhìn thấy được.

14

Máy ảnh nhiệt thường phát hiện bức xạ trong dải hồng ngoại dài của phổ

điện từ (khoảng 9.000–14.000 nm hoặc 9–14 µm) và tạo ra hình ảnh của bức

xạ đó, được gọi là thermograms. Khi camera chụp ảnh nhiệt, các vật thể ấm

áp nổi bật so với các nền lạnh hơn, con người và các động vật máu nóng khác

trở nên dễ dàng nhìn thấy ngay cả trong bóng tối hoàn toàn và điều kiện môi

trường đầy thách thức.

Hình 1.5. Các dải hồng ngoại trong phổ điện từ [46]

15

Chương 2. CƠ SỞ LÝ THUYẾT

2.1. Bài toán phát hiện cảm xúc khuôn mặt

Như đã trình bày ở phần tình hình nghiên cứu, phân tích cảm xúc hay

ước lượng cảm xúc là một bài toán phân lớp đã được nghiên cứu trong một

thời gian khá dài. Một hệ thống nhận diện cảm xúc khuôn mặt thường được

triển khai gồm 3 bước: phát hiện khuôn mặt, rút trích đặc trưng và phân lớp.

Hình 2.1 mô tả mô hình phát hiện cảm xúc khuôn mặt sử dụng phương pháp

học máy truyền thống.

Hình 2.1. Mô hình phát hiện cảm xúc sử dụng phương pháp học máy truyền thống

- Phát hiện khuôn mặt và tiền xử lý: Ảnh khuôn mặt được lấy từ

nguồn dữ liệu hình ảnh tĩnh hoặc từ các camera, nguồn dữ liệu này có thể trải

qua một số bước tiền xử lý nhằm tăng chất lượng hình ảnh để giúp việc phát

hiện cảm xúc trở nên hiệu quả hơn.

- Trích xuất đặc trưng: Bước này rất quan trọng, đặc biệt với các

phương pháp truyền thống, các đặc trưng khuôn mặt được tính toán dựa trên

các thuật toán có sẵn như LBP, AAM, HOG… kết quả thường là một vector

đặc trưng làm đầu vào cho bước sau.

16

- Phân lớp và nhận diện cảm xúc: Đây là một bài toán phân lớp điển

hình, rất nhiều các thuật toán có thể áp dụng trong bước này như KNN, SVM,

LDA, HMM,…

Một đặc điểm nổi bật của các phương pháp Học máy truyền thống là độ

chính xác của mô hình dự đoán phụ thuộc rất nhiều vào chất lượng các đặc

trưng được lựa chọn, các đặc trưng này càng phù hợp với bài toán đưa ra thì

kết quả thu được càng tốt. Đây là điểm mạnh, và cũng là điểm yếu của các

phương pháp này, bởi việc trích chọn đặc trưng chính là sự đóng góp của bàn

tay con người (rút trích đặc trưng thủ công) trong việc cải tiến các mô hình,

nó yêu cầu sự hiểu biết thấu đáo về bài toán cần giải quyết, các thuật toán sử

dụng và các thông số trong mô hình huấn luyện. Các đặc trưng được thiết kế

riêng cho từng bài toán khác biệt, do vậy hiếm khi chúng có thể được tái sử

dụng với các bài toán mới mà cần phải được cải thiện hay thay thế bởi các đặc

trưng khác.

Khác với phương pháp học máy truyền thống, Mạng nơ-ron tích chập

(CNN - Convolutional Neural Network) là một trong những mô hình mạng

học sâu phổ biến nhất hiện nay, có khả năng nhận dạng và phân loại hình ảnh

với độ chính xác rất cao, thậm chí còn tốt hơn con người trong nhiều trường

hợp. Mô hình này đã và đang được phát triển, ứng dụng vào các hệ thống xử

lý ảnh lớn của Facebook, Google hay Amazon… cho các mục đích khác nhau

như tìm kiếm ảnh hoặc gợi ý sản phẩm cho người tiêu dùng.

Sự ra đời của mạng CNN là dựa trên ý tưởng cải tiến cách thức các mạng

nơ-ron nhân tạo truyền thống học thông tin trong ảnh. Do sử dụng các liên kết

đầy đủ giữa các điểm ảnh vào node, các mạng nơ-ron nhân tạo truyền thẳng

(Feedforward Neural Network) bị hạn chế rất nhiều bởi kích thước của ảnh,

ảnh càng lớn thì số lượng liên kết càng tăng nhanh và kéo theo sự bùng nổ

khối lượng tính toán. Ngoài ra sự liên kết đầy đủ này cũng là sự dư thừa khi

với mỗi bức ảnh, các thông tin chủ yếu thể hiện qua sự phụ thuộc giữa các

17

điểm ảnh với những điểm xung quanh nó mà không quan tâm nhiều đến các

điểm ảnh ở cách xa nhau. Mạng CNN ra đời với kiến trúc thay đổi, có khả

năng xây dựng liên kết chỉ sử dụng một phần cục bộ trong ảnh kết nối đến

node trong lớp tiếp theo thay vì toàn bộ ảnh như trong mạng nơ-ron truyền

thẳng.

2.2. Kiến trúc Mạng nơ-ron tích chập (Convolutional neural network)

Các lớp cơ bản trong một mạng nơ-ron tích chập (CNN) gồm các lớp cơ

bản: Lớp tích chập (Convolutional), Lớp lấy mẫu (Pooling) và Lớp kết nối

đầy đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để tạo ra

các mô hình huấn luyện phù hợp cho từng bài toán khác nhau

Hình 2.2. Kiến trúc cơ bản của mạng tích chập

2.2.1. Lớp Convolution

Lớp tích chập được dùng để phát hiện và rút trích đặc trưng của ảnh.

Giống như các lớp ẩn khác, lớp tích chập lấy dữ liệu đầu vào và thực hiện các

phép biến đổi để tạo ra dữ liệu đầu vào cho lớp kế tiếp (đầu ra của lớp này là

đầu vào của lớp sau). Phép biến đổi được sử dụng là phép tính tích chập. Mỗi

lớp tích chập chứa một hoặc nhiều bộ lọc - bộ phát hiện đặc trưng (filter -

feature detector) cho phép phát hiện và trích xuất những đặc trưng khác nhau

của ảnh. Phép tích chập được thực hiện bằng cách trượt bộ lọc theo dữ liệu

đầu vào. Tại mỗi vị trí, phép nhân ma trận và tính tổng các giá trị để đưa vào

bản đồ đặc trưng (feature map).

18

Đặc trưng ảnh là những chi tiết xuất hiện trong ảnh, từ đơn giản như

cạnh, hình khối, chữ viết tới phức tạp như mắt, mặt, chó, mèo, bàn, ghế, xe,

đèn giao thông, v.v. Bộ lọc phát hiện đặc trưng là bộ lọc giúp phát hiện và

trích xuất các đặc trưng của ảnh, có thể là bộ lọc góc, cạnh, đường chéo, hình

tròn, hình vuông, v.v.

Hình 2.3. Minh họa phép tích chập [47]

2.2.2. Lớp pooling

Lớp này thường theo ngay sau lớp tích chập, nó được sử dụng để giảm

kích thước của hình ảnh đầu ra, tăng tốc độ tính toán và hiệu năng trong việc

phát hiện các đặc trưng nhưng vẫn giữ được các thông tin quan trọng của ảnh

đầu vào. Có nhiều phương thức pooling được sử dụng như maxpooling (lấy

giá trị lớn nhất), Min-pooling (lấy giá trị nhỏ nhất), Average-pooling (lấy giá

trị trung bình), Sum pooling (lấy giá trị tổng) cho các giá trị nằm trong bộ

khung.

19

Hình 2.4. Minh họa phương thức maxpooling và average pooling [48]

2.2.3. Lớp Fully Connected

Lớp Fully Connected được thiết kế hoàn toàn tương tự như trong mạng

nơ-ron truyền thống. Đầu vào cho lớp này là một vector của các con số (ma

trận đầu vào đã được dàn phẳng thành 1 vector). Tại lớp mạng này, mỗi một

nơ-ron của lớp này sẽ liên kết tới mọi nơ-ron của lớp khác.

Mục đích của lớp Fully Connected là sử dụng các đặc trưng được trích

xuất bởi phần convolution và pooling để phân loại hình ảnh đầu vào thành các

lớp khác nhau dựa trên bộ dữ liệu huấn luyện. Thông thường lớp kết Fully

Connected thường kết hợp với hàm Softmax.

20

Hình 2.5. Minh họa kết nối đầy đủ và phân lớp [49]

2.3. Học chuyển giao

Học chuyển giao là quá trình khai thác, tái sử dụng các tri thức đã được

học bởi một mô hình huấn luyện trước đó (Pretrained Model) vào giải quyết

một bài toán mới mà không phải xây dựng một mô hình huấn luyện khác từ

đầu.

Kỹ thuật này thường được áp dụng khi huấn luyện mô hình với một bộ

cơ sở dữ liệu tương đối nhỏ là sử dụng Học chuyển giao để tận dụng một

mạng CNN đã được huấn luyện trước đó với bộ dữ liệu rất lớn như ImageNet

(1,2 triệu ảnh với 1.000 thể loại khác nhau). Có 02 cách học chuyển giao:

- Mạng CNN này sẽ chỉ được sử dụng như một bộ trích chọn đặc trưng

cho bộ cơ sở dữ liệu huấn luyện mới, bằng cách thay thế các lớp Fully-

connected ở cuối mạng và giữ cố định các tham số cho toàn bộ các lớp còn lại

của mạng.

- Không chỉ thay thế và huấn luyện lại bộ nhận dạng cuối cùng của mạng

CNN, mà đồng thời ta thực hiện tối ưu, tinh chỉnh (Fine-tune) một vài hoặc

tất cả các lớp trong mạng.

21

Ý tưởng của việc tái sử dụng mạng CNN là dựa trên nhận định rằng các

đặc trưng được học trong các lớp đầu của mạng là các đặc trưng chung nhất,

hữu dụng với phần lớn bài toán, ví dụ: đặc trưng về cạnh, hình khối hay các

khối màu… Các lớp sau đó của mạng CNN sẽ nâng dần độ cụ thể, riêng biệt

của các chi tiết phục vụ cho bài toán nhận dạng cần giải quyết. Do đó, ta hoàn

toàn có thể tái sử dụng lại các lớp đầu của mạng CNN mà không phải mất

nhiều thời gian và công sức huấn luyện từ đầu.

2.4. Mạng huấn luyện Resnet (Residual Network)

ResNet được phát triển bởi Kaiming He và cộng sự [50] và đã giành

chiến thức cuộc thi nhận dạng ảnh quy mô lớn vào năm 2015 cũng là một

trong những mạng huấn luyện CNN nổi tiếng nhất nhờ thành tích ấn tượng

mà nó đạt được trong cuộc thi. Cuộc thi này có tên chính thức là ILSVRC –

ImageNet Large Scale Visual Recognition Challenge [51], được ImageNet -

một hãng cơ sở dữ liệu ảnh - tổ chức thường niên và được coi là cuộc thi

Olympics quy mô thế giới trong lĩnh vực thị giác máy tính. Mục đích của

cuộc thi là nhằm thử nghiệm các công nghệ mới giúp cho máy tính có thể

hiểu, phân tích, phát hiện và nhận dạng các vật thể trong một bức ảnh. Resnet

giải quyết được vấn đề của học sâu truyền thống như khi mạng càng sâu (tăng

số lượng lớp) thì đạo hàm sẽ bị vanishing (biến mất) hoặc explodes (bùng nổ).

Vấn đề này có thể giải quyết bằng cách thêm Batch Normalization nó giúp

chuẩn hóa đầu ra giúp các hệ số trở nên cân bằng hơn không quá nhỏ hoặc

quá lớn nên sẽ giúp model dễ hội tụ hơn. Vấn đề thứ 2 do sự suy thoái

(degradation), Khi model càng sâu thì độ chính xác của model (accuracy) bắt

đầu bão hòa thậm chí là giảm. Như hình vẽ

bên dưới khi mô hình càng nhiều lớp xếp chồng thì độ lỗi trong quá trình học

(training error) lại cao hơn mô hình có ít lớp. Như vậy, vấn đề ở đây không

phải là do mô hình học quá khớp (overfitting) mà vấn đề này giống như chúng

ta thêm nhiều lớp vào mạng học sâu truyền thống, các lớp sau khi thêm vào sẽ

22

không học thêm được gì nên độ chính xác sẽ tương tự như mạng học sâu

truyền thống mà không tăng. Resnet được ra đời nhằm giải quyết vấn đề này.

Hình 2.6. Hình so sánh độ lỗi của mô hình trước và sau khi thêm các lớp mạng [50]

ResNet có kiến trúc gồm nhiều residual block, ý tưởng chính là bỏ qua

một hoặc nhiều lớp bằng cách thêm kết nối với layer trước. Ý tưởng của

residual block là khi đầu vào x đi qua một số layer ta thu được F(x) sau đó

cộng thêm x vào H(x) = F(x) + x. Mô hình sẽ dễ học hơn khi thêm đặc trưng

(feature) từ lớp trước vào.

23

Hình 2.7. ResNets block

ResNet có cấu trúc gần giống VGG với nhiều lớp xếp chồng (stack

layer) làm cho model sâu hơn. Không giống VGG, ResNet có nhiều lớp hơn

như Resnet 34 lớp, Resnet 50 lớp , Resnet 101 lớp và Resnet 152 lớp.

24

Bảng 2.1. Bảng chi tiết kiến trúc mạng Resnet 18, 50,101 và 153 lớp [50]

Kết quả so sánh giữa mạng truyền thống và mạng Resnet cho học trên

cùng bộ cơ sở dữ liệu imagenet cho thấy mạng Resnet hiệu quả hơn khi độ

sâu của mô hình càng tăng. Điều này chỉ ra rằng vấn đề suy thoái

(degradation) được giải quyết tốt.

Hình 2.8. So sánh mạng truyền thống với Resnet (18/34 lớp) [50]

25

2.5. Độ đo đánh giá mô hình phân lớp

Để xác định một số độ đo, ta định nghĩa bảng dữ liệu như sau:

Bảng 2.2. Định nghĩa các giá trị cho việc đánh giá thực thi mô hình

Phân lớp cảm xúc

Dự đoán Class= Class=

Nhãn lớp Hạnh phúc Không thuộc hạnh phúc

Class = hạnh phúc TP FN

Class = Không thuộc hạnh phúc FP TN

Trong đó:

- True Positive (TP): chấp nhận đúng

- False Negative (FN): từ chối sai

- False Positive (FP): chấp nhận sai

- True Negative (TN): từ chối đúng

Khi đó, độ chính xác (Accuracy) là tỉ lệ giữa số điểm được phân loại

đúng và tổng số điểm. Accuracy chỉ phù hợp với các bài toán mà kích thước

các lớp dữ liệu là tương đối như nhau

(2.1) Accuracy (M) = TP + TN TP + FN + FP + TN

Độ lỗi của mô hình M:

(2.2) error_rate(M) = 1 – Accuracy(M)

Khi kích thước các lớp dữ liệu là chênh lệch precision và recall thường được

sử dụng

- Độ chính xác Precision: là tỉ lệ số điểm true positive trong số những

điểm được phân loại là positive (TP + FP)

(2.3) Precision = TP TP + FP

26

- Độ đo tính toàn vẹn Recall: là tỉ lệ số điểm true positive trong số những

điểm thực sự là positive (TP + FN).

(2.4) Recall = TP TP + FN

Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là

cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót

các điểm thực sự positive là thấp.

Độ đo F1-Score:

Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao,

tức càng gần một càng tốt. Phép đánh giá dựa trên Precision-Recall được sử

dụng đó là F1-Score.

F1-Score có giá trị nằm trong nửa khoảng (0,1]. F1-Score càng cao, bộ

phân lớp càng tốt.

(2.5) 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2𝑅𝑒𝑐𝑎𝑙𝑙. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

27

Chương 3. ƯỚC LƯỢNG CẢM XÚC CỦA NGƯỜI DỰA TRÊN

ẢNH THƯỜNG VÀ ẢNH NHIỆT

Mô hình kết hợp ước lượng cảm xúc trong luận văn này là bài toán kết hợp

các mô hình phân lớp riêng lẻ với cơ sở dữ liệu đầu vào là ảnh thường và ảnh

nhiệt được trích xuất từ cơ sở dữ liệu KTFE nhằm xác định một lớp cảm xúc

cụ thể của hình ảnh nằm trong bộ phân lớp cảm xúc. Mỗi mô hình phân lớp

gồm 03 thành phần mỗi thành phần tùy theo từng bài toán mà cấu trúc bên

trong có thể thay đổi sao cho phù hợp để giải quyết bài toán một cách tốt nhất:

- Phần đầu vào: Sử dụng hình ảnh theo từng loại cảm xúc (ảnh nhiệt và

ảnh thường).

- Phần xử lý: Xây dựng bộ phân lớp CNN (Resnet-50). Có thể sử dụng

các thuật toán máy học để nâng cao hiệu suất và kết quả chính xác trên điều

kiện đo lường đánh giá mô hình phân lớp.

- Phần đầu ra: sau khi đi qua hệ thống học sâu cho ra kết quả phân lớp đã

được định danh sẵn. Kết quả ở phần này có dạng một vector với n chiều

(trong đó n = 7 là số lớp cảm xúc được định danh sẵn). Dựa vào xác suất

trong vector đầu ra để kết luận ảnh này tương thích với cảm xúc nào trong

các loại cảm xúc được xác định ban đầu (giận dữ (An), ghê tởm (Di), sợ hãi

(Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu (Sa) và ngạc nhiên (Su)).

Kết quả dự đoán từ hai mô hình riêng lẻ trên ảnh thường và ảnh nhiệt sẽ

được kết hợp thông qua một hàm tính toán để tăng kết quả ước lượng.

3.1. Cơ sở dữ liệu ảnh nhiệt Kotani Thermal Facial Emotion (KTFE)

Hiện nay, có rất ít cơ sở dữ liệu mà trong đó chứa cả ảnh thường và ảnh

nhiệt. Ngoài ra, có một số cơ sở dữ liệu ảnh nhiệt gặp vấn đề khi thiết kế

trong thu thập dữ liệu, đó là hiện tượng trễ thời gian. Chính vì vậy, trong

nghiên cứu này chúng tôi đề xuất sử dụng cơ sở dữ liệu cảm xúc và khuôn

28

mặt nhiệt Kotani Thermal Facial Emotion (KTFE) [8] để nghiên cứu phân

tích biểu hiện khuôn mặt trở nên thực tế hơn.

KTFE chứa bảy cảm xúc tự phát bao gồm 130 GB của 30 đối tượng là

người Việt, người Nhật, người Thái từ 11 đến 32 tuổi với bảy cảm xúc, các

video cảm xúc trên khuôn mặt có thể nhìn thấy và khuôn mặt nhiệt.

Hình 3.1. Mẫu ảnh nhiệt và ảnh nhìn thấy của bảy cảm xúc [8]

Cơ sở dữ liệu KTFE có một số ưu điểm:

- Thứ nhất, đây là một trong những video có thể nhìn thấy và nhiệt tự

nhiên đầu tiên. Những cơ sở dữ liệu này sẽ cho phép các nhà nghiên cứu biểu

hiện trên khuôn mặt và cảm xúc để có nhiều cách tiếp cận thực tế hơn.

- Thứ hai, cơ sở dữ liệu này đã khắc phục lỗi trễ thời gian mà cơ sở dữ

liệu cũ gặp khi thực hiện các thiết lập thử nghiệm.

- Thứ ba, đã có một số nghiên cứu trong dữ liệu KTFE và thu được một

số kết quả để hỗ trợ các nhà nghiên cứu sử dụng cơ sở dữ liệu này.

29

Các kết quả về dữ liệu nhiệt cho chúng ta một tương lai đầy hứa hẹn về

nghiên cứu trên khuôn mặt tốt hơn.

Bên cạnh ưu điểm thì cơ sở dữ liệu này hạn chế như số lượng của mỗi

cảm xúc không giống nhau và dữ liệu ảnh thường với cảm xúc chưa thể hiện

rõ qua biểu cảm trên khuôn mặt.

Từ cơ sở dữ liệu thô KTFE gồm các đoạn video chứa các frame ảnh

được đặt tên và lưu trong 07 thư mục tương ứng với 07 loại cảm xúc (file lưu

có đuôi *.avi chứa các frame ảnh thường và đuôi *.SVX chứa các frame ảnh

nhiệt). Tên file được đặt theo tên của đối tượng được quay trong lúc thực

nghiệm, mỗi đối tượng gồm 2 file ghi lại quá trình thể hiện cảm xúc bằng

camera NEC R300 được sử dụng để thu nhận hình ảnh video màu thông

thường và ảnh nhiệt.

Hình 3.2. Thư mục lưu trữ dữ liệu thô KTFE chứa video ảnh thường

Từ những file dữ liệu trên chúng tôi tiến hành xây dựng bộ dữ liệu ảnh

thường và ảnh nhiệt để hỗ trợ việc ước lượng cảm xúc. Cụ thể, với mỗi cảm

xúc chúng tôi tiến hành tách các frame ảnh trong dữ liệu gốc thành các file

dạng hình ảnh thường và ảnh nhiệt lưu vào thư mục “Fusion-Photo”. Trong

30

thư mục này phân chia thành các thư mục con đại diện cho các cảm xúc, bao

gồm: bình thường (Neutral), sợ hãi (Fear), giận dữ (Anger), ghê tởm

(Disgust), ngạc nhiên (Surprise), buồn rầu (Sadness), hạnh phúc (Happiness).

Hình 3.3. Tập tin dữ liệu thô hiển thị trên giao diện phần mềm NS9500- PRO (Video chứa các frame ảnh nhiệt)

Gán nhãn dữ liệu dựa trên tên thư mục đã được lưu trong cơ sở dữ liệu

thô và được kiểm duyệt bằng cách quan sát của nhóm độc lập (nhóm sinh viên

lớp Sư phạm Tin năm cuối của Khoa Công nghệ Thông tin, Trường Đại học

Sư phạm Thành phố Hồ Chí Minh) trong quá trình trích xuất ảnh bằng công

cụ phần mềm hỗ trợ có tên là NS9500-PRO. Phần mềm này giúp theo dõi quá

trình thu nhận, điều chỉnh, phân tích, trích xuất dữ liệu cần thiết.

31

Ảnh chưa xóa vùng dư thừa (vùng nền, ảnh hưởng của nhiệt độ môi trường)

Ảnh đã tùy chỉnh chỉ giữ lại các vùng quan tâm

Ảnh đã được cắt đôi và lưu vào các thư mục cảm xúc tương ứng chuẩn bị cho quá trình huấn luyện mạng

File ảnh thường được đặt tên theo cấu trúc: Ví dụ VI _IR_sadness_vysa2_678. File ảnh nhiệt đặt tên chỉ cần thay < VI_IR_thành IR_IR _sadness_vysa2_678.

Hình 3.4. Frame ảnh thường và ảnh nhiệt của một đối tượng sau

khi xóa vùng dư thừa trên ảnh nhiệt (bên trái)

Cặp ảnh này được xuất ra và lưu vào đúng thư mục cảm xúc đã được cấu

trúc sẵn. Sau khi hoàn tất việc trích xuất các frame ảnh tương tự như trên,

chúng tôi cho cắt tự động (dựa vào chiều dài) thành 02 loại ảnh riêng biệt và

lưu vào 2 thư mục khác nhau tương ứng từng loại cảm xúc của ảnh thường và

ảnh nhiệt.

Đối với ảnh nhiệt chúng tôi đã xóa bỏ nền và các vùng dư thừa nhằm giữ

lại các vùng quan tâm (vùng mà nhiệt độ thay đổi khi cảm xúc thay đổi) bằng

cách dựa vào thanh công cụ quản lý nhiệt độ trong phần mềm NS9500-PRO

32

để chọn ra các vùng có nhiệt độ lớn hơn hoặc bằng 300 C, ảnh nhiệt được lưu

với kích thước 554x413. Đối với ảnh thường chúng tôi cắt vùng chứa khuôn

mặt bằng cách sử dụng thuật toán Viola-Jones để nhận dạng khuôn mặt sau đó

cắt vùng mặt và lưu lại với kích thước 224x224 (đúng với kích thước đầu vào

của mạng Resnet).

3.2. Mô hình ước lượng cảm xúc trên ảnh thường và ảnh nhiệt

Chúng tôi huấn luyện mô hình mạng học sâu sử dụng mô hình mạng

Resnet-50 bằng phương pháp transfer learning, ở mô hình này chúng tôi dùng

kỹ thuật fine-tune, sau đó bằng cách sử dụng trọng số đã được học và tiếp tục

huấn luyện trên tập dữ liệu cảm xúc KTFE. Việc sử dụng pre-trained model

giúp tăng tốc độ trong quá trình học và tăng độ chính xác của mô hình.

Trong hình 3.5 và hình 3.6, chúng tôi sử dụng mạng Resnet-50 để xây

dựng mô hình phân lớp cảm xúc từ nguồn dữ liệu ảnh thường (tương tự đối

với ảnh nhiệt). Sau đó, chúng tôi tiến hành kết hợp quyết định từ hai bộ phân

lớp này. Để áp dụng mô hình học sâu vào nhận dạng cảm xúc, ngoài sử dụng

kỹ thuật transfer learning chúng tôi áp dụng kỹ thuật data augmentation (tăng

dữ liệu) thông qua các phép biến đổi cơ bản như việc lật ngược ảnh theo chiều

dọc hoặc chiều ngang (Flip), phóng to hoặc thu nhỏ ảnh (scale), tăng/giảm

góc nghiêng của hình (Translation), dịch chuyển ảnh sang

trái/phải/trên/dưới nhằm giải quyết vấn đề ít dữ liệu.

Phần dữ liệu được đưa vào hệ thống phân loại thực nghiệm được phân

chia ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện (training set) và tập

dữ liệu kiểm tra (testing set).

Quá trình huấn luyện: Dữ liệu hình ảnh làm đầu vào cho hệ thống máy

học. Với số lượng hình ảnh tổ hợp từ 07 loại cảm xúc trên tập training set.

Mô hình của chúng tôi thực hiện fine-tune lại toàn bộ mạng. Nhưng trước đó

sẽ thực hiện "warm-up" nghĩa là cho đóng băng (freeze) toàn bộ các lớp, chỉ

thực hiện training lớp mới vừa được thêm vào (lớp Fully Connected) với 2

33

epochs. Rồi sau đó un-freeze và thực hiện fine-tune trên toàn bộ mô hình,

learning rate cũng được gán nhỏ lại (lr = 0.0001).

Đóng băng tất cả Layers của pre-trained model

Chỉ train FC layer

FC, 7=> Softmax Hình 3.5. Freeze các layer của pre-trained model, chỉ train FC layer mới

thêm vào

34

Unfreeze và train tất cả Layers của mô hình

FC, 7=> Softmax

(Vẽ tham khảo từ nguồn https://medium.com/analytics-vidhya/cnns-architectures- lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5)

Hình 3.6. Unfreeze các layer của pre-trained model, train ở các layer trong ConvNet của pre-trained model và fully connected layer mới.

35

Quá trình phân loại trên tập kiểm tra: Sau khi huấn luyện mạng trên tập

training set, hệ thống lưu trữ lại cấu trúc và các trọng số weight giữa các node

của mô hình. Sau đó tiến hành đưa hình ảnh bất kỳ vào hệ thống. Ảnh này

cũng phải thực hiện lại các công đoạn tiền xử lý ảnh, chuẩn hóa kích thước

tương ứng với hệ thống phân lớp đã được huấn luyện trước đó. Kết quả cuối

cùng sẽ cho biết được ảnh đầu vào cần kiểm tra thuộc cảm xúc nào trong tập

các cảm xúc được định sẵn.

Hình 3.7. Mô hình kết hợp ước lượng cảm xúc ảnh thường và ảnh nhiệt

Để xác định loại cảm xúc tốt nhất, chúng tôi hợp nhất hai mô hình Vi-

Restnet-50 và Ther-Restnset-50 bằng công thức tuyến tính với tham số được

xác định dựa vào tỉ lệ dự đoán đúng của từng mô hình (dựa vào f1-score) và

xác suất của mỗi lớp có được sau tầng Softmax kết quả đầu ra được giới hạn

trong phạm vi từ 0 tới 1. Lớp cảm xúc phù hợp nhất sẽ mang lại xác suất cao

nhất.

(3.1)

36

Với là tỷ lệ giữa f1-score của mô hình Vi-Resnet-50 và mô hình Ther-

Resnet-50 trên từng cảm xúc. và là xác suất dự đoán của từng mô

hình, và là trọng số áp dụng dựa vào tỷ lệ dự đoán của mô hình thông

qua f1-score.

Cuối cùng, cảm xúc p(x) được chọn dựa vào giá trị lớn nhất của f

= arg max ( ) (3.2)

37

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

Về thông tin máy tính chạy thực nghiệm:

- Hệ điều hành: Window 10 – 64 bit.

- Bộ vi xử lý: Intel(R) Core(TM) i5-7400 CPU @ 3.00GHz, ~ 3.0GHz.

- Bộ nhớ RAM: 16.0 GB.

Về ngôn ngữ lập trình:

- Sử dụng ngôn ngữ lập trình Python 3.6.4 cùng với các gói thư viện

OpenCV3, Keras và Tensorflow.

4.2. Dữ liệu đầu vào

Đối với cơ sở dữ liệu, chúng tôi sử dụng bộ cơ sở dữ liệu đã xây dựng

được trình bày ở trên từ cơ sở dữ liệu Kotani Thermal Facial Emotions

(KTFE) [8] chứa 7 cảm xúc. Chúng tôi sử dụng 80% dữ liệu cho huấn luyện

và thử nghiệm là 20%. Số lượng ảnh thường và ảnh nhiệt là như nhau (một

cặp ảnh)

Bảng 4.1. Số lượng dữ liệu cụ thể chia 80% quá trình huấn luyện (train và val) và 20% cho kiểm tra (test set)

Số ảnh từng cảm xúc

Tên lớp

Tổng

Kiểm tra (test)

Huấn luyện (train)

Kiểm chứng (val)

Giận dữ

896

280

1400

224

Ghê tởm

704

220

1100

176

Sợ hãi

1408

440

2200

352

Hạnh phúc

1472

460

2300

368

Bình thường

1274

398

1990

318

Buồn rầu

1536

480

2400

384

38

Số ảnh từng cảm xúc

Tên lớp

Tổng

Kiểm tra (test)

Huấn luyện (train)

Kiểm chứng (val)

Ngạc nhiên

832

260

1300

208

4.3. Phân tích đánh giá

Để đánh giá khách quan hiệu suất của phương pháp nghiên cứu được đề

xuất, trong phần này chúng tôi tiến hành phân tích kết quả thực nghiệm đạt

được. Tiếp theo, chúng tôi so sánh phương pháp đề xuất với phương pháp

trong [36] trên cùng cơ sở dữ liệu nhưng khác phương pháp và chỉ so sánh kết

quả trên ảnh nhiệt.

4.3.1. Kết quả thực nghiệm

Bảng 4.2 trình bày kết quả thí nghiệm trên dữ liệu kiểm thử của 07 lớp

cảm xúc. Chúng tôi so sánh các thông số về độ chính xác (precision), độ đo

tính toàn vẹn (recall) và trung bình điều hòa (F1-score) để đánh giá các

phương pháp phân loại. Trong hầu hết các trường hợp, phương pháp của

chúng tôi luôn cho recall cao hơn precision, đồng nghĩa với tỉ lệ bỏ sót các

điểm thực sự positive là thấp.

Bảng 4.2. Kết quả thí nghiệm mô hình. Từ trái sang phải: giận dữ (An), ghê tởm (Di), sợ hãi (Fe), hạnh phúc (Ha), bình thường (Ne), buồn rầu (Sa) và ngạc nhiên (Su)

7 loại cảm xúc cơ bản

Mô hình Độ đo

An

Di

Fe

Ha

Ne

Sa

Su

Precision 77.96% 84.38% 80.30% 84.29% 80.63% 83.47% 87.95%

Vi-

Recall

87.14% 88.41% 90.80% 92.25% 86.88% 93.13% 88.46%

Resnet-50

F1-score 82.29% 86.35% 85.23% 88.09% 83.63% 88.04% 88.21%

Ther-

Precision 86.32% 86.51% 85.15% 89.70% 86.79% 88.12% 90.65%

Resnet-50

Recall

91.25% 94.77% 90.57% 93.93% 90.38% 92.71% 93.27%

39

7 loại cảm xúc cơ bản

Mô hình Độ đo

An

Di

Fe

Ha

Ne

Sa

Su

F1-score 88.72% 90.46% 87.78% 91.77% 88.55% 90.36% 91.94%

Precision 85.34% 89.28% 86.79% 94.96% 89.81% 88.61% 91.26%

Fu-

Recall

93.57% 92.73% 94.09% 95.17% 93.63% 94.79% 94.42%

Resnet-50

F1-score 89.27% 90.97% 90.29% 95.06% 91.68% 91.60% 92.82%

Hình 4.1. Kết quả dự đoán của mô hình

Hình 4.2 cho thấy mô hình Vi-Resnet-50 thu được tỷ lệ phân lớp chính

xác là 89.58%. Trong đó một số cảm xúc nhận dạng đạt độ chính cao như

hạnh phúc đạt 92.25%, buồn rầu đạt 93.13% và sợ hãi đạt 90.80%. Tuy nhiên,

có một số cảm xúc đạt tỉ lệ chưa cao như giận dữ đạt 87.14%, ghê tởm đạt

88.41%, bình thường đạt 86,87%. Từ kết quả này cho thấy, nếu chỉ sử dụng

ảnh có thể nhìn thấy để nhận dạng cảm xúc sẽ làm giảm độ chính xác. Bởi vì,

ảnh có thể nhìn thấy còn nhiều hạn chế như nhạy cảm với điều kiện ánh sáng

40

và một số người thường không biểu hiện cảm xúc thật. Mặc dù kết quả nhận

dạng chưa cao nhưng nó phù hợp với những phân tích ban đầu của chúng tôi.

Do vậy, chúng tôi tiếp tục tiến hành thực nghiệm với ảnh nhiệt.

Hình 4.2. Kết quả nhận dạng trên ảnh thường Vi-Resnet-50

Hình 4.3 trình bày kết quả của mô hình Ther-Resnet-50 chạy trên bộ dữ

liệu ảnh nhiệt thu được tỷ lệ phân lớp chính xác là 92.41%, tăng 2.83% so

với ảnh thường và hầu hết các lớp cảm xúc đều tăng, mặc dù có hai cảm xúc

giảm nhưng tỷ lệ giảm rất thấp. Kết quả nhận dạng cảm xúc cho thấy hạnh

phúc đạt 93.93%, cao hơn 1.68% so với Vi-Resnet-50, ghê tởm 94.77%, trong

khi Vi-Resnet-50 chỉ đạt 88.41%, tăng 6.36%, ngạc nhiên đạt 93.27%, tăng

4.81% và tự nhiên đạt 90.38%, tăng 3.5% so với Vi-Resnet-50. Bên cạnh đó

cảm xúc sợ hãi đạt 90.57%, giảm 0.23% và buồn rầu đạt 92.71%, giảm 0.42%

so với Vi-Resnet-50. Từ đó cho thấy, nhiệt độ và cảm xúc của con người có

mối quan hệ mật thiết với nhau. Chúng tôi tin rằng dữ liệu nhiệt là thông tin

41

bổ sung quan trọng để hỗ trợ nhận dạng cảm xúc người chính xác hơn. Do

vậy, chúng tôi tiếp tục thực nghiệm với phương pháp đề xuất là kết hợp ảnh

thường và ảnh nhiệt.

Hình 4.3. Kết quả nhận dạng trên ảnh nhiệt Ther-Resnet-50

Hình 4.4 thể hiện kết quả của mô hình kết hợp ảnh thường và ảnh nhiệt

Fu-Resnet-50. Kết quả cho thấy tỷ lệ phân lớp chính xác là 94.06%. Hầu hết

các cảm xúc đều đạt tỷ lệ cao so với mô hình phân lớp trên ảnh thường hoặc

ảnh nhiệt. Trong đó, hạnh phúc đạt 95.17%, buồn rầu đạt 94.79 %, ngạc nhiên

đạt 94,42%, sợ hãi đạt 94.09%, giận dữ đạt 93.57%, ghê tởm đạt 92.73%

42

Hình 4.4. Kết quả ước lượng cảm xúc kết hợp ảnh thường và ảnh nhiệt Fu-Resnet-50

43

Hình 4.5. So sánh giữa Vi-Resnet-50, Ther- Resnet-50 và Fu-Resnet-50

Như vậy, từ kết quả thu được trong bảng 4.2 và biểu đồ so sánh ở hình

4.5, cho thấy kết quả khi nhận dạng trên phương pháp kết hợp đề xuất cao

hơn so với nhận dạng trên ảnh thường hoặc ảnh nhiệt. Điều đó chứng tỏ vai

trò của từng bộ phân lớp khi kết hợp giúp cho quá trình nhận dạng đạt kết quả

tốt hơn.

4.3.2. So sánh kết quả thực nghiệm với kết quả của phương pháp [32]

Để phân tích, đánh giá kết quả của phương pháp đề xuất với kết quả của

tác giả trong bài báo [32] sử dụng cơ sở dữ liệu KTFE, chúng tôi so sánh kết

quả 5 cảm xúc tương ứng là: giận dữ, sợ hãi, hạnh phúc, bình thường và buồn

rầu.

44

Bảng 4.3. So sánh phân tích với phương pháp [32] trên 5 cảm xúc

Phương pháp Tỷ lệ nhận dạng trung bình

Phương pháp [32] 87.50%

Phương pháp 32

Ther-Resnet-50

96.00

94.00

92.00

90.00

88.00

% Ệ L Ỷ T

86.00

84.00

82.00

80.00

A N G E R

F E A R

H A P P I N E S S

N E U T R A L

S A D N E S S

91.77% Ther-ResNet-50

Hình 4.6. So sánh giữa phương pháp đề xuất và phương pháp [32]

Bảng 4.3 và hình 4.6 cho thấy tỷ lệ nhận dạng trung bình đạt được bằng

phương pháp đề xuất tốt hơn so với các phương pháp trong [32] để ước lượng

cảm xúc trên cùng cơ sở dữ liệu.

4.3.3. So sánh kết quả thực nghiệm với kết quả của phương pháp [36]

Phương pháp được đề xuất trên ảnh nhiệt được so sánh với kết quả thu

được trên cùng một cơ sở dữ liệu KTFE. Với phương pháp [36], các tác giả đề

xuất trích xuất vùng quan tâm - ROI và sử dụng các phương pháp PCA và

EMC. Các ROI tìm thấy cung cấp thông tin hữu ích thực sự khi cảm xúc thay

45

đổi. Nó xác định các khu vực nơi nhiệt độ tăng hoặc giảm đáng kể khi cảm

xúc thay đổi và tập trung ở trán, xung quan mắt, gò má và hàm trên. Bảng 4.4

và hình 4.7 cho thấy hiệu suất đạt được bằng phương pháp đề xuất tốt hơn so

với các phương pháp khác. Bởi vì chúng tôi đã sử dụng mô hình mạng học

sâu và áp dụng kỹ thuật học chuyển giao để trích xuất đặc trưng tự động nên

thu được nhiều thông tin hữu ích hơn.

Bảng 4.4. So sánh phân tích với phương pháp [36]

Phương pháp Tỷ lệ nhận dạng trung bình

90.42% Phương pháp [36]

phương pháp [35]

Ther-Resnet-50

100

98

96

94

92

90

% Ệ L Ỷ T

88

86

84

82

80

G I Ậ N D Ữ G H Ê T Ở M S Ợ H Ã I

B U Ồ N R Ầ U

B Ì N H T H Ư Ờ N G

H Ạ N H P H Ú C

N G Ạ C N H I Ê N

AXIS TITLE

92.44% Ther-ResNet-50

Hình 4.7. So sánh giữa phương pháp đề xuất và phương pháp [36]

Như vậy, trên cơ sở dữ liệu KTFE thì phương pháp đề xuất của chúng tôi

có tỷ lệ nhận dạng trung bình cao hơn so với phương pháp trong bài báo [36].

46

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong luận văn này, chúng tôi giới thiệu phương pháp ước lượng cảm

xúc của con người dựa trên kết hợp hình ảnh thường và hình ảnh nhiệt nhằm

khắc phục ảnh hưởng của ánh sáng môi trường và giảm tác động của những

đối tượng ít thể hiện cảm xúc ra bên ngoài. Ngoài ra chúng tôi đã sử dụng kỹ

thuật học chuyển giao với mạng đã được học trước trên bộ dữ liệu lớn và áp

dụng vào bài toán của mình nhằm giảm thời gian học và tăng độ chính xác

cho từng bộ phân lớp.

Chúng tôi đã đưa ra một hàm tính toán sự kết hợp ước lượng cảm xúc

trên ảnh thường và ảnh nhiệt để tăng kết quả ước lượng.

Các thuật toán được kiểm tra trên cơ sở dữ liệu KTFE. Bảy cảm xúc cơ

bản: giận dữ, ghê tởm, sợ hãi, hạnh phúc, buồn rầu, ngạc nhiên và bình

thường được nhận dạng với độ chính xác cao là: 89.58%, 92.41% và 94.06%

tương ứng cho: Vi-Resnet-50, Ther-Resnet-50 và Fu-Resnet-50.

Kết quả cho thấy rằng nhiệt độ và cảm xúc có mối liên quan chặt chẽ với

nhau. Sử dụng thông tin nhiệt độ sẽ tăng tính chính xác cho nhận dạng cảm

xúc con người.

Bên cạnh những kết quả đã đạt được, còn có những vấn đề mà thời điểm

hiện tại luận văn chưa thực hiện:

- Chưa kết hợp các phương pháp rút trích đặc trưng truyền thống và kết

hợp với mô hình học sâu nhằm so sánh kết quả với phương pháp rút trích đặc

trưng tự động của mô hình học sâu.

- Chưa thực nghiệm với các mô hình mạng khác như ZF Net (2013),

VGG Net (2014), Densenet(2016), v.v.

Trong tương lai, chúng tôi tiếp tục nghiên cứu thêm về mối quan hệ giữa

biểu hiện của người và cảm xúc cũng như mối quan hệ giữa nhiệt độ và cảm

xúc. Chúng tôi sẽ tiếp tục cải thiện công thức kết hợp các bộ phân lớp để đóng

góp kết quả tốt hơn. Thêm vào đó có thể mở rộng kết hợp các nguồn thông tin

47

khác về cảm xúc như âm thanh, text để có thêm nhiều thông tin trong nhận

dạng cảm xúc hơn. Từ những kiến thức đó, chúng tôi sẽ xây dựng ứng dụng

thực tế có thể hỗ trợ tương tác giữa con người và máy tính tốt hơn.

48

CÔNG TRÌNH CÔNG BÔ

Bài báo khoa học: N. Tran, K. Tran, D. Nguyen, H. Nguyen “A Method

to Combine Thermal and Visible images for Human Emotions Detection” đã

được chấp nhận trình bày tại hội nghị 4th International Conference on

Advanced Engineering and ICT-Convergence 2020 (ICAEIC-2020).

Bài báo khoa học: N. Nguyen, N. Tran, H. Nguyen, et al. “A

Spontaneous Visible and Thermal Facial Expression of Human Emotion

Database” đã được trình bày tại hội nghị the 2019 6th NAFOSTED

Conference on Information and Computer Science (NICS).

49

TÀI LIỆU THAM KHẢO

[1] C. Bartneck.: How convincing is Mr. Datas smile: Affective

expressions of machines", User Modeling and User-Adapted Interaction, vol.

11, pp. 279-295 (2001).

[2] R.A. Brooks.: Flesh and Machines: How Robots will change us,

Pantheon Books, New York (2002).

[3] R.W. Picard.: Affective Computing, MA: MIT Press (2000).

[4] A. Mehrabian.: Nonverbal communication, Transaction Publishers

(1977).

[5] I. Cohen, N. Sebe, A. Garg, L.S. Chen, T.S. Huang.: Facial

expression recognition from video sequences: temporal and static modeling,

Journal of Computer Vision and Image Understanding, no. 91, pp. 160-187

(2003).

[6] Z. Liu and S. Wang.: Emotion recognition using Hidden Markov

Model from facial temperature sequence, LNCS 6975, pp.240-247 (2011).

[7] B. Martinez, M. Valstar, B. Jiang, and M. Pantic.: Automatic

analysis of facial actions: A survey, IEEE Transactions on Affective

Computing 2017.

[8] H. Nguyen, K. Kotani, F. Chen, and B. Le, A thermal facial emotion

database and its analysis, in PSIVT, 2014, pp. 397–408.

[9] C.Ciprian, O. Marc, C. Jeffrey, and E. Sergio.: Survey on RGB, 3D,

Thermal, and Multimodal Approaches for Facial Expression Recognition:

History, Trends, and Affect-related Applications, IEEE Transactions On

Pattern Analysis And Machine Intelligence, 2016.

[10] S. Evangelos, G. Hatice, and C. Andrea.: Automatic Analysis of

Facial Affect: A Survey of Registration, Representation, and Recognition,

IEEE Transactions On Pattern Analysis And Machine Intelligence 2015.

50

[11] P. Ekman, V. Friesen, “Facial action coding system: a technique for

the measurement of facial movement”, Rivista Di Psichiatria 47 (2), pp. 126–

138, 1978.

[12] H. Choi, S.Y. Oh, “Realtime Facial Expression Recognition Using

Active Appearance Model and Multilayer Perceptron”, in Proceedings of the

International Joint Conference SICE-ICASE, Busan, Korea, pp. 5924–5927,

October 2006.

[13] A. Asthana, J. Saragih, M. Wagner, R. Goecke, “Evaluating AAM

Fitting Methods for Facial Expression Recognition”, in Proceedings of the

International Conference on Affective Computing and Intelligent Interaction,

Amsterdam, The Netherlands; pp. 1–8, September 2009.

[14] N. Sebe, M.S. Lew, Y. Sun, I. Cohen, T. Gevers, T.S. Huang,

“Authentic facial expression analysis”. Image Vision Comput, pp.1856–1863,

2007.

[15] Y. Chang, C. Hu, R. Feris, M. Turk, “Manifold based analysis of

facial expression”. Image Vision Comput, pp.605–614, 2006.

[16] S. Moore, R. Bowden, “Local binary patterns for multi-view facial

expression recognition”. Computer Vision Image Underst, pp.541–558, 2011

[17] D. Ghimire, J. Lee, “Histogram of orientation gradient feature-

based facial expression classification using bagging with extreme learning

machine”. Adv. Sci. Lett, pp.156–161, 2012.

[18] A. Dhall, A. Asthana, R. Goecke, T. Gedeon, “Emotion Recognition

Using PHOG and LPQ Features”. In Proceedings of the IEEE International

Conference on Face and Gesture Recognition and Workshop, Santa Barbara,

CA, USA, pp. 878–883, 2011.

[19] T. Jabid, H. Kabir, O. Chae, “Robust facial expression recognition

based on local directional pattern”. ETRI J, pp.784–794, 2010.

51

[20] I. Kotsia, I. Buciu, I. Pitas, “An analysis of facial expression

recognition under partial facial image occlusion”. Image Vision Comput,

pp.1052–1067, 2008.

[21] D.T. Lin, “Facial expression classification using PCA and

hierarchical radial basic function network”. J. Inf. Sci. Eng, pp.1033–1046,

2006.

[22] Z. Wang, Q. Ruan, “Facial Expression Recognition Based

Orthogonal Local Fisher Discriminant Analysis”. In Proceedings of the

International Conference on Signal Processing (ICSP), Beijing, China, pp.

1358–1361, 2010.

[23] T.J. Phillips, “High performance thermal imaging technology",

Advanced Semiconductor Magazine, vol. 15, no. 7, pp. 32-36, 2002.

[24] S. Ioannou, V. Gallese, A. Merla, “Thermal infrared imaging

inpsychophysiology: potentialities and limits”, Psychophysiology 51 pp.951–

963, 2014.

[25] L. Trujillo, G. Olague, R. Hammoud, B. Hernandez. “Automatic

feature localization in thermal images for facial expression recognition",

IEEE Computer Society Conference on Computer Vision and Pattern

Recognition-Workshops, CVPR Workshops, p. 14, 2005.

[26] A. Di Giacinto, M. Brunetti, G. Sepede, A. Ferretti, A. Merla,

“Thermal signature of fear conditioning in mild post traumatic stress

disorder”, Neuroscience 266, pp.216–223, 2014.

[27] B. Hern´andez, G. Olague, R. Hammoud, L. Trujillo, E. Romero.

“Visual learning of texture descriptors for facial expression recognition in

thermal imagery", Computer Vision and Image Understanding, vol. 106,

2007.

[28] Z. Liu and S. Wang. “Emotion recognition using Hidden Markov

Model from facial temperature sequence", LNCS 6975, pp.240-247, 2011.

52

[29] H. Nguyen, K. Kotani, F. Chen, B. Le, “Fusion of Visible Images

and Thermal Image Sequences for Automated Facial Emotion Estimation”,

Journal of Mobile Multimedia, Vol. 10, No. 3&4, pp.294-308, 2014.

[30] B.R. Nhan and T. Chau.: “Classifying affective states using thermal

infrared imaging of the human face", IEEE Transactions on Biomedical

Engineering, vol. 57, pp. 979987, 2010.

[31] H. Shan, S. Wang, W. Lan, H. Fu, Q. Ji, “Facial Expression

Recognition using Deep Boltzmann Machine from Thermal Infrared Images”,

Humaine Association Conference on Affective Computing and Intelligent

Interaction, pp.239-244, 2013.

[32] A. Basu, A. Routray, S. Shit, A. Deb, “Human Emotion

Recognition from Facial Thermal Image based on Fused Statistical Feature

and Multi-Class SVM”, IEEE INDICON, pp.1-5, 2015.

[33] S. Wang, S. He, Y. Wu, M. He, and Q. Ji, “Fusion of visible and

thermal images for facial expression recognition,” Front. Comput. Sci., vol. 8,

no. 2, pp. 232–242, 2014.

[34] A. Basu, A. Dasgupta, A. Thyagharajan, A. Routray, R. Guha, and

P. Mitra, “A portable personality recognizer based on affective state

classification using spectral fusion of features,” IEEE Trans.Affect. Comput,

2018.

[35] S. Wang, B. Pan, H. Chen and Q. Ji, "Thermal Augmented

Expression Recognition", in IEEE Transactions on Cybernetics, vol. 48, no. 7,

pp. 2203-2214, July 2018.

[36] T. Nguyen, K. Tran, H. Nguyen, “Towards Thermal Region of

Interest for Human Emotion Estimation”, 10th International Conference on

Knowledge and Systems Engineering, KSE 2018, pp.1-6, 2018.

[37] Lucey P, Cohn JF, Kanade T, Saragih J, Ambadar Z, Matthews I,

“The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action

53

unit and emotion-specified expression”, In: IEEE Computer Society

Conference on Computer Vision and Pattern Recognition Workshops

(CVPRW), pp. 94-101, 2010.

[38] I Goodfellow, D Erhan, PL Carrier, A Courville, M Mirza, B

Hamner, W Cukierski, Y Tang, DH Lee, Y Zhou, C Ramaiah, F Feng, R Li,

X Wang, D Athanasakis, J Shawe-Taylor, M Milakov, J Park, R Ionescu, M

Popescu, C Grozea, J Bergstra, J Xie, L Romaszko, B Xu, Z Chuang, and Y

Bengio, "Challenges in Representation Learning: A report on three machine

learning contests." arXiv 2013.

[39] Ebner NC, Riediger M, Lindenberger U, “Faces-A database of

facial expressions in young, middle-aged, and older women and men:

Development and validation”, in Behavior Research Methods, vol. 42, no. 1,

pp. 351-362, 2010.

[40] S. Mohammad Mavadati, Mohammad H. Mahoor, Kevin Bartlett,

Philip Trinh, effrey F. Cohn, “DISFA: A spontaneous facial action intensity

database”, Article (PDF Available) in IEEE Transactions on Affective

Computing, vol. 4, no. 2, 151-160, April 2013.

[41] Dhall A, Goecke R, Lucey S, Gedeon T, “Acted facial expressions

in the wild database”, Australian National University, Canberra.,Technical

Report TR-CS-11, 2, 2011.

[42] Rosas VP, Mihalcea R, Morency L-P, “Multimodal sentiment

analysis of Spanish online videos”, IEEE Intelligent Systems, vol 28, no. 3,

pp. 38-45, 2013.

[43] S. Wang, Z. Liu, S. Lv, Y. Lv, G. Wu, P. Peng, F. Chen, X. Wang,

“A Natural Visible and Infrared Facial Expression Database for Expression

Recognition and Emotion Inference”, IEEE Transactions on Multimedia, vol.

12, no. 7, pp. 682-691, 2010.

[44] http://vcipl-okstate.org/pbvs/bench/.

54

[45] http://www.equinoxsensors.com/.

[46] https://en.wikipedia.org/wiki/Thermal_radiation/.

[47] https://www.freecodecamp.org/news/an-intuitive-guide-to-

convolutional-neural-networks-260c2de0a050/.

[48] Website CS231n Convolutional Neural Networks for Visual

Recognition at http://cs231n.github.io/convolutional-networks/.

[49] https://livebook-qa.manning.com/book/grokking-deep-learning-for-

computer-vision/chapter-3/v-1/97.

[50] He, K., Zhang, X., Ren, S., Sun, J. “Deep residual learning for

image recognition”. In: CVPR. 2016.

[51] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Fei-Fei

L. “ImageNet Large Scale Visual Recognition Challenge”. International

Journal of Computer Vision, vol 115, no. 3, pp. 211–252, 2015.