
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
ĐỖ HỒNG QUÂN
XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHUÔN MẶT
SỬ DỤNG HỌC SÂU
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
Hà Nội - NĂM 2023

Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: GS. TS. Từ Minh Phương
(Ghi rõ học hàm, học vị)
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.

1
MỞ ĐẦU
1. Lý do chọn đề tài
Bài toán xác định trạng thái biểu cảm khuôn mặt (tên tiếng Anh là Facial
Expression Reconigtion, viết tắt là FER) thuộc lớp các bài toán khai phá dữ liệu từ
ảnh và video. Nhận đầu vào là dữ liệu ảnh hoặc video, bài toán đầu tiên sẽ phát hiện
các khuôn mặt có trong hình/video, sau đó phân loại trạng thái khuôn mặt thành các
bảy loại cảm xúc cơ bản là: giận dữ, ghê rợn, sợ hãi, hạnh phúc, bình thường, buồn
bã và ngạc nhiên. Đây là bài toán có thể áp dụng rộng rãi trong một số lĩnh vực như
tư vấn chăm sóc khách hàng, giáo dục thông minh, dịch vụ công trong đó các hệ
thống camera có thể phân tích hành vi, mức độ hài lòng của đối tượng.
Trong nhiều năm gần đây, các kỹ thuật học sâu đã trở thành phương pháp
chính được sử dụng trong bài toán xác định trạng thái biểu cảm khuôn mặt. Tuy
nhiên đa số các mô hình học sâu phụ thuộc lớn vào các phép tích chập để trích xuất
các đặc trưng hình ảnh quan trọng từ đầu vào. Một số công trình đã đề xuất cách mở
rộng hoặc xếp chồng các lớp nơ-ron tích chập để cải thiện hiệu suất nhận dạng, như
AlexNet (Krizhevsky, et al., 2012), VGGNet (Simonyan & Zisserman, 2014),
ResNet (He, et al., 2016), và EfficientNet (Tan & Le, 2019). Mặc dù điều này đã
mang lại hiệu suất cải thiện, nhưng cũng dẫn đến kích thước mô hình lớn hơn và
thời gian suy luận lâu hơn.
Để vượt qua thách thức này, học viên lựa chọn nghiên cứu đề tài: “Xác định
trạng thái biểu cảm khuôn mặt sử dụng học sâu”. So với các nghiên cứu liên
quan khác, học viên tập trung tìm hiểu và xây dựng mô hình học sâu nhẹ hay nhỏ
gọn (Lightweight model), tức là mô hình có số lượng tham số ít, nhưng vẫn đạt
được hiệu suất tương đối tốt trên các bộ dữ liệu FER. Học viên nhận thấy rằng việc
xây dựng một mô hình nhỏ gọn có thể mang lại lợi ích rất lớn, bao gồm tốc độ dự
đoán nhanh, khả năng triển khai trên các thiết bị có tài nguyên hạn chế và giảm
thiểu tốn kém về thời gian huấn luyện và không gian lưu trữ. Để đánh giá hiệu quả
của mô hình đề xuất, học viên tiến hành các thực nghiệm trên một số bộ dữ liệu

2
công khai và phổ biến về xác định trạng thái biểu cảm, từ đó đưa ra những so sánh
với các mô hình học sâu nhỏ gọn ít tham số khác gần đây.
2. Mục đích nghiên cứu
Trong công việc này, học viên nghiên cứu một số mô hình học sâu tiên tiến
gần đây áp dụng cho bài toán xác định trạng thái biểu cảm khuôn mặt và từ đó đưa
ra đề xuất về một mạng học sâu nhỏ gọn với số lượng ít tham số. Mô hình đề xuất
tích hợp ba yếu tố quan trọng là: Tích chập phân tách theo chiều sâu, Khối phần dư
dư và Mô-đun chú ý theo kênh và về không gian. Mục tiêu của việc tích hợp các
yếu tố này là đạt được sự cân bằng giữa kích thước mô hình, tốc độ suy luận và độ
chính xác trong nhiệm vụ xác định trạng thái biểu cảm khuôn mặt (FER). Điều này
mở ra cơ hội triển khai hiệu quả ứng dụng FER thời gian thực trên các thiết bị có bộ
nhớ hạn chế. Để đánh giá hiệu quả của phương pháp đề xuất, học viên tiến hành
thực nghiệm trên các bộ dữ liệu FER công khai phổ biến, bao gồm FER2013
(Goodfellow, et al., 2013), CK+ (Lucey, et al., 2010), FER-Plus (Barsoum, et al.,
2016), RAF-DB (Li, et al., 2017); và so sánh kết quả với các công trình liên quan.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng:
o Bài toán xác định trạng thái biểu cảm khuôn mặt.
o Một số kiến trúc học sâu hiện đại như MobileNet (Howard, et al., 2017),
Resnet (He, et al., 2016)
o Phép toán tích chập và Tích chập phân tách theo chiều sâu
o Một số cơ chế chú ý trong thị giác máy tính, bao gồm chú ý kênh và chú ý
không gian.
o Khối phần dư
- Phạm vi nghiên cứu:
o Nghiên cứu tổng quan bài toán xác định trạng thái biểu cảm khuôn mặt.
o Nghiên cứu chi tiết về hướng tiếp cận học sâu để giải quyết bài xác định
trạng thái biểu cảm khuôn mặt
o Nghiên cứu đề xuất mô hình học sâu nhỏ gọn ít tham số

3
o Cài đặt thực nghiệm trên một số bộ dữ liệu công khai phổ biến. Phân tích và
đánh giá kết quả.
4. Phương pháp nghiên cứu
- Thu thập tài liệu, phân tích lý thuyết tổng quan về bài toán xác định trạng thái
biểu cảm khuôn mặt
- Tìm kiếm và thu thập các bộ dữ liệu FER công khai.
- Tìm hiểu các mô hình học sâu áp dụng trong bài toán xác định trạng thái biểu
cảm khuôn mặt. Kế thừa các công trình nghiên cứu liên quan đã thực hiện và
công bố trên các tạp chí cũng như kỷ yếu trong nước và quốc tế.
- Đề xuất mô hình, triển khai thực nghiệm trên các bộ dữ liệu công khai, so sánh
và đánh giá kết quả.
5. Kết cấu của đề án
Ngoài phần mở đầu, kết luân, tài liệu tham khảo, và phụ lục, nội dung chính
của đề án tốt nghiệp được trình bày trong các chương sau.
- Chương 1 trình bày tổng quan về trạng thái biểu cảm khuôn mặt và bài toán xác
định trạng thái biểu cảm khuôn mặt. Giới thiệu chung về nguyên tắc chung xử lý bài
toán xác định trạng thái biểu cảm khuôn mặt, lược khảo tài liệu và các nghiên cứu
liên quan.
- Chương 2 trình bày chi tiết về mô hình đề xuất. Mô hình mà học viên đề xuất sử
dụng ba yếu tố: Tích chập phân tách theo chiều sâu, khối dư thừa, và các mô-đun
chú ý không gian và kênh.
- Chương 3 phân tích một số bộ dữ liệu công khai được sử dụng trong bài toán xác
định trạng thái biểu cảm khuôn mặt; cung cấp tổng quan về các thiết lập thử nghiệm
của học viên; thực nghiệm và đánh giá kết quả thực nghiệm đạt được, so sánh với
các công trình liên quan.

