HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
ĐỖ HỒNG QUÂN
XÁC ĐỊNH TRẠNG THÁI BIỂU CẢM KHUÔN MẶT
SỬ DỤNG HỌC SÂU
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
Hà Nội - NĂM 2023
Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: GS. TS. Từ Minh Phương
(Ghi rõ học hàm, học vị)
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.
1
M ĐẦU
1. Lý do chọn đề tài
Bài toán xác đnh trng thái biu cm khuôn mt (tên tiếng Anh Facial
Expression Reconigtion, viết tt FER) thuc lp các bài toán khai phá d liu t
nh và video. Nhận đầu vào là d liu nh hoặc video, bài toán đầu tiên s phát hin
các khuôn mt trong hình/video, sau đó phân loại trng thái khuôn mt thành các
by loi cảm xúc bn là: gin d, ghê rn, s hãi, hạnh phúc, bình thưng, bun
bã và ngc nhiên. Đây là bài toán có th áp dng rng rãi trong mt s lĩnh vực như
vấn chăm sóc khách hàng, giáo dc thông minh, dch v công trong đó các hệ
thng camera có th phân tích hành vi, mc đ hài lòng ca đi tưng.
Trong nhiu năm gần đây, các kỹ thut học sâu đã trở thành phương pháp
chính đưc s dụng trong bài toán xác định trng thái biu cm khuôn mt. Tuy
nhiên đa số các hình hc sâu ph thuc ln vào các phép tích chập để trích xut
các đặc trưng hình nh quan trng t đầu vào. Mt s công trình đã đề xut cách m
rng hoc xếp chng các lớp -ron tích chập để ci thin hiu sut nhn dạng, như
AlexNet (Krizhevsky, et al., 2012), VGGNet (Simonyan & Zisserman, 2014),
ResNet (He, et al., 2016), EfficientNet (Tan & Le, 2019). Mặc điều này đã
mang li hiu sut ci thiện, nhưng cũng dẫn đến kích thước hình lớn hơn
thi gian suy luận lâu hơn.
Để vượt qua thách thc này, hc viên la chn nghiên cứu đề tài: “Xác định
trng thái biu cm khuôn mt s dng hc sâu”. So với các nghiên cu liên
quan khác, hc viên tp trung m hiu y dng nh hc sâu nh hay nh
gn (Lightweight model), tc hình s ng tham s ít, nhưng vẫn đạt
được hiu suất tương đi tt trên các b d liu FER. Hc viên nhn thy rng vic
xây dng mt hình nh gn th mang li li ích rt ln, bao gm tốc độ d
đoán nhanh, kh năng triển khai trên các thiết b tài nguyên hn chế gim
thiu tn kém v thi gian hun luyn không gian lưu trữ. Để đánh giá hiệu qu
của hình đề xut, hc viên tiến hành các thc nghim trên mt s b d liu
2
công khai ph biến v xác định trng thái biu cm, t đó đưa ra những so sánh
vi các mô hình hc sâu nh gn ít tham s khác gần đây.
2. Mục đích nghiên cứu
Trong công vic này, hc viên nghiên cu mt s hình hc sâu tiên tiến
gần đây áp dụng cho bài toán xác đnh trng thái biu cm khuôn mt t đó đưa
ra đề xut v mt mng hc sâu nh gn vi s ng ít tham s. hình đề xut
tích hp ba yếu t quan trng là: Tích chp phân tách theo chiu sâu, Khi phần
-đun chú ý theo kênh về không gian. Mc tiêu ca vic tích hp các
yếu t này đạt được s cân bng gia kích thước hình, tốc độ suy luận độ
chính xác trong nhim v xác định trng thái biu cm khuôn mặt (FER). Điều này
m ra cơ hội trin khai hiu qu ng dng FER thi gian thc trên các thiết b có b
nh hn chế. Để đánh giá hiệu qu của phương pháp đề xut, hc viên tiến hành
thc nghim trên các b d liu FER công khai ph biến, bao gm FER2013
(Goodfellow, et al., 2013), CK+ (Lucey, et al., 2010), FER-Plus (Barsoum, et al.,
2016), RAF-DB (Li, et al., 2017); và so sánh kết qu vi các công trình liên quan.
3. Đối tượng và phm vi nghiên cu
- Đối tượng:
o Bài toán xác định trạng thái biểu cảm khuôn mặt.
o Một số kiến trúc học sâu hiện đại như MobileNet (Howard, et al., 2017),
Resnet (He, et al., 2016)
o Phép toán tích chập và Tích chập phân tách theo chiều sâu
o Một số cơ chế chú ý trong thị giác y tính, bao gồm chú ý kênh chú ý
không gian.
o Khối phần dư
- Phạm vi nghiên cứu:
o Nghiên cứu tổng quan bài toán xác định trạng thái biểu cảm khuôn mặt.
o Nghiên cứu chi tiết về ớng tiếp cận học sâu để giải quyết bài xác định
trạng thái biểu cảm khuôn mặt
o Nghiên cứu đề xuất hình học sâu nhỏ gọn ít tham số
3
o Cài đặt thực nghiệm trên một số bộ dữ liệu công khai phổ biến. Phân tích
đánh giá kết quả.
4. Phương pháp nghiên cứu
- Thu thập tài liệu, phân tích thuyết tổng quan về bài toán xác định trạng thái
biểu cảm khuôn mặt
- Tìm kiếm và thu thập các bộ dữ liệu FER công khai.
- Tìm hiểu các hình học sâu áp dụng trong bài toán xác định trạng thái biểu
cảm khuôn mặt. Kế thừa các công trình nghiên cứu liên quan đã thực hiện
công bố trên các tạp chí cũng như kỷ yếu trong nước và quốc tế.
- Đề xuất hình, triển khai thực nghiệm trên các bộ dữ liệu công khai, so sánh
và đánh giá kết quả.
5. Kết cu ca đề án
Ngoài phn m đầu, kết luân, tài liu tham kho, ph lc, ni dung chính
ca đ án tt nghiệp đưc trình bày trong các chương sau.
- Chương 1 trình bày tng quan v trng thái biu cm khuôn mt bài toán xác
định trng thái biu cm khuôn mt. Gii thiu chung v nguyên tc chung x lý bài
toán xác định trng thái biu cm khuôn mặt, lược kho tài liu các nghiên cu
liên quan.
- Chương 2 trình bày chi tiết v hình đề xut. hình học viên đề xut s
dng ba yếu t: Tích chp phân tách theo chiu sâu, khối thừa, các mô-đun
chú ý không gian và kênh.
- Chương 3 phân tích một s b d liệu công khai được s dng trong bài toán xác
định trng thái biu cm khuôn mt; cung cp tng quan v các thiết lp th nghim
ca hc viên; thc nghim đánh giá kết qu thc nghiệm đạt được, so sánh vi
các công trình liên quan.