Mô hình mạng nơ-ron tích chập thể nhẹ dựa trên kiến trúc Densenet cho nhận dạng biểu cảm khuôn mặt và ứng dụng hỗ trợ đánh giá quá trình học tập trực tuyến

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:14

Thêm vào BST

Báo xấu

14
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này đề xuất một mô hình CNN thể nhẹ dựa trên kiến trúc kết nối dày đặc của mô hình DenseNet với độ phức tạp vừa phải nhưng vẫn đảm bảo chất lượng và hiệu quả cho nhận dạng cảm xúc trên khuôn mặt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Mô hình mạng nơ-ron tích chập thể nhẹ dựa trên kiến trúc Densenet cho nhận dạng biểu cảm khuôn mặt và ứng dụng hỗ trợ đánh giá quá trình học tập trực tuyến

1 LIGHTWEIGHT DENSE-BASED CNN MODEL FOR FACIAL EXPRESSION RECOGNITION AND APPLICATION FOR ONLINE LEARNING EVALUATION Dương Thăng Long*, Đỗ Thị Thu Hà†, Trần Văn Nam‡ Ngày tòa soạn nhận được bài báo: 04/10/2022 Ngày nhận kết quả phản biện đánh giá: 04/04/2023 Ngày bài báo được duyệt đăng: 28/04/2023 Tóm tắt: Mạng nơ-ron tích chập (CNN) được áp dụng cho nhận dạng cảm xúc trên khuôn mặt đang được quan tâm nghiên cứu của nhiều tác giả với những kết quả rất khả quan và có các ứng dụng thành công. Các mô hình CNN hiện đại được thiết kế với các kiến trúc đa dạng như VGG, ResNet, Xception, EfficientNet, DenseNet và các biến thể của chúng được áp dụng rộng rãi cho các bài toán nhận dạng hình ảnh, trong đó có nhận dạng biểu cảm khuôn mặt. Tuy nhiên, các mô hình này có độ phức tạp khá lớn đối với một số ứng dụng trong thực tế hạn chế về tài nguyên tính toán. Bài báo này đề xuất một mô hình CNN thể nhẹ dựa trên kiến trúc kết nối dày đặc của mô hình DenseNet với độ phức tạp vừa phải nhưng vẫn đảm bảo chất lượng và hiệu quả cho nhận dạng cảm xúc trên khuôn mặt. Chúng tôi cũng thiết kế tích hợp mô hình này với hệ thống LMS nhằm hỗ trợ ghi nhận và đánh giá quá trình học tập trực tuyến của người học. Mô hình đề xuất được thử nghiệm để đánh giá trên một số bộ dữ liệu phổ biến, kết quả cho thấy mô hình đem lại hiệu quả và có thể được sử dụng trong thực tế. Từ khoá: Mạng nơron tích chập, kiến trúc mạng DenseNet, nhận dạng biểu cảm khuôn mặt, hệ thống quản lý học tập trực tuyến. Abstract: Convolutional neural networks (CNN) for facial emotion recognition (FER) are being studied by many authors with very positive results and successful applications. State- of-the-art CNN models with diverse architectures such as VGG, ResNet, Xception, EfficientNet, and DenseNet and their variations are widely applied to many image recognition problems, * Trường Đại học Mở Hà Nội † Trường THPT Trần Nhân Tông, Hà Nội ‡ IT-VNEH, Vietnam National Eye Hospital
2 including FER. However, these models have considerable complexity for some real-world applications with limited computational resources. This paper proposes a lightweight CNN model based on DenseNet architectures with moderate complexity but still ensures quality and efficiency for facial emotion recognition. Then, it is designed to be integrated into LMS for recording and evaluating online learning activities. The proposed model is tested to assess some popular datasets; the results show that the model is effective and can be used in practice. Keywords: Convolutional neural network, DenseNet architecture, facial expressions recognition, online learning management systems. I. Đặt vấn đề chuyển động trên khuôn mặt như lôngmày Nhận dạng biểu cảm khuôn mặt nhướng lên, lông mày khóa và khóe miệng (FER) đang rất được quan tâm nghiên cứu di chuyển ra ngoài hay mở ra, đóng vào rộng rãi hiện nay và nó có tính ứng dụng được coi là những đơn vị thay đổi cơ bản cao trong lĩnh vực thị giác máy tính. Biểu của nét mặt. Tuy nhiên, các biểu cảmtrên cảm trên khuôn mặt của con người đóng khuôn mặt của mọi người có sự thay đổi một vai trò quan trọng trong bất kỳ giao đột xuất và các biểu cảm được thể hiệnbởi tiếp giữa các cá nhân với nhau, nó có thể các khuôn mặt khác nhau cũng khác nhau giúp người khác hiểu được cảm xúc hoặc ở mỗi người. Những yếu tố này tác động thậm chí ý định của một người, khiến nó lớn đến hoạt động và hiệu quả của bất kỳ trở thành một yếu tố giao tiếp không thể hệ thống FER nào bao gồm các kỹ thuật thiếu trong tương tác giữa con người với thị giác máy tính. Hệ thống cơ sở dữliệu về nhau. Với sự phát triển của công nghệ thị các biểu cảm trên khuôn mặt đượccác tác giác máy tính và ứng dụng thực tế của nó, giả thiết lập, mô tả chi tiết của từng biểu các kết quả của các nghiên cứu khác nhau cảm, đặt nền tảng cho việc giải quyếtbài về nhận dạng biểu cảm trên khuôn mặt toán FER. Hiện nay, các bộ cơ sở dữ liệu (Facial Expression Recognition - FER) cho nghiên cứu về FER được côngbố cho thấy các phương pháp này không chỉ khá nhiều như CK+, JAFFE, Oulu- cho kết quả chính xác cao mà còn có thể CASIA (đề cập trong [1], [2]) và chúng tiết kiệm chi phí nhân lực một cách hiệu được nhiều tác giả sử dụng để đánh giá cho quả trong ứng dụng thực tế, như trong kết quả các mô hình FER. các lĩnh vực giao diện người-máy, hoạt Phương pháp cho bài toán FER sử hình, xe tự hành, giao thông, y học và giáo dụng các kỹ thuật xử lý ảnh và học máy dục [1]. truyền thống như kỹ thuật biến đổi đối Trong [2] đề cập việc Ekman và tượng bất biến theo tỷ lệ (SIFT), biểuđồ Friesen xác định sáu biểu cảm cơ bản histogram (HOG) hay phân tích local chung của con người mà họ tin rằng đều binary patterns (LBP) [2] đều dựa trên hai xuất hiện ở tất cả mọi người bất kể quốc loại đặc trưng cục bộ và đặc trưng toàn cục gia, dân tộc hay tôn giáo nào. Sáu biểu (theo hình học). Các đặc trưng cho biểu cảm gồm hạnh phúc (Ha), buồn bã (Sa), cảm khuôn mặt sau khi được trích xuất sẽ ngạc nhiên (Su), ghê tởm (Di), tức giận sử dụng làm đầu vào cho bộ phân lớp như (An) và sợ hãi (Fe). Các bộ phận thay đổi, BP, SVM [2] để phân loại và thu được kết
3 quả nhận dạng cuối cùng. Tuy nhiên, các Trong đó, kiến trúc DenseNet [7] phương pháp truyền thống này đạt hiệu cung cấp mô hình nhẹ hơn với bộ tham quả thấp do sự khác biệt, thay đổi lớn của số huấn luyện khá nhỏ và cho kết quả tốt hình ảnh đối với các góc chụp khác nhau hơn, nó cũng được nhiều tác giả sử dụng và do tính đơn giản của kiến trúc mô hình như một mạng xương sống cho các mô nhận dạng. Gần đây, việc sử dụng công hình CNN [8], [9], [5]. Kiến trúc này có nghệ học sâu với mạng nơ-ron tích chập lưới kết nối dày đặc được thiết kế để tăng (CNN) được phát triển mạnh mẽ và mang khả năng chuyển tải thông tin từ lớp nơron lại hiệu quả cao [2]- [3], nhiều đặc trưng phía trước đến các lớp nơron phía sau và ẩn sâu trong hình ảnh có thể được trích sử dụng tốc độ tăng trưởng thông tin để xuất dựa trên huấn luyện mô hình CNN để thiết lập mức độ đóng góp của mỗi lớp vào tạo ra một hệ thống FER mạnh mẽ. Do đó, trạng thái toàn cục của mô hình. Cụ thể, chúng rất ổn định đối với các hình ảnh với trong mỗi khối của kiến trúc này (gọi là vị trí khuôn mặt có góc chụp và thay đổi khối kết nối dày đặc, dense block) gồm tỷ lệ khác nhau [4]. Có khá nhiều mô hình một số lớp nơron có kết nối dày đặc, tức là CNN khác nhau cho bài toán FER đã được lớp nơron phía trước kết nối trực tiếp đến đề xuất trong các nghiên cứu dựa trên tất cả các lớp nơron phía sau trong khối, các kiến trúc hiện đại như VGG, SENet, cuối mỗi khối có lớp nơron đóng vai trò Xception [5], GoogleNet, ResNet [2] hay chuyển tiếp thông tin (transition layers) EfficientNet [6]. đến khối tiếp theo (Hình 1.1). Hình 1.1. Minh họa kiến trúc DenseNet [7] Mặc dù hầu hết các kiến trúc mô dụng mô hình của ứng dụng. Do đó, một hình CNN được đề xuất đạt hiệu quả cao số nghiên cứu đề xuất sử dụng mô hình nhưng chúng có cấu trúc rất phức tạp, chi CNN ở thể nhẹ [10], [9], [11], [12], [13], phí tính toán cao và đòi hỏi hệ thống tính [4] nhằm phù hợp với các trường hợp ứng toán lớn trong cả huấn luyện mô hình và sử dụng hạn chế về hệ thống tính toán nhưng
4 vẫn đảm bảo được hiệu quả của mô hình, mô hình khác để đánh giá hiệu quả. Cuối đặc biệt mô hình có thể thực thi trên môi cùng, Phần 4 là nội dung kết luận. trường trực tuyến dạng web. II. Phương pháp Trong nghiên cứu này, chúng tôi đề 2.1. Mô hình LDFER xuất một mô hình CNN ở thể nhẹ dựa trên kiến trúc các khối kết nối dày đặc cho bài Trong phần này, chúng tôi trình bày toán FER, mô hình có kích thước nhỏ với chi tiết cho mô hình CNN dựa trên các khối số lượng tham số của mô hình ít hơn, cho kết nối dày đặc theo kiến trúc DenseNet và tốc độ thực hiện nhanh hơn và phù hợp tích hợp nó với một hệ thống LMSđể trong nhiều ứng dụng thực tế có hệ thống ghi nhận và hỗ trợ đánh giá quá trình học tính toán hạn chế. Hơn nữa, để tăng chất tập trực tuyến. Mô hình của chúngtôi, lượng của mô hình trong học máy, chúng ký hiệu là LDFER (Light-DenseNet tôi áp dụng các phép biến đổi và xử lý hình Architecture-based for Facial Expressions ảnh nhằm tăng cường thêm dữ liệu (data Recognition), về tổng thể hoạt động được augmentation) huấn luyện mô hình. Các chia thành ba giai đoạn chính (Hình 2.1) phần tiếp theo của bài báo này gồm Phần gồm: (1) chụp ảnh người học từ thiết bị 2 giới thiệu chi tiết về mô hình CNN đề đầu cuối có kết nối, tiền xử lý hình ảnh xuất và thiết kế một hệ thống ứng dụngtích để phát hiện vùng khuôn mặt và nâng cao hợp của mô hình với hệ thống quản lýhọc chất lượng của hình ảnh nếu cần; (2) thực tập (LMS) để ghi nhận và hỗ trợ đánhgiá hiện trích xuất các đặc trưng của biểu cảm kết quả học tập trực tuyến. Trong Phần3, trên khuôn mặt của người học; và (3) phân các thử nghiệm của mô hình được triển lớp các đặc trưng để nhận dạng các trạng khai trên các bộ dữ liệu khác nhau, các kết thái biểu cảm trên khuôn mặt nhằm ghi quả đạt được và phân tích, so sánh với các nhận và hỗ trợ đánh giá kết quả học tập. Hình 2.1. Sơ đồ tổng thể mô hình LDFER Phần lõi của mô hình LDFER là kiến xuất thành một trong những biểu cảm cần trúc CNN thực hiện hai chức năng chính: nhận dạng trên khuôn mặt. Cấu trúc mỗi trích xuất các đặc trưng biểu cảm trên khuôn khối DB trong mô hình này được thiết kế mặt bằng các khối nơron dưới dạng kết nối gồm nhiều lớp nơron mà mỗi lớp nơron ở dày đặc (gọi là khối dense-connectivity, phía trước có liên kết dạng tăng trưởng kênh DB) và phân lớp các đặc trưng được trích thông tin (channel-wise concatenate) đến
5 tất các lớp nơron phía sau. Nói cách khác, Mỗi khối DB có các kết nối trực tiếp đầu ra của lớp nơron phía trước đóng góp một lớp nơron đến tất cả các lớp nơron tiếp thêm cho kênh đầu vào của các lớp nơron theo trong khối, điều này giúp cải thiện ở sau trong khối. Để tránh hiện tượng bùng luồng thông tin chuyển tải giữa các lớp nổ gradient khi tính toán của quá trình huấn nơron. Do đó, lớp nơron thứ h, tương ứng luyện mô hình, mỗi lớp nơron trong khối là bộ xử lý tín hiệu đặc trưng UPh, nhận DB đều được áp dụng cơ chế chuẩn hoá được các bản đồ đặc trưng của tấtcả các thông tin theo gói (batch normalization) và lớp nơron trước đó trong khối, x1, x2,…, x(h- do đó nó giúp ổn định phân phối của dữ , dưới dạng đầu vào, và tín hiệuđặc trưng liệu huấn luyện về phân phối chuẩn qua tất 1) cả các lớp nơron. Như vậy, mỗi bộ xử lý đầu ra của lớp này, xh, được hìnhthức hoá tín hiệu đặc trưng (unit processing, ký hiệu như sau: UP) trong khối DB là một bộ các phép xử (1) lý gồm chuẩn hoá dữ liệu theo gói (B), tính toán kích hoạt bằng phép tuyến tính “relu” trong đó [x1, x2,…, x(h-1)] thể hiện việc (R) và tích chập (C), ký hiệu B+R+C. Trong ghép nối liên tục các bản đồ đặc trưng được đó, ký hiệu C1 hoặc C3 thể hiện độ lớn của tạo ra từ các lớp trước đó (từ 1 đến h-1). hàm nhân trong phép tích chập tương ứng Như vậy, đầu ra của mỗi khối DB(k) được là 1x1 hoặc 3x3. Kết thúc khối DB là lớp hình thức hoá dưới dạng hàm hợp thành từ nơron để kết nộp thông tin theo dạng cộng nhiều bộ xử lý tín hiệu đặc trưng cùng với tín hiệu (element-wise addition) đóng vai lớp nơron chuyển tiếp (TS) như sau: trò chuyển đổi các đặc trưng cho khối DB (2) tiếp theo, ký hiệu lớp này là TS (transition layer), nó gồm các phép xử lý B+R+C1 Trong kiến trúc này, số lượng và và phép gộp tín hiệu đặc trưng dạng trung kích thước mỗi bộ xử lý tín hiệu đặc trưng bình có kích thước 2x2 (average pooling, (UP, số lượng nơron của mỗi UP) trong ký hiệu Pa). Khối DB(k) được minh hoạ ở các khối DB tác động và ảnh hưởng đến Hình 2.2 có tham số k là số lượng các bộ xử chất lượng của tính năng trích xuất đặc lý UP trong khối. trưng của mô hình đối với ảnh đầu vào, đồng thời chúng là những yếu tố tạo nên mức độ phức tạp của mô hình. Các tác giả thường điều chỉnh những yếu tố này để tạo nên một sơ đồ kết nối đầy đủ của mô hình CNN nhằm cân bằng giữa chất lượngnhận dạng và những điều kiện tính toán của môi trường ứng dụng thực tế. Mô hìnhLDFER trong nghiên cứu này (Hình 2.3) sử dụng 4 khối DB với kích thước lần lượtở các khối là 2, 4, 8 và 16 có ký hiệu tương ứng là Hình 2.2. Sơ đồ kết nối trong khối DB(k) DB(2), DB(4), DB(8) và DB(16).
6 2.2. Thiết kế tích hợp với ứng dụng LMS Dựa trên mô hình LDFER này, chúng tôi áp dụng thiết kế tích hợp với hệ thống LMS có sẵn để tự động chụp ảnh người học và nhận dạng biểu cảm khuôn mặt phục vụ cho việc ghi nhận, đánh giá các hoạt động của người học trong quá trình học tập trực tuyến [1]. Việc tích hợp được thực hiện theo kết nối giao diện lập trình ứng dụng (API) giữa các ứng dụng, phần mô hình LDFER được xuất bản thành mô-đun chạy trên thiết bị cá nhân Hình 2.3. Sơ đồ các khối DB của LDFER (có thể web-client hoặc các app). Người học đăng nhập LMS thông qua tài khoản Như vậy, mô hình LDFER có tổng của học tập (định danh và mật khẩu) để cộng 30 lớp nơron tích chập xử lý trích chọn xác thực cho việc học, hệ thống sẽ yêu cầu tín hiệu đặc trưng và được chia thành 4 khối mở máy ảnh hoặc webcam của người học DB. Mô hình này có 2.4 triệu tham số, ở mức để ghi lại hoặc chụp ảnh khuôn mặttừ thấp so với các mô hình CNN cho bài toán thiết bị học tập. Những hình ảnh này được FER (Bảng 2.1). Mặc dù mô hình LDFER gửi đến mô hình LDFER để xử lývà nhận có nhiều lớp tích chập nhưng chúng tôi sử dạng biểu cảm khuôn mặt. Quá trình này dụng ít số hàm nhân và kích thước hàm nhân được lặp lại theo chu kỳ thời gian nhất nhỏ trong lớp tích chập, dẫn đến số lượng định nhằm ghi nhận toàn bộquá trình tham số mô hình ở mức thấp. học tập. Tổng hợp kết quả nhận dạng được Bảng 2.1. So sánh độ lớn các mô hình ghi nhận góp phần đánh giá chất lượng Lớp tích Tham học tập, đánh giá nội dunghọc tập, đánh Mô hình chập số giá hoạt động giảng dạycủa giảng viên Zhao et al.16 in [20.Deng] 22 6.8M và từ đó có các thông báo cho người học, Kuo et al.18 in [20.Deng] 6 2.7M giảng viên, người quảnlý biết điều chỉnh Liu et al.14 in [20.Deng] 6 2M hoạt động của mìnhđạt chất lượng cao Dynamic Multi-task [20. hơn. Sơ đồ kết nối và quy trình vận hành 20 13M Zhao] của hệ thống tích hợp được trình bày trong Deep Multi-task learning Hình 2.4. 35 - [20.Lam] Hệ thống tích hợp này được thiết kế Lightweight CNN for dưới dạng kết nối độc lập, không yêu cầu 55 1.6M FER [22.Devaram] hệ thống LMS hiện có phải sửa đổi nhiều Efficient CNN for FER để kết nối với mô hình LDFER. LMS có 23 2.5M [22.Lai] thể được thực thi độc lập như vốn có của EfficientB3 [19.Tan] 16 10.7M nó mà không cần kết nối với mô hình LDFER 60 2.4M LDFER. Khi LMS được kết nối với mô
7 hình LDFER thì nó sẽ nhận được kết quả cho người học là do LMS quyết định thực nhận dạng biểu cảm khuôn mặt của người hiện. Với cách thiết kế này, chúng ta có thể học trong quá trình học tập và sử dụng kết dễ dàng tích hợp mô hình LDFER vàobất quả này để tổng hợp, đánh giá, thông báo kỳ LMS hiện có nào. Hình 2.4. Sơ đồ kết nối mô hình LDFER với LMS 2.3. Tăng cường dữ liệu huấn tăng cường hình ảnh với một phép xử lý luyện mô hình α={nhiễu, xoay, co giãn, dịch chuyển, độ Trong các ứng dụng thực tế, hình tương phản,...}, biểu thị sự biến đổi của ảnh đầu vào thường được chụp từ thiết bị hình ảnh đối với phép xử lý tăng cường α. người dùng, chúng bao gồm nền với bất kỳ Chẳng hạn, Hình 2.5 dưới đây cho kết quả vật thể nào bên trong ảnh. Nghiên cứunày 15 hình được tăng cường với các tham số sử dụng mô hình dựa trên CNN nổi tiếng ngẫu nhiên từ một ảnh gốc ban đầu (nằm ở được gọi là MTCNN như trong [1] để xác dòng đầu) trong dữ liệu OuluCASIA. Các định vùng ảnh có chứa khuôn mặt,sau đó hình ảnh được tạo ra rất đa dạng, do đó, cắt bỏ phần nền của ảnh và chỉ giữlại vùng khi huấn luyện sẽ tạo cho mô hình độ ổn ảnh chứa khuôn mặt. định trích chọn đặc trưng khi thay đổi kiểu dáng, vị trí,... của ảnh chụp. Để tránh hiện tượng quá khớp trong huấn luyện mô hình và giúp cho mô hình có khả năng nhận dạng cao hơn, chúng tôi tăng cường hình ảnh huấn luyện như trong [1] bằng cách sử dụng một số kỹ thuật xử lý hình ảnh 2D như thêm nhiễu, xoay, cắt và dịch chuyển, tăng cường độ sáng hoặc làm tối hình ảnh. Với hình ảnh đầu vào α, kết quả nhận được sau các phép tiền xử lý tăng cường ảnh như sau: (3) Hình 2.5. Một số hình ảnh tăng cường trong đó, fD là bộ dò tìm và phát hiện khuôn mặt trên ảnh, chẳng hạn MTCNN, Các tham số của các phép biến pα là các tham số cho hoạt động đổi tiền xử lý tăng cường hình ảnh được
8 lựa chọn ở mức độ vừa phải để đảm bảo khác nhau ở Nhật Bản. Mỗi người có các những thông tin chính trên ảnh được duy hình ảnh với sáu biểu cảm cơ bản khuôn trì cho việc trích chọn đặc trưng cho bài mặt gồm tức giận, ghê tởm, sợ hãi, hạnh toán. Chẳng hạn, ảnh thứ 4 ở dòng cuối phúc, buồn bã và ngạc nhiên và hình ảnh có mức độ quay và dịch chuyển mạnh và có biểu cảm trung tính (neutral). Tập dữ có thể làm mất thông tin biểu cảm khuôn liệu là một thách thức cho huấn luyện mô mặt nên rất khó để trích chọn đặc trưng và hình nhận dạng vì nó chứa quá ít hình ảnh nhận dạng. Một hình ảnh tăng cường có cho mỗi loại biểu cảm, trung bình chỉ là thể áp dụng cùng lúc đồng thời các phép 30. Dòng thứ 2 trong Hình 3.1 cho thấy xử lý và trong nghiên cứu này chúng tôi áp hình ảnh của 7 biểu cảm khuôn mặt khác dụng ngẫu nhiên các giá trị tham số điều nhau trong tập dữ liệu này. Đây cũng là chỉnh của các phép xử lý. hình ảnh đa cấp xám. III. Thử nghiệm và kết quả Tập dữ liệu OuluCASIA có 1440 hình ảnh gồm sáu loại biểu cảm như trong 3.1. Dữ liệu và kịch bản thử nghiệm tập dữ liệu CK+ trừ biểu cảm sự khinh Nghiên cứu này sử dụng ba bộ dữ thường (contempt). Nó được thu thập từ liệu để thử nghiệm đánh giá mô hình 80 người khác nhau và trong các điều kiện LDFER gồm CK+ (Extended Cohn- ánh sáng khác nhau, đây là hình ảnh màu. Kanade), OuluCASIA và JAFFE. Dòng cuối trong Hình 3.1 cho thấy một Tập dữ liệu CK+ có 981 hình ảnh số hình ảnh của tập dữ liệu Oulu-CASIA. được thu thập từ 118 người khác nhau với Bảng 3.1 mô tả chi tiết phân bố các hình bảy biểu cảm cơ bản gồm tức giận (anger), ảnh theo từng loại biểu cảm trong các tập ghê tởm (disgust), sợ hãi (fear), hạnh phúc dữ liệu thử nghiệm. (happiness), buồn bã (sadness), ngạc nhiên Bảng 3.1. Số ảnh của các tập dữ liệu (surprise) và sự khinh thường (contempt). Số hình ảnh Hình ảnh trong tập dữ liệu này có màu đa Biểu cảm Oulu cấp xám (Hình 3.1, dòng đầu, tiêu đề của CK+ JAFFE CASIA hình ảnh là nhãn biểu cảm tương ứng của anger 135 30 240 người trong ảnh). contempt 54 - - disgust 177 29 240 fear 75 32 240 happiness 207 31 240 neutral - 30 - sadness 84 31 240 surprise 249 30 240 Tổng số 981 213 1440 Để chạy thử nghiệm, chúng tôi chia ngẫu nhiên mỗi tập dữ liệu thành 5 phần (fold) có kích thước tương đương nhau Hình 3.1. Một số ảnh trong các tập dữ liệu giữa các lớp nhận dạng (loại biểu cảm) của Tập dữ liệu JAFFE chứa 213 ảnh bài toán FER. Kịch bản thử nghiệmáp biểu cảm khuôn mặt của 10 người phụ nữ dụng kiểm tra chéo (cross-validation).
9 Trong mỗi lượt chạy huấn luyện mô hình, Stt Tham số Giá trị chúng ta sử dụng một 5 phần dữ liệu để Kích thước mỗi gói (batch) 7 128 kiểm tra và đánh giá kết quả mô hình (Dte), dữ liệu còn lại 4 phần để xây dựng mô hình, trong 8 Số lượt học mô hình (epoch) 150 đó một phần dùng cho thẩm định và lựa 3.2. Kết quả thử nghiệm chọn mô hình (Dva) và 3 phần còn lại được Quá trình huấn luyện mô hình sử dụng để huấn luyện mô hình (Dtr). Kịch bản này được chạy lặp lại 5 lần theo thứ tự LDFER gồm 150 lượt học (epoch) được lần lượt các phần được chọn để kiểm tra tính trung bình trên 5 lần chạy thử nghiệm mô hình, kết quả đánh giá cuối cùng là theo kịch bản cross-validation được thể trung bình và độ lệch của 5 lần chạy. hiện trong Hình 3.2. Mỗi cặp hình ảnh trên Trong mỗi lần chạy thử nghiệm, các một dòng tương ứng là kết quả của hàm phần dữ liệu huấn luyện mô hình (Dtr) tổn thất (loss) và kết quả nhận dạng đúng được tăng cường bằng cách áp dụng các (accuracy), chúng được tính trên cả hai phép biến đổi hình ảnh . Các tham số phần dữ liệu để huấn luyện (Dtr) và dữ liệu cho mỗi phép biến đổi hình ảnh được chọn để thẩm định, lựa chọn mô hình (Dva). Kết ngẫu nhiên trong khoảng giới hạn. Hệ số quả trên phần dữ liệu Dva của JAFFE (hai tăng cường là 10 cho mỗi ảnh gốc tạo nên hình ở dòng giữa) có độ ổn định thấp hơn tập dữ liệu huấn luyện lớn gấp 10 lần dữ so với hai tập dữ liệu CK+ và OuluCASIA liệu ban đầu nhằm đảm bảo độ đa dạng của dữ liệu, tránh bị hiện tượng quá khớpvà kỳ bởi vì JAFFE có quá ít hình ảnh và các vọng đạt được độ chính xác cao của mô biểu cảm không được thể hiện rõ nét. hình. Các tham số tăng cường hình ảnh và huấn luyện mô hình được thể hiệnchi tiết trong Bảng 3.2. Bảng 3.2. Các tham số chạy thử nghiệm Stt Tham số Giá trị Góc quay tối đa so với ảnh 1 gốc (radian, âm là quay 0.1 sang trái) Hệ số dịch chuyển tối đa so 2 với kích thước ảnh gốc (âm 10% là dịch sang trái) 3 Hệ số tương phản tối đa 0.1 Hệ số nhiễu tối đa theo 4 0.1 phép nhiễu Gaussian Hệ số co dãn tối đa so với 5 kich thước ảnh gốc (giá trị 10% âm là thu nhỏ) Tốc độ học ban đầu (theo 6 10-3 phương pháp Adam)
10 Hình 3.3. Bản đồ nhiệt trên dữ liệu JAFFE Hình 3.2. Quá trình huấn luyện LDFER Để minh hoạ kết quả tổng thể của mô hình LDFER, chúng tôi xây dựng ma trận Trong mô hình LDFER, hoạt động nhầm lẫn từ 5 lần chạy trên toàn bộ ba tập của các khối nơron tích chập DB đóng tập dữ liệu CK+, JAFFE và OuluCASIA vai trò trích xuất các đặc trưng trên ảnh (Hình 3.4). Mỗi hàng trong ma trận là một khuôn mặt để nhận dạng. Ở đây, chúng tôi nhãn biểu cảm của hình ảnh trong dữ liệu, hiển thị các hình ảnh biểu diễn trực quan mỗi cột tương ứng là một nhãn biểu cảm của việc hoạt động các khối DB thông được mô hình nhận dạng. Mỗi lần chạy huấn luyện ra mô hình được áp dụng để qua phương pháp bản địa hóa dựa trên nhận dạng trên toàn bộ tập dữ liệu (gồm cả gradient (gradient-based localization). dữ liệu huấn luyện , thẩm định và đánhgiá Phương pháp này cho thấy sự tập trung ) và tính tổng số kết quả được nhận dạng. (hoặc sự quan tâm) của lớp nơron tích Vì vậy, mỗi hình ảnh trong tập dữ liệu chập trên ảnh khi trích chọn đặc trưng, nó được áp dụng 5 lần tương ứng với5 mô còn được gọi là bản đồ nhiệt của lớp đối hình được huấn luyện và tổng của một hàng trong ma trận đúng bằng số hìnhảnh tượng được kích hoạt trên vùng ảnh. Hình tương ứng biểu cảm đó trong tập dữ liệu 3.3 cho thấy bản đồ nhiệt của lớp tích chập nhân với 5. Ma trận này là tổng số kếtquả cuối cùng trong mô hình LDFER trên hình trên cả 3 tập dữ liệu, trong đó, biểu cảm ảnh của từng loại biểu cảm trong tập dữ “contempt” chỉ xuất hiện ở tập dữ liệu liệu JAFFE. Các hình ảnh đều có bản đồ CK+ và “neutral” chỉ xuất hiện ở tập dữ nhiệt (chỗ màu sắc được sáng lên trên ảnh) liệu JAFFE. Trong ma trận này, biểu cảm “surprise” không có trường hợp nhậndạng hầu như tập trung vào những khu vựcquan sai kể cả hình ảnh thuộc biểu cảm vàkhông trọng để diễn tả biểu cảm trên khuônmặt thuộc biểu cảm, chứng tỏ nó phân biệt tốt như vùng miệng, vùng mắt. Điều nàytrực với các biểu cảm còn lại. Biểu cảm quan cho thấy rằng mô hình LDFER tập “contempt” được nhận dạng đúng đối với trung vùng ảnh quan trọng để trích chọn tất cả các hình ảnh thuộc biểu cảm, nhưng đặc trưng mô tả cho biểu cảm khuônmặt và có 3 hình ảnh thuộc “anger” bị nhận dạng sai thành “contempt”. Các biểu cảm còn ngược lại, khi không quan tâm đếnnhững lại có cả tình huống nhận dạng sai đối khu vực hình ảnh này thì khó có thể xác với hình ảnh thuộc và không thuộc biểu định được chính xác biểu cảm củangười cảm đó. Tổng số trường hợp nhận dạng sai đó. là 44, chiếm tỷ lệ 0,33% trong toàn
11 bộ 13170 lượt hình ảnh được nhận dạng, Kết quả nhận dạng trên tập dữ liệu nhiều nhất có 17 hình ảnh thuộc biểu cảm kiểm tra và đánh giá () của mô hình “disgust” bị nhận dạng sai thành “fear” LDFER sau khi đã được huấn luyện của 5 hoặc “sadness”. Biểu cảm “fear” có nhiều lần chạy thử nghiệm thể hiện trong Bảng nhất gồm 18 trường hợp nhận dạng nhầm 3.2. Dòng đầu mỗi tập dữ liệu là kết quả từ các biểu cảm “disgust” và “sadness”. trung bình và độ lệch chuẩn (chữ in đậm). Thông qua phân tích ma trận nhầm lẫn này cho thấy các biểu cảm “fear”, “sadness” và Để so sánh, chúng tôi chạy cùngkịch “disgust” có mức độ nhầm lẫn giữa chúng bản và tham số thử nghiệm đối với mô hình là cao hơn các loại biểu cảm khác. Efficient trong [19.Tan] với phiên bản cơ sở (B0) có kích thước nhỏ nhất. Kết quả thể hiện trong Bảng 3.3. Mặc dù số lượng tham số của mô hình Efficientcó hơn 4 triệu tham số, nhiều hơn 70% so với mô hình LDFER nhưng kết quả nhận dạng của LDFER chỉ thấp hơn không đáng kể (0.1%) ở dữ liệu CK+. Đối vớidữ liệu JAFFE và OuluCASIA, mô hình LDFER cao hơn đáng kể (2.18% ở JAFFEvà 0.14% ở OuluCASIA) so với mô hình Efficient. Hình 3.4. Ma trận nhầm lẫn trên 3 tập Trường hợp đạt tối đa 100% ở mô hình dữ liệu LDFER trên dữ liệu OuluCASIA và mô Một số trường hợp nhầm lẫn được hình Efficient trên dữ liệu CK+. thể hiện trong Hình 3.5, tiêu đề trên ảnh Bảng 3.2. Kết quả trên dữ liệu kiểm tra () ghi biểu cảm của ảnh (2 chữ cái đầu, trước Lần chạy LDFER Efficient dấu “>”) và biểu cảm bị nhận dạng sai CK+ 99.90 (±0.002) 100 thành loại khác. Tập dữ liệu CK+ chỉ có Lần #1 100 100 tổng cộng 4 trường hợp (dòng đầu) trong Lần #2 100 100 khi đó tập dữ liệu JAFFE có 44 trường hợp Lần #3 100 100 (chỉ thể hiện 5 hình ảnh, dòng sau). Có thể Lần #4 99.49 100 Lần #5 100 100 thấy rằng các hình ảnh nhầm lẫn này cũng JAFFE 99.08 (±0.009) 97.62 (±1.683) rất khó phân biệt bằng trực quancủa chúng Lần #1 100 97.62 ta. Riêng dữ liệu OuluCASIA không có Lần #2 100 97.62 trường hợp nhầm lẫn. Lần #3 97.62 95.24 Lần #4 100 97.62 Lần #5 97.78 100 Oulu 100 99.86 (±0.309) CASIA Lần #1 100 100 Lần #2 100 100 Lần #3 100 100 Lần #4 100 99.31 Hình 3.5. Một số hình ảnh nhầm lẫn Lần #5 100 100
12 So sánh với một số kết quả đã được (ở mức 2.4 triệu), được gọi là mô hình công bố (Bảng 3.3) cho thấy mô hình thể nhẹ. Kết quả nhận dạng rất khả quan LDFER đạt cao nhất ở hai tập dữ liệu trên các tập dữ liệu thử nghiệm, đạt mức JAFFE và OuluCASIA, còn tập dữ liệu thấp nhất là 99.08% đối với tập dữ liệu CK+ đạt mức cao thứ hai. Các kết quả JAFFE, cao nhất là 100% đối với tập dữ trong [19.Wang] và [20.Deng] được lấy liệu OuluCASIA. So sánh với các kết quả trường hợp tốt nhất trong các mô hình khác cho thấy mô hình LDFER cao nhất được so sánh vì đây là nghiên cứu tổng ở 2 tập dữ liệu JAFFE và OuluCASIA, cao quan. Ký hiệu sau dấu * của mô hình là thứ hai ở tập dữ liệu CK+. Mô hình kịch bản chạy thử nghiệm, 5F và 10F LDFER có thể áp dụng cho kết quả tốt tương ứng là 5-folds và 10-folds trong trong các ứng dụng. Đặc biệt, nó ở thể nhẹ phương pháp cross-validation, “No” là nên dễ dàng tích hợp trên các hệ thống có không có kịch bản chạy thử nghiệm và năng lực tính toán không đòi hỏi quá cao, 0.2T thể hiện 20% số mẫu dữ liệu dùng để phù hợp với đa dạng điều kiện trong thực kiểm tra, đánh giá mô hình (testing). tế nhưng vẫn cho kết quả tốt đối với các Bảng 3.3. So sánh kết qủa các mô hình bài toán ứng dụng. Datasets Oulu Models CK+ JAFFE CASIA Chúng tôi cũng đã thiết kế hệ thống The best in [19. tích hợp mô hình LDFER vào hệ thống 98.62 98.90 88.92 Wang]*No quản lý học tập trực tuyến (LMS) để hỗ trợ ghi nhận và đánh giá quá trình học tậptrực [19.Abdolrashidi] 98.00 92.80 - tuyến của người học trên các hệ thống *0.2T LMS. Theo đó, mỗi người học được ghi The best in [20. 99.60 95.80 91.67 nhận chi tiết quá trình học tập, được đo Deng]*10F [20.Zhao]*10F 89.60 - 99.50 đếm biểu cảm thể hiện trong suốt quá trình [20.Lam]*10F 97.85 - 89.23 học tập, nếu có những bất thường hệ thống [22.Devaram]*5F 84.27 80.09 - có thể tổng hợp báo cáo cho người dạy, [22.Lai]*5F 97.30 - - người quản lý và hỗ trợ để nhắc nhở, giúp Efficient [19. 100 97.62 đỡ người học đạt kết quả học tập cao hơn. Tan]*5F LDFER*5F 99.90 99.08 100 Việc tích hợp hệ thống này theo cơ chế mở, không gắn chặt với nhau, do đó, hệ V. Kết luận thống hoạt động khá độc lập và có thiết kế Trong nghiên cứu này, chúng tôiđã đảm bảo tính an toàn, an ninh của dữ liệu đề xuất một mô hình mạng nơron tích chập và hệ thống kết nối tích hợp. cho bài toán nhận dạng biểu cảm khuôn Trong những nghiên cứu tiếp theo, mặt (LDFER). Kiến trúc của mô hình dựa chúng tôi sẽ cải tiến tích hợp lai ghép giữa trên chuẩn kiến trúc kết nối lớp nơron tích các kiến trúc hiện đại để đạt chất lượng cao chập dạng DenseNet. Mô hình này có độ hơn trích chọn đặc trưng của mô hình và sâu (số lớp nơron tích chập) vừaphải và số thử nghiệm trên các tập dữ liệu phức tạp lượng tham số của mô hình thấp hơn để đánh giá.
13 Tài liệu tham khảo: (CVPR), số ISSN:1063-6919, pp. 1-9, 2018. [1]. D.T.Long, “A Facial Expressions [8]. G. Zhao, H. Yang và M. Yu, “Expression Recognition Method Using Residual Network Recognition Method Based on a Lightweight Architecture for Online Learning Evaluation,” Convolutional Neural Network,” IEEE Journal of Advanced Computational Access, tập 18, pp. 38528 - 38537, 2020. Intelligence and Intelligent Informatics, tập [9]. R. R. Devaram và A. Cesta, “LEMON: 25, số 6, pp. 1-10, 2021. A Lightweight Facial Emotion Recognition [2]. W.Deng và S. Li, “Deep Facial Expression System for Assistive Robotics Based on Recognition: A Survey,” IEEE Transactions Dilated Residual Convolutional Neural on Affective Computing, tập 13, pp. 1195- Networks,” Sensors, tập 22, số 3366, pp. 1-20, 1215, 2022. 2022. [3]. M.Wang và W.Deng, “Deep Face [10]. D.T.Long, “A Lightweight Face Recognition: A Survey,” Neurocomputing, tập Recognition Model Using Convolutional 429, pp. 215-244, 2021. Neural Network for Monitoring Studentsin E-Learning,” I.J. Modern Education and [4]. S.-C. Lai, C.-Y. Chen và J.-H. Li, Computer Science, tập 6, pp. 16-28, 2020. “Efficient Recognition of Facial Expression with Lightweight Octave Convolutional [11]. N. Zhou, R. Liang và W. Shi, “A Neural Network,” Journal of Imaging Science Lightweight Convolutional Neural Network and Technology, pp. 040402.1-9, 2022. for Real-Time Facial Expression Detection,” IEEE Access, tập 9, pp. 5573 - 5584, 2020. [5]. A. Greco, N. Strisciuglio, M. Vento và V. Vigilante, “Benchmarking deep networks [12]. P. N. R. Bodavarapu và P. Srinivas, “An for facial emotion recognition in the wild,” Optimized Neural Network Model for Facial Multimedia Tools and Applications, pp. Expression Recognition over Traditional https://doi.org/10.1007/s11042-022-12790-7, Deep Neural Networks,” International 2022. Journal of Advanced Computer Science and Applications, tập 12, số 7, pp. 443-451, 2021. [6]. M. Tan và Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional [13]. Y. Nan, J. Ju, Q. Hua, H. Zhang và Neural Networks,” Proceedings of the 36th B. Wang, “A-MobileNet: An approach of International Conference on Machine facial expression recognition,” Alexandria Engineering Journal, tập 61, p. 4435–4444, Learning, pp. 6105-6114, 2019. 2022. [7]. G. Huang, Z. Liu, L. V. D. Maaten và Địa chỉ tác giả: Trường Đại học Mở Hà Nội K. Q. Weinberger, “Densely Connected Convolutional Networks,” IEEE Conference Email: duongthanglong@hou.edu.vn on Computer Vision and Pattern Recognition