Giới thiệu tài liệu
Trong bối cảnh giáo dục hiện đại, việc thấu hiểu và quản lý cảm xúc của học sinh là yếu tố then chốt để nâng cao hiệu quả dạy và học. Nghiên cứu chỉ ra rằng khoảng 30% học sinh bộc lộ cảm xúc tiêu cực, gây ảnh hưởng đến tương tác và kết quả học tập. Đặc biệt tại Việt Nam, quy mô lớp học lớn và sự phát triển của học trực tuyến càng khiến giáo viên khó theo dõi sát sao trạng thái cảm xúc của từng cá nhân, dẫn đến giảng dạy thiếu tính cá nhân hóa. Sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và học sâu (Deep Learning) mở ra tiềm năng lớn trong việc xây dựng các hệ thống nhận diện cảm xúc tự động qua hình ảnh khuôn mặt, nhưng các nghiên cứu tại Việt Nam còn hạn chế và các mô hình hiện có chưa phản ánh đầy đủ đặc điểm biểu cảm văn hóa. Đề tài này nhằm giải quyết khoảng trống đó, góp phần nâng cao chất lượng giáo dục.
Đối tượng sử dụng
Nghiên cứu sinh, giảng viên, chuyên gia AI/học máy, nhà phát triển công nghệ giáo dục và những người quan tâm đến ứng dụng trí tuệ nhân tạo trong phân tích cảm xúc và môi trường học đường tại Việt Nam.
Nội dung tóm tắt
Nghiên cứu này tập trung phát triển một mô hình học sâu cho phân tích cảm xúc dựa trên hình ảnh, nhằm hỗ trợ giáo viên theo dõi và hiểu rõ hơn về trạng thái cảm xúc của học sinh trong môi trường học đường tại Việt Nam. Mục tiêu chính là nghiên cứu và đánh giá các kiến trúc học sâu tiên tiến như Mạng nơ-ron tích chập (CNN) để xác định mô hình tối ưu cho việc phân tích cảm xúc qua khuôn mặt, đồng thời đảm bảo hiệu quả về độ chính xác, tốc độ xử lý và khả năng tổng quát hóa phù hợp với điều kiện thực tế. Phương pháp nghiên cứu bao gồm việc tổng hợp các công trình khoa học liên quan, xây dựng và tối ưu hóa mô hình CNN kết hợp kỹ thuật Haar Cascade để nhận diện bảy cảm xúc cơ bản (vui vẻ, buồn bã, tức giận, ngạc nhiên, sợ hãi, ghê tởm, trung lập) từ hình ảnh khuôn mặt. Các thử nghiệm được thực hiện trên hai bộ dữ liệu quốc tế tiêu chuẩn là FER2013 và CK+, đánh giá hiệu suất mô hình thông qua các chỉ số như độ chính xác (accuracy), độ bao phủ (recall) và F1-score. Kết quả đạt được cho thấy mô hình có khả năng nhận diện 7 trạng thái cảm xúc với độ chính xác từ 68% đến 74% và đạt tốc độ xử lý dưới 50ms mỗi khung hình, đáp ứng yêu cầu thời gian thực. Mô hình cũng áp dụng các kỹ thuật tiên tiến như tăng cường dữ liệu và BatchNormalization để cải thiện khả năng thích nghi. Tuy nhiên, nghiên cứu cũng chỉ ra những hạn chế như độ chính xác còn thấp hơn so với dữ liệu chuẩn quốc tế và sự nhầm lẫn giữa các cảm xúc tương đồng do yếu tố môi trường và văn hóa. Luận văn đề xuất các hướng nghiên cứu tiếp theo bao gồm xây dựng bộ dữ liệu nội địa, cải tiến kiến trúc mô hình, tối ưu hóa xử lý video thời gian thực và nghiên cứu biểu cảm văn hóa để nâng cao hiệu quả và tính ứng dụng của hệ thống trong giáo dục.