intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đề tài nghiên cứu khoa học: Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập CNN

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:83

33
lượt xem
11
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài hướng đến mục tiêu tìm hiểu về mô hình mạng nơ-ron tích chập từ đó xây dựng và huấn luyện mô hình mạng CNN để kiểm tra tính hiệu quả trong việc nhận dạng cảm xúc. Với kết quả đạt được em sẽ tiến hành xây dựng một hệ thống nhận dạng 7 loại cảm xúc thông qua khuôn mặt gồm có: vui vẻ (happy), buồn (sad), sợ hãi (scared), giận dữ (angry), ngạc nhiên (surprised), khó chịu (disgust) và bình thường (neutral).

Chủ đề:
Lưu

Nội dung Text: Đề tài nghiên cứu khoa học: Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập CNN

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP CNN MÃ SỐ: SV2020-133 SKC 0 0 7 4 1 2 Tp. Hồ Chí Minh, tháng 07/2020
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TPHCM BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP CNN SV2020-133 Chủ nhiệm đề tài: NGUYỄN VĂN PHÚC TP Hồ Chí Minh, tháng 7/2020
  3. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TPHCM BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP CNN SV2020-133 Thuộc nhóm ngành khoa học: Kỹ thuật Sinh viên thực hiện: Nguyễn Văn Phúc Nam, Nữ: Nam Dân tộc: Kinh Lớp: 16141CLVTA Khoa: Đào Tạo Chất Lượng Cao Năm thứ: 4 Số năm đào tạo: 4 năm Ngành học: Công nghệ kỹ thuật điện tử - truyền thông Giảng viên hướng dẫn: ThS Huỳnh Thị Thu Hiền TP Hồ Chí Minh, tháng 7/2020
  4. MỤC LỤC MỤC LỤC ............................................................................................................................ i DANH MỤC HÌNH ........................................................................................................... iv DANH MỤC BẢNG .........................................................................................................vii CÁC TỪ VIẾT TẮT ....................................................................................................... viii THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI ............................................... ix CHƯƠNG 1 TỔNG QUAN ............................................................................................... 1 1.1 TÌNH HÌNH NGHIÊN CỨU ................................................................................ 1 1.2 LÝ DO CHỌN ĐỀ TÀI ......................................................................................... 2 1.3 MỤC TIÊU ĐỀ TÀI .............................................................................................. 2 1.4 PHƯƠNG PHÁP NGHIÊN CỨU ........................................................................ 3 1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ..................................................... 3 1.6 BỐ CỤC ĐỀ TÀI ................................................................................................... 3 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT ................................................................................... 5 2.1 TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH .................................................. 5 2.1.1 Xử lý ảnh........................................................................................................... 5 2.1.2 Điểm ảnh........................................................................................................... 7 2.1.3 Độ phân giải ..................................................................................................... 7 2.1.4 Tăng cường ảnh ............................................................................................... 8 2.1.5 Khôi phục ảnh .................................................................................................. 8 2.1.6 Phân tích ảnh ................................................................................................... 9 2.1.7 Nén dữ liệu ảnh ................................................................................................ 9 2.1.8 Nhận dạng ảnh ................................................................................................. 9 2.2 KHUÔN MẶT VÀ CẢM XÚC ........................................................................... 10 i
  5. 2.2.1 Đặc trưng của mặt người : ............................................................................ 10 2.2.2 Phương pháp tiếp cận đặc trưng khuôn mặt : .............................................. 11 2.2.3 Biểu cảm khuôn mặt khi bày tỏ cảm xúc : .................................................... 11 2.3 MẠNG NƠ-RON TÍCH CHẬP .......................................................................... 12 2.3.1 Mạng nơ-ron nhân tạo ................................................................................... 12 2.3.2 Mạng nơ-ron tích chập .................................................................................. 15 2.3.2.1 Mô hình tổng quan .................................................................................. 15 2.3.2.2 Các lớp trong mô hình ............................................................................. 16 2.3.3 Những vấn đề xảy ra với mô hình CNN........................................................ 20 2.3.3.1 Quá khớp (Overfitting) ............................................................................ 20 2.3.3.2 Drop out .................................................................................................... 21 2.4 Giới thiệu máy tính nhúng kit Raspberry Pi .................................................... 23 2.5 Xử lý ảnh với Python ........................................................................................... 24 2.5.1 Giới thiệu ngôn ngữ lập trình Python: .......................................................... 24 2.5.2 Các thư viện sử dụng trong Python ............................................................... 25 CHƯƠNG 3 THIẾT KẾ HỆ THỐNG NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP TRÊN KIT RASPBERRY PI 4 .......................................................................................................................................... 28 3.1 YÊU CẦU CỦA HỆ THỐNG ............................................................................. 28 3.2 MÔ HÌNH HỆ THỐNG ...................................................................................... 28 3.2.1 Sơ đồ khối của hệ thống ................................................................................. 28 3.2.2 Mô hình CNN sử dụng trong hệ thống ......................................................... 29 3.3 TẬP DỮ LIỆU ..................................................................................................... 30 3.3.1 Tập dữ liệu mẫu có sẵn .................................................................................. 30 ii
  6. 3.3.2 Tập dữ liệu riêng ............................................................................................ 32 3.4 QUÁ TRÌNH HUẤN LUYỆN VÀ KIỂM TRA ................................................ 34 3.4.1 Quá trình huấn luyện ..................................................................................... 34 3.4.2 Quá trình kiểm tra .......................................................................................... 35 CHƯƠNG 4 KẾT QUẢ.................................................................................................... 37 4.1 KẾT QUẢ HUẤN LUYỆN VÀ KIỂM TRA ..................................................... 37 4.2 ỨNG DỤNG NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT TRÊN KIT RASPBERRY PI 4 ............................................................................................ 40 CHƯƠNG 5 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................... 53 5.1 KẾT LUẬN........................................................................................................... 53 5.2 KIẾN NGHỊ ......................................................................................................... 53 TÀI LIỆU THAM KHẢO................................................................................................ 54 PHỤ LỤC A ...................................................................................................................... 56 iii
  7. DANH MỤC HÌNH Hình 2.1: Quy trình xử lý ảnh.............................................................................................. 5 Hình 2.2: Ví dụ về pixel ảnh................................................................................................ 7 Hình 2.3: Sự thay đổi độ mịn của hình ảnh theo kích thước ............................................... 8 Hình 2.4: Một số thông tin có thể tìm thấy trong một bức ảnh khuôn mặt ....................... 11 Hình 2.5: Cấu trúc tổng quát của mạng nơ-ron ANN ....................................................... 13 Hình 2.6: Quá trình xử lý thông tin trong mạng ................................................................ 13 Hình 2.7: Hàm tổng của một và nhiều nơ-ron đối với n input. ......................................... 14 Hình 2.8: Sự khác nhau giữa cấu trúc ANN và CNN........................................................ 15 Hình 2.9: Quá trình thực hiện của mạng CNN .................................................................. 16 Hình 2.10: CNN tìm những điểm tương đồng trên bức ảnh .............................................. 16 Hình 2.11: Chập ma trận ảnh với bộ lọc 3x3..................................................................... 17 Hình 2.12: Ví dụ về lớp RELU .......................................................................................... 18 Hình 2.13: Maxpooling với bộ lọc 2x2, bước trượt bằng 2 ............................................... 19 Hình 2.14: Phân lớp dữ liệu trong lớp kết nối đầy đủ ....................................................... 20 Hình 2.15: Ví dụ minh họa lỗi quá khớp trong CNN ........................................................ 21 Hình 2.16: Kỹ thuật Drop-out giải quyết vấn đề overfitting ............................................. 22 Hình 2.17: Hình ảnh thực tế kit Raspberry Pi ................................................................... 23 Hình 2.18: Cấu trúc thư viện OpenCV .............................................................................. 26 Hình 3.1: Sơ đồ khối của hệ thống. ................................................................................... 28 Hình 3.2: Kiến trúc mạng CNN được dùng trong hệ thống .............................................. 29 Hình 3.3: Một số hình ảnh trong tập dữ liệu mẫu.............................................................. 31 Hình 3.4: Biểu đồ số lượng cảm xúc trong tập dữ liệu mẫu FERC-2013 ......................... 32 Hình 3.5: Biểu đồ phân loại số lượng cảm xúc trong tập dữ liệu riêng. ........................... 33 iv
  8. Hình 3.6: Lưu đồ thuật toán quá trình huấn luyện. ........................................................... 35 Hình 3.7: Lưu đồ thuật toán quá trình kiểm tra ................................................................. 36 Hình 4.1: Biểu đồ độ chính xác qua kiểm tra trong quá trình huấn luyện. ....................... 37 Hình 4.2: Ma trận tương quan của mô hình với ngõ vào là dữ liệu tập mẫu..................... 38 Hình 4.3: Ma trận tương quan của mô hình với ngõ vào là dữ liệu tập riêng ................... 39 Hình 4.4: Camera kết nối với kit raspberry Pi 4 ................................................................ 41 Hình 4.5: Giao diện của ứng dụng nhận dạng cảm xúc ..................................................... 41 Hình 4.6: Thông báo khi đã chọn được file. ...................................................................... 42 Hình 4.7: Nhận dạng cảm xúc “ bình thường ” ................................................................. 43 Hình 4.8: Nhận dạng cảm xúc “ bình thường ”từ một ảnh bất kỳ được tải lên hệ thống .. 43 Hình 4.9: Nhận dạng cảm xúc “ vui vẻ ” ........................................................................... 44 Hình 4.10: Nhận dạng cảm xúc “ ngạc nhiên ” ................................................................. 45 Hình 4.11: Nhận dạng cảm xúc “ buồn ” ........................................................................... 46 Hình 4.12: Nhận dạng cảm xúc “ giận dữ ” ...................................................................... 47 Hình 4.13: Nhận dạng cảm xúc “ khó chịu ” ..................................................................... 48 Hình 4.14: Nhận dạng cảm xúc “ sợ hãi ” ......................................................................... 49 Hình 4.15: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do biểu cảm không rõ ràng ................................................................................................................................. 49 Hình 4.16: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ sáng quá cao và ảnh được nhận dạng bị ngược sáng. ......................................................... 50 Hình 4.17: Không nhận dạng được khuôn mặt do góc nghiêng và các đặc trưng trên khuôn mặt bị mất. .......................................................................................................................... 50 Hình 4.18: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ sợ hãi ” do cường độ ánh sáng trên khuôn mặt yếu. .................................................................................................... 51 v
  9. Hình 4.19: Nhận dạng cảm xúc “ bình thường ” thành cảm xúc “ buồn ” do khuôn mặt bị thay đổi góc nghiêng đồng thời khuôn mặt không ngang tầm và chính diện với camera .. 51 vi
  10. DANH MỤC BẢNG Bảng 3.1: Bảng phân loại số lượng cảm xúc trong tập dữ liệu mẫu FERC-2013 ............. 31 Bảng 3.2: Bảng phân loại số lượng cảm xúc trong tập dữ liệu riêng ................................ 33 Bảng 4.1: So sánh độ chính xác qua kiểm tra giữa hai mô hình........................................ 37 Bảng 4.2: Đánh giá tỉ lệ nhận dạng cảm xúc khi kiểm tra tập riêng.................................. 40 Bảng 4.3: So sánh độ chính xác giữa hai mô hình. ............................................................ 40 vii
  11. CÁC TỪ VIẾT TẮT Từ viết tắt Giải thích 2D 2 Dimenision Hai chiều ANN Artificial Neural Mạng nơ-ron nhân tạo Network CNN Convolution Neural Mạng nơ-ron tích chập Network FERC-2013 Facial Expression Cuộc thi “Thử thách nhận dạng Recognition Challenge cảm xúc khuôn mặt năm 2013” NN Neural Network Mạng nơ-ron PE Processing Element Phần tử xử lý PwC PricewaterhouseCoopers Công ty kiểm toán của Mỹ RELU Rectified Linear Unit Hàm đơn vị tuyến tính đứng RGB Red Green Blue Ba màu cơ bản: Đỏ , lục và lam GUI Graphical User Interface Giao diện đồ họa người dùng viii
  12. Mẫu PL03- Thông tin kết quả nghiên cứu đề tài NCKH Sinh viên BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐH SƯ PHẠM KỸ THUẬT TPHCM THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI 1. Thông tin chung: - Tên đề tài: NHẬN DẠNG CẢM XÚC THÔNG QUA KHUÔN MẶT DÙNG MẠNG NƠ-RON TÍCH CHẬP CNN. - Chủ nhiệm đề tài: Nguyễn Văn Phúc Mã số SV: 16141071 - Lớp: 16141CLVTA Khoa: Đào Tạo Chất Lượng Cao - Thành viên đề tài: Stt Họ và tên MSSV Lớp Khoa 1 Nguyễn Văn Phúc 16141071 16141CLVTA Đào Tạo Chất Lượng Cao - Người hướng dẫn: ThS Huỳnh Thị Thu Hiền 2. Mục tiêu đề tài: Dùng mạng nơ-ron để xây dựng và huấn luyện mô hình mạng CNN để kiểm tra tính hiệu quả trong việc nhận dạng cảm xúc. Thực hiện sẽ xây dựng một hệ thống nhận dạng 7 loại cảm xúc thông qua khuôn mặt gồm có: “vui vẻ” (happy), “buồn” (sad), “sợ hãi” (scared), “giận dữ” (angry), “ngạc nhiên” (surprised), “khó chịu” (disgust) và “bình thường” (neutral). 3. Tính mới và sáng tạo: Thi công và triển khai hệ thống nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ-ron tích chập CNN chạy thành công và độc lập với máy tính thông qua máy tính nhúng Raspberry Pi 4. Với kích thước máy tính nhúng nhỏ, gọn đáp đứng yêu cầu dễ dàng di chuyển và lắp đặt hệ thống. ix
  13. 4. Kết quả nghiên cứu: Xây dựng thành công hệ thống nhận dạng 7 loại cảm xúc thông qua khuôn mặt gồm có: “vui vẻ” (happy), “buồn” (sad), “sợ hãi” (scared), “giận dữ” (angry), “ngạc nhiên” (surprised), “khó chịu” (disgust) và “bình thường” (neutral) thông qua mạng nơ-ron tích chập, đồng thời triển khai hệ thống chạy độc lập với phần cứng của máy tính laptop hay PC. 5. Đóng góp về mặt giáo dục và đào tạo, kinh tế - xã hội, an ninh, quốc phòng và khả năng áp dụng của đề tài: Đóng góp về mặt kinh tế - xã hội: Có khả năng đánh giá mức độ hài lòng sau khi mua sản phẩm thông qua cảm xúc của khuôn mặt cũng như có thể được áp dụng vào khả năng dự đoán cảm xúc của người khi đến phỏng vấn xin việc thông qua mô hình mạng nơ- ron tích chập này. Bên cạnh đó, nghiên cứu về biểu cảm, cảm xúc của gương mặt trong đề tài này sẽ hữu ích trong việc nghiên cứu não người và hoạt động giao tiếp xã hội, cũng như thiết kế các hệ thống máy tính để giao tiếp với con người. Đề tài có khả năng phát triển thêm để áp dụng vào các hệ thống phân tích cảm xúc của khách hàng để hiểu rõ hơn những điều mà khách hàng thích hay không thích từ sản phẩm của người bán và dựa trên đó để đưa ra các chiến dịch quảng cáo, marketing cho phù hợp. 6. Công bố khoa học của SV từ kết quả nghiên cứu của đề tài (ghi rõ tên tạp chí nếu có) hoặc nhận xét, đánh giá của cơ sở đã áp dụng các kết quả nghiên cứu (nếu có): Không có Ngày tháng năm SV chịu trách nhiệm chính thực hiện đề tài (kí, họ và tên) x
  14. Nhận xét của người hướng dẫn về những đóng góp khoa học của SV thực hiện đề tài (phần này do người hướng dẫn ghi): Ngày tháng năm Người hướng dẫn (kí, họ và tên) xi
  15. CHƯƠNG 1 TỔNG QUAN 1.1 TÌNH HÌNH NGHIÊN CỨU Hiện nay trên thế giới nói chung và tại Việt Nam nói riêng, trí tuệ nhân tạo được xem là một trong những công nghệ cốt lõi của cuộc cách mạng công nghiệp 4.0. Nhiều quốc gia bắt đầu ghi nhận xu thế phát triển tất yếu và tác động chuyển đổi to lớn của trí tuệ nhân tạo trong mọi mặt đời sống xã hội, từ thay đổi cán cân quyền lực kinh tế, đến cả quân sự và chính trị. Để đảm bảo tiếp tục phát triển kinh tế - xã hội, đem lại thịnh vượng cho quốc gia, bên cạnh việc tận dụng hiệu quả những thành tựu phát triển của trí tuệ nhân tạo và tự động hóa, nhiều nước đã đưa ra nhiều giải pháp phù hợp cho tiến trình chuyển đổi nhanh chóng và mạnh mẽ của cuộc cách mạng công nghiệp 4.0 hiện nay. Sau hơn 30 năm đổi mới, Việt Nam đã có bước phát triển mạnh mẽ, trở thành nền kinh tế hội nhập, năng động, hấp dẫn đầu tư trong khu vực. Trong bối cảnh phát triển và hội nhập quốc tế, cùng với sự phát triển mạnh mẽ của cuộc cách mạng công nghiệp 4.0, Việt Nam xác định tập trung phát triển công nghệ trí tuệ nhân tạo, một mũi nhọn đặc biệt quan trọng, được dự báo trở thành ngành công nghệ đột phá nhất trong 10 năm tới. Hiện nay chính phủ xác định công nghệ trí tuệ nhân tạo là sự đột phá, mũi nhọn cần được triển khai nghiên cứu. Bộ Khoa học và Công nghệ đã tập trung tham mưu, định hướng để thúc đẩy phát triển công nghệ, trong đó tập trung nguồn lực cho phát triển trí tuệ nhân tạo, đồng thời tiếp tục phê duyệt chương trình khoa học trọng điểm, hỗ trợ nghiên cứu phát triển công nghệ trí tuệ nhân tạo, liên kết các nhà nghiên cứu, đầu tư, doanh nghiệp, thúc đẩy nghiên cứu và ứng dụng trí tuệ nhân tạo. Nhắc đến trí tuệ nhân tạo, người ta sẽ nghĩ ngay đến công nghệ sinh trắc học. Đây là một trong những hướng phát triển mũi nhọn trong nền công nghiệp phát triển hiện đại hiện nay. Công nghệ sinh trắc học là công nghệ sử dụng những đặc tính vật lý, đặc điểm sinh học riêng của mỗi cá nhân như cảm xúc, võng mạc, khuôn mặt, vân tay… để nhận dạng. Ngoài việc sử dụng công nghệ sinh trắc học trong các hệ thống bảo mật, các nhà khoa học cũng đã bắt đầu tiến hành nghiên cứu các đặc điểm cảm xúc trên khuôn mặt con người. 1
  16. Việc nhận dạng được cảm xúc trên khuôn mặt đóng một vai trò quan trọng và là nền tảng trong việc chế tạo các loại rô bốt có thể tương tác cao với con người. Để xác định được cảm xúc trên khuôn mặt của con người không phải là một công việc dễ dàng. Rất nhiều công trình nghiên cứu, bài báo đưa ra các phương pháp nhằm xác định cảm xúc trên khuôn mặt. Trong một nghiên cứu của tác giả Kaustubh Dewoolkar [4], tác giả đã thông qua việc xử lý ảnh, chuyển đổi ảnh màu sang ảnh xám, từ đó lấy ra các đặc điểm chính sau đó đem so sánh với đặc điểm có sẵn để xác định được cảm xúc khuôn mặt. Trong một nghiên cứu khác của tác giả Young Hoon Jo vào năm 2015 [5], tác giả đã xác định cảm xúc của mỗi cá nhân dựa trên đặc điểm, khoảng cách của các thành phần trên khuôn mặt. Sau khi chia ra thành từng vùng trên khuôn mặt, tác giả đã đi phân tích đặc điểm của từng phần, thông qua đặc điểm của từng phần để xác định từng lớp cảm xúc trên khuôn mặt người. Tuy nhiên, việc xác định trên chỉ đúng khi các đặc điểm trên khuôn mặt được coi là tiêu chuẩn. Ngày nay, bằng việc sử dụng một phương pháp mới đó là mạng nơ- ron xoắn tích chập đã mở ra những bước tiến mới trong việc xác định và nhận dạng cảm xúc trên khuôn mặt con người. 1.2 LÝ DO CHỌN ĐỀ TÀI Cảm xúc đi cùng với mỗi người trong cuộc sống hàng ngày và đóng một vai trò quan trọng trong giao tiếp phi ngôn ngữ của con người. Đó là một trong những điều kiện quan trọng để hiểu được các hành vi ứng xử của con người. Nhận diện cảm xúc có thể được thực hiện thông qua văn bản, hội thoại, cử chỉ cơ thể và biểu hiện khuôn mặt. Trong đó nhận dạng cảm xúc thông qua biểu cảm của khuôn mặt được xem là phổ biến, đạt hiệu quả cao và dễ dàng thực hiện để đánh giá cảm xúc của con người. Chính vì lẽ đó em lựa chọn đề tài “Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ-ron tích chập CNN ” để nghiên cứu. Đề tài này hướng đến việc giúp cho máy tính cũng như kit raspberry Pi 4 có thể nhận dạng được cảm xúc của con người thông qua khuôn mặt bằng việc sử dụng mô hình mạng nơ-ron tích chập. 1.3 MỤC TIÊU ĐỀ TÀI 2
  17. Đề tài hướng đến mục tiêu tìm hiểu về mô hình mạng nơ-ron tích chập từ đó xây dựng và huấn luyện mô hình mạng CNN để kiểm tra tính hiệu quả trong việc nhận dạng cảm xúc. Với kết quả đạt được em sẽ tiến hành xây dựng một hệ thống nhận dạng 7 loại cảm xúc thông qua khuôn mặt gồm có: “vui vẻ” (happy), “buồn” (sad), “sợ hãi” (scared), “giận dữ” (angry), “ngạc nhiên” (surprised), “khó chịu” (disgust) và “bình thường” (neutral). Ngoài ra đề tài còn nghiên cứu về kit Raspberry Pi 4, ngôn ngữ Python, tìm hiểu về việc sử dụng thuật toán trong việc phát hiện khuôn mặt từ camera hoặc ảnh, các bước xử lý ảnh. Bên cạnh đó hệ thống sẽ được cài đặt và hoạt động trên máy tính nhúng Raspberry Pi 4. 1.4 PHƯƠNG PHÁP NGHIÊN CỨU Đề tài tập trung nghiên cứu và tìm hiểu về mô hình mạng nơ-ron tích chập bao gồm về kiến trúc, mô hình đào tạo, trích xuất đặc trưng và thuật toán phân loại nhận dạng, từ đó xây dựng và huấn luyện mô hình mạng nơ-ron tích chập để kiểm tra tính hiệu quả trong việc nhận dạng cảm xúc. 1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU  Đối tượng nghiên cứu Cảm xúc là một trạng thái trải nghiệm tích cực hoặc tiêu cực có liên quan đến các vận hành của hệ thống thể lý và tâm lý tạo ra những thay đổi về sinh lý, hành vi và suy nghĩ của một người hoặc con vật. Vì vậy đối tượng nghiên cứu trong đề tài hướng đến mọi người trong cuộc sống.  Phạm vi nghiên cứu Phạm vi nghiên cứu của đề tài chỉ xem xét đến thuật toán nhận dạng cảm xúc cho luồng video trực tuyến, ngoài ra hệ thống còn nhận dạng cảm xúc từ ảnh và video được tải lên hệ thống. Riêng việc nhận dạng cảm xúc cho luồng video trực tuyến được thực hiện trong điều kiện đầy đủ ánh sáng, gương mặt chính diện và khoảng cách nhận dạng khuôn mặt trong khoảng 1m. Dữ liệu cho việc huấn luyện máy học lấy từ tập dữ liệu FERC-2013 [2]. 1.6 BỐ CỤC ĐỀ TÀI 3
  18. Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, đề tài được phân thành năm chương với các nội dung cụ thể như sau: Chương 1: Tổng quan: Trong chương này, em sẽ trình bày khái quát về xu hướng phát triển cũng như tình hình nghiên cứu hiện nay, lý do chọn đề tài, xác định mục tiêu cần thực hiện trong đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu của đề tài. Chương 2: Cơ sở lý thuyết: Nội dung chương này là giới thiệu về quá trình xử lý ảnh, mạng nơ ron nhân tạo, tìm hiểu cấu trúc, hoạt động từng lớp của mạng nơ-ron tích chập. Trình bày các đặc trưng của mặt người, phương pháp tiếp cận đặc trưng khuôn mặt và biểu cảm của khuôn mặt khi bày tỏ cảm xúc. Chương 3: Thiết kế hệ thống Nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ- ron tích chập trên kit raspberry Pi 4: Trong chương này, em sẽ lên kế hoạch sử dụng tập mẫu, diễn giải các thông số của mô hình, quá trình huấn luyện, quá trình kiểm tra và thiết kế một hệ thống nhận dạng cảm xúc thông qua khuôn mặt dùng mô hình mạng nơ-ron tích chập. Chương 4: Kết quả: Chương này sẽ trình bày các kết quả đạt được của quá trình huấn luyện, quá trình kiểm tra mô hình và ứng dụng nhận dạng cảm xúc thông qua khuôn mặt. Chương 5: Kết luận và hướng phát triển: Trong chương này sẽ trình bày những kết quả của đề tài nghiên cứu đã đạt được, nêu ra một số hướng nghiên cứu tiếp theo và phát triển đề tài. 4
  19. CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ ẢNH 2.1.1 Xử lý ảnh Xử lý ảnh là một hình thức xử lý tín hiệu mà ảnh đầu vào là một hình ảnh và đầu ra của xử lý hình ảnh có thể là một hình ảnh hoặc một tập hợp các đặc tính hoặc tham số liên quan đến hình ảnh [11]. Đây là một phân ngành khoa học mới, rất phát triển trong những năm gần đây. Các chủ đề chính trong trong lĩnh vực xử lý ảnh gồm: Phục hồi hình ảnh, nâng cao chất lượng hình ảnh, nén hình ảnh…Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống con người. Ngày nay xử lý ảnh được áp dụng rất rộng rãi trong đời sống như: Viễn thám, hình ảnh y tế, nghiên cứu pháp y, dệt may, khoa học vật liệu, quân sự, công nghiệp điện ảnh, xử lý tài liệu, công nghệ đồ họa, công nghiệp in ấn. Có hai phương pháp có sẵn trong xử lý ảnh đó là xử lý ảnh tương tự và xử lý ảnh kỹ thuật số. - Xử lý ảnh tương tự: Được thực hiện trên các tín hiệu tương tự, nó bao gồm xử lý trên tín hiệu tương tự 2 chiều. Trong loại xử lý này những hình ảnh được thao tác, xử lý sử dụng phương thức điện bằng cách thay đổi các tín hiệu điện. - Xử lý ảnh kỹ thuật số: Sử dụng thuật toán máy tính để thực hiện xử lý hình ảnh trong môi trường ảnh số. Có 3 lợi ích chính của xử lý ảnh kỹ thuật số đó là chất lượng hình ảnh luôn cao, chi phí xử lý thấp và có khả năng điều khiển tất cả các phương diện của quá trình. Hình 2.1: Quy trình xử lý ảnh  Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình xử lý ảnh. Ảnh đầu vào sẽ được thu nhận qua các thiết bị như máy ảnh, cảm biến, máy quét ảnh... và sau đó các tín hiệu này sẽ được số hóa. Việc lựa chọn các thiết bị 5
  20. thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị.  Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch... với mục đích làm cho chất lượng ảnh trở nên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh. Quá trình này thường được thực hiện bởi các bộ lọc.  Phân đoạn ảnh: Phân đoạn ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông. Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám... Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô. Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó. Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu.  Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó. Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết. Để chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó. Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn. Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của nó. Sự chọn lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau. Chúng ta còn phải đưa ra một phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng. 6
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2