Luận án Tiến sĩ Công nghệ thông tin: Xây dựng phương pháp đánh giá chất lượng ảnh sử dụng thiết bị đọc chuyển động mắt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:54

Thêm vào BST

Báo xấu

13
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Xây dựng phương pháp đánh giá chất lượng ảnh sử dụng thiết bị đọc chuyển động mắt" được hoàn thành với mục tiêu nhằm dựng phương pháp đánh giá chất lượng ảnh bằng việc sử dụng thiết bị đọc chuyển động mắt và so sánh với phương pháp đã có.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Công nghệ thông tin: Xây dựng phương pháp đánh giá chất lượng ảnh sử dụng thiết bị đọc chuyển động mắt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MẠNH TUẤN XÂY DỰNG PHƯƠNG PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ẢNH SỬ DỤNG THIẾT BỊ ĐỌC CHUYỂN ĐỘNG MẮT Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ THANH HÀ HÀ NỘI 2021
1 LỜI CẢM ƠN Trước tiên học viên xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo PGS. TS. Lê Thanh Hà và người anh NCS Phạm Thanh Tùng đã nhiệt tình hướng dẫn và tạo điều kiện tốt nhất từ khi bắt đầu thực hiện đến khi kết thúc công việc của mình. Học viên xin dành lời cảm ơn chân thành đến các thầy cô khoa công nghệ thông tin, trường Đại học Công Nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho các kiến thức vô cùng quý và bổ ích trong suốt thời gian hai năm học tại trường. Các thầy cô luôn đồng hành và tạo điều kiện cho tất cả học viên được nghiên cứu và học hỏi theo nguyên vọng của bản thân. Đồng thời học viên cũng dành lời cảm ơn chân thành đến gia đình đã luôn động viên và các đồng nghiệp, đặc biệt là cấp trên trực tiếp của tôi, TS. Phạm Thanh Tùng đã tạo điều kiện trong quá trình học tập, nghiên cứu thời gian qua. Cuối cùng em xin gửi lời chúc sức khỏe và thành đạt tới tất cả quý thầy cô, quý đồng nghiệp cùng toàn thể gia đình và bạn bè. Xin chân thành cảm ơn!
2 LỜI CAM ĐOAN Học viên xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Xây dựng phương pháp đánh giá chất lượng ảnh sử dụng thiết bị đọc chuyển động mắt ” là công trình nghiên cứu riêng của bản thân không sao chép của người khác. Trong toàn bộ nội dung của luận văn, những điều đã trình bày hoặc là của chính cá nhân học viên hoặc là tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp. Học viên xin chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày ……tháng…..năm 2021 Học viên thực hiện Nguyễn Mạnh Tuấn
3 MỤC LỤC LỜI CẢM ƠN........................................................................................................1 LỜI CAM ĐOAN ..................................................................................................2 DANH MỤC HÌNH ẢNH ....................................................................................5 DANH MỤC BẢNG BIỂU ...................................................................................7 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .........................................7 MỞ ĐẦU ................................................................................................................8 1.1. Đánh giá chất lượng hình ảnh 11 1.1.1. Giới thiệu chung về đánh giá chất lượng hình ảnh ......................11 1.1.2. Đánh giá chất lượng chủ quan .......................................................12 1.1.3. Đánh giá chất lượng khách quan ...................................................12 1.1.4. Một số đặc điểm của PSNR .............................................................13 1.1.5. Đánh giá chất lượng hình ảnh theo đặc trưng thị giác .................14 1.1.6. Thước đo hiệu suất các phương pháp IQA ....................................15 1.2. Các thiết bị và công cụ được sử dụng trong nghiên cứu 16 1.2.1. Thiết bị Tobii Eye Tracking 4C và Tobii Eye Tracking Core Software v2.16.5 ....................................................................................................16 1.2.2. Tobii Core SDK................................................................................18 1.2.3. Một số công cụ cơ bản .....................................................................18 1.2.4. Mô hình mạng Neural tích chập ResneXt ......................................19 CHƯƠNG 2. XÂY DỰNG PHẦN MỀM VÀ TIẾN HÀNH THỰC NGHIỆM 24 2.1. Xây dựng phần mềm 24 2.1.1. Xây dựng phần mềm phục vụ thực nghiệm ...................................24 2.1.2. Sơ đồ tổng quát ................................................................................26 2.1.3. Lớp, đối tượng, sơ đồ lớp ................................................................26 2.1.4. Biểu đồ hoạt động ............................................................................27 2.1.5. Cài đặt Tobii.Interaction.Framework.............................................27 2.1.6. Giao diện phần mềm .......................................................................31 2.2. Tổ chức thực nghiệm 35 2.2.1. Căn chỉnh mắt với thiết bị Tobbi EyeTracking 4C ........................35 2.2.2. Tiến hành thực nghiệm ...................................................................37 2.2.3. Một số khó khăn gặp phải trong quá trình thực nghiệm ..............38
4 CHƯƠNG 3. KẾT QUẢ VÀ ĐÁNH GIÁ.........................................................40 3.1. Dữ liệu thu được 40 3.1.1. Dữ liệu điểm đánh giá chất lượng của từng ảnh trong bộ ảnh ....40 3.1.2. Dữ liệu điểm quan sát vào mỗi ảnh ................................................40 3.2. Sử dụng dữ liệu để học máy 44 3.2.1. Kiến trúc CNN dự đoán trọng số ....................................................44 3.2.2. Tiến hành huấn luyện dữ liệu ........................................................45 3.2.3. Kết quả huấn luyện .........................................................................45 3.3. So sánh một số phương pháp đánh giá chất lượng ảnh và đánh giá phương pháp nghiên cứu 47 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN VĂN .........................................................................................................49 KẾT LUẬN ..........................................................................................................50 TÀI LIỆU THAM KHẢO ..................................................................................51
5 DANH MỤC HÌNH ẢNH Hình 1. Ví dụ minh họa cho phương pháp đánh giá chất lượng ảnh .....................8 Hình 2. Mối tương quan giữa PSNR và DMOS trên cơ sở dữ liệu VQEG FRTV Phase I............................................................................................................................14 Hình 3. Thiết bị Tobii Eye Tracker 4C ................................................................17 Hình 4. Thiết bị được gắn phía trước màn hình ..................................................17 Hình 5. Kết nối tắt của mạng ResNet ..................................................................20 Hình 6. Mô hình mạng VGG_19, mạng với 3 lớp, ResNet-34............................21 Hình 7. Mô hình ResNet-50 và một số mạng khác..............................................22 Hình 8. Mô hình ResNet-50.................................................................................22 Hình 9. Khối ResNet thông thường và khối ResNext .........................................23 Hình 10. ResNet-50 và ResXt-50 ........................................................................23 Hình 11. Quy trình đánh giá ảnh .........................................................................25 Hình 12. Sơ đồ tổng quát cho hệ thống ...............................................................26 Hình 13. Biểu đồ lớp ............................................................................................27 Hình 14. Biểu đồ hoạt động phần mềm ...............................................................27 Hình 15. Manage NuGet Packages for Solution trên môi trường Microsoft Visual Studio .................................................................................................................28 Hình 16. Tìm kiếm tobbi.interation .....................................................................28 Hình 17. Cài đặt tobbi.interation .........................................................................29 Hình 18. Add Reference trong Microsoft Visual Studio .....................................29 Hình 19. Tìm đường dẫn đến thư viện tobbi.interation .......................................30 Hình 20. Thêm 2 thư viện Tobii.Interaction.Model.dll và Tobii.Interaction.Net.dll vào project .............................................................................30 Hình 21. Thêm thành công 2 thư viện của Tobii.Interaction vào project ............31 Hình 22. Khai báo thư viện trong Project ............................................................31 Hình 23. Giao diện quản lý thông tin người tham gia thực nghệm .....................32 Hình 24. Giao diện người dùng quan sát ảnh gốc ...............................................32 Hình 25. Giao diện màn hình nghỉ.......................................................................33 Hình 26. Giao diện người dùng quan sát ảnh nén ...............................................33 Hình 27. Màn hình nghỉ và chấm điểm ảnh nén ..................................................34 Hình 28. Màn hình nghỉ khi kết thúc cặp ảnh......................................................34
6 Hình 29. Giao diện xem lại điểm đã quan sát ......................................................35 Hình 30. Giao diện Eye Tracking software .........................................................36 Hình 31. Màn hình căn chỉnh mắt người dùng ....................................................36 Hình 32. Màn hình kiểm tra quá trình căn chỉnh mắt ..........................................37 Hình 33. Một số người tham gia thuộc nhóm tuổi 18 đến 50 tuổi ......................37 Hình 34. Một số người tham gia thuộc nhóm tuổi 14 đến 17 tuổi ......................38 Hình 35. Một số người tham gia thuộc nhóm tuổi trên 50 ..................................38 Hình 36. Trung bình điểm đánh giá của toàn bộ ảnh ..........................................40 Hình 37. Ảnh BasketballDrive1920x1080_105_qp38 ........................................41 Hình 38. Các điểm được quan sát trên ảnh BasketballDrive1920x1080_105_qp38 .........................................................................41 Hình 39. Số điểm quan sát trên các vùng ảnh kích thước 32*32 đối với ảnh BasketballDrive1920x1080_105_qp38 .........................................................................42 Hình 40. Số điểm quan sát trên các vùng ảnh 32*32 bằng sơ đồ trực quan đối với ảnh BasketballDrive1920x1080_105_qp38 ..................................................................42 Hình 41. Ảnh Beauty_1920x1080_120fps_420_8bit_YUV_380 _qp14 ............43 Hình 42. Các điểm được quan sát trên ảnh Beauty_1920x1080_120fps_420_8bit_YUV_380 _qp14 .............................................43 Hình 43. Số điểm quan sát trên các vùng ảnh 32*32 đối với ảnh Beauty_1920x1080_120fps_420_8bit_YUV_380 _qp14 .............................................44 Hình 44. Số điểm quan sát trên các vùng ảnh 32*32 bằng sơ đồ trực quan đối với ảnh Beauty_1920x1080_120fps_420_8bit_YUV_380 _qp14 ......................................44 Hình 45. Kiến trúc CNN dự đoán trọng số ..........................................................45 Hình 46. Huấn luyện dữ liệu ................................................................................45 Hình 47. Kết quả dự đoán trọng số đối với ảnh blue_sky_1080p25_92_qp31 ...46 Hình 48. Kết quả dự đoán trọng số đối với ảnh aspen_1080p_432_qp40 ..........46 Hình 49. Kết quả dự đoán trọng số đối đối với ảnh red_kayak_1080p_80_qp22 .......................................................................................................................................46 Hình 50. dự đoán trọng số đối đối với ảnh Jockey_1920x1080_120fps_420_8bit_YUV_130_qp24 ..............................................47
7 DANH MỤC BẢNG BIỂU Bảng 1. Bảng mô tả yêu cầu phần mềm ............................................................. 26 Bảng 2. So sánh hiệu suất của phương pháp nghiên cứu với một số phương pháp khác ............................................................................................................................... 49 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng anh Thuật ngữ tiếng việt Application Programming Giao diện lập trình ứng API Interface dụng Image Quality Assessment Phương pháp đánh giá chất IQA lượng hình ảnh The Spearman’s rank correlation Hệ số tương quan xếp hạng SRCC coefficient của Spearman The Pearson’s linear correlation Hệ số tương quan tuyến PLCC coefficient tính Pearson CNN Convolutional Neural Network Mạng Nơ-ron tích chập Peak Signal To Noise Ratio Tỉ số tín hiệu cực đại trên PSNR nhiễu
8 MỞ ĐẦU 1. Đặt vấn đề Hiện nay, truyền thông đa phương tiện trở nên vô cùng phổ biến, đặc biệt trong môi trường mạng Internet. Số lượng các video, hình ảnh được chia sẻ trên các nền tảng mạng xã hội vô cùng lớn. Theo thống kê năm 2020 của Pew Research Center, có khoảng 8 tỉ video được chia sẻ trên Youtube, với tổng cộng khoảng 4 tỉ giờ xem video, tương đương 456.621 năm. Ngoài ra số lượng hình ảnh, video được chia sẻ trên các hệ thống khác như: Facbook, Tiktok, Instagram ,… cũng rất ấn tượng. Điều này cho thấy sự bùng nổ về dữ liệu video. Cùng với sự bùng nổ của dữ liệu video, nhu cầu về chất lượng hình ảnh của người dùng cũng ngày càng cao, việc nghiên cứu nhằm nâng cao và đánh giá chất lượng hình ảnh là hết sức cần thiết. Học viên đã tham gia nhóm xây dựng dữ liệu đánh giá chất lượng ảnh chủ quan gồm 40286 cặp khối ảnh ("Compression Artifacts Image Patch database for Perceptual Quality Assessment," 2020 12th International Conference on Knowledge and Systems Engineering (KSE))[1]. Từ dữ liệu trên, nhóm đã mô hình hóa phương pháp đánh giá chất lượng ảnh theo đặc trưng thị giác sử dụng mạng CNN ("End-to-End Image Patch Quality Assessment for Image/Video With Compression Artifacts," in IEEE Access, vol. 8, 2020) cho kết quả khả quan[2]. Tuy đã xác định được chất lượng cho từng khối ảnh, nhưng nhược điểm là không xác định được trọng số của khối ảnh trong khi mức độ quan tâm đến từng vùng trong ảnh khác nhau. Hình 1. Ví dụ minh họa cho phương pháp đánh giá chất lượng ảnh
9 Hình 1 phía trên là ví dụ cho 1 phương pháp đánh giá ảnh, với hình a là ảnh gốc. các hình e, f, g, h là ảnh nén với 4 mức độ biến dạng. Phương pháp dự đoán chất lượng của các khối ảnh trong 4 ảnh nén tương ứng với hình i, j, k, l. Các hình b, c, d thể hiện mức độ quan tâm của người quan sát. Trong đó hình d thể hiện trọng số của từng vùng ảnh. Để tính được chất lượng của toàn ảnh có 2 cách:  Lấy điểm trung bình của tất cả các vùng ảnh: Đây là cách đơn giản nhất, giả định tầm quan trọng cuả mọi khối ảnh là như nhau, chất lượng cảu toàn ảnh được tính theo công thức [4]: 1 𝑁𝑝 ̂= 𝑞 ∑𝑖 𝑦𝑖 (1) 𝑁𝑝 Trong đó Np là số lượng của các khối ảnh, yi là chất lượng của khối ảnh thứ i.  Sử dụng trọng số đối với từng vùng ảnh. Không phải mọi vùng trong một hình ảnh đều nhận được sự chú ý như nhau của người xem và chất lượng hình ảnh ở các vùng thu hút sự chú ý của người xem được cho là có ảnh hưởng đến chất lượng của toàn ảnh hơn các vùng khác. Trọng số 𝛼 𝑖 của khối ảnh thứ i được cộng thêm giá trị nhỏ 𝜖 để đảm bảo tất cả vùng ảnh đều có vai trò đối với toàn ảnh[4]. 𝛼 ∗ = max(0, 𝛼 𝑖 ) + 𝜀 𝑖 (2) Trọng số chuẩn hóa được tính theo công thức sau: 𝛼∗ 𝑖 𝑝𝑖 = 𝑁𝑝 ∗ (3) ∑𝑗 𝛼𝑗 Chất lượng toàn ảnh ̂ được tính theo công thức sau: 𝑞 𝑁 𝑁𝑝 ∑ 𝑖 𝑝 𝛼∗∗ 𝑦 𝑖 𝑖 ̂ = ∑𝑖 𝑞 𝑝𝑖 ∗ 𝑦𝑖 = 𝑁 (4) ∑ 𝑖 𝑝 𝛼∗ 𝑖 Với Np là số lượng các khối ảnh, yi là chất lượng của khối ảnh thứ i. Đối với cách tính theo phương pháp thứ 2, được đánh giá tốt hơn. Nhận ra được sự cần thiết trong việc xác định trọng số đối với từng vùng ảnh, học viên đã sử dụng thiết bị đọc mắt để nghiên cứu xây dựng phương pháp dự đoán được trọng số của các các vùng ảnh, từ đó xây dựng phương pháp đánh giá chất lượng ảnh với hiệu quả tốt. 2. Mục tiêu Luận văn nhằm dựng phương pháp đánh giá chất lượng ảnh bằng việc sử dụng thiết bị đọc chuyển động mắt và so sánh với phương pháp đã có. 3. Phương pháp nghiên cứu Luận văn sử dụng các phương pháp nghiên cứu khoa học sau:  Phương pháp thu thập số liệu
10  Phương pháp thực nghiệm nghiên cứu  Phương pháp điều tra  Phương pháp phân tích tổng kết kinh nghiệm  Phương pháp chuyên gia 4. Phạm vi nghiên cứu Dữ liệu ảnh sử dụng biến dạng nén video nhằm mục đích ứng dụng trong bộ nén video. 5. Đóng góp của luận văn Đưa ra các ưu và nhược điểm cuả các phương pháp đánh giá chất lượng ảnh, từ đó phục vụ cho việc nén ảnh đạt chất lượng cao 6. Bố cục của luận văn  Chương 1: Tổng quan về đánh giá chất lượng hình ảnh, giới thiệu thiết bị và các công cụ sử dụng trong nghiên cứu  Chương 2: Xây dựng phần mềm và tiến hành thực nghiệm  Chương 3: Kết quả và đánh giá
11 CHƯƠNG 1. TỔNG QUAN VỀ ĐÁNH GIÁ CHẤT LƯỢNG HÌNH ẢNH, GIỚI THIỆU THIẾT BỊ VÀ CÁC CÔNG CỤ SỬ DỤNG TRONG NGHIÊN CỨU 1.1. Đánh giá chất lượng hình ảnh 1.1.1. Giới thiệu chung về đánh giá chất lượng hình ảnh Đánh giá chất lượng hình ảnh là một nội dung cơ bản quan trọng trong quá trình xử lý ảnh và video. Nhận thức thị giác của con người rất phức tạp, khó có thể hiểu đầy đủ và mô hình hoá đầy đủ. Đánh giá chất lượng video còn phức tạp hơn nhiều so với đánh giá chất lượng ảnh do thông tin không chỉ trong không gian hai chiều của khung hình mà còn theo thời gian. Đánh giá chất lượng chủ quan vẫn là phương pháp đánh giá tốt nhất. Trong phương pháp này, một nhóm người xem được hỏi ý kiến của họ về chất lượng video hiển thị dưới các điều kiện thử nghiệm. Các phương pháp chủ quan tốn kém, thực hiện phức tạp và không phù hợp để tích hợp trong các bộ mã hoá. Chính vì vậy, các phương pháp đánh giá khách quan được xây dựng để thay thế chúng. Các phương pháp chủ quan phổ biến hiện nay đo chất lượng bằng sự khác biệt tuyệt đối hoặc bình phương tuyệt đối giữa hình ảnh gốc với hình ảnh biến dạng. Tuy nhiên, các đơn vị đo chất lượng sử dụng các khác biệt toán học đơn giản không thể hiện được chất lượng thật theo nhận thức thị giác con người. Chính vì vậy, các phương pháp đánh giá chất lượng khách quan gần đây đã mô hình hoá theo hướng nhận thức con người nhằm tăng mức độ tương quan với các phương pháp chủ quan, đồng nghĩa với việc ước lượng chính xác hơn chất lượng hình ảnh. Điều này giúp cho việc mã hoá hình ảnh hiệu quả hơn nhưng vẫn đảm bảo chất lượng hình ảnh mà đối tượng đánh giá cuối cùng là con người. Đánh giá chất lượng ảnh có ý nghĩa quan trọng trong các bộ mã hoá: (i) so sánh hiệu năng giữa các bộ mã hoá khác nhau trên các tốc độ bít và nội dung video; (ii) so sánh ảnh hưởng của các tham số và tuỳ chọn mã hoá nhằm lựa chọn giá trị tối ưu. Điển hình trong bộ mã hoá là tối ưu mã hoá bằng vòng lặp RDO (RQO). Hơn một thế kỷ trước, các nghiên cứu về thi giác máy bắt đầu chú ý đến độ nhạy cảm của của con người đối với các biến dạng hình ảnh và video. Độ nhạy này thay đổi theo độ sáng màn hình [3-5], đặc điểm tần số không gian và thời gian cục bộ [6], các loại chuyển động đối tượng, chuyển động của mắt, các loại biến dạng khác nhau và môi trường quan sát [7]. Để đảm bảo tính khoa học của các thử nghiệm chủ quan và hiệu quả mô hình hoá các mô hình khách quan, ảnh hưởng của các độ nhạy này phải rất đa dạng, phong phú. Một điều lưu ý là HVS có sự khác biệt giữa các đối tượng, tùy thuộc vào độ tuổi, bệnh tật, trạng thái sức khoẻ hoặc khiếm khuyết về thị giác. Những sở thích chủ quan hoặc cảm giác nhàm chán có thể ảnh hưởng đến đánh giá của người xem.
12 1.1.2. Đánh giá chất lượng chủ quan Thời gian gần đây có những phương pháp đo chất lượng hình ảnh khách quan, tuy nhiên không có phương pháp vào được chấp nhận rộng rãi như một thước đo chất lượng chuẩn. Do đó, vẫn cần phải sử dụng thử nghiệm đánh giá chủ quan để xây dựng các dữ liệu đánh giá chất lượng từ đó xây dựng các mô hình đánh giá chất lượng dùng cho các bộ nén ảnh và video. Các phương pháp đánh giá chủ quan được sử dụng rộng rãi để đánh giá, so sánh hoặc xác nhận hiệu suất của các thuật toán nén video. Một số cơ sở dữ liệu đánh giá chất lượng hình ảnh chủ quan đã được xây dựng như CSIQ, LIVE, TID2008, TID 2018… về ảnh và VQEG-FR, IVC-HD, EPFL- PoliMI, LIVE video, VQEG-HD, đối với video. Từ một số hình ảnh gốc, các hình ảnh đánh giá được tạo ra bằng cách thêm vào ảnh gốc các kiểu biến dạng khác nhau. Người quan sát được lựa chọn đánh giá chất lượng dưới những điều kiện quy định trong [8]. Ý kiến chủ quan thu được sẽ được tính toán trung bình giữa những người cùng đánh giá hình ảnh gọi là MOS (mean opinion score) hoặc DMOS (differential mean opinion score). 1.1.3. Đánh giá chất lượng khách quan Đánh giá chất lượng ảnh và video khách quan đóng một vai trò quan trọng trong quá trình xử lý hình ảnh và video, đặc biệt liên quan đến mã hóa video và truyền thông. Chúng có ba công dụng chính: (i) Phát triển và đánh giá thuật toán: Đánh giá chất lượng chủ quan rất hiệu quả trong nhận định điểm mạnh và điểm yếu của các thuật toán mã hóa nhưng rất tốn kém và mất thời gian. Các đơn vị đo chất lượng khách quan cung cấp một phương tiện so sánh đơn giản hơn nhiều. Không chỉ có vậy, phương pháp chủ quan còn giúp việc lựa chọn các sửa đổi thuật toán đơn giản hơn. (ii) Tối ưu hóa chất lượng: Đánh giá chất lượng rất cần thiết trong vòng lặp mã hóa để đưa ra quyết định RQO lựa chọn chế độ mã hóa và cài đặt tham số nào đảm bảo hiệu suất tối ưu với các ràng buộc về nội dung và tỷ lệ nhất định. (iii) Điều khiển truyền phát: Trong trường hợp truyền tải nội dung video trên mạng, ưu điểm lớn của bộ mã hóa và bộ phát là nhận biết chất lượng tín hiệu tại thiết bị thu sau khi giải mã. Điều này cho phép bộ mã hóa được thông tin về các điều kiện kênh hiện hành và đưa ra quyết định phù hợp về mặt kiểm soát chất lượng và kiểm soát lỗi. Tùy thuộc vào việc đánh giá có tham chiếu hay không, các phương pháp đánh giá chất lượng khách quan được phân thành 3 loại: có tham chiếu, tham chiếu không đầy đủ hoặc không tham chiếu. Các phương pháp có tham chiếu (FR) được sử dụng rộng rãi trong các ứng dụng có hình ảnh gốc, chẳng hạn như khi đánh giá hiệu suất thuật toán mã hóa ảnh và video hoặc trong quá trình mã hóa khi đưa ra lựa chọn tối ưu mã hóa.
13 Các phương pháp không tham chiếu (NR) chỉ được sử dụng khi nội dung tham chiếu không có sẵn [9], ví dụ như khi đánh giá ảnh hưởng của hệ thống truyền thông ở thiết bị thu. Rất khó để xây dựng các các phương pháp đo này và việc sử dụng chúng thường bị giới hạn trong các một số loại biến dạng. Chúng khái quát mô hình chủ quan kém hiệu quả và nên thay thế bằng phương pháp tham chiếu không đầy đủ nếu có thể. Các phương pháp tham chiếu không đầy đủ (RR) [10] sử dụng thông tin một phần về hình ảnh gốc trong quá trình đánh giá chất lượng. Tại bộ giải mã, các tính năng tương tự được trích xuất từ tín hiệu được tái tạo và so sánh trong số liệu RR. Một phản hồi về chất lượng tái cấu trúc tại bộ giải mã sau đó có thể được đưa trở lại bộ mã hóa để nó có thể đưa ra quyết định mã hóa dựa trên trạng thái kênh hiện hành. Rõ ràng bất kỳ thông tin bên bổ sung nào đều đặt chi phí trên tốc độ bit của thông tin được mã hóa và điều này phải được đánh giá trong bối cảnh đạt được chất lượng đạt được. 1.1.4. Một số đặc điểm của PSNR MSE (Mean squared error)) biểu thị mức độ của độ méo mó, tức là sự khác biệt giữa hình ảnh tham chiếu và hình ảnh thử nghiệm. Giá trị MSE có thể được tính bằng công thức sau: (5) Với ảnh màu với 3 giá trị RGB trên 1 pixel, MSE là tổng của 3 giá trị (tính trên 3 kênh màu) chia cho kích thước của ảnh và chia cho 3. MSE thường được chuyển đổi thành PSNR. PSNR là tỷ số giữa công suất tối đa có thể có của tín hiệu và công suất của độ méo, và nó được tính bằng công thức: (6) Với D biểu thị phạm vi động của cường độ pixel, ví dụ: đối với hình ảnh 8bit/pixel thì D=255. Trong cùng một điều kiện thử nghiệm, PSNR có thể dùng để ước lượng biến dạng một cách hiệu quả đối với một số tín hiệu hình ảnh nhất định. Huynh – Thu và Ghanbari [11] đã chỉ ra rằng PSNR có thể cung cấp kết quả đánh giá nhất quán khi được sử dụng để so sánh giữa các bộ mã hoá tương tự hoặc cải tiến bộ mã hoá dựa trên cùng một dữ liệu thử nghiệm. Tuy nhiên các phương pháp đánh giá theo MSE nói chung có thể thất bại đối với một số loại suy giảm chất lượng nhất định, chẳng hạn như dịch chuyển nhỏ theo không gian hoặc thời gian, thay đổi chiếu sáng hoặc thay đổi nhỏ trong kết cấu theo đặc trưng [12]. Trong những trường hợp này, chất lượng theo nhận thức có thể rất nhỏ trong khi sự thay đổi chất lượng được đánh giá có thể là đáng kể. Tổng quát về những hạn chế của các phương pháp đánh giá chất lượng dựa trên MSE được trình bày bởi Girod [13] cũng như Wang và Bovik [12]. Wang và Bovic liệt kê
14 điều kiện sử dụng phương pháp đánh giá chất lượng MSE: (i) không phụ thuộc vào mối quan hệ thời gian hoặc không gian giữa các mẫu; (ii) chất lượng tín hiệu độc lập với mọi mối quan hệ giữa tín hiệu gốc và tín hiệu lỗi; (iii) chất lượng tín hiệu độc lập với các dấu hiệu của tín hiệu lỗi; (iv) tất cả các mẫu đóng góp như nhau vào chất lượng tín hiệu. Dựa trên cơ sở dữ liệu VQEG FRTV Phase I, Zhang và Bull [14] đã phân tích mối tương quan giữa các chỉ số chất lượng PSNR và điểm đánh giá khác biệt chủ quan (DMOS). Kết quả biểu diễn trên hình 3.6 cho thấy có mối tương quan nhất định giữa 2 đại lượng nhưng không quá cao đặc biệt đối với một số biến dạng do pure coding hay transmision error. Hình 2. Mối tương quan giữa PSNR và DMOS trên cơ sở dữ liệu VQEG FRTV Phase I 1.1.5. Đánh giá chất lượng hình ảnh theo đặc trưng thị giác Các phương pháp đánh giá trên nền tảng HVS: Các đặc tính của HVS được khai thác trong mã hóa cũng như đánh giá chất lượng. Khi các thuộc tính HVS được khai thác, mối tương quan với các đánh giá chủ quan nâng lên, so với các biện pháp đánh giá thông thường như MSE. Độ nhạy cảm đối với sự tương phản và các thuộc tính gần ngưỡng và siêu ngưỡng của HVS đã được Chandler và Hemami sử dụng trong phương pháp VSNR (Visual Signal-to-Noise Ratio) đánh giá chất lượng ảnh [15]. Phương pháp này mô phỏng sự phân tích vỏ não của HVS bằng cách sử dụng biến đổi wavelet. VSNR đánh giá kiểm nghiệm trên cơ sở dữ liệu hình ảnh LIVE với kết quả rất tốt. Dựa trên cách tiếp cận được sử dụng trong VSNR, Larson và Chandler [16] đã phát triển mô hình biến dạng rõ ràng nhất (MAD).
15 Trong mã hóa video nhận thức, Zhang và Bull đã đề xuất một đơn vị đo chất lượng Artifact-Based Video Metric (AVM) [18] bằng cách sử dụng DT-CWT làm cơ sở để đánh giá cả nội dung được nén và tổng hợp. AVM tương quan tốt với điểm chất lượng chủ quan VQEG và có ưu điểm là có thể dễ dàng tích hợp vào bộ mã hoá do tính linh hoạt cao và độ phức tạp thấp. Lấy cảm hứng từ AVM, một phương pháp đo chất lượng video dựa trên nhận thức (PVM) gần đây đã được đề xuất bởi Zhang và Bull [19]. PVM mô phỏng các quá trình nhận thức HVS bằng cách kết hợp một cách thích nghi sự biến dạng đáng chú ý và các tạo tác làm mờ bằng mô hình phi tuyến tính nâng cao. Các phương pháp đánh giá chất lượng theo mô hình thống kê: Tính toàn vẹn của thông tin trong một hình ảnh hoặc video là một vấn đề quan trọng cho nhận thức trực quan. Wang và cộng sự. [15] đã phát triển một phương pháp đánh giá chất lượng hình ảnh SSIM (Structural Similarity Image Metric) ước tính sự suy giảm độ tương tự cấu trúc dựa trên các thuộc tính thống kê của thông tin địa phương giữa một hình ảnh tham chiếu và hình ảnh bị bóp méo. Đây cải tiến của chỉ số chất lượng hình ảnh phổ quát (UIQI) trước đây [16] và kết hợp ba biện pháp tương tự cục bộ dựa trên độ chói, độ tương phản và cấu trúc. SSIM có hiệu suất vượt trội so với PSNR trong nhiều trường hợp và nó tương đối đơn giản để tính toán. Tuy nhiên, SSIM nhạy cảm với sự thay đổi tỷ lệ, bản dịch và góc xoay. CW-SSIM đã được phát triển dựa trên wavelet phức tạp để giải quyết các vấn đề này [17] cũng như phiên bản nhiều tỷ lệ (MS-SSIM) [18]. Một phiên bản mở rộng rộng hơn nữa cho SSIM được gọi là V-SSIM, cũng tính đến thông tin tạm thời [19] có trọng số các chỉ số SSIM của tất cả các khung. Các phương pháp này đã chứng minh hiệu suất được cải thiện so với PSNR trên cơ sở dữ liệu VQEG FRTV Phase I. Các số liệu chất lượng dựa trên mô hình thống kê cũng bao gồm các đóng góp từ Sheikh và Bovic [20], Lu [21] và Shnayderman [22]. 1.1.6. Thước đo hiệu suất các phương pháp IQA Hệ số tương quan tuyến tính Pearson (PLCC) là hệ số tương quan tuyến tính giữa chất lượng ảnh đoán và chất lượng hình ảnh thực nghiệm chủ quan (DMOS). PLCC là thước đo độ chính xác dự đoán của phương pháp đề xuất, tức là khả năng của chỉ số này để dự đoán chất lượng chủ quan với sai số thấp. PLCC có thể được tính theo phương trình sau[6]: (7)
16 Trong đó, si và qi là điểm thực nghiệm chủ quan và điểm dự đoán cho hình ảnh thứ i trong tập dữ liệu hình ảnh có kích thước Md. 𝑠̅ và ̅ là trung bình của điểm thực 𝑞 nghiệm chủ quan và điểm dự đoán. Hệ số tương quan xếp hạng của Spearman (SRCC) là hệ số tương quan tuyến tính giữa chất lượng ảnh đoán và chất lượng hình ảnh thực nghiệm chủ quan (DMOS). SRCC đo lường tính đơn điệu dự đoán của phương pháp, tức là giới hạn mà điểm chất lượng của một chỉ số đồng ý với mức độ tương đối của điểm số chủ quan. SRCC có thể được tính bằng phương trình sau[6]: (8) Trong đó, d là sự khác nhau giữ xếp hạng của hình ảnh thứ i trong thực nghiệm chủ quan và dự đoán. SRCC độc lập với bất kỳ ánh xạ phi tuyến tính đơn điệu nào giữa các điểm khách quan và chủ quan. Công thức để sử dụng khi có các cấp bậc bị ràng buộc là: (9) Trong đó, x,y là xếp hạng của hình ảnh thứ i trong thực nghiệm chủ quan và dự đoán. 1.2. Các thiết bị và công cụ được sử dụng trong nghiên cứu Trong nghiên cứu tác giả sử dụng thiết bị Tobii Eye Tracking 4C, cài đặt và chạy các công cụ sau: Tobii Eye Tracking Core Software v2.16.5, Tobii Core SDK, sử dụng ngôn ngữ lập trình C# trên nền tảng WPF (Windows Presentation Foundation), ngôn ngữ lập trình python và CNN resnext50. 1.2.1. Thiết bị Tobii Eye Tracking 4C và Tobii Eye Tracking Core Software v2.16.5 Tobii Eye Tracker là một giải pháp để tương tác khác vào máy. Được thiết kế để phù hợp với máy tính xách tay hoặc màn hình, thanh theo dõi mắt mỏng liên tục theo dõi vị trí người dùng đang nhìn trên màn hình, cho phép các ứng dụng, bao gồm cả trò chơi, phản hồi tương ứng.
17 Hình 3. Thiết bị Tobii Eye Tracker 4C Tobii Eye Tracker 4C là một thanh màu đen bằng nhựa nhỏ gọn nằm có thể được đặt bên dưới màn hình máy tính (hình 2). Nó dài hơn 30cm một chút và kết nối với máy tính bằng một đầu nối USB 2.0 duy nhất (hình 4). Bên trong thiết bị theo dõi có một loạt camera - một số là camera hồng ngoại, trong khi những camera khác theo dõi chuyển động của mắt. Sau khi cài đặt phần mềm Tobii miễn phí, trình theo dõi mắt sáng lên và bắt đầu hiệu chỉnh kích thước màn hình của bạn. Thiết lập rất đơn giản và mất khoảng năm phút. Thiết bị theo dõi rất chính xác và hoạt động mà không gặp trở ngại nào qua kể cả khi người dùng đeo kính thuốc. Bạn có thể bật lớp phủ (“overlay”) để kiểm tra trực quan vị trí mắt đang nhìn và hầu như luôn chính xác. Do được thiết kế với camera hồng ngoại, thiết bị có thể hoạt động tốt trong điều kiện ánh sáng yếu. Để giảm bớt tác động đến hệ máy tính người dùng, hầu hết quá trình xử lý dữ liệu diễn ra bên trong chính thiết bị. Ngoài ra, người dùng có thể thiết lập để di chuyển chuột đến vị trí bạn đang nhìn trên màn hình Hình 4. Thiết bị được gắn phía trước màn hình Tobii Eye Tracker 4C được thiết kế chủ yếu như một thiết bị bổ sung cho các trò chơi trên máy tính. Hiện tại, danh sách các trò chơi có hỗ trợ tính năng theo dõi mắt Tobii còn hạn chế, nhưng thiết bị này đang nhận được sự hỗ trợ từ các công ty như Ubisoft. Các tựa AAA đáng chú ý có thể kể đến bao gồm Deus Ex: Mankind Divided, Elite Dangerous và Watch Dogs 2.
18 Tobii Eye Tracking Core Software v2.16.5 là phần mềm giống như driver giúp người dùng cài đặt, và sử dụng, giao tiếp với thiết bị Tobii Eye Tracker 4C. 1.2.2. Tobii Core SDK Tobii Core SDK cung cấp bộ công cụ phát triển phần mềm miễn phí để làm việc với các trình theo dõi mắt trong việc xây dựng các ứng dụng nghiên cứu. Tobii Core SDK cung cấp hỗ trợ đa nền tảng cho một số ngôn ngữ lập trình và bản cài sẵn cho các công cụ 3D. Các API cung cấp quyền truy cập:  Các luồng dữ liệu theo dõi chuyển động mắt cho phép xây dựng các ứng dụng nghiên cứu với đầu vào là dữ liệu theo dõi mắt làm đầu. Nó bao gồm dữ liệu thô riêng biệt cho mắt trái và mắt phải, vị trí nhìn, điểm gốc trong không gian (tọa độ mắt 3D), mốc thời gian với độ chính xác cao.  Hỗ trợ các phiên bản trên cả Windows, MacOS và Linux.  Thư viện và ngôn ngữ được hỗ trợ bao gồm C, Python, Matlab và .Net Framework 1.2.3. Một số công cụ cơ bản  Ngôn ngữ lập trình C# và nền tảng WPF C# (hay C sharp) là một ngôn ngữ lập trình bậc cao, được phát triển bởi Microsoft vào năm 2000. C# là ngôn ngữ lập trình hiện đại, hướng đối tượng và được xây dựng trên nền tảng của hai ngôn ngữ mạnh nhất là C++ và Java. WPF là viết tắt của 3 chữ cái đầu tiên của “Windows Presentation Foundation, là thế hệ kế tiếp của WinForm dùng lập trình các ứng dụng Windows phát triển trên nền tảng .NET 3.5 trở về sau. WPF là nền tảng lập trình mới, hiện đại của Microsoft, phần lớn các ứng dụng Desktop của Microsoft đều viết trên nền WPF.  Hệ quản trị dữ liệu SQL Server SQL Server (Structured Query Language) là một hệ thống quản lý cơ sở dữ liệu quan hệ (Relational Database Management System, viết tắt là RDBMS). Một Relational Database Management System gồm có: databases, datase engine và các chương trình ứng dụng dùng để quản lý các bộ phận trong RDBMS và những dữ liệu khác.  ADO.NET Entity Framework và Linq ADO.NET Entity Framework là một mô hình hay nền tảng ORM (Object Relational Mapper) ánh xạ trực tiếp với database để tạo ra những mô hình dữ liệu quan hệ...và cung cấp những cơ chế giúp ta có thể tương tác, khai thác dữ liệu hiệu quả, dễ dàng hơn.  Ngôn ngữ lập trình Python Python là ngôn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra bởi Guido van Rossum. Python hoàn toàn tạo kiểu động và sử dụng cơ chế cấp phát bộ
19 nhớ tự động. Python có cấu trúc dữ liệu cấp cao mạnh mẽ và cách tiếp cận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng. Cú pháp lệnh của Python là điểm cộng vô cùng lớn vì sự rõ ràng, dễ hiểu và cách gõ linh động làm cho nó nhanh chóng trở thành một ngôn ngữ lý tưởng để viết script và phát triển ứng dụng trong nhiều lĩnh vực, ở hầu hết các nền tảng. Trong phạm vi của đề tài, Python được sử dụng để lập trình sử dụng trong mô hình mạng Neural tích chập (CNN) ResneXt50. 1.2.4. Mô hình mạng Neural tích chập ResneXt Trước khi giới thiệu về ResNext, cần phải hiểu về ResNet. ResNet (Residual Network) được giới thiệu đến công chúng vào năm 2015 và đã giành được vị trí thứ 1 trong cuộc thi ILSVRC 2015 với tỉ lệ lỗi top 5 chỉ 3.57%. Không những thế Resnet còn đứng vị trí đầu tiên trong cuộc thi ILSVRC and COCO 2015 với ImageNet Detection, ImageNet localization, Coco detection và Coco segmentation. Hiện tại thì có rất nhiều biến thể của kiến trúc ResNet với số lớp khác nhau như ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152,...Với tên là ResNet theo sau là một số chỉ kiến trúc ResNet với số lớp nhất định. Mạng ResNet (R) là mạng CNN được thiết kế để làm việc với hàng trăm hoặc hàng nghìn lớp chập. Một vấn đề xảy ra khi xây dựng mạng CNN với nhiều lớp chập sẽ xảy ra hiện tượng Vanishing Gradient dẫn tới quá trình học tập không tốt. Trong quá trình tranining một kỹ thuật thường được sử dụng là Backpropagation Algorithm. Ý tưởng chung của thuật toán lá sẽ đi từ output layer đến input layer và tính toán gradient của cost function tương ứng cho từng parameter (weight) của mạng. Gradient Descent sau đó được sử dụng để cập nhật các parameter đó. Nếu số lượng vòng lặp quá nhỏ thì ta gặp phải trường hợp mạng có thể sẽ không cho ra kết quả tốt và ngược lại thời gian tranining sẽ lâu nếu số lượng vòng lặp quá lớn. Trong thực tế Gradients thường sẽ có giá trị nhỏ dần khi đi xuống các layer thấp hơn. Dẫn đến kết quả là các cập nhật thực hiện bởi Gradients Descent không làm thay đổi nhiều weights của các layer đó, làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt. Hiện tượng như vậy gọi là Vanishing Gradients. Kiến trúc mạng ResNet Việc tăng số lượng các lớp trong mạng làm giảm độ chính xác, để muốn có một kiến trúc mạng sâu hơn có thể hoạt động tốt, ResNet đưa ra giải pháp là sử dụng kết nối "tắt" đồng nhất để xuyên qua một hay nhiều lớp. Một khối như vậy được gọi là một Residual Block(hình 5) .[7]