intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Khoa học Máy tính: Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:87

30
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích của đề tài là xây dựng một phương pháp nhận diện mẫu trong các frame thu trực tiếp từ camera theo thời gian thực để giải quyết bước thứ ba trong bài toán điều khiển máy tính từ xa nêu trên. Phương pháp nhận diện này sử dụng mô hình túi từ (bag-of-features, bag-of-words) kết hợp với phương pháp phân lớp bằng mạng neural. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học Máy tính: Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

  1. i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MÔ HÌNH TÚI TỪ VÀ MẠNG NEURAL LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, tháng 06 năm 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  2. ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MÔ HÌNH TÚI TỪ VÀ MẠNG NEURAL Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học TS. Nguyễn Toàn Thắng Thái Nguyên, tháng 06 năm 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  3. iii LỜI CAM ĐOAN Tên tôi là Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa 2014- 2016, chuyên nghành Khoa học máy tính. Tôi xin cam đoan luận văn thạc sĩ: Phƣơng pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural của tự bản thân tôi tìm hiểu, nghiên cứu dƣới sự hƣớng dẫn của TS. Nguyễn Toàn Thắng. Các chƣơng trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực. Các tài liệu tham khảo đƣợc trích dẫn và chú thích đầy đủ. TÁC GIẢ LUẬN VĂN Nguyễn Khánh Tùng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  4. iv LỜI CẢM ƠN Để hoàn thành luận văn này tôi đƣợc rất nhiều sự động viên giúp đỡ của các cá nhân tập thể. Trƣớc hết, cho tôi xin đƣợc bày tỏ lòng biết ơn sâu sắc nhất đến TS Nguyễn Toàn Thắng đã hƣớng dẫn tôi thực hiện đề tài nghiên cứu của mình. Xin cùng bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo ngƣời đã đem lại cho tôi những kiến thức vô cùng quý giá, có ích trong những năm học vừa qua. Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều đã hết sức tạo điều kiện cho tôi trong suốt quá trình học tập. Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo, Khoa sau đại học, Đại học Công nghệ thông tin và Truyền thông Thái Nguyên đã tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu. Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể lớp Khoa học máy tính K13 C Quảng Ninh, những ngƣời đã luôn bên tôi, động viên và khuyến khích tôi trong quá trình thực hiện đề tài nghiên cứu của mình. HỌC VIÊN Nguyễn Khánh Tùng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  5. v MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i LỜI CẢM ƠN ............................................................................................................ iv MỤC LỤC ................................................................................................................... v DANH MỤC CÁC BẢNG........................................................................................vii DANH MỤC CÁC HÌNH ....................................................................................... viii MỞ ĐẦU ..................................................................................................................... 1 CHƢƠNG 1. TỔNG QUAN ....................................................................................... 5 1.1. Khảo sát một số công trình đã đƣợc công bố về nhận diện bàn tay ................ 5 1.2.Trích chọn đặc trƣng ....................................................................................... 10 1.2.1. Đặt vấn đề ............................................................................................... 10 1.2.2. Đặc trƣng màu sắc .................................................................................. 11 1.2.3. Đặc trƣng kết cấu .................................................................................... 12 1.2.4. Đặc trƣng hình dạng ............................................................................... 13 1.2.5. Đặc trƣng cục bộ bất biến ....................................................................... 14 1.3. Phân lớp dữ liệu và mạng neuron .................................................................. 18 1.3.1. Phân lớp dữ liệu ...................................................................................... 18 1.3.2. Các vấn đề liên quan đến phân lớp dữ liệu............................................. 21 1.3.3. Mạng neuron ........................................................................................... 22 CHƢƠNG 2. TRÌNH BÀY SỬ DỤNG MÔ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29 MÔ TẢ CHO VẬT THỂ VÀ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON ..................................................................................................... 29 2.1. Mô hình túi từ trong phân lớp văn bản .......................................................... 29 2.2. Ý tƣởng và Thuật toán .................................................................................. 31 2.3. Diễn giải chi tiết thuật toán ........................................................................... 35 2.3.1. Trích chọn và mô tả đặc trƣng với SURF .............................................. 35 2.3.2. Phân cụm đặc trƣng SURF và sinh từ điển ............................................ 37 2.3.3.Tạo loại mô tả vật thể mới dựa trên SURF và từ điển để dùng cho mạng neuron ........................................................................................................................ 40 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  6. vi 2.3.4. Huấn luyện và phân lớp với mạng neuron ............................................. 42 CHƢƠNG 3. XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM ............................. 44 3.1. Các lớp xây dựng chƣơng trình ..................................................................... 44 3.2. Chƣơng trình «Hand Recognitor» ................................................................. 49 CHƢƠNG 4. THỬ NGHIỆM THUẬT TOÁN VÀ PHÂN TÍCH KẾT QUẢ ......... 60 4.1. Thử nghiệm với các bộ dữ liệu tự tạo ............................................................ 60 4.1.1. Giai đoạn sinh từ điển và huấn luyện ..................................................... 60 4.1.2. Test với bộ dữ liệu chứa các ảnh với nền đơn giản ở nhiều góc nghiêng và khoảng cách khác nhau ................................................................................ 63 4.1.3. Test với bộ dữ liệu chứa các ảnh có nhiễu ............................................. 67 4.1.4. Test với bộ dữ liệu chứa ảnh bị nhiễu nặng ........................................... 69 4.1.5. Kết luận................................................................................................... 70 4.2. Thử nghiệm với một số bộ dữ liệu mở .......................................................... 71 4.2.1. Thử nghiệm với bộ dữ liệu của Sebastien Marcel .................................. 71 4.2.2. Test với bộ dữ liệu của Đại học Cambridge ........................................... 73 KẾT LUẬN ............................................................................................................... 76 TÀI LIỆU THAM KHẢO ......................................................................................... 77 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  7. vii DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang Bảng 3.1 Mô tả các lớp để xây dựng mạng neuron ........................................ 45 Bảng 3.2 Mô tả các lớp của module SURF..................................................... 46 Bảng 3.3 Mô tả một số lớp thuộc module sinh từ điển ................................... 47 Bảng 4.1. Một số kết quả phân tích số lƣợng đặc trƣng với các giá trị khác nhau của ngƣỡng Hessian. .............................................................................. 62 Bảng4.2. Kết quả test với các bộ dữ liệu hình có kích thƣớc khác nhau ........ 65 Bảng 4.3. Kết quả test với bộ dữ liệu ảnh có nhiễu nhẹ ................................. 68 Bảng 4.4. Kết quả test với bộ dữ liệu có nhiễu ............................................... 70 Bảng 4.5. Kết quả test với bộ dữ liệu Sebastien Marcel ................................. 72 Bảng 4.6. Kết quả thử nghiệm của mô hình CGM.......................................... 73 Bảng. 4.7. Kết quả thử nghiệm với bộ dữ liệu của Đại học Cambridge ......... 75 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  8. viii DANH MỤC CÁC HÌNH Số hình Tên hình Trang Hình 1.1 Găng tay có gắn thiết bị trong HCI .................................................... 6 Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc hoạt động của các phƣơng pháp dựa trên mô hình 3D ..................................... 7 Hình 1.3. Nhận diện bàn tay dựa trên đƣờng biên ............................................ 8 Hình 1.4. Đặc trƣng Haar và AdaBoost ............................................................ 9 Hình 1.5 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kê mờ ... 16 Hình 1.6 Quá trình lựa chọn các điểm hấp dẫn ............................................... 17 Hình 1.7 Biểu diễn vector đặc trƣng ............................................................... 18 Hình 1.8.cấu trúc cơ bản của một neuron ....................................................... 23 Hình 1.9 Mô hình neuron của Mc. Culloch và Pitts ....................................... 24 Hình 1.10. Mạng truyền thẳng ba lớp ............................................................. 25 Hình 2.1. Mô tả ý tƣởng của thuật toán nhận diện vật thể trình bày dựa trên mô hình túi từ .................................................................................................. 32 Hình 2.2. Sơ đồ tổng quát của thuật toán nhận diện vật thể trình bày ............ 33 Hình 2.3. Đặc trƣng đƣợc trích chọn bằng SURF........................................... 37 Hình 2.4.Mô tả trực quan quá trình phân cụm và sinh từ điển ....................... 39 Hình 2.5. Vật thể và mô tả BOW tƣơng ứng .................................................. 41 Hình 2.6.Mạng neuron nhiều lớp .................................................................... 42 Hình 3.1 Các lớp để xây dựng mạng neuron .................................................. 45 Hình 3.2 Mô tả các lớp của module SURF ..................................................... 46 Hình 3.3 Các lớp thuộc module sinh từ điển .................................................. 48 Hình 3.4 Giao diện chính của chƣơng trình Hand Recognitor ....................... 49 Hình 3.5. Giao diện module tạo dữ liệu và test thuật toán.............................. 50 Hình 3.6. Tab «Real-time» để tạo bộ dữ liệu .................................................. 51 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  9. ix Hình 3.7. Ví dụ về các ảnh thu đƣợc thuộc 4 lớp «Fist», «OK», «Palm», «Point» ............................................................................................................ 52 Hình 3.8. Giao diện module tạo dữ liệu và test thuật toán.............................. 53 Hình 3.9. Ứng dụng «BOW params» để lựa chọn tham số ............................ 54 Hình 3.10 Kết quả phân tích bộ ảnh thuộc 4 lớp ............................................ 55 Hình 3.11 Giao diện để tạo và huấn luyện mạng neuron. ............................... 56 Hình 3.12 Tự động test độ chính xác của thuật toán ...................................... 58 Hình 3.13 Kiểm tra hoạt động của thuật toán ................................................. 59 Hình 3.14 Thử nghiệm nhận diện trong thời gian thực................................... 59 Hình 4.1. Các lớp vật thể trong các bộ dữ liệu ............................................... 60 Hình 4.2. Một phần bộ dữ liệu dùng để sinh từ điển ...................................... 61 Hình 4.3. Bộ dữ liệu huấn luyện. .................................................................... 63 Hình 4.4. Một số hình trong bộ dữ liệu test .................................................... 64 Hình 4.5. Một phần bộ dữ liệu test với nhiễu nhẹ .......................................... 68 Hình 4.6. Một phần bộ dữ liệu thử nghiệm ..................................................... 69 Hình 4.7 Các lớp trong bộ dữ liê ̣u Sebastien Marcel ...................................... 71 Hình 4.8. Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên), nhóm “phức tạp” (hàng dƣới) ...................................................... 72 Hình 4.9. Một phần dữ liệu của Đại học Cambridge ..................................... 74 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  10. 1 MỞ ĐẦU Ngày nay dƣới sự phát triển rộng rãi của các ứng dụng công nghệ thông tin vào trong cuộc sống, việc tƣơng tác giữa con ngƣời và thiết bị ngày càng trở nên quan trọng. Trƣớc đây, bàn phím và chuột là các giao diện chính để giao tiếp giữa ngƣời và máy tính. Trong các lĩnh vực khác cần tới các thông tin 3D, chẳng hạn nhƣ trò chơi máy tính, robot và lĩnh vực thiết kế… các thiết bị cơ khí khác nhƣ bóng lăn, cần điều khiển hay các găng tay dữ liệu đã đƣợc sử dụng. Tuy nhiên, con ngƣời giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện ngƣời – máy sẽ trực quan hơn nếu con ngƣời có thể điều khiển máy tính bằng giọng nói hay cử chỉ giống nhƣ khi tƣơng tác giữa ngƣời với ngƣời trong thế giới thực mà không cần thông qua các thiết bị điều khiển khác nhƣ chuột hay bàn phím. Một ƣu điểm khác là ngƣời dùng có thể giao tiếp từ xa mà không cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích hợp hơn trong môi trƣờng ồn ào hoặc trong trƣờng hợp âm thanh bị nhiễu. Nhận dạng các cử động của tay ngƣời là cách tự nhiên khi tƣơng tác ngƣời – máy và ngày nay nhiều nhà nghiên cứu trong các học viện và ngành công nghiệp đang quan tâm đến hƣớng này. Nó cho phép con ngƣời tƣơng tác với máy rất dễ dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật nhận dạng cử chỉ bàn tay ngƣời, luận văn sẽ tập trung trình bày một số nội dung chính nhƣ sau: 1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI Tƣơng tác ngƣời - máy (Human - Computer Interaction, HCI) là một lĩnh vực thu hút nhiều nghiên cứu và đã đạt đƣợc nhiều kết quả ấn tƣợng trong thời gian gần đây. Một trong những bài toán quan trọng của lĩnh vực này là cung cấp khả năng điều khiển máy tính (hoặc thiết bị) từ xa thông qua camera kết nối với máy. Bài toán này thƣờng bao gồm các bƣớc: phát hiện đối Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  11. 2 tƣợng trong thị trƣờng của camera (ví dụ, tay, mặt, cơ thể ngƣời điều khiển hoặc một thiết bị đặc biệt nào đó dùng để điều khiển); theo dõi chuyển động của đối tƣợng; nhận diện hình dạng và cách thức chuyển động của đối tƣợng. Kết quả nhận diện đƣợc sử dụng để tạo ra các lệnh tƣơng ứng cho máy tính. Mục đích của đề tài là xây dựng một phƣơng pháp nhận diện mẫu trong các frame thu trực tiếp từ camera theo thời gian thực để giải quyết bƣớc thứ ba trong bài toán điều khiển máy tính từ xa nêu trên. Phƣơng pháp nhận diện này sử dụng mô hình túi từ (bag-of-features, bag-of-words) kết hợp với phƣơng pháp phân lớp bằng mạng neural. Trong đó, mô hình túi từ đƣợc sử dụng để tạo ra các vector đặc trƣng làm dữ liệu đầu vào cho mạng neural. Phƣơng pháp nhận diện này cần đảm bảo đƣợc tốc độ xử lý cao (để có thể thực hiện trong thời gian thực với dữ liệu thu trực tiếp từ một camera), và có tính bền vững với một số dạng biến đổi của đối tƣợng (xoay hình, thay đổi kích thƣớc và vị trí trong frame). Đối tƣợng nhận diện chính của đề tài là cử chỉ tay ngƣời và một số đồ vật đơn giản. 2. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU a. Lý thuyết - Nghiên cứu mô hình túi từ; - Nghiên cứu một số phƣơng pháp trích chọn đặc trƣng trong ảnh số; - Nghiên cứu một số phƣơng pháp phân cụm dữ liệu đơn giản; - Nghiên cứu mạng neural nhiều lớp. b. Thực nghiệm - Xây dựng chƣơng trình thử nghiệm; - Thực hiện huấn luyện và test trên một số loại lớp đối tƣợng (ví dụ, các dạng của tay ngƣời, một số loại đồ vật đơn giản); - Thực hiện huấn luyện và test trên một số kho dữ liệu cử chỉ (ví dụ, kho dữ liệu của trƣờng Đại học Cambridge); Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  12. 3 - Phân tích, đánh giá kết quả thu đƣợc; so sánh kết quả thu đƣợc với kết quả của một số phƣơng pháp nhận diện đã đƣợc công bố. 3. HƢỚNG NGHIÊN CỨU CỦA ĐỀ TÀI - Nghiên cứu một số phƣơng pháp nhận diện mẫu đã đƣợc công bố ở trong và ngoài nƣớc (từ nguồn học liệu tại trung tâm học liệu Đại học Thái Nguyên, trƣờng Đại học CNTT&TT, các tạp chí online). - Nghiên cứu mô hình túi từ và cách áp dụng phƣơng pháp này trong xử lý ảnh để tạo ra vector đặc trƣng làm dữ liệu đầu vào cho mạng neural. - Nghiên cứu và so sánh một số phƣơng pháp trích chọn đặc trƣng trong ảnh số (SURF, SIFT) để lựa chọn phƣơng pháp phù hợp với mô hình túi từ và đáp ứng đƣợc yêu câu đặt ra của đề tài. (tốc độ xử lý, tính bền vững với một số dạng biến đổi của đối tƣợng trong ảnh). - Nghiên cứu cách sử dụng mạng neural nhân tạo trong phân lớp dữ liệu, trong đó, dữ liệu đầu vào cho mạng neural đƣợc tạo ra bằng cách áp dụng mô hình túi từ. - Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả thu đƣợc; so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh kết quả thu đƣợc bằng phƣơng pháp trình bày với các phƣơng pháp khác đã đƣợc công bố. 4. NỘI DUNG NGHIÊN CỨU Chƣơng 1. Tổng quan Phần này trình bày các kiến thức cơ bản về nhận diện mẫu, các bài toán trong nhận diện mẫu, một số phƣơng pháp nhận diện mẫu đã đƣợc công bố. Chƣơng 2. Trình bày sử dụng mô hình túi từ để xây dựng bộ mô tả cho vật thể và thuật toán nhận diện vật thể với mạng Neuron. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  13. 4 Phần này trình bày chi tiết về mô hình túi từ, cách ứng dụng mô hình này trong bài toán nhận diện mẫu, lựa chọn thuật toán trích chọn đặc trƣng và phân cụm dữ liệu phù hợp, cách xây dựng vector đăc trƣng với mô hình túi từ. Chƣơng 3. Xây dựng chƣơng trình thử nghiệm Chƣơng 4. Thử nghiệm và đánh giá kết quả Phần này trình bày chi tiết về chƣơng trình thử nghiệm, áp dụng chƣơng trình cho các kho dữ liệu ảnh, phân tích – đánh giá – so sánh kết quả. 5. PHƢƠNG PHÁP NGHIÊN CỨU - Phương pháp nghiên cứu lý thuyết: Tìm hiểu các tài liệu liên quan tới các phƣơng pháp nhận diện mẫu trong ảnh số, mô hình túi từ, các phƣơng pháp trích chọn và biểu diễn đặc trƣng, một số thuật toán phân cụm dữ liệu đơn giản, mạng neural nhân tạo. - Phương pháp nghiên cứu thực nghiệm: Xây dựng một số kho dữ liệu ảnh; xây dựng chƣơng trình thử nghiệm; huấn luyện và test thuật toán trên các kho dữ liệu để lấy dữ liệu đánh giá độ chính xác và tốc độ xử lý của thuật toán. - Phương pháp trao đổi khoa học: Trao đổi hƣớng nghiên cứu với ngƣời hƣớng dẫn và trình bày Seminar với các đồng nghiệp để trình bày và giải quyết các nội dung luận văn đề ra. 6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Ý nghĩa khoa học của đề tài là trình bày một thuật toán xây dựng vector đặc trƣng cho đối tƣợng trên ảnh số. Thuật toán đảm bảo tốc độ xử lý trong thời gian thực với dữ liệu thu trực tiếp từ camera. Vector đặc trƣng đảm bảo đƣợc tính bền vững khi đối tƣợng chịu một số biến đổi. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  14. 5 CHƢƠNG 1. TỔNG QUAN 1.1. Khảo sát một số công trình đã đƣợc công bố về nhận diện bàn tay Cử chỉ tay là phƣơng thức giao tiếp tự nhiên và trực quan trong tƣơng tác ngƣời – máy (Human – Computer Interaction). Để thực hiện loại tƣơng tác này ngƣời ta cần phát triển các phƣơng pháp và công cụ gọi là giao diện người máy (Human – Computer Interface – HCI), cho phép máy tính nhận diện cử chỉ tay trong thời gian thực. Tuy nhiên, việc theo dõi chuyển động của tay dựa vào thị giác máy và nhận diện cử chỉ là một vấn đề khó giải quyết do các cử chỉ tay ngƣời rất phức tạp. Sự phức tạp này là do sự đa dạng của cử chỉ tạo ra bởi một số lƣợng lớn các bậc tự do (Degree of Freedom – DoF, thu đƣợc trong quá trình mô hình hóa bàn tay ngƣời). Để thực hiện tốt vai trò của mình, các HCI dựa trên cử chỉ tay phải đáp ứng các yêu cầu về hiệu suất trong thời gian thực, độ chính xác cao trong nhận diện, mức độ ổn định trƣớc các loại biến đổi khác nhau (ví dụ: thay đổi hƣớng và cƣờng độ chiếu sáng, thay đổi về góc nghiêng của đối tƣợng, v.v…), và khả năng hoạt động với các phông nền (khung cảnh phía sau ngƣời thực hiện cử chỉ) đa dạng. Để đáp ứng các yêu cầu này, nhiều hệ thống nhận dạng cử chỉ đã sử dụng những thiết bị đánh dấu bằng màu sắc hoặc găng tay (găng tay gắn cảm biến) để đơn giản hóa việc thu nhận và xử lý thông tin từ cử chỉ tay [5]. Tuy nhiên, việc sử dụng các thiết bị đánh dấu hoặc găng tay gây phiền phức cho ngƣời sử dụng, đồng thời làm giảm tính tự nhiên trong tƣơng tác với máy tính. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  15. 6 Hình 1.1. Găng tay có gắn thiết bị trong HCI Luận văn này chỉ tập trung vào việc nhận diện một phần cử chỉ tay, trƣớc hết là hình dạng của bàn tay, thu từ camera trong thời gian thực và không có sự hỗ trợ của các thiết bị đánh dấu khác hoặc găng tay. Có hai nhóm phƣơng pháp chính đối với bài toán nhận dạng cử chỉ tay dựa trên thị giác: các phƣơng pháp dựa trên mô hình ba chiều của tay (3D hand model); các phƣơng pháp dựa vào hình dạng bên ngoài của tay [15]. Các phƣơng pháp dựa trên mô hình 3D sử dụng mô hình động học ba chiều của tay với một số lƣợng tƣơng đối lƣớng các bậc tự do [9], [6]–[11]. Các phƣơng pháp này tính ra các tham số của tay bằng cách so sánh hình ảnh bàn tay trên các frame với hình chiếu của mô hình 3D trên mặt phẳng. Các phƣơng pháp này phù hợp với tƣơng tác trong môi trƣờng ảo, cho phép thu đƣợc nhiều tham số của cử chỉ tay, đồng thời cho phép nhận diện một số lƣợng lớn các lớp cử chỉ tay. Tuy nhiên, do các mô hình 3-D của bàn tay là những vật thể biến dạng có khớp nối với nhiều bậc tự do (mô hình 3D tiêu chuẩn có 27 DOF), để mô tả hình dạng của tay dƣới các góc nhìn khác nhau cần một cơ sở dữ liệu rất lớn. Nhƣợc điểm khác của các phƣơng pháp này là sự khó khăn trong trích trọn đặc trƣng và không có khả năng xử lý những tình huống đặc biệt (phát sinh từ các góc nhìn không rõ ràng). Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  16. 7 Thu nhận hình Xử lý ảnh qua camera Bàn tay Phát hiện / Nhận Điều chỉnh tham số diện Chiếu hình Mô hình bàn tay Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc hoạt động của các phương pháp dựa trên mô hình 3D Các phƣơng pháp dựa trên hình dạng (appearance-based) thực hiện trích trọn đặc trƣng để mô hình hóa hình dạng bên ngoài của bàn tay. Khi nhận diện, các đặc trƣng trích ra sẽ đƣợc so sánh với các đặc trƣng của các lớp đã biết. Các phƣơng pháp dựa trên hình dạng thƣờng có tốc độ xử lý cao (hoạt động trong thời gian thực) do việc xử lý hình 2D thƣờng đơn giản hơn. Các phƣơng pháp thuộc nhóm này thƣờng xử dụng các đặc trƣng nhƣ màu sắc, đƣờng biên, các điểm hoặc các vùng đặc biệt. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  17. 8 Trong [10] sử dụng một phƣơng pháp nhận diện đơn giản bằng cách tìm kiếm những vùng màu da trong hình ảnh. Tuy nhiên, phƣơng pháp này có một số yếu điểm: rất nhạy cảm với điều kiện ánh sáng; không cho phép có các đối tƣợng giống màu da trong hình ảnh. Trong [3] sử dụng các đặc trƣng màu sắc theo thang đo (scale-space color features) để nhận diện cử chỉ tay. Tuy nhiên, hệ thống này chỉ hoạt động đƣợc trong thời gian thực khi trong hình không có đối tƣợng khác trùng màu da. Các tác giả trong [1] sử dụng đƣờng biên của tay để nhận diện bằng cách tính toán độ cong tại mỗi điểm trên đƣờng biên. Phƣơng pháp tách biên này thƣờng khó sử dụng nếu có yếu tố gây nhiễu, khi điều kiện chiếu sáng thay đổi, hoặc khi sử dụng trên phông nền phức tạp. Hình 1.3. Nhận diện bàn tay dựa trên đường biên Gần đây có một số nghiên cứu về các đặc trƣng bất biến cục bộ (local invariant features) [13]–[4]. Trong [13], thuật toán Adaboost và đặc trƣng SIFT đƣợc sử dụng để phát hiện bàn tay. Phƣơng pháp này cho phép pháp hiện bàn tay kể cả trong trƣờng hợp bàn tay xoay trên một mặt phẳng. Phƣơng pháp này cũng đƣa ra khái niệm sharing feature để tăng tốc độ hoạt động và độ chính xác (lên tới 97,8%). Để đạt đƣợc tốc độ nhận diện trong thời gian thực, phƣơng pháp này sử dụng thêm một số loại đặc trƣng khác (vd, contrast context histogram). Trong [2], [4], đặc trƣng Haar đƣợc sử dụng dụng để phát hiện bàn tay. Đặc trƣng Haar tập trung vào các thông tin trong một vùng nhất định của hình ảnh thay vì từng pixel riêng rẽ. Để nâng cao độ chính xác khi phân loại và có đƣợc hiệu suất thời gian thực, phƣơng pháp này sử dụng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  18. 9 Adaboost (ghép các classifier đơn giản theo mô hình thác nƣớc để tạo thành một classifier mạnh). Nghiên cứu mà Viola và Jones đề xuất [12] cho bài toán phát hiện vật thể trong thời gian thực cho phép phát hiện bàn tay trên bất kỳ phông nền nào với độ chính xác rất cao [14]. Phƣơng pháp này phát hiện vật thể nhanh và chính xác nhƣng cần thời gian huấn luyện rất dài và một số lƣợng hình mẫu rất lớn. Ngoài ra, phƣơng pháp phát hiện vật thể của Viola-Jones chỉ có thể đƣợc thực hiện với bàn tay nghiêng từ 15 tới 30 độ [7]. Xử lý bổ sung Cửa sổ con Cấu trúc thác nƣớc Classifier Classifier Classifier Classifier №1 №2 №3 №n Cửa sổ con bị loại bỏ Hình 1.4. Đặc trưng Haar và AdaBoost Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  19. 10 1.2.Trích chọn đặc trƣng 1.2.1. Đặt vấn đề Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trƣng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tƣơng đồng tƣong ứng là thành phần quan trọng và then chốt nhất. Việc lựa chọn các đặc trƣng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác lựa chọn đặc trƣng cho ảnh: - Thành phần lựa chọn đặc trƣng phải lựa chọn đƣợc một tập các đặc trƣng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số lƣợng các đặc trƣng quá nhiều sẽ làm "che khuất" các "tín hiệu" (giảm các "tín hiệu" đối với tỉ lệ nhiễu), mặt khác, nếu số lƣợng các đặc trƣng quá ít sẽ khó phân biệt đƣợc ảnh trong tìm kiếm. - Nó phải giảm bớt đƣợc độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp. - Khi ngƣời dùng muốn sử dụng các đặc trƣng đó cho mọi truy vấn, thì việc sử dụng các đặc trƣng này phải hiệu quả. Vì số lƣợng các đặc trƣng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lƣợng đặc trƣng. - Vì thời gian xử lý của thành phần lựa chọn đặc trƣng tuyến tính với số lƣợng đặc trƣng, do đó việc lựa chọn các đặc trƣng cũng nên tuyến tính dựa trên phân lớp. Trong phần này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc trƣng của ảnh (màu sắc, kết cấu, hình dạng, đặc trƣng cục bộ SIFT), một số độ đo tƣơng đồng tƣơng ứng với các đặc trƣng và phƣơng pháp lựa chọn đặc trƣng ảnh để tăng chất lƣợng tập đặc trƣng. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
  20. 11 1.2.2. Đặc trưng màu sắc a. Đặc trƣng màu sắc Tìm kiếm ảnh theo lƣợc đồ màu là phƣơng pháp phổ biến và đƣợc sử dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phƣơng pháp đơn giản, tốc độ tìm kiếm tƣơng đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao. Đây có thể xem là bƣớc lọc đầu tiên cho những bƣớc tìm kiếm sau. Một số lƣợc đồ màu đƣợc sử dụng nhƣ: lƣợc đồ màu RGB, lƣợc đồ màu HSI, lƣợc đồ HSI cải tiến. Trong đó, lƣợc đồ màu RGB đƣợc sử dụng phổ biến nhất. * Lƣợc đồ màu RGB: Đối với ảnh 256 màu, lƣợc đồ màu của ảnh tƣơng đƣơng với lƣợc đồ màu của ảnh xám. Đối với ảnh 24 bit màu, lƣợc đồ miêu tả khả năng kết nối về cƣờng độ của ba kênh màu R, G, B. Luợc đồ màu này đƣợc định nghĩa nhƣ sau: h R,G, r, g, b  robR  x, G  g,   b (1.1) Trong đó N là số lƣợng điểm có trong ảnh. Lƣợc đồ màu này đƣợc tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó đếm số điểm ảnh của mỗi màu. Khi mà số lƣợng màu là có hạng, để thuận tiện hơn, ngƣời ta thƣờng chuyển đổi ba kênh màu thành một biến giá trị duy nhất. Một cách khác để tính lƣợc đồ màu của ảnh RGB là ta phân ra làm 3 lƣợt đồ riêng biệt hR[] , hG[] , hB[]. Khi đó, mỗi lƣợc đồ đƣợc tính bằng cách đếm kênh màu tƣơng ứng trong mỗi điểm ảnh. b. Độ đo tƣơng đồng về màu sắc Một số độ đo tƣơng đồng đƣợc sử dụng nhƣ: Độ đo khoảng cách Euclide, độ đo Jensen-Shannon divergence (JSD). Gọi h(I) và h(M) tƣơng ứng là 2 lƣợt đồ màu của hai ảnh I và ảnh M. Khi đó các loại độ đo màu đƣợc định nghĩa là một số nguyên (hoặc số thực) theo các loại độ đo tƣơng ứng nhƣ sau: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2