intTypePromotion=1
ADSENSE

Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay

Chia sẻ: Hoang Son | Ngày: | Loại File: PDF | Số trang:6

40
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con người.

Chủ đề:
Lưu

Nội dung Text: Nghiên cứu và phát triển cơ sở dữ liệu cử chỉ tay

Nguyễn Thị Tính và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 99(11): 145 - 150<br /> <br /> NGHIÊN CỨU VÀ PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY<br /> Nguyễn Thị Tính*, Nguyễn Thị Thanh Tâm, Nguyễn Văn Tới, Lê Thu Trang<br /> Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên<br /> <br /> TÓM TẮT<br /> Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử<br /> chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ<br /> tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con<br /> người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các<br /> phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng<br /> dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc<br /> nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng<br /> dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này.<br /> Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự<br /> phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một<br /> cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại.<br /> Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL<br /> (American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu<br /> cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với<br /> những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc<br /> nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay.<br /> Từ khóa: cử chỉ tay, hệ thống nhận dạng, nhận dạng cử chỉ, dữ liệu cử chỉ, American Sign Language<br /> <br /> GIỚI THIỆU*<br /> Bài toán nhận dạng cử chỉ có nhiều ứng dụng<br /> [1], như: phát triển các công cụ trợ giúp nói<br /> chuyện bằng tay, hệ thống hỗ trợ người khiếm<br /> thính, giúp trẻ em có thể thao tác với máy<br /> tính, chuẩn đoán các cảm xúc của bệnh nhân,<br /> đo mức độ trầm cảm, phát hiện nói dối, tương<br /> tác trong môi trường ảo, trợ giúp dạy học từ<br /> xa v.v.. Thông thường một cử chỉ có thể là cử<br /> chỉ tĩnh hoặc động. Một cử chỉ tĩnh được mô<br /> tả bởi một hình trạng duy nhất của cơ thể<br /> hoặc một bộ phận của cơ thể. Một cử chỉ<br /> động là một chuỗi các hình trạng liên tiếp. Cử<br /> chỉ tay được sử dụng phổ biến và đóng vai trò<br /> quan trọng trong giao tiếp. Để nhận dạng cử<br /> chỉ tay, cần phải biểu diễn cử chỉ tay, phân<br /> tích các cử chỉ từ đó cho phép nhận dạng.<br /> Thông thường, trong mỗi ứng dụng cụ thể,<br /> một tập cử chỉ phải được định nghĩa trước.<br /> Việc nhận dạng các cử chỉ thường được làm<br /> sau khi đã học các cử chỉ định nghĩa.<br /> Hiện nay, việc nghiên cứu các phương pháp<br /> tự động nhận dạng cử chỉ đang thu hút sự<br /> quan tâm của nhiều nhà khoa học trên thế<br /> giới. Việc nghiên cứu, triển khai này đòi hỏi<br /> *<br /> <br /> Tel: 0986 060186, Email: nttinh@ictu.edu.vn<br /> <br /> có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp<br /> với môi trường ứng dụng thực tế để đánh giá<br /> khách quan hiệu quả của các phương pháp và<br /> đánh giá khả năng ứng dụng trong thực tế. Từ<br /> nhu cầu trên, một số cơ sở dữ liệu cử chỉ tay<br /> đã ra đời và đang được sử dụng [2]. Tuy<br /> nhiên, những cơ sở dữ liệu đang tồn tại còn<br /> có những hạn chế như tập cử chỉ chưa đa<br /> dạng, phông nền đơn giản, chỉ bao gồm các<br /> ảnh đen trắng...ví dự các tập cơ sở dữ liệu<br /> được trình bày trong phần 3, chưa đáp ứng<br /> được nhu cầu nghiên cứu, phát triển ở thời<br /> điểm hiện tại và tương lai. Do đó, cần thiết<br /> phải xây dựng một cơ sở dữ liệu mới, tốt hơn<br /> đáp ứng nhu cầu nghiên cứu, thử nghiệm<br /> cũng như triển khai hệ thống nhận dạng cử<br /> chỉ tay. Tập cơ sở dữ liệu do chúng tôi xây<br /> dựng có hầu hết các ưu điểm để có thể sử<br /> dụng cho bài toán nhận dạng cử chỉ như: ảnh<br /> thu được là ảnh màu, với phông nền phức tạp,<br /> tập các cử chỉ tay là bảng chữ cái, chữ số<br /> trong ngôn ngữ cử chỉ ASL đa dạng, phổ biến,<br /> nhiều người biết. Đây là đóng góp chính của<br /> chúng tôi được trình bày trong bài báo này.<br /> Trong các phần tiếp theo trình bày các nội<br /> dung: Phần 2 trình bày các phương pháp thu<br /> 145<br /> <br /> Nguyễn Thị Tính và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> thập dữ liệu và lựa chọn phương pháp phù<br /> hợp để xây dựng tập cơ sở dữ liệu của chúng<br /> tôi. Phần 3 giới thiệu một số cơ sở dữ liệu đã<br /> tồn tại và ưu nhược điểm của chúng. Phần 4<br /> trình bày quá trình thu nhập dữ liệu cử chỉ tay<br /> và kết quả. Cuối cùng là phần kết luận hướng<br /> nghiên cứu tiếp theo được trình bày trong<br /> phần 5 của bài báo.<br /> CÁC PHƯƠNG PHÁP THU THẬP DỮ LIỆU<br /> Thu thập dữ liệu là một khâu quan trọng trong<br /> bài toán xác định hình trạng của bàn tay (hand<br /> posture) và nhận dạng cử chỉ (gesture<br /> recognition). Có nhiều cách để thu thập dữ<br /> liệu trong đó 2 phương pháp được sử dụng<br /> nhiều nhất là: phương pháp dùng găng tay<br /> chuyên dụng (glove-based) và phương pháp<br /> sử dụng camera để thu nhận ảnh của bàn tay<br /> (vision-based) [3], [4].<br /> Phương pháp thu thập dữ liệu sử dụng<br /> găng tay chuyên dụng: Phương pháp này đòi<br /> hỏi người thử nghiệm phải đeo vào tay một<br /> găng tay chuyên dụng. Găng tay có kết nối<br /> với thiết bị thu nhận và xử lý dữ liệu ở bên<br /> ngoài thông qua các dây cáp hoặc kết nối<br /> không dây. Các dữ liệu thu được phải mô tả<br /> được góc giữa các đốt tay cũng như vị trí của<br /> ngón tay và bàn tay. Kiểu dữ liệu đưa ra phụ<br /> thuộc hoàn toàn vào loại thiết bị sử dụng<br /> như các thiết bị đo sử dụng từ tính, âm tính,<br /> quán tính.<br /> Phương pháp thu nhận ảnh bàn tay sử<br /> dụng camera: Một trong số những hạn chế<br /> lớn nhất của phương pháp thu thập dữ liệu cử<br /> chỉ bàn tay sử dụng găng tay chuyên dụng là<br /> người sử dụng phải đeo vào một găng tay có<br /> tích hợp các bộ phát sóng điện từ, sóng siêu<br /> âm, ánh sáng, hoặc các thiết bị đo gia tốc, vận<br /> tốc, v.v.. Găng tay sau đó phải được kết nối<br /> (có dây, hoặc không dây) với máy tính để xử<br /> lý và nhận dạng. Việc đeo thiết bị khiến<br /> người sử dụng bị khó chịu vì cồng kềnh, bất<br /> tiện. Khi đeo vào một thiết bị như thế, các cử<br /> động của bàn tay cũng trở nên mất tự nhiên.<br /> Ngoài ra, giá thành của các loại găng tay khá<br /> đắt. Phương pháp thu nhận ảnh bằng camera<br /> tỏ ra hiệu quả hơn.<br /> Phương pháp dùng camera để thu nhận ảnh<br /> của bàn tay dùng trong bài toán nhận dạng cử<br /> 146<br /> <br /> 99(11): 145 - 150<br /> <br /> chỉ dựa trên các kỹ thuật xử lý ảnh và nhận<br /> dạng là phù hợp với bài toán nhận dạng cử chỉ<br /> vì hai lý do chính sau: 1) Đơn giản, gọn nhẹ,<br /> không đòi hỏi phải đeo vào một loại găng tay<br /> đặc biệt, các thao tác của bàn tay tự nhiên,<br /> thoải mái. 2) Phạm vi thu nhận dữ liệu không<br /> bị hạn chế do tránh được việc gắn các thiết bị<br /> cồng kềnh vào bàn tay.<br /> Với các lợi thế về nhiều mặt, phương pháp sử<br /> dụng camera để thu nhận ảnh của bàn tay từ<br /> đó cho phép xác định hình trạng cũng như<br /> nhận dạng cử chỉ trở thành xu hướng chính<br /> hiện nay. Với mục đích xây dựng cơ sở dữ<br /> liệu cử chỉ tay cho hướng tiếp cận dựa trên thị<br /> giác máy tính, chúng tôi sử dụng phương<br /> pháp thu nhận ảnh bàn tay sử dụng camera.<br /> MỘT SỐ CƠ SỞ DỮ LIỆU ẢNH CỬ CHỈ<br /> ĐÃ CÓ<br /> Trong phần 2, chúng tôi đã phân tích các ưu<br /> nhược điểm của hai loại phương pháp thu<br /> nhận dữ liệu để phục vụ cho bài toán nhận<br /> dạng. Trong phần này chúng tôi trình bày kết<br /> quả khảo sát, phân tích, đánh giá các cơ sở dữ<br /> liệu đã tồn tại [2].<br /> Cơ sở dữ liệu Cambridge [5]: Bộ dữ liệu<br /> này gồm 900 ảnh của 9 lớp cử chỉ khác nhau.<br /> Các lớp cử chỉ này được định nghĩa bởi 3<br /> hình trạng cơ bản của bàn tay và 3 cử động<br /> đơn giản. Mỗi lớp cử chỉ được mô tả bởi 100<br /> ảnh (5 loại ánh sáng khác nhau x 10 chuyển<br /> động ngẫu nhiên x 2 chủ thể khác nhau). Cơ<br /> sở dữ liệu này có ưu điểm là tập cơ sở dữ liệu<br /> gồm các ảnh màu, vì thế cho phép các giải<br /> thuật sử dụng tính chất của màu da để phát<br /> hiện bàn tay, mô tả về hệ cơ sở dữ liệu tương<br /> đối rõ ràng. Tuy nhiên cơ sở dữ liệu này vẫn<br /> có nhược điểm đó là nền của ảnh còn đơn<br /> giản (màu ghi xám đồng đều), 9 lớp cử chỉ<br /> đơn giản, các ngón tay và lòng bàn tay đều<br /> vẫn nằm trên một mặt phẳng.<br /> Cơ sở dữ liệu IDIAP-I [6], [7]: Cơ sở dữ<br /> liệu bao gồm 7 loại cử chỉ khác nhau tạo từ 6<br /> phép quay và một cử chỉ đẩy: quay lên, quay<br /> xuống, quay trước, quay sau, quay trái, quay<br /> phải, đẩy. Nhược điểm đó của cơ sở dữ liệu này<br /> là mỗi tay đeo một găng có màu dễ phân biệt.<br /> Cơ sở dữ liệu IDIAP-II [6], [7]: Cơ sở dữ<br /> liệu chứa hàng nghìn ảnh chụp 6 lớp cử chỉ<br /> <br /> Nguyễn Thị Tính và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> khác nhau trên nền từ đơn giản đến phức tạp.<br /> Mỗi hình trạng của bàn tay được chuẩn hóa<br /> trong một cửa sổ với kích thước 20x20 với ký<br /> hiệu A, 18x20 cho ký hiệu C, 5; 18x30 cho ký<br /> hiệu B, Point,V. Cơ sở dữ liệu có ưu điểm là<br /> các cử chỉ tĩnh cũng như một số các cử chỉ<br /> động được mô tả. Nhược điểm là: ảnh đen<br /> trắng nên không thích hợp với các giải thuật<br /> sử dụng thuộc tính về màu sắc.<br /> Cơ sở dữ liệu FRUNKFURT [8]: Bộ dữ liệu<br /> bao gồm 10 tập cử chỉ (sign) thu nhận từ 24<br /> tay người khác nhau trên 3 loại phông nền<br /> khác nhau (nền đen, nền trắng, nền ngẫu<br /> nhiên). Ảnh đen trắng 8 bít. Tổng cộng có<br /> 720 ảnh. Bộ dữ liệu này có điểm mạnh là: tập<br /> cử chỉ tương đối phức tạp, sự thu nhận ảnh<br /> của tay trên phông nền phức tạp cho phép thử<br /> nghiệm tính hiệu quả của thuật toán nhận<br /> dạng trong các điều kiện thu nhận khác nhau.<br /> Tuy nhiên, vẫn có những điểm yếu đó là: ảnh<br /> đen trắng vì thế không thể áp dụng các giải<br /> thuật sử dụng màu, các bộ cử chỉ để thử<br /> nghiệm mặc dù đã phức tạp hơn, trên phông<br /> nền phức tạp hơn nhưng vẫn cùng kích thước,<br /> hướng quay, v.v.. so với ảnh mẫu vì thế<br /> không thử nghiệm được hiệu quả bất biến<br /> của thuật toán đối với góc quay, sự thay<br /> đổi về thang đo (scale change) cũng như trong<br /> các điều kiện ánh sáng khác nhau.<br /> Cơ sở dữ liệu AALBORG – I:Cơ sở dữ liệu<br /> được xây dựng với 2060 ảnh đen trắng định<br /> dạng TIFF độ phân giải 248x256 trên phông<br /> đen. Mỗi cử chỉ được thu nhận nhiều lần<br /> trong những điều kiện sai khác về góc nhìn,<br /> thang đo, dịch chuyển, quay. Số lượng ảnh<br /> với từng ký tự như sau: A: 40 B: 60 C: 40 D:<br /> 40 E: 40 F: 40 G: 100 H: 100 I: 100 K: 100 L:<br /> 100 M: 100 N: 100 O: 100 P: 100 Q: 100 R:<br /> 100 S: 100 T: 100 U: 100 V: 100 W: 100 X:<br /> 100 Y: 100. Cơ sở dữ liệu này có thế mạnh là:<br /> một tập đầy đủ các cử chỉ tương ứng với bảng<br /> chữ cái. Điểm yếu của cơ sở dữ liệu là: ảnh<br /> đen trắng nên không cho phép sử dụng các<br /> giải thuật dựa trên tính chất màu sắc.<br /> Cơ sở dữ liệu AALBORG – II: Cơ sở dữ<br /> liệu bao gồm 13 loại cử chỉ phân biệt: 9 cử<br /> chỉ tĩnh và 4 loại cử chỉ động. Tất các các cử<br /> chỉ khác còn lại được xếp vào loại "không<br /> thuộc lớp cử chỉ định nghĩa" (unspecified<br /> <br /> 99(11): 145 - 150<br /> <br /> gesture). Các ảnh được thu nhận bằng cách<br /> người đứng và tưởng tượng mình đang tương<br /> tác với các đối tượng "ảo" được đặt trên bàn<br /> để diễn tả các cử chỉ động (dynamique<br /> gesture). Một số đồ vật có thể được thêm vào<br /> hay bớt đi để tạo hiệu ứng phông nền, ánh<br /> sáng thay đổi. Các video được thu nhận có độ<br /> phân giải PAL (768x576). Cơ sở dữ liệu này<br /> có ưu điểm là hình ảnh thu nhận được có mô<br /> tả rất chi tiết, rõ ràng, ảnh mầu, có giá trị đối<br /> với các giải thuật sử dụng màu, tập cử chỉ<br /> tương đối đa dạng. Nhưng cơ sở dữ liệu này<br /> vẫn có một số nhược điểm là: các cử chỉ được<br /> thu nhận trong điều kiện tương đối đơn giản<br /> về nền, trong mặt phẳng, góc quay, ánh sáng,<br /> sự thay đổi về kích thước.<br /> Cơ sở dữ liệu INRIA: 8 videos ghi lại hình<br /> ảnh một người chỉ tay vào các vị trí khác<br /> nhau thông qua 4 camera trong điều kiện ánh<br /> sáng 60% ánh sáng ban ngày và 40% ánh<br /> sáng neon. Video được lấy mẫu với tốc độ<br /> 25Hz độ phân giải 352x288. Cơ sở dữ liệu<br /> này có ưu điểm là: ảnh mầu, có thông tin về<br /> ground truth. Tuy nhiên còn có nhược điểm<br /> là: chỉ sử dụng để thử nghiệm một loại cử chỉ<br /> "Pointing".<br /> Cơ sở dữ liệu KYUSHU[9]: gồm các ảnh<br /> của 36 cử chỉ bàn tay (American Sign<br /> Language). Các tác giả đã chỉ ra tập CSDL<br /> được sử dụng nhưng lại không có mô tả về<br /> CSDL này cũng như không thể tìm thấy<br /> CSDL này để tải về sử dụng cho mục đích thử<br /> nghiệm. Cơ sở dữ liệu có ưu điểm là: 36 cử<br /> chỉ, thu nhận trên nền ảnh phức tạp. Những<br /> nhược điểm là: không tồn tại để có thể thử<br /> nghiệm, không có mô tả về CSDL.<br /> Cơ sở dữ liệu Freiburg: Có 4 cử chỉ được<br /> xem xét: vẫy tay; chỉ; kích thước (cử chỉ dùng<br /> hai tay); diễn tả sự không biết (don’t know).<br /> Cơ sở dữ liệu ảnh được thu thập từ ảnh của 5<br /> người với các điều kiện ánh sáng khác nhau,<br /> phông nền phức tạp. Ảnh được thu thập qua<br /> camera và được chụp liên tục với tốc độ<br /> 20fps, độ phân giải 640x480. Mỗi cử chỉ bao<br /> gồm 75 mẫu. Cơ sở dữ liệu này có nhiều ưu<br /> điểm như: có sự đa dạng về chủ thể, điều kiện<br /> ánh sáng và phông nền, số lượng ảnh là rất<br /> lớn. Tuy nhiên vẫn có nhược điểm đó là: cơ<br /> sở dữ liệu chỉ bao gồm các ảnh của những cử<br /> 147<br /> <br /> Nguyễn Thị Tính và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> chỉ liên tục, không có những cử chỉ tĩnh, chỉ<br /> có 4 cử chỉ.<br /> Từ những khảo sát, phân tích trên đây chúng<br /> ta thấy mỗi cơ sở dữ liệu đều tồn tại những<br /> nhược điểm như: nền chụp ảnh còn tương đối<br /> đơn giản, tập cử chỉ chưa phong phú, chưa<br /> đầy đủ, điều kiện thu nhận đơn giản. Như vậy<br /> cần phải xây dựng một cơ sở dữ liệu cử chỉ<br /> tay để khắc phục những nhược điểm của<br /> những cơ sở dữ liệu đã có. Phần tiếp theo<br /> chúng tôi trình bày quá trình xây dựng một<br /> tập cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu<br /> cầu này.<br /> PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY<br /> Chúng tôi sử dụng tập cử chỉ là bảng chữ cái,<br /> chữ số trong ngôn ngữ cử chỉ ASL, Hình 1 và<br /> Hình 2. Đây là những cử chỉ chuẩn, đầy đủ,<br /> đa dạng, số lượng cử chỉ lớn, có thể sử dụng<br /> để đánh giá các phương pháp nhận dạng cử<br /> chỉ một cách hiệu quả. Tập cử chỉ này phổ<br /> biến, được nhiều người trên thế giới biết đến.<br /> Nhóm nghiên cứu dùng các cử chỉ này để xây<br /> dựng nên một có sở dữ liệu mới lớn hơn, đầy<br /> đủ, đa dạng với ảnh màu, điều kiện chụp là<br /> môi trường thực tế.<br /> <br /> Hình 1. Tập các cử chỉ chữ cái<br /> <br /> Hình 2. Tập các cử chỉ chữ số<br /> <br /> 148<br /> <br /> 99(11): 145 - 150<br /> <br /> Tập cơ sở dữ liệu mà chúng tôi xây dựng là<br /> tập ảnh màu, với đầy đủ 26 hình trạng chữ<br /> cái, 10 hình trạng chữ số với điều kiện phức<br /> tạp trong môi trường thực tế: phông nền phức<br /> tạp, ánh sáng thay đổi, điều kiện chụp phong<br /> phú, chụp trên nhiều đối tượng khác nhau.<br /> Cơ sở dữ liệu bao gồm hai phần: cơ sở dữ liệu<br /> huấn luyện để phục vụ cho các phương pháp<br /> tiếp cận theo hướng học máy và cơ sở dữ liệu<br /> thử nghiệm.<br /> Dữ liệu huấn luyện: Là các dữ liệu dùng cho<br /> việc học của một hệ nhận dạng. Trong quá<br /> trình huấn luyện, bộ nhận dạng sẽ học từ các<br /> dữ liệu này và ghi nhớ các đặc trưng của đối<br /> tượng cần nhận dạng. Sau này, việc nhận<br /> dạng sẽ thông qua các đặc trưng để nhận ra<br /> đối tượng. Dữ liệu huấn luyện gồm 2 tập: tập<br /> các ảnh chứa đối tượng cần nhận dạng<br /> (positive samples) và tập các ảnh không chứa<br /> đối tượng cần nhận dạng (negative samples).<br /> Dữ liệu thử nghiệm: Là dữ liệu dùng cho<br /> việc kiểm tra, đánh giá tỉ lệ nhận dạng của<br /> một hệ nhận dạng. Tập dữ liệu này phải<br /> không trùng với tập dữ liệu huấn luyện. Tỉ lệ<br /> nhận dạng đúng các mẫu trong tập thử<br /> nghiệm nói lên tính hiệu quả của hệ nhận<br /> dạng. Bởi vì các dữ liệu này không tham gia<br /> và quá trình huấn luyện của hệ nhận dạng cho<br /> nên nếu hệ nhận dạng vẫn nhận dạng đúng<br /> chứng tỏ các đặc trưng mà được trích rút ra<br /> thật sự là các đặc trưng của đối tượng.<br /> Xây dựng tập ảnh positive: Cơ sở dữ liệu<br /> gồm 36 tập ảnh positive tương ứng với 36 cử<br /> chỉ. Với mỗi cử chỉ, chúng tôi chụp hơn 1200<br /> ảnh của 60 người khác nhau bằng webcam<br /> hoặc camera với độ phân giải 640x480 pixels<br /> trong nhiều điều kiện ánh sáng và phông nền<br /> khác nhau: dưới ánh sáng đèn neon ở nhiều<br /> phòng khác nhau, ánh sáng tự nhiên vào các<br /> thời điểm khác nhau v.v… Sau đó, loại các<br /> mẫu không đạt chất lượng như ảnh quá mờ, tư<br /> thế không rõ ràng, thực hiện sai cử chỉ, v.v...<br /> để còn lại 1200 mẫu cho mỗi cử chỉ.<br /> Tiến hành cắt ảnh để tách riêng vùng chứa cử<br /> chỉ tay nhằm xây dựng bộ cơ sở dữ liệu dùng<br /> để huấn luyện (positive samples). Cắt từ mỗi<br /> ảnh nguồn một vùng hình chữ nhật chứa bàn<br /> tay với yêu cầu: vùng hình chữ nhật bé nhất<br /> <br /> Nguyễn Thị Tính và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 99(11): 145 - 150<br /> <br /> Hình 3. Tách vùng bàn tay ra khỏi ảnh nguồn<br /> <br /> dạng trong môi trường thực tế dựa trên tập<br /> quy ước của ngôn ngữ cử chỉ ASL. Nhóm<br /> nghiên cứu đã thực hiện chụp ảnh trong môi<br /> trường thực tế, sử dụng các phần mềm chuyên<br /> dụng để xử lý và xây dựng cơ sở dữ liệu cho<br /> quá trình huấn luyện. Cơ sở dữ liệu này tốt<br /> hơn những cơ sở dữ liệu đang tồn tại trong<br /> mục đích phát triển, thử nghiệm đánh giá các<br /> phương pháp nhận dạng cử chỉ tay cũng như<br /> việc phát triển hệ thống ứng dụng. Chúng tôi<br /> dự định sẽ sử dụng cơ sở dữ liệu này trong<br /> việc nghiên cứu phát triển các hệ thống nhận<br /> dạng cử chỉ tay, đồng thời tiếp tục đánh giá và<br /> bổ sung cơ sở dữ liệu để nâng cao chất lượng.<br /> <br /> Xây dựng tập dữ liệu ảnh negative: Tập dữ<br /> liệu gồm 1.500 ảnh đa mức xám kích thước<br /> 640x480 ở định dạng JPG. Trong đó 1.000<br /> ảnh được lấy từ tập dữ liệu ảnh negative tải từ<br /> [10], [11]. 500 ảnh còn lại là các ảnh do<br /> chúng tôi bổ sung. Tất cả các ảnh này không<br /> chứa các cử chỉ trong tập cử chỉ mà chúng tôi<br /> sử dụng. Các ảnh này cũng là ảnh đa mức<br /> xám và ảnh màu ở định dạng JPG kích thước<br /> 640x480.<br /> Xây dựng tập dữ liệu ảnh thử nghiệm: Cơ sở<br /> dữ liệu thử nghiệm cho 36 cử chỉ tương ứng<br /> có 36 tập ảnh, mỗi tập dùng thử nghiệm cho<br /> một cử chỉ. Các tập ảnh được thực hiện theo<br /> quy trình như sau: chụp bằng webcam hoặc<br /> camera ở độ phân giải 320x240 hoặc 640x480<br /> từ 100 người, mỗi người 100 ảnh cho mỗi cử<br /> chỉ trong các điều kiện chiếu sáng khác nhau<br /> và phông nền phức tạp như: dưới ánh sáng<br /> đèn neon ở nhiều phòng khác nhau, ánh sáng<br /> tự nhiên vào các thời điểm khác nhau.<br /> Như vậy, cơ sở dữ liệu do chúng tôi xây dựng<br /> có sự đa dạng về loại cử chỉ (36 cử chỉ). Đối<br /> tượng tham gia thu nhận đa dạng. Phông nền,<br /> điều kiện chiếu sáng đa dạng trong môi<br /> trường thực tế. Số lượng cử chỉ lớn. Cơ sở dữ<br /> liệu này có thể đáp ứng nhu cầu phát triển,<br /> thử nghiệm các thuật toán nhận dạng hình<br /> trạng bàn tay và đánh giá các thuật toán này ở<br /> nhiều khía cạnh khác nhau.<br /> KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU<br /> TIẾP THEO<br /> Chúng tôi đã xây dựng được một bộ cơ sở dữ<br /> liệu cử chỉ tay với tập cử chỉ đa dạng, số<br /> lượng lớn, điều kiện thu nhận phức tạp, đa<br /> <br /> [1]. S. Mitra and T. Acharya, “Gesture<br /> Recognition: A Survey,” IEEE Transactions on<br /> Systems, Man and Cybernetics, Part C<br /> (Applications and Reviews), vol. 37, no. 3, pp.<br /> 311–324, May 2007.<br /> [2]. T. T. T. Hai, N. Q. Cuong, M. D. Khoa, and<br /> V. X. Huy, “Báo cáo về nhận dạng cử chỉ bàn<br /> tay,” 2010.<br /> [3]. J. J. and L. Jr, “A Survey of Hand Posture and<br /> Gesture Recognition Techniques and Technology,<br /> Technical Report CS-99-11, Brown University,<br /> Department of Computer Science.,” 1999.<br /> [4]. R. Watson, “A Survey of Gesture Recognition<br /> Techniques Technical Report TCD-CS-93-11,<br /> Department of Computer Science Trinity College,<br /> Dublin 2,” 1993.<br /> [5]. T. Kim, S. Wong, and R. Cipolla, “Tensor<br /> Canonical Correlation Analysis for Action<br /> Classification,” in IEEE Conference on Computer<br /> Vision and Pattern Recognition (CVPR), 2007.<br /> [6]. S. Marcel, “Hand posture recognition in a<br /> body-face centered space,” in CHI EA ’99 CHI<br /> '99 extended abstracts on Human factors in<br /> computing systems, 1999, pp. 302–303.<br /> [7]. S. Marcel, O. Bernier, J.-E. Viallet, and D.<br /> Collobert, “Hand gesture recognition using inputoutput hidden Markov models,” in Proceedings<br /> Fourth IEEE International Conference on<br /> Automatic Face and Gesture Recognition (Cat.<br /> No. PR00580), 2000, no. Figure 1, pp. 456–461.<br /> [8]. J. . Triesch and C. von der Malsburg, “Robust<br /> classification of hand postures against complex<br /> backgrounds,” in The Second International<br /> Conference on Automatic Face and Gesture<br /> Recognition, 1996., 1996, pp. 170 – 175.<br /> [9]. N. D. Binh and T. Ejima, “Hand Gesture<br /> Recognition Using Fuzzy Neural Network,” in<br /> GVIP 2005, 2005, no. December, pp. 19–21.<br /> <br /> có thể nhưng phải chứa toàn bộ bàn tay và các<br /> ngón tay, không bao gồm cổ tay và cánh tay,<br /> Hình 3. Chúng tôi sử dụng tiện ích<br /> ImageCliper.<br /> Ảnh nguồn Ảnh kết quả<br /> <br /> TÀI LIỆU THAM KHẢO<br /> <br /> 149<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2