Nguyễn Thị Tính và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
99(11): 145 - 150<br />
<br />
NGHIÊN CỨU VÀ PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY<br />
Nguyễn Thị Tính*, Nguyễn Thị Thanh Tâm, Nguyễn Văn Tới, Lê Thu Trang<br />
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên<br />
<br />
TÓM TẮT<br />
Bài báo này trình bày một cơ sở dữ liệu cử chỉ tay bao gồm các chữ cái, chữ số trong ngôn ngữ cử<br />
chỉ để phục vụ cho việc phát triển, thử nghiệm cũng như triển khai các hệ thống nhận dạng cử chỉ<br />
tay. Cử chỉ là một tập các biểu tượng thường được sử dụng trong giao tiếp giữa con người - con<br />
người. Hiện nay,việc nghiên cứu các phương pháp tự động nhận dạng cử chỉ để điều khiển các<br />
phương tiện máy móc như điều khiển chương trình máy tính, giao tiếp với robot cũng như ứng<br />
dụng trong hỗ trợ giao tiếp cho người khiếm thính đang được nhiều nhà khoa học quan tâm. Việc<br />
nghiên cứu, triển khai này đòi hỏi có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp với môi trường ứng<br />
dụng thực tế. Trên thế giới đã tồn tại một số cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu cầu này.<br />
Tuy nhiên, mỗi cơ sở dữ liệu đang tồn tại đó đều có những hạn chế riêng, chưa đáp ứng được sự<br />
phát triển nhanh chóng ở thời điểm hiện tại và tương lai. Do vậy, nhóm nghiên cứu xây dựng một<br />
cơ sở dữ liệu cử chỉ tay tốt hơn, khắc phục những nhược điểm của những cơ sở dữ liệu đã tồn tại.<br />
Cơ sở dữ liệu mà chúng tôi xây dựng dựa trên bảng chữ cái, chữ số của ngôn ngữ cử chỉ ASL<br />
(American Sign Language), là một tập cử chỉ chuẩn mực và được sử dụng rộng rãi. Cơ sở dữ liệu<br />
cử chỉ tay do chúng tôi xây dựng đa dạng. Chúng tôi tiến hành thu thập trong môi trường thực với<br />
những điều kiện chiếu sáng khác nhau. Cơ sở dữ liệu này có thể đáp ứng nhu cầu trong việc<br />
nghiên cứu, thử nghiệm các phương pháp cũng như triển khai các ứng dụng nhận dạng cử chỉ tay.<br />
Từ khóa: cử chỉ tay, hệ thống nhận dạng, nhận dạng cử chỉ, dữ liệu cử chỉ, American Sign Language<br />
<br />
GIỚI THIỆU*<br />
Bài toán nhận dạng cử chỉ có nhiều ứng dụng<br />
[1], như: phát triển các công cụ trợ giúp nói<br />
chuyện bằng tay, hệ thống hỗ trợ người khiếm<br />
thính, giúp trẻ em có thể thao tác với máy<br />
tính, chuẩn đoán các cảm xúc của bệnh nhân,<br />
đo mức độ trầm cảm, phát hiện nói dối, tương<br />
tác trong môi trường ảo, trợ giúp dạy học từ<br />
xa v.v.. Thông thường một cử chỉ có thể là cử<br />
chỉ tĩnh hoặc động. Một cử chỉ tĩnh được mô<br />
tả bởi một hình trạng duy nhất của cơ thể<br />
hoặc một bộ phận của cơ thể. Một cử chỉ<br />
động là một chuỗi các hình trạng liên tiếp. Cử<br />
chỉ tay được sử dụng phổ biến và đóng vai trò<br />
quan trọng trong giao tiếp. Để nhận dạng cử<br />
chỉ tay, cần phải biểu diễn cử chỉ tay, phân<br />
tích các cử chỉ từ đó cho phép nhận dạng.<br />
Thông thường, trong mỗi ứng dụng cụ thể,<br />
một tập cử chỉ phải được định nghĩa trước.<br />
Việc nhận dạng các cử chỉ thường được làm<br />
sau khi đã học các cử chỉ định nghĩa.<br />
Hiện nay, việc nghiên cứu các phương pháp<br />
tự động nhận dạng cử chỉ đang thu hút sự<br />
quan tâm của nhiều nhà khoa học trên thế<br />
giới. Việc nghiên cứu, triển khai này đòi hỏi<br />
*<br />
<br />
Tel: 0986 060186, Email: nttinh@ictu.edu.vn<br />
<br />
có các cơ sở dữ liệu cử chỉ đa dạng, phù hợp<br />
với môi trường ứng dụng thực tế để đánh giá<br />
khách quan hiệu quả của các phương pháp và<br />
đánh giá khả năng ứng dụng trong thực tế. Từ<br />
nhu cầu trên, một số cơ sở dữ liệu cử chỉ tay<br />
đã ra đời và đang được sử dụng [2]. Tuy<br />
nhiên, những cơ sở dữ liệu đang tồn tại còn<br />
có những hạn chế như tập cử chỉ chưa đa<br />
dạng, phông nền đơn giản, chỉ bao gồm các<br />
ảnh đen trắng...ví dự các tập cơ sở dữ liệu<br />
được trình bày trong phần 3, chưa đáp ứng<br />
được nhu cầu nghiên cứu, phát triển ở thời<br />
điểm hiện tại và tương lai. Do đó, cần thiết<br />
phải xây dựng một cơ sở dữ liệu mới, tốt hơn<br />
đáp ứng nhu cầu nghiên cứu, thử nghiệm<br />
cũng như triển khai hệ thống nhận dạng cử<br />
chỉ tay. Tập cơ sở dữ liệu do chúng tôi xây<br />
dựng có hầu hết các ưu điểm để có thể sử<br />
dụng cho bài toán nhận dạng cử chỉ như: ảnh<br />
thu được là ảnh màu, với phông nền phức tạp,<br />
tập các cử chỉ tay là bảng chữ cái, chữ số<br />
trong ngôn ngữ cử chỉ ASL đa dạng, phổ biến,<br />
nhiều người biết. Đây là đóng góp chính của<br />
chúng tôi được trình bày trong bài báo này.<br />
Trong các phần tiếp theo trình bày các nội<br />
dung: Phần 2 trình bày các phương pháp thu<br />
145<br />
<br />
Nguyễn Thị Tính và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
thập dữ liệu và lựa chọn phương pháp phù<br />
hợp để xây dựng tập cơ sở dữ liệu của chúng<br />
tôi. Phần 3 giới thiệu một số cơ sở dữ liệu đã<br />
tồn tại và ưu nhược điểm của chúng. Phần 4<br />
trình bày quá trình thu nhập dữ liệu cử chỉ tay<br />
và kết quả. Cuối cùng là phần kết luận hướng<br />
nghiên cứu tiếp theo được trình bày trong<br />
phần 5 của bài báo.<br />
CÁC PHƯƠNG PHÁP THU THẬP DỮ LIỆU<br />
Thu thập dữ liệu là một khâu quan trọng trong<br />
bài toán xác định hình trạng của bàn tay (hand<br />
posture) và nhận dạng cử chỉ (gesture<br />
recognition). Có nhiều cách để thu thập dữ<br />
liệu trong đó 2 phương pháp được sử dụng<br />
nhiều nhất là: phương pháp dùng găng tay<br />
chuyên dụng (glove-based) và phương pháp<br />
sử dụng camera để thu nhận ảnh của bàn tay<br />
(vision-based) [3], [4].<br />
Phương pháp thu thập dữ liệu sử dụng<br />
găng tay chuyên dụng: Phương pháp này đòi<br />
hỏi người thử nghiệm phải đeo vào tay một<br />
găng tay chuyên dụng. Găng tay có kết nối<br />
với thiết bị thu nhận và xử lý dữ liệu ở bên<br />
ngoài thông qua các dây cáp hoặc kết nối<br />
không dây. Các dữ liệu thu được phải mô tả<br />
được góc giữa các đốt tay cũng như vị trí của<br />
ngón tay và bàn tay. Kiểu dữ liệu đưa ra phụ<br />
thuộc hoàn toàn vào loại thiết bị sử dụng<br />
như các thiết bị đo sử dụng từ tính, âm tính,<br />
quán tính.<br />
Phương pháp thu nhận ảnh bàn tay sử<br />
dụng camera: Một trong số những hạn chế<br />
lớn nhất của phương pháp thu thập dữ liệu cử<br />
chỉ bàn tay sử dụng găng tay chuyên dụng là<br />
người sử dụng phải đeo vào một găng tay có<br />
tích hợp các bộ phát sóng điện từ, sóng siêu<br />
âm, ánh sáng, hoặc các thiết bị đo gia tốc, vận<br />
tốc, v.v.. Găng tay sau đó phải được kết nối<br />
(có dây, hoặc không dây) với máy tính để xử<br />
lý và nhận dạng. Việc đeo thiết bị khiến<br />
người sử dụng bị khó chịu vì cồng kềnh, bất<br />
tiện. Khi đeo vào một thiết bị như thế, các cử<br />
động của bàn tay cũng trở nên mất tự nhiên.<br />
Ngoài ra, giá thành của các loại găng tay khá<br />
đắt. Phương pháp thu nhận ảnh bằng camera<br />
tỏ ra hiệu quả hơn.<br />
Phương pháp dùng camera để thu nhận ảnh<br />
của bàn tay dùng trong bài toán nhận dạng cử<br />
146<br />
<br />
99(11): 145 - 150<br />
<br />
chỉ dựa trên các kỹ thuật xử lý ảnh và nhận<br />
dạng là phù hợp với bài toán nhận dạng cử chỉ<br />
vì hai lý do chính sau: 1) Đơn giản, gọn nhẹ,<br />
không đòi hỏi phải đeo vào một loại găng tay<br />
đặc biệt, các thao tác của bàn tay tự nhiên,<br />
thoải mái. 2) Phạm vi thu nhận dữ liệu không<br />
bị hạn chế do tránh được việc gắn các thiết bị<br />
cồng kềnh vào bàn tay.<br />
Với các lợi thế về nhiều mặt, phương pháp sử<br />
dụng camera để thu nhận ảnh của bàn tay từ<br />
đó cho phép xác định hình trạng cũng như<br />
nhận dạng cử chỉ trở thành xu hướng chính<br />
hiện nay. Với mục đích xây dựng cơ sở dữ<br />
liệu cử chỉ tay cho hướng tiếp cận dựa trên thị<br />
giác máy tính, chúng tôi sử dụng phương<br />
pháp thu nhận ảnh bàn tay sử dụng camera.<br />
MỘT SỐ CƠ SỞ DỮ LIỆU ẢNH CỬ CHỈ<br />
ĐÃ CÓ<br />
Trong phần 2, chúng tôi đã phân tích các ưu<br />
nhược điểm của hai loại phương pháp thu<br />
nhận dữ liệu để phục vụ cho bài toán nhận<br />
dạng. Trong phần này chúng tôi trình bày kết<br />
quả khảo sát, phân tích, đánh giá các cơ sở dữ<br />
liệu đã tồn tại [2].<br />
Cơ sở dữ liệu Cambridge [5]: Bộ dữ liệu<br />
này gồm 900 ảnh của 9 lớp cử chỉ khác nhau.<br />
Các lớp cử chỉ này được định nghĩa bởi 3<br />
hình trạng cơ bản của bàn tay và 3 cử động<br />
đơn giản. Mỗi lớp cử chỉ được mô tả bởi 100<br />
ảnh (5 loại ánh sáng khác nhau x 10 chuyển<br />
động ngẫu nhiên x 2 chủ thể khác nhau). Cơ<br />
sở dữ liệu này có ưu điểm là tập cơ sở dữ liệu<br />
gồm các ảnh màu, vì thế cho phép các giải<br />
thuật sử dụng tính chất của màu da để phát<br />
hiện bàn tay, mô tả về hệ cơ sở dữ liệu tương<br />
đối rõ ràng. Tuy nhiên cơ sở dữ liệu này vẫn<br />
có nhược điểm đó là nền của ảnh còn đơn<br />
giản (màu ghi xám đồng đều), 9 lớp cử chỉ<br />
đơn giản, các ngón tay và lòng bàn tay đều<br />
vẫn nằm trên một mặt phẳng.<br />
Cơ sở dữ liệu IDIAP-I [6], [7]: Cơ sở dữ<br />
liệu bao gồm 7 loại cử chỉ khác nhau tạo từ 6<br />
phép quay và một cử chỉ đẩy: quay lên, quay<br />
xuống, quay trước, quay sau, quay trái, quay<br />
phải, đẩy. Nhược điểm đó của cơ sở dữ liệu này<br />
là mỗi tay đeo một găng có màu dễ phân biệt.<br />
Cơ sở dữ liệu IDIAP-II [6], [7]: Cơ sở dữ<br />
liệu chứa hàng nghìn ảnh chụp 6 lớp cử chỉ<br />
<br />
Nguyễn Thị Tính và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
khác nhau trên nền từ đơn giản đến phức tạp.<br />
Mỗi hình trạng của bàn tay được chuẩn hóa<br />
trong một cửa sổ với kích thước 20x20 với ký<br />
hiệu A, 18x20 cho ký hiệu C, 5; 18x30 cho ký<br />
hiệu B, Point,V. Cơ sở dữ liệu có ưu điểm là<br />
các cử chỉ tĩnh cũng như một số các cử chỉ<br />
động được mô tả. Nhược điểm là: ảnh đen<br />
trắng nên không thích hợp với các giải thuật<br />
sử dụng thuộc tính về màu sắc.<br />
Cơ sở dữ liệu FRUNKFURT [8]: Bộ dữ liệu<br />
bao gồm 10 tập cử chỉ (sign) thu nhận từ 24<br />
tay người khác nhau trên 3 loại phông nền<br />
khác nhau (nền đen, nền trắng, nền ngẫu<br />
nhiên). Ảnh đen trắng 8 bít. Tổng cộng có<br />
720 ảnh. Bộ dữ liệu này có điểm mạnh là: tập<br />
cử chỉ tương đối phức tạp, sự thu nhận ảnh<br />
của tay trên phông nền phức tạp cho phép thử<br />
nghiệm tính hiệu quả của thuật toán nhận<br />
dạng trong các điều kiện thu nhận khác nhau.<br />
Tuy nhiên, vẫn có những điểm yếu đó là: ảnh<br />
đen trắng vì thế không thể áp dụng các giải<br />
thuật sử dụng màu, các bộ cử chỉ để thử<br />
nghiệm mặc dù đã phức tạp hơn, trên phông<br />
nền phức tạp hơn nhưng vẫn cùng kích thước,<br />
hướng quay, v.v.. so với ảnh mẫu vì thế<br />
không thử nghiệm được hiệu quả bất biến<br />
của thuật toán đối với góc quay, sự thay<br />
đổi về thang đo (scale change) cũng như trong<br />
các điều kiện ánh sáng khác nhau.<br />
Cơ sở dữ liệu AALBORG – I:Cơ sở dữ liệu<br />
được xây dựng với 2060 ảnh đen trắng định<br />
dạng TIFF độ phân giải 248x256 trên phông<br />
đen. Mỗi cử chỉ được thu nhận nhiều lần<br />
trong những điều kiện sai khác về góc nhìn,<br />
thang đo, dịch chuyển, quay. Số lượng ảnh<br />
với từng ký tự như sau: A: 40 B: 60 C: 40 D:<br />
40 E: 40 F: 40 G: 100 H: 100 I: 100 K: 100 L:<br />
100 M: 100 N: 100 O: 100 P: 100 Q: 100 R:<br />
100 S: 100 T: 100 U: 100 V: 100 W: 100 X:<br />
100 Y: 100. Cơ sở dữ liệu này có thế mạnh là:<br />
một tập đầy đủ các cử chỉ tương ứng với bảng<br />
chữ cái. Điểm yếu của cơ sở dữ liệu là: ảnh<br />
đen trắng nên không cho phép sử dụng các<br />
giải thuật dựa trên tính chất màu sắc.<br />
Cơ sở dữ liệu AALBORG – II: Cơ sở dữ<br />
liệu bao gồm 13 loại cử chỉ phân biệt: 9 cử<br />
chỉ tĩnh và 4 loại cử chỉ động. Tất các các cử<br />
chỉ khác còn lại được xếp vào loại "không<br />
thuộc lớp cử chỉ định nghĩa" (unspecified<br />
<br />
99(11): 145 - 150<br />
<br />
gesture). Các ảnh được thu nhận bằng cách<br />
người đứng và tưởng tượng mình đang tương<br />
tác với các đối tượng "ảo" được đặt trên bàn<br />
để diễn tả các cử chỉ động (dynamique<br />
gesture). Một số đồ vật có thể được thêm vào<br />
hay bớt đi để tạo hiệu ứng phông nền, ánh<br />
sáng thay đổi. Các video được thu nhận có độ<br />
phân giải PAL (768x576). Cơ sở dữ liệu này<br />
có ưu điểm là hình ảnh thu nhận được có mô<br />
tả rất chi tiết, rõ ràng, ảnh mầu, có giá trị đối<br />
với các giải thuật sử dụng màu, tập cử chỉ<br />
tương đối đa dạng. Nhưng cơ sở dữ liệu này<br />
vẫn có một số nhược điểm là: các cử chỉ được<br />
thu nhận trong điều kiện tương đối đơn giản<br />
về nền, trong mặt phẳng, góc quay, ánh sáng,<br />
sự thay đổi về kích thước.<br />
Cơ sở dữ liệu INRIA: 8 videos ghi lại hình<br />
ảnh một người chỉ tay vào các vị trí khác<br />
nhau thông qua 4 camera trong điều kiện ánh<br />
sáng 60% ánh sáng ban ngày và 40% ánh<br />
sáng neon. Video được lấy mẫu với tốc độ<br />
25Hz độ phân giải 352x288. Cơ sở dữ liệu<br />
này có ưu điểm là: ảnh mầu, có thông tin về<br />
ground truth. Tuy nhiên còn có nhược điểm<br />
là: chỉ sử dụng để thử nghiệm một loại cử chỉ<br />
"Pointing".<br />
Cơ sở dữ liệu KYUSHU[9]: gồm các ảnh<br />
của 36 cử chỉ bàn tay (American Sign<br />
Language). Các tác giả đã chỉ ra tập CSDL<br />
được sử dụng nhưng lại không có mô tả về<br />
CSDL này cũng như không thể tìm thấy<br />
CSDL này để tải về sử dụng cho mục đích thử<br />
nghiệm. Cơ sở dữ liệu có ưu điểm là: 36 cử<br />
chỉ, thu nhận trên nền ảnh phức tạp. Những<br />
nhược điểm là: không tồn tại để có thể thử<br />
nghiệm, không có mô tả về CSDL.<br />
Cơ sở dữ liệu Freiburg: Có 4 cử chỉ được<br />
xem xét: vẫy tay; chỉ; kích thước (cử chỉ dùng<br />
hai tay); diễn tả sự không biết (don’t know).<br />
Cơ sở dữ liệu ảnh được thu thập từ ảnh của 5<br />
người với các điều kiện ánh sáng khác nhau,<br />
phông nền phức tạp. Ảnh được thu thập qua<br />
camera và được chụp liên tục với tốc độ<br />
20fps, độ phân giải 640x480. Mỗi cử chỉ bao<br />
gồm 75 mẫu. Cơ sở dữ liệu này có nhiều ưu<br />
điểm như: có sự đa dạng về chủ thể, điều kiện<br />
ánh sáng và phông nền, số lượng ảnh là rất<br />
lớn. Tuy nhiên vẫn có nhược điểm đó là: cơ<br />
sở dữ liệu chỉ bao gồm các ảnh của những cử<br />
147<br />
<br />
Nguyễn Thị Tính và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
chỉ liên tục, không có những cử chỉ tĩnh, chỉ<br />
có 4 cử chỉ.<br />
Từ những khảo sát, phân tích trên đây chúng<br />
ta thấy mỗi cơ sở dữ liệu đều tồn tại những<br />
nhược điểm như: nền chụp ảnh còn tương đối<br />
đơn giản, tập cử chỉ chưa phong phú, chưa<br />
đầy đủ, điều kiện thu nhận đơn giản. Như vậy<br />
cần phải xây dựng một cơ sở dữ liệu cử chỉ<br />
tay để khắc phục những nhược điểm của<br />
những cơ sở dữ liệu đã có. Phần tiếp theo<br />
chúng tôi trình bày quá trình xây dựng một<br />
tập cơ sở dữ liệu cử chỉ tay nhằm đáp ứng nhu<br />
cầu này.<br />
PHÁT TRIỂN CƠ SỞ DỮ LIỆU CỬ CHỈ TAY<br />
Chúng tôi sử dụng tập cử chỉ là bảng chữ cái,<br />
chữ số trong ngôn ngữ cử chỉ ASL, Hình 1 và<br />
Hình 2. Đây là những cử chỉ chuẩn, đầy đủ,<br />
đa dạng, số lượng cử chỉ lớn, có thể sử dụng<br />
để đánh giá các phương pháp nhận dạng cử<br />
chỉ một cách hiệu quả. Tập cử chỉ này phổ<br />
biến, được nhiều người trên thế giới biết đến.<br />
Nhóm nghiên cứu dùng các cử chỉ này để xây<br />
dựng nên một có sở dữ liệu mới lớn hơn, đầy<br />
đủ, đa dạng với ảnh màu, điều kiện chụp là<br />
môi trường thực tế.<br />
<br />
Hình 1. Tập các cử chỉ chữ cái<br />
<br />
Hình 2. Tập các cử chỉ chữ số<br />
<br />
148<br />
<br />
99(11): 145 - 150<br />
<br />
Tập cơ sở dữ liệu mà chúng tôi xây dựng là<br />
tập ảnh màu, với đầy đủ 26 hình trạng chữ<br />
cái, 10 hình trạng chữ số với điều kiện phức<br />
tạp trong môi trường thực tế: phông nền phức<br />
tạp, ánh sáng thay đổi, điều kiện chụp phong<br />
phú, chụp trên nhiều đối tượng khác nhau.<br />
Cơ sở dữ liệu bao gồm hai phần: cơ sở dữ liệu<br />
huấn luyện để phục vụ cho các phương pháp<br />
tiếp cận theo hướng học máy và cơ sở dữ liệu<br />
thử nghiệm.<br />
Dữ liệu huấn luyện: Là các dữ liệu dùng cho<br />
việc học của một hệ nhận dạng. Trong quá<br />
trình huấn luyện, bộ nhận dạng sẽ học từ các<br />
dữ liệu này và ghi nhớ các đặc trưng của đối<br />
tượng cần nhận dạng. Sau này, việc nhận<br />
dạng sẽ thông qua các đặc trưng để nhận ra<br />
đối tượng. Dữ liệu huấn luyện gồm 2 tập: tập<br />
các ảnh chứa đối tượng cần nhận dạng<br />
(positive samples) và tập các ảnh không chứa<br />
đối tượng cần nhận dạng (negative samples).<br />
Dữ liệu thử nghiệm: Là dữ liệu dùng cho<br />
việc kiểm tra, đánh giá tỉ lệ nhận dạng của<br />
một hệ nhận dạng. Tập dữ liệu này phải<br />
không trùng với tập dữ liệu huấn luyện. Tỉ lệ<br />
nhận dạng đúng các mẫu trong tập thử<br />
nghiệm nói lên tính hiệu quả của hệ nhận<br />
dạng. Bởi vì các dữ liệu này không tham gia<br />
và quá trình huấn luyện của hệ nhận dạng cho<br />
nên nếu hệ nhận dạng vẫn nhận dạng đúng<br />
chứng tỏ các đặc trưng mà được trích rút ra<br />
thật sự là các đặc trưng của đối tượng.<br />
Xây dựng tập ảnh positive: Cơ sở dữ liệu<br />
gồm 36 tập ảnh positive tương ứng với 36 cử<br />
chỉ. Với mỗi cử chỉ, chúng tôi chụp hơn 1200<br />
ảnh của 60 người khác nhau bằng webcam<br />
hoặc camera với độ phân giải 640x480 pixels<br />
trong nhiều điều kiện ánh sáng và phông nền<br />
khác nhau: dưới ánh sáng đèn neon ở nhiều<br />
phòng khác nhau, ánh sáng tự nhiên vào các<br />
thời điểm khác nhau v.v… Sau đó, loại các<br />
mẫu không đạt chất lượng như ảnh quá mờ, tư<br />
thế không rõ ràng, thực hiện sai cử chỉ, v.v...<br />
để còn lại 1200 mẫu cho mỗi cử chỉ.<br />
Tiến hành cắt ảnh để tách riêng vùng chứa cử<br />
chỉ tay nhằm xây dựng bộ cơ sở dữ liệu dùng<br />
để huấn luyện (positive samples). Cắt từ mỗi<br />
ảnh nguồn một vùng hình chữ nhật chứa bàn<br />
tay với yêu cầu: vùng hình chữ nhật bé nhất<br />
<br />
Nguyễn Thị Tính và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
99(11): 145 - 150<br />
<br />
Hình 3. Tách vùng bàn tay ra khỏi ảnh nguồn<br />
<br />
dạng trong môi trường thực tế dựa trên tập<br />
quy ước của ngôn ngữ cử chỉ ASL. Nhóm<br />
nghiên cứu đã thực hiện chụp ảnh trong môi<br />
trường thực tế, sử dụng các phần mềm chuyên<br />
dụng để xử lý và xây dựng cơ sở dữ liệu cho<br />
quá trình huấn luyện. Cơ sở dữ liệu này tốt<br />
hơn những cơ sở dữ liệu đang tồn tại trong<br />
mục đích phát triển, thử nghiệm đánh giá các<br />
phương pháp nhận dạng cử chỉ tay cũng như<br />
việc phát triển hệ thống ứng dụng. Chúng tôi<br />
dự định sẽ sử dụng cơ sở dữ liệu này trong<br />
việc nghiên cứu phát triển các hệ thống nhận<br />
dạng cử chỉ tay, đồng thời tiếp tục đánh giá và<br />
bổ sung cơ sở dữ liệu để nâng cao chất lượng.<br />
<br />
Xây dựng tập dữ liệu ảnh negative: Tập dữ<br />
liệu gồm 1.500 ảnh đa mức xám kích thước<br />
640x480 ở định dạng JPG. Trong đó 1.000<br />
ảnh được lấy từ tập dữ liệu ảnh negative tải từ<br />
[10], [11]. 500 ảnh còn lại là các ảnh do<br />
chúng tôi bổ sung. Tất cả các ảnh này không<br />
chứa các cử chỉ trong tập cử chỉ mà chúng tôi<br />
sử dụng. Các ảnh này cũng là ảnh đa mức<br />
xám và ảnh màu ở định dạng JPG kích thước<br />
640x480.<br />
Xây dựng tập dữ liệu ảnh thử nghiệm: Cơ sở<br />
dữ liệu thử nghiệm cho 36 cử chỉ tương ứng<br />
có 36 tập ảnh, mỗi tập dùng thử nghiệm cho<br />
một cử chỉ. Các tập ảnh được thực hiện theo<br />
quy trình như sau: chụp bằng webcam hoặc<br />
camera ở độ phân giải 320x240 hoặc 640x480<br />
từ 100 người, mỗi người 100 ảnh cho mỗi cử<br />
chỉ trong các điều kiện chiếu sáng khác nhau<br />
và phông nền phức tạp như: dưới ánh sáng<br />
đèn neon ở nhiều phòng khác nhau, ánh sáng<br />
tự nhiên vào các thời điểm khác nhau.<br />
Như vậy, cơ sở dữ liệu do chúng tôi xây dựng<br />
có sự đa dạng về loại cử chỉ (36 cử chỉ). Đối<br />
tượng tham gia thu nhận đa dạng. Phông nền,<br />
điều kiện chiếu sáng đa dạng trong môi<br />
trường thực tế. Số lượng cử chỉ lớn. Cơ sở dữ<br />
liệu này có thể đáp ứng nhu cầu phát triển,<br />
thử nghiệm các thuật toán nhận dạng hình<br />
trạng bàn tay và đánh giá các thuật toán này ở<br />
nhiều khía cạnh khác nhau.<br />
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU<br />
TIẾP THEO<br />
Chúng tôi đã xây dựng được một bộ cơ sở dữ<br />
liệu cử chỉ tay với tập cử chỉ đa dạng, số<br />
lượng lớn, điều kiện thu nhận phức tạp, đa<br />
<br />
[1]. S. Mitra and T. Acharya, “Gesture<br />
Recognition: A Survey,” IEEE Transactions on<br />
Systems, Man and Cybernetics, Part C<br />
(Applications and Reviews), vol. 37, no. 3, pp.<br />
311–324, May 2007.<br />
[2]. T. T. T. Hai, N. Q. Cuong, M. D. Khoa, and<br />
V. X. Huy, “Báo cáo về nhận dạng cử chỉ bàn<br />
tay,” 2010.<br />
[3]. J. J. and L. Jr, “A Survey of Hand Posture and<br />
Gesture Recognition Techniques and Technology,<br />
Technical Report CS-99-11, Brown University,<br />
Department of Computer Science.,” 1999.<br />
[4]. R. Watson, “A Survey of Gesture Recognition<br />
Techniques Technical Report TCD-CS-93-11,<br />
Department of Computer Science Trinity College,<br />
Dublin 2,” 1993.<br />
[5]. T. Kim, S. Wong, and R. Cipolla, “Tensor<br />
Canonical Correlation Analysis for Action<br />
Classification,” in IEEE Conference on Computer<br />
Vision and Pattern Recognition (CVPR), 2007.<br />
[6]. S. Marcel, “Hand posture recognition in a<br />
body-face centered space,” in CHI EA ’99 CHI<br />
'99 extended abstracts on Human factors in<br />
computing systems, 1999, pp. 302–303.<br />
[7]. S. Marcel, O. Bernier, J.-E. Viallet, and D.<br />
Collobert, “Hand gesture recognition using inputoutput hidden Markov models,” in Proceedings<br />
Fourth IEEE International Conference on<br />
Automatic Face and Gesture Recognition (Cat.<br />
No. PR00580), 2000, no. Figure 1, pp. 456–461.<br />
[8]. J. . Triesch and C. von der Malsburg, “Robust<br />
classification of hand postures against complex<br />
backgrounds,” in The Second International<br />
Conference on Automatic Face and Gesture<br />
Recognition, 1996., 1996, pp. 170 – 175.<br />
[9]. N. D. Binh and T. Ejima, “Hand Gesture<br />
Recognition Using Fuzzy Neural Network,” in<br />
GVIP 2005, 2005, no. December, pp. 19–21.<br />
<br />
có thể nhưng phải chứa toàn bộ bàn tay và các<br />
ngón tay, không bao gồm cổ tay và cánh tay,<br />
Hình 3. Chúng tôi sử dụng tiện ích<br />
ImageCliper.<br />
Ảnh nguồn Ảnh kết quả<br />
<br />
TÀI LIỆU THAM KHẢO<br />
<br />
149<br />
<br />