YOMEDIA
ADSENSE
Găng tay phiên dịch ngôn ngữ ký hiệu cho người câm điếc
99
lượt xem 7
download
lượt xem 7
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Nghiên cứu này hướng đến chế tạo ra sản phẩm hỗ trợ người câm điếc chuyển tải những thông điệp bằng chính ngôn ngữ của họ tới mọi người. Hệ thống được đề xuất trong nghiên cứu này gồm hai găng tay gắn các cảm biến gia tốc góc MMA7361, một MCU và RF Module truyền về điểm thu thập dữ liệu gắn trên máy tính thông qua một mạng lưới cảm biến không dây gồm 2 Node tương ứng với 2 găng tay.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Găng tay phiên dịch ngôn ngữ ký hiệu cho người câm điếc
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) Găng tay phiên dịch ngôn ngữ ký hiệu cho người câm điếc Nguyễn Xuân Tâm Đỗ Nguyên Nghĩa, Bùi Văn, Phạm Văn Tuấn Khoa Điện tử Viễn thông - Trường Đại Học Bách Trung tâm Xuất sắc - Trường Đại Học Bách Khoa - Khoa - Đại Học Đà Nẵng Đại Học Đà Nẵng Đà Nẵng, Việt Nam Đà Nẵng, Việt Nam Email: xuantambk@gmail.com Email: nguyennghia4192@gmail.com, buivanbmt@gmail.com, pvtuan@dut.udn.vn Tóm tắt— Găng tay phiên dịch ngôn ngữ ký hiệu cho hoặc tiếng nói cho người bình thường đọc hoặc người câm điếc là một nghiên cứu về nhận dạng và phiên nghe. Ưu điểm chính của hướng nghiên cứu này dịch ngôn ngữ ký hiệu của người câm điếc thành văn bản là tạo nên một không gian giao tiếp rất thoải mái và tiếng nói. Nghiên cứu này hướng đến chế tạo ra sản cho người dùng. Người khiếm thính chỉ cần nói phẩm hỗ trợ người câm điếc chuyển tải những thông điệp bình thường trước camera một cách tự nhiên bằng chính ngôn ngữ của họ tới mọi người. Hệ thống được bằng chính những cử chỉ của mình. Tuy nhiên, đề xuất trong nghiên cứu này gồm hai găng tay gắn các hạn chế của phương pháp này là phải đảm bảo rất cảm biến gia tốc góc MMA7361, một MCU và RF Module nhiều điều kiện như: độ sáng của môi trường, truyền về điểm thu thập dữ liệu gắn trên máy tính thông màu trang phục của người nói, vị trí góc của qua một mạng lưới cảm biến không dây gồm 2 Node tương ứng với 2 găng tay. Các thông điệp được hiển thị dưới người nói so với camera. Những yếu tố trên cộng dạng văn bản trong phần mềm nhận dạng chạy trên máy với việc phát triển phần mềm nhận dạng sẽ đẩy tính và phát ra tiếng nói, đồng thời có thể thực hiện các giá thành của hệ thống này lên rất cao trong thao tác “thêm” và “xóa” cử chỉ mới cho hệ thống. Vì vậy tương lai nếu nó có thể thực sự được đưa ra ứng hệ thống có vốn từ vựng ký hiệu mở, có thể tùy biến theo dụng trong cuộc sống. Gần đây, cùng với sự ra người sử dụng. Kết quả đánh giá được thu thập từ các đời và phát triển của những camera có độ phân thành viên khác nhau trong cộng đồng người sử dụng giải lớn, các nghiên cứu theo hướng Xử lý ảnh ngôn ngữ ký hiệu phân vùng Đà Nẵng cho thấy hiệu suất cũng có những thành công nhất định. Năm 2013, nhận dạng cử chỉ tĩnh trung bình là 85% và cử chỉ động là dự án Kinect Translator (Sử dụng bộ Kinect 80%, nhưng nhìn chung là khả quan. Camera của Microsoft) do Đại Học Bắc Kinh Trung Quốc nghiên cứu đã xây dựng được hệ Từ khóa— cảm biến; câm điếc; ký hiệu; ngôn ngữ; thống thông dịch hai chiều giữa người bình nhận dạng; nhận dạng ngôn ngữ ký hiệu. thường và người câm điếc thông qua một mô hình 3D trên máy tính. Kết quả còn hạn chế ở I. GIỚI THIỆU một số câu nói, câu hỏi đơn giản và chỉ phát triển Theo cuộc tổng điều tra dân số Việt Nam năm 2012 riêng cho tiếng Trung và một số câu tiếng Anh ở nước ta có khoảng 3 triệu người câm điếc và suy giảm thông dụng [1]. Trong cùng thời gian này, các khả năng nghe nói. Vì vậy, lĩnh vực nghiên cứu Nhận nhà khoa học Đại học Aberdeen cũng đã thực dạng và phiên dịch ngôn ngữ ký hiệu (Sign Language hiện một nghiên cứu - sử dụng camera ghi hình Recognition) được ra đời và phát triển nhằm giúp người bàn tay của người ra ký hiệu và dùng một chương khiếm thính vượt qua rào cản về giao tiếp. trình phần mềm chuyển thành chữ cái hiển thị lên Có thể phân ra hai hướng nghiên cứu chính, đó là: màn hình [2]. Xử lý ảnh và Găng tay cảm biến. Găng tay cảm biến: Hướng nghiên cứu này sử Xử lý ảnh: Hướng nghiên cứu này chủ yếu tập dụng những chiếc găng tay thu thập dữ liệu và trung phân tích tín hiệu video nhận được từ gửi về máy tính để xử lý. Người dùng sẽ bắt buộc camera. Camera giám sát tất cả các hành động cử phải mang những chiếc găng tay này khi giao chỉ từ bàn tay, nét mặt và cử động khác của người tiếp. Thông qua các cảm biến được gắn trên găng tay nó sẽ phát hiện tất cả các chuyển động của nói, sau đó gửi tín hiệu đến máy tính, sau đó máy bàn tay cùng các ngón tay và gửi những dữ liệu tính xử lý và xuất lại kết quả dưới dạng văn bản ISBN: 978-604-67-0349-5 329
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) này về máy tính. Ưu điểm của phương pháp này La-Tin làm chữ viết. Hầu hết các ký hiệu biểu hiện chữ là loại bỏ được những sự ảnh hưởng của môi cái đều là các ký hiệu “tĩnh” ngoại trừ 2 ký hiệu “J” và trường bên ngoài. Tuy nhiên nhược điểm lớn nhất “Z” như Hình 1 [6]. của phương pháp này lại chính là sự phản ảnh hạn chế của dữ liệu thu được do Ngôn ngữ ký hiệu sử dụng nhiều cử chỉ nét mặt, đầu và thân thể để biểu thị. Trong những trường hợp đó, găng tay cảm biến tỏ ra không hiệu quả. Vào năm 1994 hai tác giả David J.Sturman và David Zeltzer ở Medialab, học viện công nghệ MIT đã đưa ra một phương pháp thu thập dữ liệu đầu vào sử dụng các găng tay trong công trình “A Survey of Glove Data Input” [3] để ứng dụng trong Nhận dạng ngôn ngữ ký hiệu. Cùng trong hướng nghiên cứu này, nổi bật nhất là dự án Enable Talk [4] của nhóm QuadSquad đến từ Ukraine năm 2012. Găng tay đã có thể nhận dạng ra các chữ cái đơn lẻ và họ dùng chúng để viết thành các chữ cái hoặc tạo nên câu. Sau này sản phẩm còn được phát triển cao hơn để nhận dạng được một số câu đơn giản và chuyển thành tiếng nói. Bài báo này trình bày các kết quả của một nghiên cứu về nhận dạng ngôn ngữ ký hiệu Tiếng Việt theo hướng Găng tay cảm biến. Mục tiêu của nghiên cứu này Hình 1: Bảng chữ cái ngôn ngữ ký hiệu là tạo ra hệ thống có thể nhận dạng và phiên dịch ngôn ngữ ký hiệu khu vực Đà Nẵng thành tiếng nói và mở B. Các đặc tính của một ký hiệu rộng cơ sở dữ liệu ra toàn quốc. Cơ sở của việc mở rộng 1) Tính giản lược và có điểm nhấn này là vì hệ thống cho phép tùy biến vốn từ vựng tùy Ngôn ngữ ký hiệu tập trung vào việc truyền tải ý theo người dùng bằng thao tác huấn luyện sản phẩm ghi nghĩa của hành động chứ không chú trọng ngữ pháp, nhớ hành động của mình. Ngoài ra, hệ thống có thể xóa miễn là vẫn truyền tải được nội dung của thông điệp. Đặt những hành động khác trong cơ sở dữ liệu khi cảm thấy trong một ngữ cảnh giao tiếp nhất định thì ngôn ngữ ký không cần thiết hoặc gây nhầm lẫn so với những cử chỉ hiệu vẫn có thể truyền đạt được nội dung của câu nói. khác. Ứng dụng đầu tiên và thiết thực nhất của hệ thống Tuy nhiên nếu tách biệt ra khỏi môi trường giao tiếp sẽ này là việc nó có thể giúp người câm điếc thuyết trình khó khăn hơn cho việc nhận dạng những trường hợp trước mọi người. Hệ thống hỗ trợ 3 gói giọng nói: Tiếng tương tự, vì người nghe không biết chủ thể đang được Việt giọng nam, Tiếng Việt giọng nữ và Tiếng Anh nói đến là ai [7]. giọng nữ. 2) Khác biệt vùng miền Bài báo sẽ trình bày tổng quan về ngôn ngữ ký hiệu Cũng như ngôn ngữ nói, ngôn ngữ ký hiệu của từng ở phần II. Phần này gồm có những đặc tính cơ bản của quốc gia, thậm chí là từng khu vực trong một quốc gia ngôn ngữ ký hiệu nói chung và ngôn ngữ ký hiệu Việt rất khác nhau. Điều đó là do mỗi quốc gia, khu vực có Nam nói riêng. Tiếp theo bài báo trình bày sơ đồ khối hệ lịch sử, văn hóa, tập quán khác nhau nên ký hiệu để biểu thống, thiết kế phần cứng và các thiết kế về phần mềm, thị sự vật, hiện tượng cũng khác nhau. Do đó dẫn tới sự bao gồm xây dựng cơ sở dữ liệu cùng với giải thuật nhận khác biệt của hệ thống từ vựng và ngữ pháp ngôn ngữ ký dạng, được trình bày ở phần III. Cuối cùng, những kết hiệu giữa các nước. quả thử nghiệm được đánh gíá phân tích ở phần IV và kết luận cũng như hướng phát triển sẽ được trình bày ở 3) Phân loại ký hiệu phần V. Trên cơ sở nghiên cứu về các cử chỉ và ký hiệu được sử dụng trong cộng đồng người câm điếc. Ngôn ngữ cử II. TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU chỉ sử dụng trong nghiên cứu này được chia ra làm 2 loại đó là “ký hiệu tĩnh” và “ký hiệu động”. A. Khái niệm ngôn ngữ Ngôn ngữ ký hiệu (thủ ngữ) được cộng đồng người a) Ký hiệu tĩnh câm điếc sử dụng nhằm truyển tải thông tin qua cử chỉ, Là những ký hiệu chỉ cần sử dụng một trạng thái của điệu bộ của cơ thể và nét mặt thay cho lời nói [5]. tay cố định mà không di chuyển. Trong phần lớn trường hợp của ngôn ngữ ký hiệu, các cử chỉ tĩnh thường chỉ Dưới đây là bảng chữ cái ký hiệu chung nhất cho được dùng để diễn tả bảng chữ cái (trừ chữ “J”, “Z” và Việt Nam và hầu hết các quốc gia sử dụng bảng chữ cái chữ cái có dấu) hoặc những ký hiệu hết sức đơn giản. ISBN: 978-604-67-0349-5 330
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) b) Ký hiệu động Là một chuỗi các ký hiệu nối tiếp nhau nhằm biểu diễn một câu hoặc một ý nào đấy. Cũng có thể hiểu nó là một chuỗi các ký hiệu tĩnh thay đổi liên tục. Hầu hết các câu đàm thoại trong ngôn ngữ ký hiệu đều là các ký hiệu động. Mục tiêu chính của đề tài này là nhận dạng các ký hiệu động này với mẫu ký hiệu được lấy từ ngôn ngữ ký hiệu khu vực Đà Nẵng. III. THIẾT KẾ HỆ THỐNG A. Sơ đồ khối của hệ thống Găng tay 1 Găng tay 2 Cảm biến gia Cảm biến gia tốc tốc Hình 3. Thiết kế găng tay Module MCU Module MCU 2) Sơ đồ khối chức năng RF RF Điểm thu thập dữ liệu Tín ADC Chuẩn Điểm PC hiệu (5x2 hóa tín thu cảm channel) hiệu đầu thập dữ Hình 2. Tổng quan hệ thống biến vào liệu Sơ đồ khối của hệ thống được trình bày như Hình 2, bao gồm: Găng tay Hai găng tay được gắn các cảm biến gia tốc góc, MCU và RF module để thu thập dữ liệu của bàn tay thông qua các bộ chuyển đổi ADC. Các dữ liệu này sẽ được chuẩn hóa và gửi về điểm thu Hình 4. Sơ đồ khối chức năng thập dữ liệu. Tín hiệu ở các cảm biến gia tốc được MCU thực hiện Tại điểm thu thập dữ liệu, máy tính sẽ tiến hành quá trình ADC với 5 kênh chuyển đổi, tương ứng với 5 thu thập dữ liệu và phát hiện trạng thái ngưng của cảm biến gắn trên các đầu ngón tay. Sau đó tín hiệu chuyển động. Khi một cử chỉ ngưng lại nó sẽ được chuẩn hóa đầu vào, nhằm loại bỏ những xung vượt kích hoạt quá trình nhận dạng, nếu kết quả thành ngưỡng cho phép đồng thời giảm sổ lượng các mẫu công sẽ xuất ra kết quả đầu ra dạng Text. Sau đó giống nhau quá nhiều (Hình 4). mã Text tiếp tục được đưa vào bộ chuyển đổi Text-to-Speech và phát ra tiếng nói tương ứng. 3) Cảm biến vi cơ gia tốc góc a) Tổng quan về cảm biến gia tốc B. Thiết kế phần cứng: Cảm biến gia tốc là một thiết bị dùng để đo gia tốc. 1) Găng tay cảm biến Cảm biến vi cơ là một loại cảm biến được chế tạo theo Hình 3 mô tả thiết kế tổng quan về găng tay sử dụng công nghệ vi cơ. Nó chính là một trong những sản phẩm cảm biến gia tốc gắn trên đầu ngón tay. Bộ xử lý trung phong phú và đa dạng nhất của công nghệ MEMS tâm là MCU sẽ được đặt trên sống bàn tay cùng với (Microelectromechanical Systems) [8] [9]. Module RF. Ngoài ra thiết kế găng tay cũng đảm bảo được tính uyển chuyển, không gây cản trở khi chuyển Cảm biến vi cơ ngày càng nhanh hơn, nhạy hơn, nhẹ động và loại bỏ các xung tĩnh điện nhờ vải chống tĩnh hơn, rẻ hơn và có độ tin cậy cao so với các cảm biến chế điện. tạo theo công nghệ điện tử trước đây. Cảm biến gia tốc chế tạo theo công nghệ vi cơ điện tử có hai loại là cảm biến kiểu tụ và cảm biến kiểu áp trở. Cảm biến kiểu áp ISBN: 978-604-67-0349-5 331
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) trở có ưu điểm là công nghệ cấu tạo rất đơn giản. Tuy nhiên nhược điểm của nó là hoạt động phụ thuộc nhiều vào sự thay đổi nhiệt độ và có độ nhạy kém hơn cảm biến kiểu tụ. Các cảm biến kiểu tụ có độ nhạy cao hơn, ít bị phụ thuộc vào nhiệt độ, ít bị nhiễu và mất mát năng lượng. Tuy nhiên chúng có nhược điểm là mạch điện tử phức tạp hơn. Hiện nay cảm biến gia tốc kiểu tụ được ứng dụng rộng rãi. Nghiên cứu này sử dụng cảm biến vi cơ gia tốc góc kiểu tụ MMA7361. b) Cảm biến gia tốc góc MMA7361 MMA7361 là gia tốc cho phép phát hiện chuyển động theo cả 3 phương X-Y-Z. Trong đề tài này cảm Hình 6. Giá trị điện áp theo góc quay hành động cong ngón tay biến gia tốc MMA7361 được lựa chọn do độ nhạy cao (1.5g hoặc 6g) và đặc tính tiết kiệm năng lượng của nó Hình 6 biểu diễn giá trị điện áp khi cong ngón tay. (hoạt động được với dòng rất nhỏ, ở chế độ Active tiêu Giá trị gia tốc góc đo được trên ngõ ra trục Y thay đổi thụ dòng chỉ 500µA và Sleep Mode là 40µÁ. Điện áp gần như tuyến tính. Đây cũng là cơ sở để chọn những cung cấp từ 2.2 đến 3.3V. ngõ ra tương ứng cho mỗi cảm biến trên mỗi ngón tay. Vì đối với những hành động cong ngón tay thì sự phản c) Khảo sát chuyển động của các ngón tay với ánh của dữ liệu trên trục Y của cảm biến sẽ là tốt nhất MMA7361 [11]. Xét về mặt chuyển động trong không gian của các ngón tay thì hành động cong ngón tay và cử động xoay Khảo sát hành động xoay của ngón tay là những cử động cơ bản nhất trong ngôn ngữ ký hiệu. Bởi vì khi thực hiện bất cứ một cử chỉ nào đều cần sự co, nghiêng, xoay của ngón tay cũng như bàn tay. Tất nhiên những cử động của bàn tay sẽ kéo theo các chuyển động của các ngón tay. Sau đây là kết quả kiểm tra sự thay đổi góc quay theo 3 trục với các hành động tương ứng [10]. Quá trình thử nghiệm thực hiện gắn cảm biến lên một thanh trục và quay 1800 cho kết quả như sau: Khảo sát hành động cong ngón tay Hình 6. Khảo sát hành động xoay của ngón tay Hình 7. Giá trị điện áp theo góc quay hành động xoay ngón tay Hình 5. Khảo sát hành động cong ngón tay ISBN: 978-604-67-0349-5 332
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) Hình 7 là kết quả khi khảo sát hành động xoay chuyển động. Lúc này dữ liệu đang được ghi lại ngón. Gia tốc góc trên trục X sẽ thay đổi nhiều nhất, vào bộ đệm để chuẩn bị nhận dạng. giảm liên tục với góc quay từ 0- 1800. Trạng thái tạm dừng: Trạng thái này được xác d) Chọn các ngõ ra trên các cảm biến lập khi không xảy ra chuyển động nào trong ít Trên cơ sở khảo sát chuyển động của các ngón tay và nhất 2.5s. Đây cũng là lúc hệ thống bắt đầu đi bàn tay đó, các ngõ ra của cảm biến và cũng là đầu vào nhận dạng ký hiệu vừa được tạo ra. cho các kênh ADC của MCU được lựa chọn như Bảng 1. Kết thúc quá trình nhận dạng dù có thành công hay không thì quá trình xử lý cũng quay trở về BẢNG 1. NGÕ RA CỦA CẢM BIẾN TRÊN CÁC NGÓN TAY trạng thái khởi động để chờ ký hiệu mới. Ngõ ra Ngón tay 2) Xây dựng cơ sở dữ liệu Yout Ngón cái Với mỗi dòng dữ liệu nhận được từ 10 cảm biến gia tốc góc ta có một vector 10 chiều. Yout Ngón trỏ Xout Ngón giữa d {u1 , u2 , u3 , u4 , u5 , u6 , u7 , u8 , u9 , u10 } Zout Ngón áp út Ta có: d {ui ,1 i 10} với ui (1 i 5) cho tay Yout Ngón út phải và ui (6 i 10) cho tay trái. Như vậy một ký hiệu C. Thiết kế phần mềm được biểu diễn bởi Gm là một tập vector d với Imax là số 1) Các trạng thái của một ký hiệu dòng dữ liệu tối đa cho một ký tự: Một ký hiệu được xem xét dựa trên 3 trạng thái chính là: “Bắt đầu”, “Chuyển động” và “Tạm dừng” Gm {d i | i I max , i N } (1) (Hình 8). Qua khảo sát cho thấy rằng thời gian thực để thực hiện một cử chỉ trung bình kéo dài trong khoảng từ 2-5s. Để đảm bảo việc cập nhật dữ liệu là đủ nhanh để lưu lại tất cả các trạng thái của chuyển động, hơn nữa nó cũng phải đảm bảo đáp ứng của hệ thống. Với tốc độ chuyển Bắt đầu động của bàn tay bình thường không quá nhanh, thời Bắt đầu gian lấy mẫu Timescale cho bộ ADC được chọn như chuyển động Nhận dạng sau: hoàn tất TimeScale 0.01(s) (2) Chuyển động Thời gian tối đa cho một ký hiệu: Kết thúc một MAX(arverage _ time) 5(s) (3) chuyển động Tạm dừng Có thể suy ra số dòng dữ liệu tối đa cho một ký tự: MAX(arverage _ time) (nhận dạng) I max 500 (4) TimeScale Hình 8. Các trạng thái của một ký hiệu Ta có Database được xây dựng trên tập các ký hiệu: D G k | k 0,1, 2,..N 500 (5) Trạng thái bắt đầu: Đây là trạng thái bắt đầu của một chuyển động. Quy định trạng thái bắt đầu là Bây giờ nhiệm vụ là: duy nhất, nghĩa là khi bắt đầu bất cứ một ký hiệu nào, phải đưa tay về trạng thái bắt đầu để hệ Cho một tập: R {vi , i N} là dữ liệu đầu vào đại thống có thể biết sắp bắt đầu một câu mới. Hiện diện cho một ký hiệu nào đấy. Tìm Gk D sao tại hệ thống cài đặt trạng thái bắt đầu một câu mới là khi người dùng đặt 2 tay úp vào nhau tay cho ( R, Gk ) là “phù hợp nhất”. Chúng ta sẽ nói rõ hơn trái ngửa, tay phải úp để ngang bụng. Trạng thái thế nào là “phù hợp nhất” trong phần D. này có thể tùy biến theo cài đặt sau này. 3) Giải thuật nhận dạng Trạng thái chuyển động: Khi có sự chuyển động Với mỗi cặp vector vi R và di Gk của các ngón tay hoặc bàn tay trong khoảng thời gian tối thiểu 1s, thì sẽ kích hoạt trạng thái ISBN: 978-604-67-0349-5 333
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) vi {vk ,1 k 10, k N ) Trong tất cả các trường hợp nếu số điểm di {d k ,1 k 10, k N ) Markk ( R, Gk ) 2 thì trường hợp này được xem là “Không nhận dạng được”. Nghĩa là trong quá trình Ta có khoảng cách Eclid được tính giữa 2 vector như chuyển động của cử chỉ đó nó không tạo ra được quá 2 sau: thành phần vi . 10 (v Kết quả quá trình nhận dạng sẽ trả về giá trị k là chỉ Di k dk )2 (6) số của mã TEXT tương ứng được lưu trong cơ sở dữ liệu k 1 hoặc -1 nếu không xác định được. Quá trình nhận dạng sẽ được mô tả chi tiết hơn trong Hình 9. Áp dụng phương pháp tính điểm như sau: Vì độ dài đầu vào của các ký hiệu là khác nhau và độ dài của các mẫu ký hiệu đã huấn luyện trong cơ sở dữ liệu cũng khác nhau cho nên độ dài của R và Gk có thể khác nhau. Mặt khác, xét về độ quan trọng trong các cử chỉ thì cử chỉ cuối cùng luôn quan trọng hơn những hành động đầu tiên nên việc tính điểm được tiến hành từ điểm cuối của hành động như sau: Điểm số M i 1 nếu Di với 0.85 ngược lại M i 0 . Có thể chọn α nhỏ hơn nhưng bù lại nó sẽ siết chặt quá trình nhận dạng và làm giảm hiệu suất nhận dạng với những cử chỉ gần giống với cử chỉ đã lưu trong Hình 9. Mô tả quá trình nhận dạng một cử chỉ database. Việc so sánh và tính điểm được bắt đầu từ điểm cuối Ta có một thông số tính điểm đại diện cho sự tương của mỗi cặp ( R, Gk ) bám sát theo trình tự thời gian mà đồng của ( R, Gk ) các dòng dữ liệu đó được tạo ra. Theo đó ở trục thời gian Max[ nR ; nGk ] chúng ta có 3 trạng thái tương ứng đó là “Bắt đầu” , “Chuyển động” và “Tạm dừng”. Như đã trình bày ở trên Markk ( R, Gk ) Mi (7) độ dài của R và Gk là có thể khác nhau nên việc tính i | nR nGk | điểm chỉ được tính đến chỉ số | nR nGk | , ở đây ta có Trong đó nR là số vector chứa trong R và nGk là số chiều dài của R là nR và chiều dài của Gk là n với vector chứa trong Gk hay nói cách khác là độ dài tính n nR . Nếu quá trình nhận dạng thành công sẽ trả về theo số dòng dữ liệu thu được. giá trị chỉ số k tương ứng với mã Textk . Bây giờ chúng ta xét tỉ số điểm có được tương ứng với cử chỉ đầu vào và độ dài của ký tự đó. Sở dĩ phải xét IV. KẾT QUẢ VÀ ĐÁNH GIÁ đến độ dài (số vector chứa trong một ký hiệu đầu vào) vì Hiệu suất nhận dạng đánh giá đối với hai loại: nhận những cử chỉ có thể giống nhau ở một số đoạn chuyển dạng cử chỉ tĩnh và nhận dạng cử chỉ động. Dữ liệu đánh động dù độ dài nó khác nhau. giá được thu thập với các thành viên khác nhau trong Xét về tổng thể một cử chỉ có độ dài càng lớn thì xác cộng đồng nói ngôn ngữ ký hiệu Đà Nẵng. Với mỗi cử suất nó chứa các thành phần của những cử chỉ khác chỉ mỗi người thực hiện 3 lần Training và 10 lần Test. trong đó là lớn. Ta có một cử chỉ đầu vào R có độ dài là 1) Hiệu suất nhận dạng cử chỉ tĩnh nR. Và giá trị điểm số mà nó thu được khi quét toàn cơ Việc đánh giá hiệu suất nhận dạng cử chỉ tĩnh thông sở dữ liệu là: qua nhận dạng phần lớn chữ cái của bảng chữ cái tiếng Markk ( R, Gk ) Việt. Hình 10 là biểu đồ đánh giá kết quả nhận dạng. k (8) nR ( R, Gk ) được xem là một cặp “phù hợp nhất” khi k tương ứng là lớn nhất xét khi quét toàn cơ sở dữ liệu. ISBN: 978-604-67-0349-5 334
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 2) Hiệu suất nhận dạng cử chỉ động Hệ thống được đánh giá dựa trên việc nhận dạng 10 cử chỉ cơ bản nhất trong ngôn ngữ ký hiệu.Các cử chỉ này chỉ tập trung vào cử chỉ bàn tay không có sự can thiệp của ánh măt và các thành phần ngôn ngữ cơ thể khác (Bảng 2). BẢNG 2. HIỆU SUẤT NHẬN DẠNG MỘT SỐ CỬ CHỈ ĐỘNG Đún Không Nhầ Tổn Phần Câu g Xác định m g trăm “Chào Bạn” 90 7 3 100 90% “Tên tôi là Lệ” 85 7 8 100 85% Hình 10. Hiệu suất nhận dạng cử chỉ tĩnh “Tôi sống ở Đà 82 8 12 100 82% Nẵng” Kết quả cho thấy xác suất nhận dạng tương đối cao ở hầu hết các chữ cái mà có trạng thái của tay khác nhau “ Tôi 23 tuổi ” 93 7 0 100 93% nhiều về vị trí các ngón tay. “ Tôi là sinh viên Hiệu suất nhận dạng bé nhất là cử chỉ của chữ K 74 19 7 100 74% năm 4” (70%) vì cử chỉ này gần giống với cử chỉ của R (75%). “Tôi học ngành Hai chữ cái này rất dễ nhầm lẫn với nhau bởi vì vị trí tâm lý học trường góc nghiêng của các ngón tay là tương đối giống nhau, 83 7 10 100 83% Đại học sư phạm do đó thông số cảm biến trả về là khá giống nhau nên sẽ Đà Nẵng” làm giảm hiệu suất nhận dạng (hình 11). “Gia đình tôi có 4 78 7 15 100 78% người” Trường hợp tiếp theo là của chữ C (73%) và chữ E (80%) cũng tương tự. Góc độ nghiêng của các ngón tay “ Nhà bạn ở đâu?” 89 6 2 100 89% ở chữ C và chữ E là tương đối giống nhau mặc dù góc mở và tư thế của các ngón tay là khác nhau. Vì cảm biến “Rất vui được gặp 80 19 1 100 80% các bạn” chỉ gắn trên đầu các ngón tay nên trường hợp này dễ bị nhầm lẫn (hình 11). “Cảm ơn bạn đã 80 14 6 100 80% lắng nghe” Trong trường hợp chữ cái U và V các góc nghiêng của các ngón tay hoàn toàn giống nhau chỉ khác góc độ giữa ngón trỏ và ngón giữa. Tuy nhiên như đã khảo sát ở Trong 10 câu được kiểm thử với người sử dụng là trên, dữ liệu theo phương X (ngón giữa) thay đổi rất ít các thành viên trong Câu Lạc Bộ Khiếm Thính STC Đà trong trường hợp này. Hơn nữa do thói quen và thuộc Nẵng thì xác suất nhận dạng của 2 câu “Tôi là sinh viên tính của người dùng đôi khi rất khó khăn để có thể tạo năm 4” và “Gia đình tôi có 4 người” có xác suất nhận một góc lớn giữa 2 ngón tay này nên việc nhầm lẫn dạng bé nhất, dễ nhầm lẫn với nhau. Bởi vì những hành thường xuyên xảy ra (Hình 11). động cuối cùng của ký hiệu khá giống nhau, đặc biệt là thành phần diễn tả số 4 (đưa 4 ngón tay lên trước) đều xuất hiện trong cả 2 câu (Hình 12). Hình 11. Sự giống nhau của một số cử chỉ tĩnh ISBN: 978-604-67-0349-5 335
- Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) LỜI CẢM ƠN Lời đầu tiên cho chúng tôi xin được gửi lời tri ân đến những thầy cô trong khoa Điện tử Viễn thông và Trung tâm Xuất sắc – Đại học Bách khoa – Đại học Đà Nẵng đã tận tình giúp đỡ chúng tôi trong quá trình thực hiện đề tài. Tiếp đến, xin chân thành cảm ơn các bạn trong nhóm nghiên cứu của chúng tôi, các bạn đã sát cánh bên chúng tôi những lúc khó khăn nhất trong quá trình nghiên cứu và phát triển đề tài. Tuy chúng ta chỉ có thời gian hợp tác ngắn ngủi nhưng chúng tôi không thể không gửi lời cảm ơn đến Tuấn và Líc. Sẽ thật thiếu sót nếu chúng tôi không gửi lời cảm ơn sâu sắc đến cô Lệ và các bạn trong câu lạc bộ khiếm thính Đà Nẵng The Silent World Club Đà Nẵng (STC Club). Các bạn thực sự là những người thầy đầu tiên của chúng tôi về ngôn ngữ ký hiệu. Các bạn đã giúp đỡ chúng tôi xây dựng nên bộ cơ sở dữ liệu được khảo sát chính trong đề tài này cũng như đưa ra những lời khuyên quý giá về hiệu suất cũng như một số cải tiến của sản phẩm. TÀI LIỆU THAM KHẢO [1] Nhóm nghiên cứu gồm các giảng viên và sinh viên Đại học Hình 12. Hiệu suất nhận dạng cử chỉ động Bắc Kinh, “Kinect Sign Language Translator Expands Communication Possibilities”, Microsoft Reseach Connections, 2012. [2] Nhóm nghiên cứu các nhà khoa học Đại học Aberdeen, “Technology that Translates Sign Language into Text Aims to V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Empower Sign Language Users”, 2012. Kết quả của đề tài này đã thiết kế và thi công thành [3] David J.Sturman, David Zeltzer . “A Survey of Glove-based công đôi găng tay thu thập và xử lý dữ liệu bằng các cảm Input” biến gia tốc. Sản phẩm đã phiên dịch được ngôn ngữ ký IEEE Computer Graphics & Applications, 1994. hiệu của người câm điếc thành tiếng nói theo hướng [4] QuadSquad team, “Sign language-to-speech translating”, Găng tay cảm biến. Hệ thống đã hoạt động ổn định và Microsoft Imagine Cup 2012. bước đầu nhận dạng được những chữ cái và một số câu [5] W. C. Stokoe, "Sign Language Structure: An outline of the cơ bản trong ngôn ngữ ký hiệu. Đã tích hợp thành công visual communication systems of the American deaf", Studies in Linguistics: Occasional papers 8, 1960. Module Text-To-Speech NHMTTS SAPI 4.0 và phát ra [6] Nhóm nghiên cứu CED, “Tài Liệu giảng dạy Ngôn Ngữ Ký tiếng nói song song với hiển thị TEXT. Hiệu TP. Hồ Chí Minh” Thuộc dự án Mở Bậc Giáo Dục Đại Đề tài còn để mở rất nhiều hướng phát triển trong Học Cho Người Điếc Tại Việt Nam,. NXB Thông Tin, 2009. tương lai. Việc đầu tiên đó là áp dụng những phương [7] S.C.W. Ong, S. Ranganath, “Automatic sign language analysis: A survey and the future beyond lexical meaning”, IEEE pháp khai phá dữ liệu và ứng dụng các kỹ thuật học máy Transactions on PAMI, June 2005, vol.27, no.6, pp.873-891. vào nhận dạng, thay vì đánh giá như phương pháp hiện [8] The Duy Bui, Long Thang Nguyen, “Recognition of tại. Điều đó sẽ tăng được hiệu suất nhận dạng và mở Vietnamese sign language using MEMS accelerometers”, 1st rộng được hơn vốn từ vựng của sản phẩm. Đồng thời International Conference on Sensing Technology, November thiết kế lại mạch phần cứng nhỏ gọn hơn nhằm tạo sự 21-23, 2005 Palmerston North, New Zealand. thoải mái hơn cho người sử dụng. [9] Mohamed Gad-el-Hak, “The MEMS handbook”, CPR Press, New York, 2002. [10] Y. Wu and T.S. Huang, “Hand modeling, analysis, and recognition for vision based human computer interaction”, IEEE Signal Processing Magazine, 2001, v.21, p.51–60. [11] F.K.H. Quek, “Toward a vision-based hand gesture interface”, Singh G, S. K. Feiner and D. Thalmann (editors), Virtual Reality Software and Technology: Proc. Of the VRST’94 Conference, pp. 17–31, World Scientific, London, 1994. ISBN: 978-604-67-0349-5 336
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn