intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng Bag-of-Visual-Words trong nhận dạng cử chỉ bàn tay qua đặc trưng hình dáng của ảnh độ sâu và vị trí các khớp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

10
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Ứng dụng Bag-of-Visual-Words trong nhận dạng cử chỉ bàn tay qua đặc trưng hình dáng của ảnh độ sâu và vị trí các khớp đề xuất phương pháp rút trích đặc trưng hình dáng bàn tay từ ảnh độ sâu và vị trí các khớp bàn tay áp dụng phương pháp Bag-of-Visual Words.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng Bag-of-Visual-Words trong nhận dạng cử chỉ bàn tay qua đặc trưng hình dáng của ảnh độ sâu và vị trí các khớp

  1. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Ứng dụng Bag-of-Visual-Words trong nhận dạng cử chỉ bàn tay qua đặc trưng hình dáng của ảnh độ sâu và vị trí các khớp Using Bag-of-Visual-Words in dynamic hand gesture recognition from shape features of depth image and hand skeletons Trần Nguyễn Quỳnh Trâm1*, Phạm Thị Hường2 Email: tramtnq@huflit.edu.vn 1 Trường Đại học Ngoại ngữ - Tin học TP. HCM 2 Trường Đại học Sao Đỏ Ngày nhận bài: 21/5/2022 Ngày nhận bài sửa sau phản biện: 28/10/2022 Ngày chấp nhận đăng: 03/01/2023 Tóm tắt Nhận dạng cử chỉ tay trong thời gian thực là một thách thức do các dáng tay khác nhau trong cùng một cử chỉ tay hay tương đồng giữa các cử chỉ khác nhau, hoặc việc che lấp và độ phức tạp của các khớp tay. Bài báo đề xuất phương pháp rút trích đặc trưng hình dáng bàn tay từ ảnh độ sâu và vị trí các khớp bàn tay áp dụng phương pháp Bag-of-Visual Words. Các đặc trưng này qua mô hình temporal pyramid sẽ khai thác được mối tương quan theo thời gian giữa các dáng tay. Kết quả thực nghiệm trên tập dữ liệu DHG cho kết quả tốt, có thể áp dụng trong bài toán thực tế về điều khiển robot, hay điều khiển thuyết trình trong giảng dạy. Từ khóa: Nhận dạng cử chỉ tay động; Bag-of-Visual Words; temporal pyramid; đặc trưng hình dáng tay; hệ thống tương tác người-máy. Abstract Hand gesture recognition in real-time is challenged by the intra-class dissimilarities of hand postures in the same gesture and the inter-class similarities of hand postures in the different gestures or self-occlusion, and the high complexity of hand skeletons. This paper proposes a method to extract hand shape features from depth images and hand skeletons using the Bag-of-Visual Words method. The dynamic hand gesture features are based on the temporal pyramid method to exploit the temporal information among hand posture features. Experimental results on the DHG dataset gave good results, it applicable to real-world problems such as robot control or the presentation control system in teaching. Keywords: Dynamic hand gesture recognition; Bag-of-Visual Words; temporal pyramid; hand shape feature; human-machine interaction systems. 1. ĐẶT VẤN ĐỀ tay; cảm biến đa điểm trong màn hình cảm ứng phản hồi hiệu quả và dễ dàng tương tác người dùng trên Nhận dạng cử chỉ tay (hand gesture recognition) là xác thiết bị điện thoại thông minh, máy tính bảng và cảm định chuyển động bàn tay của một người thuộc lớp biến hình ảnh từ camera giúp nhận dạng cử chỉ tay cử chỉ nào, từ đó có thể nhận biết ký hiệu hay hiệu thông qua ảnh màu [4]. lệnh. Bài toán có vai trò quan trọng trong lĩnh vực thị giác máy tính, đặc biệt tương tác người - máy qua ứng Gần đây, việc phát triển nhanh chóng của cảm biến dụng thực tế ảo [1], nhận dạng ngôn ngữ ký hiệu [2], chiều sâu với chi phí thấp như Microsoft Kinect, Intel hay hệ thống tương tác [3]. Nguyên nhân bởi cử chỉ RealSense giúp cho bài toán nhận dạng cử chỉ tay tay của con người truyền tải thông tin trực quan, tương thân thiện hơn so với dùng cảm biến hình ảnh truyền tác và giao tiếp hiệu quả với môi trường xung quanh. thống. Nguyên nhân do cảm biến chiều sâu cung cấp kênh thông tin độ sâu giúp xác định chính xác vị trí tay Cùng với việc phát triển không ngừng công nghệ cảm và thông tin vị trí các khớp tay. Chính điều này dẫn đến biến góp phần cải thiện hiệu quả của bài toán. Ví dụ, giải quyết được vấn đề do thay đổi độ sáng của môi cảm biến gia tốc kế hoặc con quay hồi chuyển có thể trường, có cảnh nền phức tạp hay có sự che khuất bởi ghi nhận chính xác chuyển động bàn tay và đầu ngón các yếu tố khác [5]. Đầu vào của bài toán gồm ba kênh thông tin là: Ảnh màu, ảnh độ sâu và các khớp tay. Bài toán chia làm Người phản biện: 1. GS. TSKH. Thân Ngọc Hoàn hai loại: Nhận dạng cử chỉ tay tĩnh và nhận dạng cử 2. PGS. TSKH. Trần Hoài Linh chỉ tay động. Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022 5
  2. NGHIÊN CỨU KHOA HỌC Hình 1. Hệ thống trình chiếu ứng dụng nhận dạng cử chỉ bàn tay Bài toán nhận dạng cử chỉ tĩnh là cần xác định một đưa vào phần tương tác người - máy để ra tín hiệu cho dáng tay thuộc một lớp xác định trước. Nhận dạng cử tương tác chuột ứng dụng trong điều khiển trình chiếu chỉ tay động hướng tới phân loại hành động của người như Hình 1. Điều này rất có ý nghĩa thực tiễn trong việc thực hiện trong một khoảng thời gian xác định dựa trên giúp cho các giảng viên thao tác trình chiếu chỉ dùng chuỗi dữ liệu thu nhận từ thiết bị cảm biến. camera chiều sâu. Hướng giải quyết trong bài toán nhận dạng cử chỉ tĩnh Để giải quyết bài toán, các cử chỉ tay sẽ được rút trích mỗi dáng tay 𝔾𝔾! trong mỗi cử chỉ tay. Phương pháp cần xác định các mô tả đặc trưng bàn tay có ích cho bộ đặc trưng và đưa vào bộ phân lớp Model để phân loại. phân lớp đạt được hiệu quả cao. Ở nhận dạng cử chỉ Đầu tiên, chúng ta cần rút trích tập các đặc trưng của động, bài toán cần khám phá thêm đặc trưng thời gian dựa trên mối tương quan giữa chuỗi mô tả đặc trưng đề xuất sử dụng SURF [8] để rút trích các “từ thị giác” bàn tay. Các thách thức thường gặp trong bài toán bao (visual-code words) trong ảnh độ sâu Dt. Tương tự với gồm nhiễu từ thiết bị, bàn tay có kích thước nhỏ so với vị trí khớp tay St, tổ hợp các khoảng cách của K khớp toàn cảnh, độ phức tạp và sự che khuất của các khớp. trong 22 khớp được tính toán để mô tả đặc trưng hình Mặt khác, khó khăn trong việc phát hiện khi các dáng dáng. Tập tất cả các đặc trưng trong tất cả dáng tay có tay khác nhau lại thực hiện cùng một cử chỉ và các cử trong dữ liệu huấn luyện được rút trích và phân thành chỉ tay khác nhau lại có mô tả giống nhau. Điều này bắt M cụm hay từ điển M “từ thị giác” (được gọi là “Bag- nguồn bởi các yếu tố văn hóa, đặc trưng cá nhân của Of-Visual words”), nhằm khai thác mối quan hệ tương người thực hiện cũng như khác biệt trong vị trí, tốc độ đồng và riêng biệt giữa các dáng tay trong một cử chỉ thực hiện và quan niệm về kiểu dáng tay [6], [7]. tay hay hai cử chỉ tay khác nhau. Mỗi “từ thị giác” ứng với mỗi cụm đại diện cho tất cả đặc trưng dáng tay. Đặc trưng dáng tay ban đầu biểu diễn lại bằng cách tham chiếu tới một “từ thị giác” gần nhất có trong “Bag- Of-Visual words” dựa trên khoảng cách Euclid. Các đặc trưng trong một dáng tay tổ chức dưới dạng biểu đồ histogram, thống kê tần số xuất hiện M “từ thị giác” nhằm chuẩn hóa về độ dài và giá trị. Các đặc trưng cử chỉ tay được biểu diễn bằng mô hình kim tự tháp thời gian (Temporal Pyramid Model) của các đặc Hình 2. Dữ liệu đầu vào của bài toán trưng dáng tay. Mục tiêu của phương pháp là khai phá chỉ tay 𝔾𝔾 từ camera độ sâu. 𝔾𝔾 được biểu diễn bởi Bài toán cần giải quyết trong bài báo là nhận dạng cử mối quan hệ thời gian giữa các dáng tay cũng như 𝑁𝑁 𝔾𝔾 dáng tay 𝔾𝔾! gồm ảnh độ sâu Dt và vị trí khớp tay chuẩn hóa độ dài đặc trưng cử chỉ tay. Cuối cùng, thông qua bộ phân lớp SVM, cử chỉ tay sẽ được gán tay 𝔾𝔾 từ một tập cử chỉ tay C cho trước như cầm nắm, một nhãn từ tập các lớp cử chỉ tay cho trước. Kỹ thuật St như 0. Bài toán cần xác định phân lớp c của cử chỉ fusion được dùng kết hợp hai mô hình dùng dữ liệu ảnh độ sâu và vị trí khớp tay lại nhằm nâng cao độ 𝔾𝔾 = { 𝔾𝔾! } 𝒕𝒕∈$ 𝔾𝔾 𝒗𝒗ớ𝒊𝒊 𝔾𝔾! = { 𝒮𝒮! , 𝒟𝒟! } phóng to. chính xác. 𝒮𝒮! = { 𝑥𝑥% }%&',) 𝑣𝑣ớ𝑖𝑖 𝐿𝐿 = 22 Hiệu quả phương pháp đề xuất đánh giá trên tập dữ **** 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀(𝔾𝔾) → 𝑐𝑐 ∈ 𝐶𝐶 liệu DHG [9] đạt độ chính xác trên 80%. Điều này cho (1) thấy phương pháp có thể áp dụng trong hệ thống tương tác người - máy để ứng dụng điều khiển trình Trong đó: chiếu như Hình 1. Cấu trúc còn lại của bài báo gồm ba phần. Phần hai mô tả tổng quan phương pháp nhận x1: Tọa độ hai chiều vị trí khớp tay. dạng cử chỉ tay và nội dung nghiên cứu chi tiết. Kết Thông tin phân lớp của cử chỉ tay cùng với thông tin quả thực nghiệm, thảo luận và so sánh các công trình tốc độ, vị trí, gia tốc của các ngón và bàn tay sẽ được được đề cập trong phần ba. Cuối cùng là phần bốn kết luận của bài báo. 6 Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022
  3. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Hình 3. Phương pháp đề xuất bài toán nhận dạng cử chỉ tay 2. PHƯƠNG PHÁP ĐỀ XUẤT 2.1. Tổng quan vấn đề Đầu vào bài toán là cử chỉ tay 𝔾𝔾 = #𝔾𝔾! = { 𝒮𝒮! , 𝒟𝒟! }) 𝒕𝒕∈$ 𝔾𝔾 𝑁𝑁 𝔾𝔾 , trong đó St và Dt lần lượt là thông tin tọa độ các thu nhận từ camera độ sâu với số lượng khung hình khớp tay và ảnh độ sâu tại thời điểm. Nhiệm vụ bài Hình 4. Dữ liệu dáng tay toán nhằm phân lớp cử chỉ tay vào lớp trong đó là tập các cử chỉ xác định trước như cầm nắm (grab), chạm Trong bước huấn luyện, tất cả dáng tay trong mọi cử (tap), mở rộng (expand). chỉ tay có trong tập huấn luyện sẽ được rút trích đặc trưng bởi thuật toán mô tả đặc trưng cho dữ liệu ảnh Phương pháp đề xuất gồm có 5 bước áp dụng cho độ sâu và cho vị trí các khớp tay. Sau đó, tập tất cả tay 𝔾𝔾! ∈ 𝔾𝔾 có trong cơ sở dữ liệu huấn luyện (bước hai quá trình huấn luyện và dự đoán như Hình 3. Đầu đặc trưng sẽ được ghép lại dùng để xây dựng từ điển tiên, chúng ta cần (1a) rút trích tập đặc trưng dáng “từ thị giác” tương ứng với ảnh độ sâu và vị trí các khớp tay. huấn luyện) hoặc cho một cử chỉ tay đầu vào (bước dự đoán). Sau đó, tất cả đặc trưng được rút trích trong Giai đoạn dự đoán, chúng ta chỉ cần rút trích tập đặc cơ sở dữ liệu huấn luyện được ghép lại nhằm (1b) xây trưng của từng dáng tay theo thời gian của cử chỉ tay dựng tập đặc trưng của tất cả dáng tay. Trong bước đầu vào. huấn luyện, thuật toán phân cụm (Gaussian Mixture 2.2.1. Mô tả đặc trưng ảnh độ sâu Model, k-means) áp dụng trên tập tất cả đặc trưng trong dữ liệu huấn luyện nhằm (2) xây dựng từ điển 𝔾𝔾! ∈ 𝔾𝔾 . Dựa trên từ điển “từ thị giác”, mỗi đặc trưng “từ thị giác” cho ảnh độ sâu và vị trí các khớp tay. Kế tiếp, chúng ta cần (3) biểu diễn đặc trưng dáng tay trong dáng tay của từng cử chỉ tay sẽ được tham chiếu tới một “từ thị giác” gần nhất theo khoảng cách Euclid. Hình 5. Đặc trưng của các điểm quan trọng trong ảnh Sau đó, tập tham chiếu sẽ được biểu diễn bởi biểu đồ độ sâu dùng SURF trưng cử chỉ tay 𝔾𝔾 dùng các đặc trưng dáng tay tương histogram thông qua số lần xuất hiện của đặc trưng trong dáng tay đang xét. Bước tiếp là (4) biểu diễn đặc Trong ảnh màu, thuật toán SIFT (Scale-Invariant Feature Transform) [10] thường dùng rút trích đặc học các đặc trưng của cử chỉ tay 𝔾𝔾 có trong cơ sở ứng và áp dụng mô hình Temporal Pyramid. Sau cùng, trưng bất biến trước biến đổi tỷ lệ và quay của đối chúng ta sẽ (5a) huấn luyện mô hình máy học SVM để tượng bởi đặc trưng các điểm quan trọng (key point) có trong ảnh. SIFT dựa trên Difference-Of-Gaussian huấn luyện. Sau đó, chúng ta (5b) áp dụng mô hình phát hiện các điểm cực trị trong không gian multi-scale, đã học để dự đoán cử chỉ tay đầu vào dựa trên các loại bỏ bớt các điểm nằm trên cạnh hay có độ tương đặc trưng cử chỉ tay rút trích được. Phần sau sẽ mô phản thấp và mô tả nó bằng histogram của hướng tả chi tiết từng phần của các bước trong phương pháp và độ lớn gradient tại vùng quanh điểm đó. Mỗi điểm đề xuất. quan trọng trong SIFT là một vectơ có chiều dài 128 2.2. Rút trích tập đặc trưng dáng tay và xây dựng tập đại diện cho đặc trưng thị giác của các thành phần đối Dữ liệu một dáng tay 𝔾𝔾! bao gồm ảnh độ sâu Dt và đặc trưng huấn luyện tượng. Trong bài toán nhận dạng cử chỉ tay, các điểm quan trọng trong ảnh độ sâu của một dáng tay là các điểm góc tập trung xung quanh đầu ngón tay như trong thông tin vị trí các khớp tay St minh họa như Hình 4. Hình 5. Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022 7
  4. NGHIÊN CỨU KHOA HỌC Thuật toán SURF (Speeded Up Robust Features) [8] cặp khớp liền kề. Các đặc trưng được chuẩn hóa bằng được áp dụng bởi đây là một cải tiến của SIFT về tốc cách chia cho khoảng cách lớn nhất trên từng trục tọa 𝐷𝐷𝐷𝐷 𝐷𝐷 𝐷𝐷(𝒮𝒮! ) → )𝐹𝐹"𝒮𝒮 +! độ và độ chính xác. Mỗi điểm quan trọng biểu diễn bởi độ của toàn bộ dáng bàn tay trong cử chỉ tay. một vectơ độ dài 64. Như vậy, ảnh độ sâu Dt sẽ được Với 𝐹𝐹"𝒮𝒮 = -𝑥𝑥$!"# − 𝑥𝑥$! 1 biến đổi qua thuật toán SURF bằng tập các điểm quan 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝒟𝒟! ) → )𝐹𝐹"𝒟𝒟 *! , %∈[(,*] trọng {Wi} có độ dài 64. 𝐷𝐷𝐷𝐷 𝐷𝐷 𝐷𝐷(𝒮𝒮! ) 𝐷𝐷𝐷𝐷 𝐷𝐷 𝐷𝐷(𝒮𝒮! ) → (3) ,𝐹𝐹"𝒟𝒟 , = 64 |𝐷𝐷𝐷𝐷 𝐷𝐷 𝐷𝐷(𝒮𝒮)| (2) k biểu diễn cho thứ tự của đặc trưng độ sâu 𝐹𝐹!𝒟𝒟 trong 𝑘𝑘 ∈ [1, 𝐶𝐶!! ] biểu diễn cho tổ hợp ở vị trí thứ k Trong đó: "#$ Trong đó: tập các đặc trưng của dáng tay Dt. Do thuật toán SURF dùng để rút trích đặc trưng thưa ứng với k là số điểm trong tập tổ hợp K = 4 của 22 khớp tay. Toán tử |.| tính khoảng cách lớn nhất của các vectơ cặp khớp liền kề quan trọng rút được phụ thuộc vào ảnh độ sâu đang trên từng trục tọa độ của các dáng tay trong cử chỉ tay. Rõ ràng, mỗi 𝐹𝐹!𝒟𝒟 biểu diễn đặc trưng của điểm quan xét, nên không có kích thước xác định. 2.3. Xây dựng từ điển “từ thị giác” trọng tại các gốc của ngón tay và độ gấp của khớp tay trong ảnh độ sâu. Mỗi đặc trưng này dễ dàng nhận dạng trong tình huống dáng tay thay đổi khi biến đổi như xoay, thay đổi tỷ lệ; thay đổi góc nhìn hay ảnh hưởng bởi nhiễu, biến đổi cường độ sáng. 2.2.2. Mô tả đặc trưng vị trí khớp tay Hình 6. Biểu diễn vị trí 22 khớp tay trong tập dữ liệu DHG [9] Mỗi dáng tay biểu diễn bởi L = 22 khớp tay nơi mà mỗi ngón tay biểu diễn bởi 4 khớp tự do và 2 khớp còn lại Hình 8. Các bước tạo từ điển “từ thị giác” dựa trên ứng với lòng bàn tay (palm) và cổ tay (wrist). tập đặc trưng huấn luyện tập các đặc trưng độ sâu !𝐹𝐹! ##$%&' ∈ 𝐷𝐷#$%&' và vị 𝓓𝓓 Trong quá trình huấn luyện, các bước trước thu được trí khớp tay !𝐹𝐹! ##$%&' ∈ 𝐷𝐷#$%&' trên tập huấn luyện 𝒮𝒮 𝐷𝐷!"#$% ."𝐹𝐹&𝒟𝒟 $ và !𝐹𝐹! ##$%&' ∈ 𝐷𝐷#$%&'phân M cụm 𝒮𝒮 !"#$% được dùng thuật toán Gaussian Mixture Model (GMM) hay K-Means với tâm mỗi cụm chính là một “từ thị giác”. Hình 7. Đặc trưng dáng tay dựa trên tổ hợp khoảng Hình 8 cung cấp kỹ thuật Bag-Of-Visual Words (BoW) cách của tập các khớp tay [11] tạo các đặc trưng dáng tay ở bước kế tiếp. Đặc trưng hình dáng của vị trí các khớp tay mô tả bằng khoảng cách giữa K = 5 khớp trong 22 vị trí khớp như Từ đó, M phân cụm là kết quả của thuật toán sẽ được “Bag-Of-Visual-Words”. Trong đó, từ điển !𝑊𝑊! #!#$,& 𝒟𝒟 minh họa trong Hình 7. Bàn tay bên trái gồm có 5 đặc dùng làm từ điển “từ thị giác” có M từ được gọi là ''''' ứng với đặc trưng ảnh độ sâu và !𝑊𝑊! #!#$,& ứng với trưng ứng với mỗi đặc trưng có 4 vectơ của các cặp 𝒮𝒮 ''''' khớp liền kề theo hướng từ dưới lên trên xuất phát từ điểm lòng bàn tay (palm). Trong khi bàn tay bên phải 𝐵𝐵𝐵𝐵𝐵𝐵 $%𝐹𝐹! '%&'() ( → %𝑊𝑊 '(*+,- có 4 đặc trưng mà mỗi đặc trưng có 4 vectơ ứng với đặc trưng vị trí các khớp tay. 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 ( ..... cặp khớp liền kề nối các khớp ngón tay ngang cấp theo hướng từ phải sang trái. (4) 𝔾𝔾! của cử chỉ tay 𝔾𝔾 có tập đặc trưng Bài báo chọn K = 4 khớp của 22 khớp tay do tránh bùng 2.4. Rút trích đặc trưng dáng tay nổ số lượng đặc trưng trong mỗi dáng tay. Như vậy, số 𝐶𝐶!! = 7315 với mỗi đặc trưng chứa 3 vectơ ứng với "#$ lượng các đặc trưng có thể có trong một dáng tay là Mỗi dáng tay 8 Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022
  5. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA !𝐹𝐹!𝒟𝒟 ## và !𝐹𝐹!𝒮𝒮 ## lần lượt rút trích từ ảnh độ sâu Dt và 𝔾𝔾 = { 𝔾𝔾! } 𝒕𝒕∈$ 𝔾𝔾 dựa trên 𝑁𝑁 𝔾𝔾 đặc vị trí khớp tay St. Tiếp đến, mỗi đặc trưng 𝐹𝐹!𝒟𝒟 và 𝐹𝐹! 𝒮𝒮 trưng dáng tay 𝔾𝔾! . trưng của cử chỉ tay “từ thị giác” tương ứng !𝑊𝑊! 𝒟𝒟 #!#$,& và !𝑊𝑊! 𝒮𝒮 #!#$,& dựa được tham chiếu tới “từ thị giác” gần nhất trong từ điển ''''' ''''' trên khoảng cách Euclid để thu được 𝑊𝑊!𝒟𝒟 và 𝑊𝑊!𝒮𝒮. 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝒟𝒟! ) → )𝐹𝐹"𝒟𝒟 *! 𝐷𝐷𝐷𝐷 𝐷𝐷 𝐷𝐷(𝒮𝒮! ) → )𝐹𝐹"𝒮𝒮 *! 𝑀𝑀𝑀𝑀𝑀𝑀 23𝐹𝐹" 4 | 3𝑊𝑊 4 7 → 3𝑊𝑊 4 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 & +++++ " ! &'(,* ! (5) 𝔾𝔾! thông qua bước rút trích đặc trưng và 𝑊𝑊 = argmin ?𝐹𝐹" , 𝑊𝑊 ? Với Hình 9. Mô hình kim tự tháp thời gian P cấp 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 chuẩn hóa được biểu diễn bởi số lần xuất hiện !𝐻𝐻𝒊𝒊 #% " & 𝓢𝓢/𝓓𝓓 Mỗi dáng tay ,! ∈.,! / 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 𝑁𝑁 𝔾𝔾 = 𝑁𝑁 )))))) !%&,( Trong đó: của M “từ thị giác” trong từ điển. Chúng ta phân 𝑁𝑁 𝑁𝑁 2𝑁𝑁 đoạn [1, N]; cấp 2 cho hai đoạn !1, & , ! , &; và cấp đặc trưng dáng tay thành P cấp ứng với cấp 1 cho ||.|| là toán tử lấy khoảng cách Euclid và Map (.) là thao 2 2 2 cùng, tập các “từ thị giác” !𝑊𝑊! # và !𝑊𝑊! ## xuất hiện 𝑁𝑁 𝑁𝑁 2𝑁𝑁 (𝑃𝑃 − 1)𝑁𝑁 𝑃𝑃. 𝑁𝑁 𝒟𝒟 𝒮𝒮 tác ánh xạ một đặc trưng thành một “từ thị giác”. Cuối 𝔾𝔾! được biểu diễn dưới dạng biểu đồ P cho P đoạn !1, &,! , &,⋯,! , &. # 𝑃𝑃 𝑃𝑃 𝑃𝑃 𝑃𝑃 𝑃𝑃 histogram bởi !𝐻𝐻𝒊𝒊 ## và !𝐻𝐻𝒊𝒊 ## với 𝑖𝑖 = 1, 𝑀𝑀 . Trong đó, &&&&&& 1 + 2 + ⋯ + 𝑃𝑃 = 𝓓𝓓 𝓢𝓢 !(!#$) trong dáng tay 𝐻𝐻𝒊𝒊 và 𝐻𝐻𝒊𝒊 biểu diễn cho số lần xuất hiện của “từ thị 𝓓𝓓 𝓢𝓢 & giác” 𝑊𝑊! 𝒟𝒟 có trong dáng tay 𝔾𝔾! . Như vậy, ta có tất cả đoạn dáng tay !𝐻𝐻𝒊𝒊 # trong mỗi đoạn 𝑡𝑡 ∈ [ 𝑡𝑡! , 𝑡𝑡" ] sẽ được 𝓢𝓢/𝓓𝓓 [t1, t2] ứng với P cấp như trên. Khi đó, với các đặc trưng % 𝐻𝐻𝐻𝐻 𝐻𝐻 𝐻𝐻 %&𝑊𝑊 ( ) → &𝐻𝐻& ( gộp lại bởi toán tử trung bình 𝐴𝐴𝐴𝐴𝐴𝐴$𝐻𝐻𝒊𝒊 &%∈[% ,% ]. 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 𝓢𝓢/𝓓𝓓 ! % % ! " 𝑛𝑛( 𝒟𝒟/𝒮𝒮 tạo ra đặc trưng cho cử chỉ tay 𝔾𝔾 . Sau đó, chúng ta sẽ nối tất cả các đoạn lại với nhau để 𝐻𝐻& = , ∀𝑊𝑊 ∈ &𝑊𝑊 ( Với 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 (6) 𝑀𝑀 ! 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑃𝑃! ()𝐻𝐻" +& , → )𝐹𝐹' + & & ----- &)*,, 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 = 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 (𝐴𝐴𝐴𝐴𝐴𝐴)𝐻𝐻" +&∈[& ,& ] , 𝒟𝒟/𝒮𝒮 𝑛𝑛! 𝒟𝒟 và 𝑛𝑛! 𝒮𝒮 lần lượt là số lần xuất hiện “từ thị giác” ! " [&! ,&" ]⊂-# Trong đó: 𝑊𝑊! và 𝑊𝑊𝒊𝒊 𝓢𝓢 trong dáng tay 𝔾𝔾! . ! ! 𝒟𝒟 𝑁𝑁 𝑁𝑁 2𝑁𝑁 ⎧ [1, 𝑁𝑁], A1, C , A , C , … , ⎫ Với (7) 2 2 2 Α! = ⎨A1, 𝑁𝑁C , A 𝑁𝑁 , 2𝑁𝑁C , ⋯ , F(𝑃𝑃 − 1)𝑁𝑁 , 𝑃𝑃. 𝑁𝑁K⎬ Rõ ràng, với bước này, chúng ta đã chuẩn hóa được ⎩ 𝑃𝑃 𝑃𝑃 𝑃𝑃 𝑃𝑃 𝑃𝑃 ⎭ số lượng đặc trưng của một dáng tay về độ dài M. 2.5. Rút trích đặc trưng cử chỉ tay trong một đoạn thời gian 𝑡𝑡 ∈ [ 𝑡𝑡! , 𝑡𝑡" ]; Trong đó: Bài toán nhận dạng cử chỉ tay động cần khám phá các Avg (.): Toán tử trung bình của các đặc trưng dáng tay mối tương quan giữa các dáng tay theo thời gian. Đối với các mô hình theo thời gian, các nghiên cứu thường Concat (.): Toán tử nối tất cả các đặc trưng trung bình tiếp cận theo hai hướng chính: (1) tạo các bộ mô tả trong tất cả các đoạn Ap. mang thông tin không gian - thời gian; (2) Mô hình hóa Các đặc trưng của cử chỉ tay 𝔾𝔾! bao gồm !𝐹𝐹!𝒟𝒟 # và chuỗi đặc trưng không gian qua bộ phân lớp thời gian. 2.6. Huấn luyện và kết hợp các mô hình !𝐹𝐹!𝒮𝒮 # được huấn luyện riêng biệt bởi thuật toán Hướng tiếp cận thứ 1 thường các nghiên cứu mở rộng các đặc trưng 2 chiều có sẵn thành đặc trưng 3 chiều. luyện 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝓓𝓓 &'𝐹𝐹" )* và 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝓢𝓢 &'𝐹𝐹" )* cho ảnh độ Ví dụ: Như Ohn-Bar [12] và Klaser [13] đề xuất một 𝓓𝓓 𝒮𝒮 phương pháp mở rộng HOG ứng dụng cho phiên bản Support Vectơ Machine (SVM) [15]. Hai mô hình huấn sâu 𝒟𝒟 và các khớp tay 𝒮𝒮 được kết hợp lại với nhau 3 chiều. Trong khi đó, ở hướng tiếp cận 2, các thuật toán tiếp cận theo hướng mô hình hóa các chuỗi đặc trưng dùng phương pháp thống kê như Hidden Markov dùng kỹ thuật kết hợp (fusion) nhằm tăng hiệu quả Models (HMMs), Hidden Conditional Random Fields phân lớp do khai thác được thông tin bổ sung và dư (HCRFs) [14]. thừa giữa các mô hình. Bài báo sử dụng mô hình kim tự tháp thời gian Bài báo dùng kỹ thuật kết hợp trễ (late fusion) [16] trên (temporal pyramid model) như Hình 9 để biểu diễn đặc các mô hình ở bước huấn luyện bởi qua các phép toán Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022 9
  6. NGHIÊN CỨU KHOA HỌC !𝑦𝑦! $!∈$ và !𝑦𝑦! $ là xác suất dự đoán của 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝓓𝓓 &'𝐹𝐹"𝓓𝓓 )* Intel (R) Core (TM) i7-8700 CPU @3.20 GHz. # # !∈$ trung bình, lớn nhất và trung bình trọng số trên tập viện dùng trong chương trình là skimage, sklearn và 𝒟𝒟 𝒮𝒮 xác suất trả về của từng cử chỉ tay tương ứng. Gọi opencv. Thực nghiệm được tiến hành trên cấu hình và 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝓢𝓢 &'𝐹𝐹" )* độ sâu và vị trí khớp tay của cử 𝒮𝒮 máy chỉ tay 𝔾𝔾 . Khi đó, phân lớp của cử chỉ tay 𝔾𝔾 được dự đoán chính xác trên tổng số mẫu trong tập đánh giá. Độ đo đánh giá: Hiệu quả thuật toán được đánh giá dùng ảnh trên độ đo chính xác (accuracy), được tính toán từ tỷ lệ xác định bởi lớp có xác suất cao nhất trong xác suất dự đoán. Thông số huấn luyện: Bộ phân lớp SVM được dùng !𝑦𝑦! $!∈& = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝒟𝒟/𝒮𝒮 +!𝐹𝐹' $- # 𝒟𝒟/𝒮𝒮 𝒟𝒟/𝒮𝒮 với tham số C 100, gamma ”auto” và kernel “rbf” và → 𝑐𝑐 𝒟𝒟/𝒮𝒮 = 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎$ )𝑦𝑦$ ,$∈& + thiết lập trả về xác suất cho từng lớp dùng trong quá 𝒟𝒟/𝒮𝒮 (8) trình late fusion. Thuật toán tạo tập “từ thị giác” dùng K-Means và Gaussian Mixture Models (GMM) với số hợp hai tập xác suất dự đoán !𝑦𝑦! $ # 𝒟𝒟 !∈$ và !𝑦𝑦!𝒮𝒮 $!∈$ 3.3. Kết quả và thảo luận # cụm là 500. Dữ liệu đầu vào cho bộ phân lớp sẽ được Khi đó, ta có thể kết hợp hai mô hình bằng cách kết chuẩn hóa dùng min-max scaler. trọng số 𝑊𝑊! 𝒟𝒟 và 𝑊𝑊𝒊𝒊 𝓢𝓢 giữa hai mô hình. dùng toán tử trung bình, lớn nhất hoặc trung bình có 3.3.1. Thiết lập thí nghiệm {𝑦𝑦!"#$ }!∈& = max)𝑦𝑦!𝒟𝒟 , 𝑦𝑦!𝒮𝒮 +!∈& # # # Thí nghiệm tiến hành là 7 ứng với sự thay đổi các )𝑦𝑦!#)* +!∈& = avg)𝑦𝑦!𝒟𝒟 , #!𝒮𝒮 +!∈& # # 𝑦𝑦 thông số như mô tả trong Bảng 1. )𝑦𝑦!+,!*-.,/ +!∈& # = )𝑤𝑤 𝒟𝒟 #!𝒟𝒟 + 𝑤𝑤 𝒮𝒮 𝑦𝑦!𝒮𝒮 +!∈& 𝑦𝑦 # Bảng 1. Nội dung thực nghiệm Với (9) Thí nghiệm Đặc trưng Thông số 𝑤𝑤 + 𝑤𝑤 = 1 𝒟𝒟 𝒮𝒮 1 Các khớp tay GMM Trọng số 𝑤𝑤 𝒟𝒟 và 𝑤𝑤 𝒮𝒮 sẽ được xác định dựa trên dữ liệu 2 Các khớp tay K-Means huấn luyện với việc lặp các giá trị của 𝑤𝑤 𝒟𝒟 ∈ [0,1], 𝑤𝑤 𝒮𝒮 = 1 − 𝑤𝑤 𝒟𝒟 3 Ảnh độ sâu GMM 𝑤𝑤 ∈ [0,1], 𝑤𝑤 𝒮𝒮 = 1 − 𝑤𝑤 𝒟𝒟 với bước tăng d = 0.001 sao cho hiệu 4 Ảnh độ sâu K-Means 𝒟𝒟 5 Kết hợp Max 6 Kết hợp Average quả kết hợp tốt nhất trên. 7 Kết hợp Weighted 3. THỰC NGHIỆM VÀ CÁC KẾT QUẢ 3.3.2. Kết quả thực nghiệm Bảng 2. Kết quả thực nghiệm 1 2 3 4 5 6 7 Grab 41 41 46 60 62 68 73 Tap 59 61 78 76 83 87 89 Expand 67 67 92 95 90 95 97 Pinch 45 40 68 72 66 70 72 Rotation CW 56 65 74 76 77 79 82 Rotation CCW 71 77 64 65 90 92 89 Hình 10. Các loại cử chỉ bàn tay trên tập dữ liệu Swipe Right 63 49 72 72 86 86 86 DHG [9] Swipe Left 47 50 61 68 76 76 74 3.1. Dữ liệu thực nghiệm Swipe Up 34 32 71 68 75 77 77 Swipe Down 48 50 75 78 78 78 83 Bài báo dùng tập DHG [9] cho thực nghiệm trên 14 Swipe X 75 72 83 92 86 92 92 lớp thao tác ngón tay như Hình 10. DHG có 2800 cử chỉ tay với 20 người tham gia, mỗi người thực hiện Swipe V 56 47 77 91 91 88 91 hai lần. Ảnh độ sâu và thông tin các khớp tay nhận từ Swipe + 56 52 72 84 88 80 84 camera Intel RealSense. Dữ liệu được chia tập theo tỷ Shake 56 44 78 80 87 84 84 lệ 70% cho huấn luyện và 30% cho đánh giá hiệu quả. Toàn bộ 55 53 72 76 81 83 84 Các kênh độ sâu và thông tin vị trí khớp bàn tay trong không gian hai chiều được sử dụng. Bàn tay trong tập Các kết quả thực nghiệm trong Bảng 2 được trình bày dữ liệu được mô tả bởi 22 khớp ngón tay với khớp tại theo từng phương pháp (1 đến 7) ứng với mỗi thao tác cổ tay, lòng bàn tay và các khớp của 5 ngón với mỗi tay (Grab, Tap, …, Shake) và dòng cuối là độ chính xác ngón có 4 khớp. của cả phương pháp. 3.2. Thiết lập thí nghiệm So sánh kết quả thuật toán GMM và K-Means cho Môi trường thực nghiệm: Chương trình phát triển phân cụm tạo tập “từ thị giác”, chúng ta thấy GMM cho trên môi trường Windows dùng Python 3.5. Các thư kết quả cao hơn K-Means trong mô hình dùng thông tin 10 Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022
  7. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA các khớp tay lần lượt là 55,18% và 53,39%. Tuy nhiên, One-Shot Learning dùng mạng học sâu cho kết quả khi dùng ảnh độ sâu, GMM lại cho kết quả yếu hơn 82% thấp hơn 2% so với kết quả đề xuất của bài báo. K-Means 4% với độ chính xác lần lượt 72% với 76%. Đặc trưng khung xương tay từ việc chọn K = 4 điểm để Trong đó, màu xám là nhóm các loại phương pháp, tạo 3 cặp điểm vẫn còn hạn chế với độ chính xác 56%. dòng cuối thể hiện độ chính xác của phương pháp và Nguyên nhân khi chọn K = 5 trở lên thì số đặc trưng in đậm cho biết độ chính xác cao nhất của từng nhóm. trích chọn cho một dáng tay bùng nổ gây ra khó khăn Thí nghiệm 7 có trọng số đạt kết quả cao nhất và chi trong vấn đề thời gian xử lý. Để xử lý với số điểm chọn tiết ở Hình 11. cao hơn, trong tương lai cần thêm bước trích chọn đặc Khi so sánh giữa kết quả dùng ảnh độ sâu và chỉ dùng trưng để giảm thiểu số lượng đặc trưng cho một dáng các khớp tay, ta thấy ảnh độ sâu cho kết quả tốt hơn tay và tránh overfit trong quá trình huấn luyện. hẳn đạt 76% so với 55% khi dùng thông tin các khớp Bảng 3. Kết quả so sánh nghiên cứu liên quan bàn tay. Việc thiếu thông tin khi chỉ dùng thông tin tọa độ các khớp bàn tay gây ra sự thiếu hiệu quả nằm ở Phương pháp Mô tả Kết quả các cử chỉ tay như Grab, Swipe Left,… do độ phức tạp HOG2 + Góc nhìn chung bất Ohn-Bar [12] 84% của hình dáng cũng như chuyển động. Thông tin ảnh biến độ sâu giúp cải thiện 17%. Oreifej [17] HON4D (cải tiến HOG) 79% Phân tích hình dạng quỹ Devanne [18] 80% đạo chuyển động GREN [19] Mạng học sâu LSTM 82% Đặc trưng hình dáng tay với Bài báo 84% Bag-Of-Visual Words 4. KẾT LUẬN Bài báo đã đề xuất tính toán đặc trưng dáng tay từ ảnh độ sâu và thông tin các khớp tay dựa trên đặc trưng SURF cũng như các khoảng cách giữa tổ hợp các điểm khớp tay. Sau khi các đặc trưng được trích chọn, bài báo áp dụng mô hình Bag-Of-Visual Words để tạo Hình 11. Confusion matrix của phương pháp kết hợp ra tập “từ thị giác” nhằm chuẩn hóa số lượng đặc trưng có trọng số dáng tay trong không gian tập huấn luyện. Mỗi dáng tay sẽ được biểu diễn dưới dạng histogram của tập “từ Kết hợp mô hình dùng ảnh độ sâu và thông tin các thị giác” vừa tạo và được tổ chức dưới dạng temporal khớp bàn tay, phương pháp cải thiện được đáng kể pyramid để khai thác hiệu quả việc tương đồng về thời 8% với độ chính xác 84% ở phương pháp kết hợp có gian trong các dáng tay của một cử chỉ tay. Cuối cùng, trọng số. Các cử chỉ tay khó như Grab, Pinch, Swipe thuật toán SVM được dùng để huấn luyện đặc trưng Left, Up và Down lần lượt cải thiện từ 41%, 45%, 47%, của cử chỉ tay. Kết quả thực nghiệm đạt được độ chính 34% và 48% (các khớp tay) lên 62%, 66%, 76%, 75% xác 56% khi dùng đặc trưng các khớp và 76% ở đặc và 78% (ảnh độ sâu) và 73%, 72%, 74%, 77% và 83% trưng ảnh độ sâu. Kết quả cho thấy đặc trưng hình (kết hợp trọng số). dáng tay ở ảnh độ sâu cho kết quả tốt hơn so với dùng 3.3.3. So sánh các nghiên cứu liên quan đặc trưng từ các khớp tay. Mô hình kết hợp giúp độ chính xác tăng 6% với kết quả 84%. Bài báo khảo sát 3 nghiên cứu liên quan cùng hướng nhằm đánh giá hiệu quả phương pháp đề xuất. Trong Trong tương lai, bài báo cần cải tiến rút trích đặc trưng đó, Ohn - Bar [12] đã sử dụng đặc trưng không - thời từ các khớp tay bằng các thuật toán chọn lựa đặc gian HOG2 là kết quả tính toán dựa trên các khớp với trưng phù hợp khi số lượng khớp tay dùng tạo tổ hợp khoảng cách đặc trưng đưa vào nhiều hơn, cũng như góc nhìn bất biến và đặc trưng HOG theo thời gian. thêm thông tin về chuyển động, góc quay của dáng tay. Phương pháp của chúng tôi cho kết tương đồng với độ chính xác 84%. Trong khi đó, Oreifej [17] đề xuất HOG4D biểu đồ histogram để ghi nhận sự phân bố của TÀI LIỆU THAM KHẢO pháp tuyến bề mặt trong không gian 4 chiều theo thời gian, độ sâu và tọa độ; Devanne [18] phân tích hình [1]. T. D. Tan and Z. M. Guo (2011), Research of hand dạng quỹ đạo chuyển động trong hình học Riemann positioning and gesture recognition based on với độ chính xác lần lượt 79% và 80%. Phương pháp binocular vision, IEEE International Symposium bài báo cho kết quả tốt hơn 5% và 4% so với các on Virtual Reality Innovations (ISVRI), pp. 311- nghiên cứu trên. Bên cạnh đó, Ma [19] đề xuất học 315, doi: 10.1109/ISVRI.2011.5759657. Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022 11
  8. NGHIÊN CỨU KHOA HỌC [2]. Jie Huang, Wengang Zhou, Houqiang Li, and [11]. Fei-Fei Li and P. Perona (2005), A Bayesian Weiping Li (2015), Sign language recognition Hierarchical Model for Learning Natural using 3D convolutional neural networks, in Scene Categories, in IEEE Computer Society IEEE International conference on multimedia Conference on Computer Vision and Pattern and expo (ICME), pp. 1–6. doi: 10.1109/ Recognition (CVPR’05), San Diego, CA, USA, ICME.2015.7177428. vol. 2, pp. 524–531. doi: 10.1109/CVPR.2005.16. [3]. Sang-Heon Lee, Myoung-Kyu Sohn, Dong-Ju [12]. E. Ohn-Bar and M. M. Trivedi (2013), Joint Angles Kim, Byungmin Kim, and Hyunduk Kim (2013), Similarities and HOG2 for Action Recognition, in Smart TV interaction system using face and 2013 IEEE Conference on Computer Vision and hand gesture recognition, in IEEE International Pattern Recognition Workshops, OR, USA, pp. conference on consumer electronics (ICCE), pp. 465–470. doi: 10.1109/CVPRW.2013.76. 173–174. doi: 10.1109/ICCE.2013.6486845. [13]. A. Klaeser, M. Marszalek, and C. Schmid [4]. S. S. Rautaray and A. Agrawal (2015), Vision (2008), A Spatio-Temporal Descriptor Based based hand gesture recognition for human on 3D-Gradients, in Procedings of the British computer interaction: a survey, Artif Intell Rev, Machine Vision Conference 2008, Leeds, p. 99.1- vol. 43, no. 1, pp. 1-54, doi: 10.1007/s10462-012- 99.10. doi: 10.5244/C.22.99. 9356-9. [14]. Sy Bor Wang, A. Quattoni, L.-P. Morency, [5]. J. Suarez and R. R. Murphy (2012), Hand gesture D. Demirdjian, and T. Darrell (2006), Hidden recognition with depth images: A review, in 2012 Conditional Random Fields for Gesture IEEE RO-MAN: The 21st IEEE International Recognition, in 2006 IEEE Computer Society Symposium on Robot and Human Interactive Conference on Computer Vision and Pattern Communication, Paris, France, pp. 411-417. doi: Recognition - Volume 2 (CVPR’06), New York, 10.1109/ROMAN.2012.6343787. NY, USA, vol. 2, pp. 1521–1527. doi: 10.1109/ [6]. L. Zulpukharkyzy Zholshiyeva, T. Kokenovna CVPR.2006.132. Zhukabayeva, S. Turaev, M. Aimambetovna [15]. M. A. Hearst, S. T. Dumais, E. Osuna, J. Platt, and Berdiyeva, and D. Tokhtasynovna Jambulova B. Scholkopf (1998), Support vectơ machines, (2021), Hand Gesture Recognition Methods IEEE Intell. Syst. Their Appl., vol. 13, no. 4, pp. and Applications: A Literature Survey, in The 18–28, doi: 10.1109/5254.708428. 7th International Conference on Engineering [16]. D. Wu et al. (2016), Deep Dynamic Neural & MIS 2021, Almaty Kazakhstan, pp. 1-8. doi: Networks for Multimodal Gesture Segmentation 10.1145/3492547.3492578. and Recognition, IEEE Trans. Pattern Anal. [7]. J. Wang, Y. Chen, S. Hao, X. Peng, and L. Hu Mach. Intell., vol. 38, no. 8, pp. 1583-1597, doi: (2019), Deep learning for sensor-based activity 10.1109/TPAMI.2016.2537340. recognition: A survey, Pattern Recognition [17]. O. Oreifej and Z. Liu (2013), HON4D: Histogram Letters, vol. 119, pp. 3-11, doi: 10.1016/j. of Oriented 4D Normals for Activity Recognition patrec.2018.02.010. from Depth Sequences, in IEEE Conference [8]. H. Bay, T. Tuytelaars, and L. Van Gool (2006), on Computer Vision and Pattern Recognition, SURF: Speeded Up Robust Features, in Portland, OR, USA, pp. 716-723.doi: 10.1109/ Computer Vision – ECCV 2006, vol. 3951, A. CVPR.2013.98. Leonardis, H. Bischof, and A. Pinz, Eds. Berlin, [18]. M. Devanne, H. Wannous, S. Berretti, P. Pala, Heidelberg: Springer Berlin Heidelberg, pp. 404- M. Daoudi, and A. Del Bimbo (2015), 3-D Human 417. doi: 10.1007/11744023_32. Action Recognition by Shape Analysis of Motion [9]. Q. D. Smedt et al. (2016), Skeleton-based Trajectories on Riemannian Manifold, IEEE dynamic hand gesture recognition, IEEE Trans. Cybern., vol. 45, no. 7, pp. 1340-1352, doi: Computer Society Conference on Computer 10.1109/TCYB.2014.2350774. Vision and Pattern Recognition Workshops, pp. [19]. C. Ma, S. Zhang, A. Wang, Y. Qi, and G. Chen 1206–1214, doi: 10.1109/CVPRW.2016.153. (2020), Skeleton-Based Dynamic Hand Gesture [10]. D. G. Lowe (2004), Distinctive Image Features Recognition Using an Enhanced Network with from Scale-Invariant Keypoints, International One-Shot Learning, Applied Sciences, vol. 10, Journal of Computer Vision, vol. 60, no. 2, pp. 91- no. 11, p. 3680, doi: 10.3390/app10113680. 110, doi: 10.1023/B:VISI.0000029664.99615.94. 12 Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022
  9. LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA THÔNG TIN TÁC GIẢ Trần Nguyễn Quỳnh Trâm - Năm 2021: Tốt nghiệp Thạc sĩ ngành Trí tuệ nhân tạo, Trường Đại học Quốc gia Chonnam, Hàn Quốc. - Tóm tắt công việc hiện tại: Giảng viên khoa Công nghệ Thông tin, Trường Đại học Ngoại ngữ - Tin học TP. HCM. - Lĩnh vực quan tâm: Trí tuệ nhân tạo, học sâu, nhận dạng mẫu, thị giác máy tính, thiết kế đồ họa. - Điện thoại: 0909617505; Email: tramtnq@huflit.edu.vn. Phạm Thị Hường - Năm 2017: Tốt nghiệp Thạc sĩ ngành Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội. - Tóm tắt công việc hiện tại: Giảng viên khoa Công nghệ Thông tin, Trường Đại học Sao Đỏ. - Lĩnh vực quan tâm: Phát hiện đối tượng trong ảnh, mạng tích chập CNN, phát triển ứng dụng di động. - Điện thoại: 0972306806; Email: pthuong@saodo.edu.vn Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, Số 4 (79) 2022 13
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1