intTypePromotion=1
ADSENSE

Thiết kế robot đồng hành cùng người cao tuổi có tích hợp thuật toán nhận dạng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

5
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày quá trình thiết kế một loại robot chăm sóc người cao tuổi, đó là robot đồng hành. Robot có phần thân phía trên theo mô hình giống con người và phần thân dưới có cơ cấu bánh xích để có thể di chuyển trên địa hình có bề mặt không bằng phẳng.

Chủ đề:
Lưu

Nội dung Text: Thiết kế robot đồng hành cùng người cao tuổi có tích hợp thuật toán nhận dạng

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0042 THIẾT KẾ ROBOT ĐỒNG HÀNH CÙNG NGƯỜI CAO TUỔI CÓ TÍCH HỢP THUẬT TOÁN NHẬN DẠNG Thân Thế Tùng, Đỗ Trí Nhựt, Nguyễn Hoài Nhân, Nguyễn Minh Sơn Khoa Kỹ thuật máy tính, Trường Đại học Công nghệ Thông tin ĐHQG TP.HCM 17521241@gm.uit.edu.vn, trinhutdo@uit.edu.vn, nhannh@uit.edu.vn, sonnm@uit.edu.vn TÓM TẮT: Dân số già đang gia tăng trên toàn thế giới, dẫn đến áp lực cho các cơ quan cung cấp dịch vụ y tế, nhân viên chăm sóc và các gia đình. Sự ra đời của robot chăm sóc người cao tuổi sẽ làm giảm đi sức ép đó. Ở bài báo này, chúng tôi sẽ trình bày quá trình thiết kế một loại robot chăm sóc người cao tuổi, đó là robot đồng hành. Robot có phần thân phía trên theo mô hình giống con người và phần thân dưới có cơ cấu bánh xích để có thể di chuyển trên địa hình có bề mặt không bằng phẳng. Bộ điều khiển của Robot được thiết kế dựa trên công nghệ nhúng có tích hợp GPU để có thể tích hợp thuật toán nhận diện người già đáp ứng thời gian thực dựa vào cảm biến hình ảnh (camera) và tích hợp thuật toán video streaming theo cơ chế đường ống. Hệ thống nhúng có tích hợp 128 lõi GPU được thiết kế cho bộ điều khiển Robot có chức năng nhận dạng người cao tuổi thông qua khuôn mặt và tiến hành theo dõi đối tượng nhằm đạt được tốc độ xử lý thời gian thực (realtime) đến 14 khung hình trên một giây (frame per second-fps) bằng cách sử dụng giải thuật mạng nơron tích chập (NCNN). Bộ điều khiển sử dụng bộ vi xử lý core ARM Cortex - A9 để điều khiển các bộ mô tơ bánh xích của Robot với tốc độ di chuyển 0.21 m/s với độ chính xác trên 90%. Ngoài ra, Robot còn thực hiện truyền dữ liệu hình ảnh của người cao tuổi đến người thân thông qua mạng internet với tốc độ 15 fps, độ trễ truyền nhận 415 ms đối với 4 người sử dụng đồng thời. Từ khóa: Robot đồng hành cùng người cao tuổi; hệ thống nhúng; nhận diện khuôn mặt; xử lý hình ảnh thời gian thực. I. GIỚI THIỆU Theo báo cáo Triển vọng dân số thế giới 2019 [1], dân số thế giới đang già đi với nhóm trên 65 tuổi tăng nhanh nhất. Dự báo đến năm 2050, 1/6 dân số thế giới sẽ trên 65 tuổi (khoảng 16%) và 1/4 dân số sống ở châu Âu và Bắc Mỹ có thể từ 65 tuổi trở lên, tức là cứ 4 người sống ở châu Âu và Bắc Mỹ thì có 1 người trên 65 tuổi. Cũng theo báo cáo này, năm 2018, lần đầu tiên trong lịch sử nhân loại, những người từ 65 tuổi trở lên có số lượng đông hơn trẻ em dưới 5 tuổi trên thế giới. Những người cao tuổi từ 80 tuổi trở lên dự kiến có thể tăng gấp gần 3 lần, từ 143 triệu người năm 2019 lên 426 triệu người vào năm 2050. Dân số già đang gia tăng trên toàn thế giới, điều này cho thấy nhu cầu sức khỏe của họ là một vấn đề quan trọng đối với các cơ quan cung cấp dịch vụ y tế, các chính phủ, nhân viên chăm sóc và gia đình của họ. Điều này dẫn đến sự xuất hiện của các robot chăm sóc sức khỏe có vai trò trong việc hỗ trợ người lớn tuổi hoàn thành các hoạt động thường ngày, giúp theo dõi hành vi, sức khỏe người già và là bạn đồng hành khi họ một mình [2]. Trong tương lai gần, thế giới sẽ thiếu hụt trầm trọng nhân viên chăm sóc người cao tuổi, đây là nguyên nhân khiến chi phí chăm sóc người cao tuổi tăng cao, tạo ra gánh nặng cho gia đình và người chăm sóc. Vì vậy Robot là sự bù đắp thích đáng cho sự thiếu hụt đó, nó sẽ thay thế con người chăm sóc, giúp đỡ và giám sát người cao tuổi (WHO, 2016). Theo Masaki Onishi, một nhóm nghiên cứu thuộc viện nghiên cứu Riken (Nhật Bản) [3]: các Robot RIMAN đồng hành phục vụ cho con người có thể di chuyển theo dõi và thực hiện một số chức năng như ẵm người, nghe nhịp thở và phân biệt được một số mùi vị. Theo nhóm nghiên cứu về Robot thông minh Gregoire Milliez ở Mỹ [4], các robot thông minh chăm sóc sức khoẻ đa năng sử dụng trong gia đình thường có chức năng hỗ trợ theo dõi, giám sát phát hiện tình huống bất thường, điều khiển thiết bị trong nhà, theo dõi chăm sóc người cao tuổi nhắc nhở tư thế và lịch trình, cung cấp đa phương tiện tương tác xã hội trên môi trường mạng,… Trong nghiên cứu này, chúng tôi thực hiện thiết kế Robot di động có chức năng đồng hành cùng người cao tuổi dựa trên việc nhận dạng hình ảnh (khuôn mặt và thân thể) và có thể tương tác với người thân dựa trên nền tảng IoT. Cấu trúc bài đăng như sau: Phần II mô tả toàn bộ thiết kế của Robot bao gồm cả phần cứng lẫn phần mềm ứng dụng, các giải thuật; Phần III mô tả chi tiết các kịch bản thực nghiệm, đồng thời thu thập kết quả tương ứng của Robot với các kịch bản và thống kê số liệu thực nghiệm; các đánh giá kết quả thực nghiệm được trình bày ở Phần IV và cuối cùng là kết luận về đề tài đề xuất trong bài đăng này được tóm lượt trong Phần V. II. THIẾT KẾ ROBOT A. Tổng quan hệ thống Dựa trên một số nghiên cứu về các loại Robot theo dõi đối tượng như Robot đồng hành của nhóm Masaki Onishi [3], Companion Robot [4] và OpenBot [5]. Chúng tôi thiết kế một robot có khả năng theo dõi người cao tuổi khi họ ở nhà một mình với khả năng di chuyển trên mặt phẳng với tốc độ bằng với tốc độ di chuyển của người cao tuổi. Robot sử dụng thực hiện xử lý ảnh đầu vào trên một camera duy nhất để nhận diện, xác nhận đối tượng, sau đó sẽ tiến hành quá trình theo dõi, đồng hành cùng đối tượng. Đồng thời Robot cũng truyền dữ liệu hình ảnh đến người thân của họ thông qua mạng internet. Những đặt tính này được tham khảo từ những nghiên cứu trong bài báo [6] của Giáo sư M. Bakar.
  2. Thân Thế Tùng, Đỗ Trí Nhựt, Nguyễn Hoài Nhân, Nguyễn Minh Sơn 51 B. Phần cứng Robot 1. Mô hình thiết kế phần thân theo Humanoid Robot Cấu trúc Robot di động đồng hành cùng người cao tuổi được thiết kế gồm 2 phần: Phần thân theo mô hình Humanoid Robot và phần di chuyển theo cơ cấu bánh xích như hình 1 [7]. Cấu trúc Robot di động bánh xích này là được sử dụng rộng rãi nhờ có tính đơn giản, chuyển động linh hoạt, dễ điều khiển và được truyền động bằng động cơ điện DC. Bánh xích này có thêm chức năng giữ cho Robot cân bằng khi di chuyển. Hình 1. Mô hình 2D của Robot trong nghiên cứu này Với mục đích thuận tiện cho việc di chuyển trong nhà và khả năng giữ thăng bằng tốt, chúng tôi nhận thấy việc sử dụng phần bánh xích thay vì đôi chân sẽ giúp robot nhanh nhẹn hơn và đáp ứng được các yêu cầu đề ra. 2. Hệ thống phần cứng điều khiển cho Robot Hình 2. Hệ thống phần cứng thiết kế cho bộ điều khiển Robot Hệ thống phần cứng được thiết kế dựa trên nguyên lý của hệ thống nhúng, hình 2, trong đó bộ điều khiển trung tâm có 2 bộ xử lý gồm: 1 bộ vi xử lý ARM Cortex A9 điều khiển động cơ và giao tiếp ngoại vi [WIFI, thu thập hình ảnh từ cảm biến Camera…] và bộ xử lý GPU thực thi các thuật toán mạng nơron tích chập với dữ liệu ảnh. Ngoài ra, hệ thống phần cứng có tích hợp cảm biến camera HD 720p để thu thập hình ảnh đầu vào cho Robot xử lý và truyền tín hiệu điều khiển đến board controller để điều khiển motor di chuyển. Bên cạnh đó, hệ thống còn có gắn thêm Wifi- Adapter để thuận tiện cho việc debug, điều khiển Robot ở chế độ bằng tay thông qua máy tính và thực hiện chức năng streaming video ra mạng internet. C. Hệ thống phần mềm 1. Tổng quan hệ thống phần mềm Chức năng chính của hệ thống phần mềm là theo dõi và đồng người cùng người cao tuổi, nhưng trước tiên Robot cần xác định đâu là đối tượng cần theo dõi. Để tăng khả năng phân biệt giữa các đối tượng khác nhau thì chúng tôi đã sử dụng khuôn mặt, đây là đặc điểm trên mỗi người sẽ có khác biệt rõ rệt nhất. Sau khi nhận dạng được đối tượng đích, hệ thống sẽ tiến hành quá trình tracking đối tượng trên frame ảnh, tính toán các thông số từ đó điều khiển Robot đi theo đối tượng người cao tuổi (khoảng cách giữa Robot và đối tượng sẽ được duy trì trong khoảng cách là 2 m), [6]. Đồng thời song song với quá trình đồng hành cùng người cao tuổi, hệ thống sẽ streaming dữ liệu hình ảnh của đối tượng ra mạng internet. Hình 3 mô tả thuật toán phần mềm điều khiển tổng thể cho Robot đồng hành trong đề tài này. Trong thuật toán này, hệ thống phần mềm của Robot thực hiện các bước sau: • B1: Thu dữ liệu hình ảnh từ camera. Bước này sử dụng thuật toán thực thi song song nhằm thực hiện tác vụ streaming video lên internet và thực thi tác vụ theo dõi đối tượng. Kỹ thuật sử dụng luồng video ảo được chia sẻ từ luồng video vật lý nhằm cho phép nhiều tiến trình có thể thực thi xử lý video cùng lúc mà đáp ứng được tốc độ realtime.
  3. 52 THIẾT KẾ ROBOT ĐỒNG HÀNH CÙNG NGƯỜI CAO TUỔI CÓ TÍCH HỢP THUẬT TOÁN NHẬN DẠNG • B2: Xác định đối tượng cần theo dõi. Bước này sử dụng thuật toán nhận diện khuôn mặt sử dụng mạng nơron tích chập để định danh. • B3: Theo dõi đối tượng. Thuật toán tracking để theo dõi và điều khiển robot di chuyển theo đối tượng được tích hợp vào bộ điều khiển. Trong thuật toán này, nếu bị mất đối tượng đã được định danh thì giải thuật sẽ quay lại bước xác định khuôn mặt ở bước 2. Để hệ thống xử lý đạt được khả năng realtime, chúng tôi hiện thực giải thuật mạng nơron tích chập thực thi tối ưu với GPU theo công nghệ NCNN. Công nghệ này là một framework hỗ trợ tính toán và suy luận mạng nơron hiệu suất cao được tối ưu hóa cho các nền tảng thiết bị di động và nhúng. Bên cạnh đó, công nghệ NCNN không phụ thuộc vào bên thứ ba, có thể thực thi đa nền tảng trên các thiết bị di động và máy tính nhúng [8]. Hình 3. Lưu đồ xử lý hệ thống phần mềm 2. Các thuật toán được sử dụng trong hệ thống phần mềm Hình 4 mô tả 3 lược đồ giải thuật của 3 thuật toán được thiết kế tích hợp trên Robot di chuyển đồng hành cho nghiên cứu này, trong đó bao gồm: giải thuật streaming video sử dụng công nghệ WebRTC [9], giải thuật nhận dạng khuôn mặt sử dụng RetinFace [10] và MobileFaceNet [11] và giải thuật phát hiện thân người sử dụng SSD_MobileNet [12]. Sau đây, nhóm nghiên cứu sẽ trình bày các bước xử lý của hệ thống phần mềm. a) Giải thuật streaming video b) Nhận diện khuôn mặt c) Phát hiện con người Hình 4. Các giải thuật sử dụng trong hệ thống phần mềm Đầu tiên, để thực hiện việc streaming video đáp ứng thời gian thực và có độ trễ thấp, kỹ thuật WEBSocket với cơ chế đường ống được hiện thực nhằm xử lý nhanh video trên hạ tầng internet, như hình 4.a. Bên cạnh đó, kỹ thuật sử
  4. Thân Thế Tùng, Đỗ Trí Nhựt, Nguyễn Hoài Nhân, Nguyễn Minh Sơn 53 dụng luồng video ảo trên bộ nhớ được chia sẻ từ luồng video vật lý nhằm cho phép nhiều tiến trình (client) có thể thực thi xử lý video cùng lúc mà đáp ứng được tốc độ realtime. Thứ hai, đối với giải thuật nhận diện khuôn mặt thực thi trên các lõi GPU, mô hình RetinaFace được áp dụng để tìm kiếm khuôn mặt xuất hiện trong khung hình sau đó trích xuất khuôn mặt đối tượng để làm đầu vào cho việc xác minh khuôn mặt. Khuôn mặt được nhận dạng với giải thuật MobileFaceNet thông qua mô hình RetinaFace để tăng cường độ chính xác của giải thuật nhận dạng. Đầu ra của mô hình MobileFaceNet sẽ là 1 vectơ có 128 giá trị đặc trưng của khuôn mặt đó. Sau khi có vectơ đặc trưng gồm các đặc điểm của khuôn mặt tiến hành so sánh với đặc điểm khuôn mặt mẫu của đối tượng cần nhận diện. Tùy vào độ giống nhau của khuôn mặt đối tượng mà xét đó có phải là khuôn mặt cần nhận diện hay không, hình 4.b. Tiếp theo đó, từ giải thuật nhận diện gương mặt và nhận diện thân người, Robot sẽ so sánh tọa độ của gương mặt cần theo dõi với các tọa độ thân người, tọa độ thân người gần nhất sẽ là vị trí của đối tượng trong khung hình. Sau đó quá trình theo dõi đối tượng di chuyển trong khung ảnh được mô tả ở hình 5, bởi vì thuật toán theo dõi đối tượng mà chúng tôi sử dụng có khả năng thay đổi khung đối tượng (bounding box) chưa được tốt, nên chúng tôi sẽ kết hợp thuật toán theo dõi KCF [13] – DSST [14] cùng với giải thuật SSD_MobileNet được đào tạo sẵn với tập dữ liệu training lấy từ Caltech Pedestrian như hình 4.c, để giải quyết vấn đề đó. Hình 5. Lưu đồ giải thuật theo dõi đối tượng theo KCF – DSST KCF thực hiện phương pháp dịch chuyển tuần hoàn. Giả sử dữ liệu một chiều là 𝑥 = [ 𝑥1 , 𝑥2 , … , 𝑥𝑛 ] sự dịch chuyển của 𝑥 theo chu kỳ được biểu thị bởi 𝑃𝑥 = [ 𝑥𝑛 , 𝑥1 , … , 𝑥𝑛−1 ]. Tất cả các mẫu dịch chuyển tuần hoàn sẽ tạo ra một ma trận tuần hoàn: 𝑥1 , 𝑥2 … 𝑥𝑛 (1) 𝑥 = 𝐶(𝑥) = � ... � 𝑥𝑛 , 𝑥𝑛−1 . . . 𝑥1 KCF sử dụng (M × N) khối hình ảnh 𝑥 để huấn luyện bộ lọc 𝑓(𝑥) = (𝑤, 𝜙𝑥 ), tạo ra một mẫu đào tạo dựa trên việc thực hiện một loạt các hoạt động thay đổi theo chu kì trên 𝑥. Các mẫu đào tạo bao gồm tất cả các dạng dịch chuyển theo chu kỳ 𝑃𝑖. Mỗi 𝑃𝑖 tạo ra một đối số tương ứng 𝑦𝑖 (𝑦𝑖 ∈ [0,1]) được tạo ra bởi một hàm Gaussian dựa trên khoảng cách dịch chuyển. Giảm thiểu lỗi hồi quy và phân loại được huấn luyện: 𝜔 = 𝑎𝑔𝑟𝑚𝑖𝑛𝜔 �(⟨𝜔, 𝜙(𝑥)⟩ − 𝑦𝑖 )2 + 𝜆‖𝜔‖2 (2) 𝑖 Trong đó 𝜙(𝑥) là ánh xạ của không gian Fourier. 𝜆 ≥ 0 là tham số chính quy, cho thấy tính đơn giản của mô hình. Giả thuyết tuần hoàn có được sự huấn luyện và phát hiện hiệu quả bằng cách sử dụng phép biến đổi nhanh 𝑦� Fourier. Nếu sử dụng phép tịnh tiến bất biến của hàm nhân, ta có thể thu được 𝛼 dưới dạng 𝛼� = � 𝑥𝑥 đối với tính chất 𝑘 +𝜆 đặc biệt của ma trận tuần hoàn. Trong quá trình chuyển đổi lọc, khối ảnh 𝑧 cho không gian tìm kiếm được đánh giá theo công thức (3) trong đó 𝑓(𝑧) là phản hồi bộ lọc của tất cả ma trận tuần hoàn 𝑧, phản hồi cao nhất là đối tượng trong khung hiện tại. 𝑥𝑥 𝑓(𝑧) = 𝐹 −1 (𝑘� ⊙ 𝛼� ) (3) Để tăng độ chính xác cho giải thuật theo dõi đối tượng, việc xác định khoảng cách đối tượng di chuyển trong khung ảnh và hướng di chuyển rất quan trọng. Thuật toán xác định khoảng cách theo công thức 1 và theo mô tả trong hình 6. Trong đó, việc đo khoảng cách bằng việc sử dụng công thức pinhole camera model để tính toán khoảng cách từ camera tới đối tượng vì đây là công thức đơn giản, dễ áp dụng, có thể áp dụng với một camera. Từ đó, công thức tính khoảng cách tới đối tượng trong khung hình được xác định theo sau:
  5. 54 THIẾT KẾ ROBOT ĐỒNG HÀNH CÙNG NGƯỜI CAO TUỔI CÓ TÍCH HỢP THUẬT TOÁN NHẬN DẠNG 𝑥 𝑋 (4) = 𝑓 𝑑 • Với: d: là khoảng cách đến đối tượng (mm). x: kích thước của đối tượng trên frame (mm). X: là kích thước của đối tượng thực tế (mm). f: là tiêu cự của camera (mm). Hình 6. Sơ đồ của Pinhole camera model [15] Ngoài ra, để xác định hướng di chuyển của đối tượng trong khung hình, Robot cần phải tích hợp thuật toán xác định hướng di chuyển của đối tượng để không bị mất dấu vết khi bám theo. Trong giải thuật xác định hướng di chuyển qua trái hay qua phải, thuật toán so sánh từ vị trí tâm của khung hình đến vị trí tâm của đối tượng được thực thi cho mỗi frame ảnh trên các bộ xử lý GPU. Đồng thời, để xác định đối tượng lùi lại hay tiến tới, nhóm sử dụng thuật toán xác định khoảng cách đối tượng theo hình 6 và công thức (4). Từ tọa độ của đối tượng được trích xuất ra từ các bước trên, Robot xác định được khoảng cách giữa tâm của đối tượng và tâm của khung hình, xác định được hướng di chuyển, từ đó điều khiển các động cơ hoạt động bám theo đối tượng, hình 7. Trong nghiên cứu này, chúng tôi sử dụng khoảng cách 2 m làm khoảng cách tối thiểu giữa Robot và đối tượng vì đây là khoảng cách lý tưởng cho các thuật toán nhận diện khuôn mặt nhận diện có độ chính xác cao như đã trình bày ở phần trước. Nhưng trên thực tế, do việc sử dụng một camera thông thường rất khó xác định được chính xác khoảng cách đến đối tượng di chuyển, nên nhóm nghiên cứu giả định trong thuật toán cho khoảng cách tối thiểu giữa Robot và đối tượng theo dõi ở trong khoảng [1,8-2,5 m] để giảm thiểu sai số khi điều khiển Robot. Hình 7. Lưu đồ giải thuật điều khiển Robot theo dõi mục tiêu III. THỰC NGHIỆM VÀ KẾT QUẢ Để chứng minh tính đúng đắn về các chức năng đã được đề xuất trong Chương II, nhóm nghiên cứu tiến hành xây dựng các kịch bản thử nghiệm và đánh giá cho Robot về: độ chính xác và tốc độ thực thi của giải thuật nhận dạng khuôn mặt, thuật toán phát hiện người di chuyển, thuật toán theo dõi và bám theo đối tượng di chuyển chuyển; tốc độ
  6. Thân Thế Tùng, Đỗ Trí Nhựt, Nguyễn Hoài Nhân, Nguyễn Minh Sơn 55 và độ trễ của giải thuật streaming video trên internet với các ứng dụng trình duyệt WEB thông dụng; độ chính xác di chuyển của Robot đồng hành cùng đối tượng người cao tuổi. Theo sau là kịch bản thực nghiệm và các kết quả đạt được. A. Thực nghiệm thuật toán nhận dạng khuôn mặt 1. Kịch bản thực nghiệm: Dữ liệu khuôn mặt được training trên máy tính có cấu hình GPU mạnh, sau đó dữ liệu đặc trưng khuôn mặt được tích hợp trên Bộ điều khiển của Robot làm cơ sở để giải thuật nhận dạng khuôn mặt so trùng trong khung ảnh được lấy trực tiếp từ cảm biến Camera. Trong thực nghiệm này, nhóm nghiên cứu cho Robot học trước khuôn mặt và thân người của 1 người nam, cao 1m75, nặng 60 kg, đặc điểm có đeo mắt kính. Chúng tôi thực nghiệm 1000 lần trên các môi trường khác nhau: • Khuôn mặt ở các góc độ khác nhau với các khoảng cách tăng dần từ 0,5-2,5 m. • Môi trường có ánh sáng trên 100 lux. • 2, 3, 5 gương mặt cùng xuất hiện trong một khung hình. 2. Kết quả thực nghiệm Bảng 1. Thực nghiệm nhận diện khuôn mặt với các khoảng cách và góc độ khác nhau (Đơn vị: %) Trường hợp Đối diện Xoay mặt 0 đến 45 Xoay mặt 0 đến Đưa mặt lên Khoảng cách camera độ qua bên trái 45 độ qua phải xuống 0.5 m 100 81.50 83.50 83.50 1m 100 76.10 78.60 72 2m 99.90 58.00 58.40 70 2.5 m 47.40 17.50 18.20 29.70 Bảng 2. Thực nghiệm trong môi trường có nhiều khuôn mặt đối diện với Robot với khoảng cách từ 1-2 m Số khuôn mặt trước Robot 1 2 3 5 Độ chính xác (%) 100 100 89.2 81.6 Tốc độ (ms) 39 49 54 82 Từ bảng 1, chúng tôi thấy rằng thuật toán sẽ hoạt động hiệu quả nhất với các điều kiện: đối tượng có khoảng cách [0 m; 2,2 m] đến Robot; khi Robot nhìn thấy khuôn mặt của đối tượng lớn hơn ¾ khuôn mặt chuẩn và môi trường xung quanh có độ sáng tốt (trên 100 lux). Đối với bảng 2, thời gian xử lý của thuật toán sẽ tăng lên khi số gương mặt tăng dần. Tuy nhiên, đối với việc ứng dụng theo dõi 1 đối tượng thì Robot này có khả năng nhận diện khuôn mặt với tốc độ 25 fps với độ chính xác lên đến 100% theo phương chính diện. B. Thực nghiệm thuật toán phát hiện người di chuyển 1. Kịch bản thực nghiệm: tương tự như giải thuật nhận dạng khuôn mặt. Trong thực nghiệm này nhóm nghiên cứu sử dụng bộ dữ liệu thân người và thực hiện training trên máy tính có hỗ trợ GPU. Sau đó mô hình được lưu trữ trên bộ nhớ của bộ điều khiển Robot. Tiến hành thực nghiệm 1000 lần đối với người nam có thông số như thực nghiệm A theo kịch bản: thay đổi các dáng đứng - ngồi với các góc độ khác nhau, xoay toàn cơ thể 360 độ và đối tượng di chuyển. 2. Kết quả thực nghiệm Bảng 3. Kết quả thực nghiệm phát hiện người theo tư thế đứng - ngồi trong khoảng cách 2 m đến Robot Trường hợp thực nghiệm Các tư thế đứng Các tư thế ngồi Di chuyển 360 độ Độ chính xác (%) 91.26 100 80 91.6 Tốc độ (ms) 49 44 47 43 Theo kết quả thực nghiệm của bảng 3 thì Robot phát hiện chính xác với đối tượng ở các tư thế đứng – ngồi trên 91,26% và tốc độ xử lý là 44 ms (tương ứng với 22 fps). Khi đối tượng di chuyển thì khả năng Robot phát hiện sẽ giảm đi còn 80% do khung hình bị blur khi đối tượng di chuyển (thuật toán phát hiện con người không thể phát hiện chính xác). Ngoài ra mạng lưới SSD_Mobilenet đã được đào tạo trước trên tập dữ liệu VOC0712 với độ chính xác trung bình (mAP) đạt 0.727. C. Thực nghiệm thuật toán theo dõi và bám theo đối tượng di chuyển 1. Kịch bản thực nghiệm: Để thực hiện đánh giá giải thuật theo dõi và bám theo đối tượng di chuyển của Robot, nhóm nghiên cứu đưa ra kịch bản môi trường có một người cần theo dõi, môi trường có nhiều người trong đó có 1 người cần theo dõi và bám theo. 2. Kết quả thực nghiệm
  7. 56 THIẾT KẾ ROBOT ĐỒNG HÀNH CÙNG NGƯỜI CAO TUỔI CÓ TÍCH HỢP THUẬT TOÁN NHẬN DẠNG Bảng 4. Kết quả các kịch bản thực nghiệm thuật toán theo dõi và bám theo đối tượng di chuyển Thông số Kích thước bounding box Thời gian xử lý Kịch bản (px×px) (ms) Một đối tượng là người cao tuổi có thể tự di chuyển 311×136 20 Một đối tượng là người cao tuổi, di chuyển bằng khung tập đi 94×109 15 Hai đối tượng trong đó có người cao tuổi 181×424 62 Nhiều hơn 2 đối tượng 34×74 13 Chúng tôi thấy rằng tốc độ trung bình của thuật toán là 27,5 ms (tương ứng với 36 fps), thời gian sẽ dao động từ [13; 62] mili giây phụ thuộc vào thông số kích thước của đối tượng cần tracking. D. Thực nghiệm giải thuật streaming video 1. Kịch bản thực nghiệm: Trong kịch bản này, nhóm nghiên cứu tiến hành thực nghiệm khả năng video streaming của Robot để người thân có thể xem đồng thời. Tiến hành thực nghiệm số lượng người thân kết nối đồng thời đến Robot từ 1 người đến 4 người trên các ứng dụng duyệt WEB thông dụng như: Microsoft Edge, Firefox, Cốc Cốc, Safari và Google Chrome. Robot được kết nối với mạng WIFI không dây theo chuẩn IEEE 802.11 b/g/n với gói internet 20 Mbps. Với các thực nghiệm bên dưới, chúng tôi đều sử dụng độ phân giải khung hình là 640×480 để truyền giữa Robot và người thân trên hạ tầng internet. 2. Kết quả thực nghiệm Bảng 5. Độ trễ streaming trên các web browser khi tăng số lượng user (Đơn vị: ms) Số user Trình duyệt web 1 2 4 Microsoft Edge 305 320 354 Cốc Cốc 270 290 346 Firefox 326 370 415 Google Chrome 300 313 366 Safari 286.67 318 350 Thuật toán streaming video sử dụng WebRTC cho kết quả khá tốt với tốc độ 15 FPS, độ trễ streaming trung bình khi có một user sử dụng là 300 ms. Có thể cho phép 4 user sử dụng cùng lúc với độ trễ nhỏ hơn 415 ms và được hỗ trợ hầu hết trên tất cả các trình duyệt web thông dụng. E. Thực nghiệm độ chính xác di chuyển của Robot đồng hành cùng đối tượng người cao tuổi 1. Kịch bản thực nghiệm: Để đánh giá độ chính xác di chuyển của Robot đồng hành, các kịch bản sau đây được nhóm nghiên cứu thực nghiệm trên người nam, cao 1m75, nặng 60 kg có đeo mắt kính trong 3 trường hợp: • Trường hợp 1: Robot hoạt động trong không gian chỉ có một mình đối tượng đích. • Trường hợp 2: Robot theo dõi đối tượng đang di chuyển. • Trường hợp 3: Robot hoạt động trong không gian có nhiều người. Hình 8. Một trong những kịch bản thực nghiệm Robot đồng hành cùng người cao tuổi
  8. Thân Thế Tùng, Đỗ Trí Nhựt, Nguyễn Hoài Nhân, Nguyễn Minh Sơn 57 Kịch bản trên được xây dựng để đánh giá khả năng theo dõi của Robot trong môi trường có nhiều đối tượng. Đối tượng mục tiêu sẽ di chuyển theo thứ tự từ điểm 0 đến điểm số 5 (màu xanh lá) tương ứng với đó Robot cũng sẽ di chuyển tới các điểm tương ứng (màu cam). Khoảng cách ban đầu giữa 2 điểm tương ứng là 2 m. Kết quả là Robot luôn luôn di chuyển và bám theo đối tượng sử dụng thuật toán KCF-DSST với độ chính xác trên 90%. 2. Kết quả thực nghiệm Bảng 6. Kết quả thu được từ các kịch bản thực nghiệm Robot theo dõi đối tượng Thông số Tốc độ xử lý một Khoảng cách đến Kịch bản khung hình (ms) đối tượng (m) 1 66 2.18 2 66 2.2 3 78 2.13 Kết quả thu được từ kịch bản thực nghiệm Robot đồng hành cùng người cao tuổi và các thông số (bảng 6): • Tốc độ xử lý trung bình của các kịch bản trên một khung hình là 70 ms/frame (tương ứng 14 fps). • Trung bình khoảng cách đến đối tượng của các kịch bản là 2,17 m. • Trường hợp 1 và 3 là những kịch bản thực nghiệm khi đối tượng di chuyển ngang, tốc độ mà Robot có thể theo dõi và bám theo mà không bị mất đối tượng là 0,33 m/s. • Trường hợp 2 là kịch bản xây dựng để thực nghiệm khả năng bám theo của Robot khi người di chuyển với quãng đường xa. Tốc độ di chuyển tịnh tiến của Robot là 0,21 m/s. IV. ĐÁNH GIÁ KẾT QUẢ ROBOT Trong nghiên cứu này, chúng tôi có đề cập 2 loại Robot của 2 nhóm Miura [16] và Matthias Müller [5] đồng hành ứng dụng trong nhà mà có chức năng theo dõi đối tượng. Theo bảng 7 dưới đây, Robot của nghiên cứu này có sự vượt trội về tốc độ xử lý dựa trên số khung hình trên giây so với 2 robot còn lại cũng như tốc độ di chuyển trung bình của Robot gần bằng với tốc độ di chuyển của người già nhằm theo dõi và bám theo liên tục. Chúng tôi cũng phát triển khả năng nhận dạng đối tượng bằng đặc điểm riêng mỗi người là khuôn mặt để tăng khả năng phân biệt đối tượng trong thực tế. Ngoài ra, chức năng phát video lên mạng internet để chia sẻ cho người thân xem và theo dõi cũng là một lợi thế cho Robot này. Tuy nhiên, trong nghiên cứu này nhóm cần phải tăng tốc độ di chuyển trung bình của Robot và đưa thêm thuật toán tránh được vật cản. Bên cạnh đó, Robot trong nghiên cứu này còn một số ưu điểm khác theo sau: có khả năng hoạt động trong môi trường có nhiều người cùng xuất hiện, độ trễ của các thuật toán streaming video tương đối thấp (10
  9. 58 THIẾT KẾ ROBOT ĐỒNG HÀNH CÙNG NGƯỜI CAO TUỔI CÓ TÍCH HỢP THUẬT TOÁN NHẬN DẠNG đạt được tốc độ realtime đến 14 fps sử dụng mạng nơron tích chập (NCNN). Ngoài ra, Robot còn thực hiện truyền dữ liệu hình ảnh của người cao tuổi đến người thân thông qua mạng internet với tốc độ 15 fps, độ trễ truyền nhận dưới 415 ms cho 4 truy cập đồng thời. TÀI LIỆU THAM KHẢO [1] The Department of Economic and Social Affairs of the United Nations Secretariat, “World Population Prospects”, June 2019. [2] S H Hosseini, K M Goher, “Personal Care Robots for Older Adults: An Overview”, Asian Social Science, Vol. 13, No. 1, 2017. [3] Masaki Onishi, ZhiWei Luo, Tadashi Odashima, Shinya Hirano, Kenji Tahara, Toshiharu Mukai, “Generation of Human Care Behaviors by Human-Interactive Robot RI-MAN”, International Conference on Robotics and Automation Roma, Italy, 2007. [4] Gregoire Milliez, “Buddy: A Companion Robot for the Whole Family”, HRI’18 Companion, Chicago, IL, USA, March 5-8, 2018. [5] V. K. Matthias Müller, “OpenBot: Turning Smartphones into Robot”, ICRA’21 2020. [6] M. N. A. Bakar, “A Study on Techniques of Person Following Robot”, International Journal of Computer Applications, 2015. [7] Van Tan Nhat Vo, Tan Tan Nguyen , “Motion Generation for Humanoid Based on Human Gesture using Kinect”, Vietnam Mechanical Engineering Journal, 2017. [8] Shaohui Lin, Rongrong Ji, Chao Chen, Feiyue Huang, “ESPACE: Accelerating Convolutional Neural Networks via Eliminating Spatial and Channel Redundancy,” in Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17) [9] Cui Jian, Zhuying Lin, “Research and Implementation of WebRTC Signaling via WebSocket-based for Real-time Multimedia Communications,” 5th International Conference on Computer Sciences and Automation Engineering (ICCSAE 2015). [10] J. Deng, J. Guo, Y. Zhou and..., “RetinaFace: Single-stage Dense Face Localisation in the Wild”, CCBR 2019. [11] S. Chen, Y. Liu, X. Gao and Z. Han, “MobileFaceNets: Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices”, CCBR 2018. [12] S. Arabi, A. K. Haghighat and A. Sharma, “A deep learning based solution for construction equipment detection: from development to deployment”, Department of Civil, Construction and Environmental Engineering Iowa State University, 2019. [13] Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista, “High-Speed Tracking with Kernelized Correlation Filters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, March 2015. [14] M. Danelljan, G. Häger, F. Shahbaz Khan, and M. Felsberg. Accurate scale estimation for robust visual tracking. In Proceedings of the British Machine Vision Conference (BMVC), 2014. [15] Kenji Hata and Silvio Savarese, “CS231A Course Notes 1: Camera Models”, 2021. [16] J. Satake, M. Chiba, J. Miura. A SIFT-Based Person Identification using a Distance-Dependent Appearance Model for a Person Following Robot. Proceedings of the 2012 IEEE International Conference on Robotics and Biomimetics, December 11-14, 2012, Guangzhou, China, pp. 962-967. A DESIGN OF MOBILE ROBOT INTEGRATED RECOGNITION ALGORITHM TO ACCOMPANY THE ELDERLY The Tung Than, Tri Nhut Do, Hoai Nhan Nguyen, Minh Son Nguyen ABSTRACT: Recently, elderly population increasing worldwide has put higher pressure on health-care providers and their families. The advent of elderly care robots will reduce that pressure. In this paper, a design of mobile robot with integrated tracking algorithm in order to accompany the elderly is shown to help families take care of their elderly at home, and also reduce the pressure on health-care providers. The proposed Robot’s body is like a humanoid robot and the Robot’s leg is mounted by two crawlers moved on uneven surfaces by geared motors. The Robot's Controller is designed based on the Embedded System integrated identification algorithm on GPU so that this Robot can move and accompany the elderly in real-time. In addition, the video streaming algorithm with pipeline mechanism is integrated on Robot’s Controller so that the owner can interact with their elderly through the Internet. The Embedded Hardware of Robot’s Controller includes 128 GPU cores and 4 ARM Cortex-A9 cores to execute CNN algorithms of elderly recognition and body tracking which obtain 14 frames per second (fps) of video processing in real-time achievement. The proposed Robot can move on uneven surfaces with speed of 0.21m/s and over 90% accuracy. However, this Robot is able to stream video through the internet with speed of 15 fps and latency less than 366ms for 4 users in concurrent.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2