intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Hệ thống camera thông minh giám sát hành động bệnh nhân từ xa

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

32
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Dịch vụ y tế từ xa là một trong những dịch vụ đang phát triển và được nhiều bệnh viện đầu tư phát triển, đặc biệt là các công nghệ y tế thông minh. Trong bài viết này đề xuất một hệ thống camera thông minh thời gian thực giám sát, nhận dạng và cảnh báo hành động bất thường của bệnh nhân từ xa với chi phí hợp lý và dễ dàng triển khai thực tế.

Chủ đề:
Lưu

Nội dung Text: Hệ thống camera thông minh giám sát hành động bệnh nhân từ xa

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0049 HỆ THỐNG CAMERA THÔNG MINH GIÁM SÁT HÀNH ĐỘNG BỆNH NHÂN TỪ XA Đoàn Thanh Nghị1, Nguyễn Thanh Hiền Triết2, Thái Trường An1 Trường Đại học An Giang, Đại học Quốc gia Thành phố Hồ Chí Minh 1 2 Trung tâm Viễn thông An Giang dtnghi@agu.edu.vn, triettsn1979@gmail.com, ttan_18pm@student.agu.edu.vn TÓM TẮT: Dịch vụ y tế từ xa là một trong những dịch vụ đang phát triển và được nhiều bệnh viện đầu tư phát triển, đặc biệt là các công nghệ y tế thông minh. Các công nghệ này có thể tránh việc điều trị bệnh nhân tập trung tại các bệnh viện lớn, đông người, thay vào đó bệnh nhân có thể được chăm sóc sức khỏe tại nhà. Khi đó hệ thống giám sát từ xa hành động của bệnh nhân là quan trọng và cần thiết, giúp cảnh báo và điều trị kịp thời. Tuy nhiên hiện nay các hệ thống này vẫn còn nhiều hạn chế. Trong bài báo này chúng tôi đã đề xuất một hệ thống camera thông minh thời gian thực giám sát, nhận dạng và cảnh báo hành động bất thường của bệnh nhân từ xa với chi phí hợp lý và dễ dàng triển khai thực tế. Cụ thể, chúng tôi đã đề xuất mô hình mạng kết hợp LSTM, MobileNetV2 và Raspberry Pi 4 trong nhận dạng hành động bệnh nhân từ xa. Tập dữ liệu do chúng tôi tự xây dựng bằng cách thu thập dữ liệu thực tế và sử dụng lại các tập dữ liệu đã có sẵn. Hệ thống của chúng tôi đã được đánh giá và kiểm thử thực tế với độ chính xác trên 96%. Từ khóa: Thị giác máy tính, Mạng nơron tích chập học sâu, Raspberry Pi, giám sát hành động bệnh nhân từ xa. I. GIỚI THIỆU Phát triển hệ thống chăm sóc sức khỏe từ xa hiệu quả và đáng tin cậy đã và đang nhận được nhiều quan tâm từ cộng đồng nghiên cứu. Các hệ thống này được thiết kế để theo dõi bệnh nhân từ xa, phát hiện bệnh theo thời gian thực. Ưu điểm của chúng là: phát hiện bệnh sớm nhất có thể, khả năng theo dõi bệnh nhân liên tục, ngăn ngừa bệnh trở nặng hoặc tử vong, giảm chi phí và số lần nhập viện, kết quả chính xác hơn trong khi vẫn cho phép các hoạt động thường ngày của bệnh nhân. Điều này giúp nâng cao hiệu quả dịch vụ chăm sóc sức khỏe, đó là chăm sóc y tế khẩn cấp, phục vụ bệnh nhân có vấn đề về vận động, cấp cứu tai nạn giao thông và các chấn thương khác. Do đó theo dõi thời gian thực các hành động của bệnh nhân trong nhà thông minh sẽ được hiện thực hóa trong tương lai gần. Trong những năm gần đây, nhận dạng hành động đã được chú trọng nhiều trong các công nghệ phân tích video. Có nhiều định nghĩa về nhận dạng hành động đã được trình bày trong nghiên cứu của Herath và cộng sự [1]. Sự phát triển nhanh chóng của các thiết bị thông minh và kỹ thuật học sâu đã thúc đẩy sự phát triển các ứng dụng nhận dạng hành động. Các kỹ thuật này có thể được áp dụng rộng rãi trong cuộc sống như giải trí, giám sát và chăm sóc sức khỏe [2]. Tuy nhiên, theo khảo sát của Szegedy và cộng sự [3], việc nhận dạng các hành động phức tạp vẫn còn là một thách thức lớn cần nghiên cứu. Eliasz và cộng sự [4] đã giới thiệu một thiết bị IoT thông minh được đeo vào bệnh nhân để nhận biết hành vi ít vận động và đo nguy cơ tim mạch, nhưng kỹ thuật này bị hạn chế do bệnh nhân cần phải đeo cảm biến và không thể theo dõi trực tiếp các vấn đề của bệnh nhân. Gần đây, nhiều phương pháp tiếp cận dựa trên thị giác máy tính và học máy đã được đề xuất cho mô hình nhận dạng hành động của con người [2], [3]. Vì vậy, việc áp dụng các phương pháp này vào việc chăm sóc sức khỏe bệnh nhân từ xa là phù hợp với xu hướng tiến bộ của thế giới. Mạng nơron tích chập (CNN) [5] đã được sử dụng rộng rãi trong các bài toán phân loại hình ảnh thuộc nhiều lĩnh vực. Do hiệu suất vượt trội của CNN [6] nên nhiều nghiên cứu đã bắt đầu áp dụng CNN để phân loại video. Hai loại cấu trúc CNN đã được chứng minh là hoạt động tốt trong nhận dạng hành động (HAR). Đó là mạng CNN truyền thống và mạng nơron hồi quy Long Short-Term Memory (LSTM) hoặc sự kết hợp của cả hai. CNN đã được ứng dụng vào dữ liệu cảm biến cho HAR với những hiệu suất vượt trội [7]. Các nghiên cứu trước đây đề xuất bổ sung vector đặc trưng do CNN trích xuất với một số đặc trưng thống kê [8]. Aviléz-Cruz và cộng sự [9] đã phát triển một mô hình CNN ba đầu vào để nhận dạng 6 hành động. Các nghiên cứu khác đã chỉ ra mức độ phù hợp của việc sử dụng mạng LSTM đối với HAR [10]. Cuối cùng, một số nghiên cứu đã đề xuất tăng cường CNN với các lớp LSTM [11]. Karim và cộng sự [12] đề xuất một kiến trúc mô hình trong đó CNN có ba lớp và một lớp LSTM trích xuất các đặc trưng từ dữ liệu cảm biến song song. Các nghiên cứu khác cũng đã bổ sung các lớp LSTM sau CNN [13]. Tuy nhiên, hầu hết các nghiên cứu trên vẫn còn tồn tại một số hạn chế như: 1) Sử dụng kiến trúc mạng CNN có kích thước lớn với nhiều tham số huấn luyện, thời gian huấn luyện dài hoặc kiến trúc mạng đơn giản với độ chính xác thấp; 2) Các hệ thống trên đòi hỏi cấu hình phần cứng cao, chi phí cài đặt và triển khai tương đối lớn. Vì vậy chúng tôi đề xuất xây dựng một hệ thống nhận dạng hành động của bệnh nhân với chi phí hợp lý, hiệu quả, dễ dàng cài đặt và triển khai thực tế. Các đóng góp chính của chúng tôi như sau: • Đề xuất một phương pháp nhận dạng hành động bệnh nhân bằng cách kết hợp LSTM, MobileNetV2 và Raspberry Pi 4. Phương pháp của chúng tôi có độ chính xác phân loại cao, chi phí tính toán phù hợp với các thiết bị di động có cấu hình phần cứng hạn chế. • Xây dựng một tập dữ liệu video hành động bệnh nhân, tiền xử lý và gán nhãn theo đúng tiêu chuẩn.
  2. Đoàn Thanh Nghị, Nguyễn Thanh Hiền Triết, Thái Trường An 111 • Thiết kế hoàn thiện một hệ thống nhận dạng và phát thông tin cảnh báo các hành động bất thường của bệnh nhân, có thể dễ dàng cài đặt, chi phí hợp lý và thuận tiện cho người sử dụng. II. PHƯƠNG PHÁP ĐỀ XUẤT A. Sơ đồ tổng quát hệ thống Sơ đồ tổng quát của hệ thống camera giám sát bệnh nhân từ xa do chúng tôi đề xuất được mô tả như trong Hình 1. Trong đó hệ thống Raspberry Pi 4 Camera Module NoIR [14] sẽ liên tục quan sát thời gian thực các hành động của bệnh nhân tại nhà. Chuỗi video thu được sẽ được nhận dạng và gán nhãn bằng cách sử dụng mô hình kết hợp MobileNetV2+LSTM đã được huấn luyện và lưu trữ trong thiết bị Raspberry Pi 4. Nếu hành động của bệnh nhân được xác định là bất thường, nghĩa là bệnh nhân có sự cố về sức khỏe thì hệ thống sẽ tự động gửi một tin nhắn cảnh báo và kèm theo ảnh hành động bất thường. Tin nhắn này sẽ được gửi đến những người thân của bệnh nhân thông qua email và ứng dụng nhắn tin Telegram. Sau đó các đoạn video đã được gán nhãn sẽ được định kỳ lưu trữ trên một máy chủ ảo. Đối với các đoạn video được gán nhãn là hành động bất thường thì sẽ được lưu trữ toàn bộ, ngược lại nếu là hành động bình thường thì chúng tôi lưu trữ và xóa định kỳ trong một khoảng thời gian xác định để tiết kiệm không gian lưu trữ. Thuật toán phân loại video, gửi email và hình ảnh đến người dùng trên Raspberry Pi 4 được trình bày trong Bảng 3. Hình 1. Sơ đồ tổng quát của hệ thống camera thông minh giám sát bệnh nhân từ xa B. Thu thập dữ liệu Có nhiều tập dữ liệu về nhận dạng hành động của con người đã được công bố như: ActivityNet [15], Kinetics [16], UCF101 [17], HMDB51 [18], STAIR-Actions [19], KARD [20], NTU RGB+D [21]. Tuy nhiên, hiện nay chưa có tập dữ liệu kiểm chuẩn nào về các hành động của bệnh nhân. Vì vậy, chúng tôi đã tự thu thập và xây dựng tập dữ liệu này để đánh giá phương pháp tiếp cận do chúng tôi đề xuất, chi tiết tập dữ liệu được trình bày như trong Bảng 1. Bảng 1. Tóm tắt thông tin tập dữ liệu hành động bệnh nhân do chúng tôi thu thập Số lượng Frame STT Nhãn Hành động Frames/second Thời lượng (s) Video Width Height 1 a01 Vỗ tay 30 640 480 25 1-5 2 a02 Đi bộ 30 640 480 25 5 - 12 3 a03 Uống nước 30 640 480 25 2-7 4 a04 Đau bụng 30 640 480 25 5-7 5 a05 Đau đầu 30 640 480 25 5-6 6 a06 Té xỉu 30 640 480 25 5-6 Do hạn chế về tài nguyên phần cứng khi huấn luyện mô hình nên chúng tôi chỉ xây dựng tập dữ liệu thử nghiệm với 6 hành động ví dụ mẫu của bệnh nhân. Tập dữ liệu này có 3 hành động được thu thập từ KARD [20] và 3 hành động tự thu thập từ thực tế. KARD là tập dữ liệu với 18 lớp hành động diễn ra hằng ngày trong nhà, có độ phân giải 640×480 với chất lượng hình ảnh tương đối tốt, các cử chỉ hành động rõ ràng. Vì vậy nó có thể được sử dụng để nghiên cứu hệ thống giám sát sức khỏe bệnh nhân tại nhà. Tuy nhiên chúng tôi chỉ sử dụng 3 lớp hành động phù hợp là vỗ tay, uống nước và đi bộ để thử nghiệm. Đối với dữ liệu thu thập từ thực tế, chúng tôi đã nhờ sự giúp đỡ của các tình nguyện viên để thực hiện 3 loại hành động khác nhau trong 3 lần. Mỗi hành động được quay video với độ dài từ 5 đến 6 giây, sử dụng điện thoại Samsung Galaxy S8 với các thông số kỹ thuật như Bảng 2. Bảng 2. Thông số kỹ thuật video quay bằng điện thoại Samsung Galaxy S8 Thông số kỹ thuật Nội dung Thiết bị quay Video Samsung Galaxy S8 Size (kích thước) 640 x 480 FPS (khung hình/giây) 25 frames/second Định dạng MP4 Tổng số video chúng tôi đã thực hiện là 286, sau đó chọn lọc lại những video có chất lượng tốt nhất, cuối cùng chúng tôi có được 180 video, tương ứng 30 video cho mỗi loại hành động. Tập dữ liệu sau khi tiền xử lý sẽ được đánh
  3. 112 HỆ THỐNG CAMERA THÔNG MINH GIÁM SÁT HÀNH ĐỘNG BỆNH NHÂN TỪ XA số thứ tự video trong mỗi thư mục theo từng loại hành động. Ví dụ a01_s01_e01.mp4, a01_s01_e02.mp4, … tương ứng với các hành động được gán nhãn là a01 (Vỗ tay), a02 (Đi bộ), a03 (Uống nước), a04 (Đau bụng), a05 (Đau đầu) và a06 (Té xỉu). Các ảnh mẫu video clip được trình bày như trong Hình 2. Hình 2. Các ảnh mẫu video ví dụ từ tập dữ liệu do chúng tôi thu thập C. Mô hình nhận dạng hành động 1. Mạng Long Short-Term Memory Long Short-Term Memory (LSTM) [22] là một mạng nơron hồi quy (RNN - Recurrent Neural Network) được sử dụng trong lĩnh vực học sâu. Không như các mạng nơron truyền thống khác, LSTM có các kết nối hồi quy và học được các phụ thuộc xa. Nó có thể xử lý không chỉ các điểm dữ liệu đơn lẻ (chẳng hạn như hình ảnh), mà còn toàn bộ chuỗi dữ liệu (chẳng hạn như giọng nói hoặc video). Ví dụ: LSTM có thể áp dụng cho các tác vụ như nhận dạng chữ viết tay, nhận dạng giọng nói và phát hiện bất thường trong lưu lượng mạng hoặc IDS (hệ thống phát hiện xâm nhập). Một đơn vị LSTM thông thường bao gồm một tế bào, một cổng vào, một cổng ra và một cổng quên (Hình 3). Tế bào ghi nhớ các giá trị trong khoảng thời gian tùy ý và ba cổng điều chỉnh luồng thông tin vào và ra của tế bào. Hình 3. Môđun lặp lại trong một LSTM chứa bốn lớp tương tác Mạng LSTM rất phù hợp để phân loại, xử lý và dự đoán dựa trên dữ liệu chuỗi thời gian, vì xử lý được độ trễ không xác định giữa các sự kiện quan trọng trong chuỗi thời gian. LSTM được phát triển để giải quyết vấn đề suy thoái gradient (vanishing gradient) có thể gặp phải khi huấn luyện RNN truyền thống. Độ nhạy thấp trong một khoảng độ dài nhất định là một lợi thế của LSTM so với RNN truyền thống, mô hình Hidden Markov và các phương pháp học tuần tự khác. Về lý thuyết, các RNN có thể theo dõi các phụ thuộc dài hạn tùy ý trong các trình tự đầu vào. Tuy nhiên vấn đề của các RNN là bản chất tính toán: khi huấn luyện một RNN bằng phương pháp lan truyền ngược, các gradient truyền ngược có thể bị suy thoái (nghĩa là có xu hướng tiến về giá trị không) hoặc “bùng nổ” (tiến về vô cực). Các RNN sử dụng các đơn vị LSTM có thể giải quyết một phần vấn đề suy thoái gradient, bởi vì các đơn vị LSTM cho phép các gradient không thay đổi. Tuy nhiên, các LSTM vẫn có thể gặp vấn đề về “bùng nổ” gradient. 2. MobileNetv2 MobileNet [23] được phát triển để sử dụng cho các thiết bị di động và hệ thống nhúng. Mặc dù nó có ít tham số huấn luyện hơn các mạng CNN khác, nhưng nó có khả năng đạt được kết quả tốt hơn. Ưu điểm của nó đến từ các lớp tích chập phân tách theo chiều sâu. Các lớp tích chập có thể phân tách theo chiều sâu ánh xạ các tương quan không gian và tương quan kênh chéo trong các biểu đồ đặc trưng của ảnh đầu vào. MobileNet bao gồm tổng cộng 28 lớp khi các lớp tích chập theo chiều sâu và pointwise được coi là các lớp riêng biệt. Mô hình sử dụng ảnh đầu vào có kích thước 224 × 224 × 3. Phiên bản sửa đổi của mô hình bao gồm một lớp global average pooling, một lớp fully connected layer (FC) với 512 nơron và một lớp đầu ra để phân loại ảnh. Giữa các lớp FC, tỷ lệ dropout là 0.5, lớp chuẩn hóa dữ liệu theo lô và hàm chuẩn hóa L2 đã được sử dụng. Với sự thay đổi này, MobileNet có thể hoạt động một cách mượt mà ngay cả trên phần cứng với cấu hình thấp. Các mô hình VGG16, ResNet50, Inception, Xception,… tuy có độ chính
  4. Đoàn Thanh Nghị, Nguyễn Thanh Hiền Triết, Thái Trường An 113 xác cao, nhưng chúng đều có một điểm hạn chế chung đó là kích cỡ mô hình lớn, vì vậy không phù hợp với các thiết bị di động hay hệ thống nhúng. Nếu muốn triển khai các mô hình trên cho các ứng dụng thời gian thực thì cần phải có các thiết bị cấu hình cực kỳ mạnh mẽ (GPU/TPU). Còn đối với các thiết bị như Raspberry Pi, Nano PC hay các ứng dụng chạy trên Smartphone, ta cần có một mô hình “nhẹ” hơn. Trong các mô hình đã được huấn luyện trên tập dữ liệu ImageNet (https://keras.io/api/applications/), ta thấy MobileNetV2 có độ chính xác không hề thua kém các mô hình CNN khác trong khi số lượng tham số huấn luyện chỉ là 3.5M (khoảng 1/40 so với VGG16). 3. Mô hình nhận dạng hành động với CNN LSTM CNN Long Short-Term Memory (CNN LSTM) là một kiến trúc kết hợp CNN với LSTM, được thiết kế đặc biệt cho các vấn đề dự đoán chuỗi trình tự với các đầu vào có tính không gian, như hình ảnh hoặc video. Kiến trúc CNN LSTM liên quan đến việc sử dụng các lớp CNN để trích xuất đặc trưng dữ liệu đầu vào kết hợp với các LSTM để dự đoán chuỗi trình tự. CNN LSTM được phát triển để dự đoán các bài toán chuỗi thời gian trực quan và ứng dụng tạo đặc trưng từ chuỗi hình ảnh (ví dụ: video). Cụ thể các vấn đề về: (1) Nhận dạng hành động: Tạo đặc trưng mô tả một hành động được thể hiện trong một chuỗi hình ảnh, (2) Mô tả hình ảnh: Tạo đặc trưng mô tả một hình ảnh, (3) Mô tả video: Tạo một đặc trưng mô tả một chuỗi hình ảnh. Có nhiều nghiên cứu được thực hiện trong lĩnh vực phân tích video và nhận dạng hành động. Ban đầu CNN được áp dụng cho từng khung hình đã giúp cải thiện độ chính xác so với các kỹ thuật trích xuất đặc trưng thủ công. Sau đó 3D-CNN đã cải thiện hơn nữa độ chính xác bằng cách xử lý nhiều khung hình cùng một lúc. Gần đây các nghiên cứu tập trung vào RNN và LSTM để bổ sung yếu tố thời gian của video vào kiến trúc mạng. Donahue và cộng sự [24] đã thiết kế một kiến trúc tích chập hồi quy, trong đó các CNN được xếp lớp với một mô hình hồi quy tạo thành một đơn vị thống nhất. CNN được sử dụng để trích xuất các đặc trưng của từng khung hình và sau đó, các đặc trưng này được đưa vào LSTM từng bước để tạo mô hình động các chuỗi đặc trưng để nó có thể học được cách biểu diễn cấp độ video theo không gian và thời gian. [25] Đã đề xuất một kiến trúc CNN-LSTM, trong đó VGG16 được huấn luyện để trích xuất các đặc trưng của video đầu vào. Sau đó, LSTM được sử dụng để phân loại video trong một lớp cụ thể. [26] Đã đề xuất mô hình CNN-LSTM là một khung 2 luồng với một chuỗi RGB học theo luồng tổng hợp và chiều sâu còn lại. Kiến trúc này có thể học cả hai yếu tố thời gian và không gian trong dữ liệu hành động theo RGB và độ sâu. [27] Đã đề xuất việc tích hợp CNN và LSTM để xử lý dữ liệu video. Phép tích chập xử lý dữ liệu đầu vào để tạo ra các đặc trưng không gian. Các đặc trưng được trích xuất sẽ là đầu vào của LSTM để tạo ra các đặc trưng tạm thời. Các biểu đồ đặc trưng này ghi lại các đặc trưng có giá trị trong khung hình của video. Các hành động được ghi nhận từ các đặc trưng thông tin bằng lớp softmax. Nhận dạng hành động của con người vẫn còn là một thách thức lớn, đặc biệt là nghiên cứu ứng dụng mô hình CNN LSTM. Trong nghiên cứu này, chúng tôi đề xuất mô hình LSTM và MobileNetV2 cho nhận dạng hành động bệnh nhân thời gian thực. Trong đó MobileNetV2 được sử dụng để rút trích đặc trưng từng khung ảnh của video vì kiến trúc này phù hợp với các ứng dụng thời gian thực. Mô hình do chúng tôi đề xuất được trình bày như Hình 4. Hình 4. Mô hình LSTM+MobileNetV2 cho nhận dạng hành động bệnh nhân thời gian thực D. Raspberry Pi và Camera Raspberry Pi NoIR 1. Raspberry Pi Raspberry Pi [14] là một loại máy tính nhỏ được phát triển tại Vương quốc Anh bởi Raspberry Pi Foundation kết hợp với Broadcom. Dự án Raspberry Pi ban đầu là nhằm thúc đẩy việc giảng dạy kiến thức máy tính cơ bản trong trường học và ở các nước đang phát triển. Tuy nhiên thiết bị này trở nên phổ biến ngoài dự đoán và được bán ra thị trường với mục đích chế tạo robot. Nó được sử dụng rộng rãi trong nhiều lĩnh vực, như theo dõi thời tiết vì chi phí thấp và thiết kế mở. Sau khi phát hành phiên bản thứ hai, Raspberry Pi Foundation đã tạo một thiết bị mới, có tên là Raspberry Pi Trading. Raspberry Pi 4 Model B được phát hành vào tháng 6 năm 2019 [28] với bộ xử lý ARM Cortex-
  5. 114 HỆ THỐNG CAMERA THÔNG MINH GIÁM SÁT HÀNH ĐỘNG BỆNH NHÂN TỪ XA A72 lõi tứ 64 bit 1,5 GHz, Wi-Fi 802.11ac, Bluetooth 5, Ethernet gigabit (thông lượng không giới hạn), hai Cổng USB 2.0, hai cổng USB 3.0, RAM 2-8 GB và hỗ trợ màn hình kép thông qua một cặp cổng micro HDMI (HDMI Loại D) cho độ phân giải lên đến 4K. Pi 4 cũng được cấp nguồn qua cổng USB-C, cho phép cung cấp thêm nguồn điện cho các thiết bị ngoại vi hạ nguồn, khi được sử dụng với một PSU thích hợp (Hình 5). 2. Camera Raspberry Pi NoIR Camera Raspberry Pi NoIR V2 IMX219 (Hình 6) là phiên bản Camera Module dành cho Raspberry Pi mới nhất sử dụng cảm biến ảnh IMX219 8-megapixel từ Sony thay cho cảm biến cũ là OV5647, với cảm biến IMX219 8-megapixel từ Sony, Camera Module cho Raspberry Pi đã có được sự nâng cấp vượt trội về cả chất lượng hình ảnh, video cũng như độ bền. Camera Raspberry Pi NoIR V2 IMX219 8MP có thể sử dụng với Raspberry Pi để chụp ảnh, quay phim trong điều kiện thiếu ánh sáng với chất lượng HD 1080p30, 720p60 hoặc VGA90, cách sử dụng cũng như lập trình với Camera Module trên Raspberry Pi cũng rất dễ dàng, trong đó ta chỉ cần cắm vào cổng Camera trên Raspberry Pi và Config là có thể thực thi được chương trình. Camera Raspberry Pi NoIR V2 IMX219 8MP có thể điều khiển thông qua MMAL và V4L APIs, có rất nhiều bộ thư viện được cộng đồng Raspberry Pi phát triển trên Python giúp cho việc tìm hiểu và sử dụng trở nên dễ dàng hơn rất nhiều. Hình 5. Raspberry Pi 4 Model B Hình 6. Camera Raspberry Pi NoIR V2 Bảng 3. Thuật toán phân loại video, gửi tin nhắn, email và hình ảnh đến người dùng trên Raspberry Pi 4 BEGIN Input: Mô hình nhận dạng đã huấn luyện, Hình ảnh camera While kiểm tra camera đã được mở chưa { If nhận được giá trị khung ảnh là đúng { Thay đổi kích thước khung ảnh If nếu cửa sổ trượt đầy (8 khung ảnh) { Tính toán sự khác nhau giữa các khung ảnh Dự đoán hành động từ mô hình nhận dạng đã huấn luyện If kết quả nhận dạng bé hơn 0.80 {Không có hành động} Else Phát hiện hành động dem = 0 If nhãn hành động ảnh hưởng sức khỏe {dem = dem + 1} Else dem = 0 If dem == 1 {Thêm nhãn hành động vào mảng} If thời gian ghi hình đủ 10 giây {Gửi video ghi hình lên VPS} } If các hành động ảnh hưởng sức khỏe trong mảng xuất hiện đủ 10 lần { Gửi email cảnh báo qua gmail, tin nhắn cảnh báo qua telegram} If các hành động ảnh hưởng sức khỏe trong mảng xuất hiện đủ 30 lần {Xóa các hành động được nhận dạng đã lưu trong mảng} } Else break } END III. KẾT QUẢ THỰC NGHIỆM A. Cấu hình thí nghiệm và chỉ số đánh giá mô hình Các mô hình mạng đã được huấn luyện trên Google Colaboratory, một nền tảng tính toán đám mây được phát triển bởi Google (CPU: Intel Xeon Processor 2 core @ 2.30 GHz và 13 GB RAM, GPU Tesla K80 12GB của GDDR5 VRAM). Thuật toán của hệ thống nhận dạng thời gian thực được lập trình bằng ngôn ngữ Python và thực thi trên môi trường Linux (Raspberry Pi OS), sử dụng thư viện mã nguồn mở OpenCV và Keras.
  6. Đoàn Thanh Nghị, Nguyễn Thanh Hiền Triết, Thái Trường An 115 Để đánh giá hiệu suất của phương pháp đề xuất, chúng tôi sử dụng ma trận nhầm lẫn. Ma trận nhầm lẫn [29] là một công cụ hiệu quả để đánh giá hiệu suất của các mô hình cũng như hữu ích để đo lường độ chính xác của hệ thống. Độ chính xác là một thước đo để đánh giá hiệu suất của các mô hình phân loại, được tính toán như công thức (1). Số mẫu được phân loại đúng (1) 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Tổng số mẫu B. Đánh giá mô hình 1. Huấn luyện và đánh giá Chúng tôi đã chia tập dữ liệu thành hai tập con dùng để huấn luyện và đánh giá theo tỷ lệ 70:30, thường được sử dụng trong Luhach và cộng sự [30]. Do đó tập dữ liệu huấn luyện có 126 video và 54 video còn lại được dùng để đánh giá mô hình. Hiệu suất của hệ thống được đánh giá thông qua ma trận nhầm lẫn và độ chính xác theo công thức (1). Chúng tôi dừng huấn luyện mô hình mạng ở vòng lặp thứ 100 khi độ lỗi không còn giảm nữa. Các video thực hiện ở 25 FPS. Video hành động trước khi đưa vào quá trình huấn luyện sẽ được chia thành 𝐾 phân đoạn (khung hình). Sau đó từng phân đoạn sẽ được chuyển đổi kích thước và 3 kênh màu phù hợp với đầu vào của mạng MobileNetV2 (224 × 224 × 3). Tiếp theo các phân đoạn được biến đổi bằng các kỹ thuật tăng cường dữ liệu như xoay, phóng to, thu nhỏ, lật ngang. Điều này giúp cải thiện hiệu suất mô hình và tránh overfitting khi huấn luyện, rất hữu ích với các tập dữ liệu nhỏ, không đủ dữ liệu huấn luyện [31]. Kết quả đầu ra là các hành động được phân lớp và gán nhãn. Trong giai đoạn đánh giá mô hình, các khung hình trong video sẽ được lựa chọn ngẫu nhiên. Nếu số lượng khung hình được chọn là 1 thì độ chính xác sẽ không ổn định, vì vậy chúng tôi đã chọn ngẫu nhiên 2 khung hình. Chúng ta có thể chọn nhiều hơn 2, nhưng khi đó sẽ làm tăng chi phí thời gian đánh giá mô hình. Bảng 4. Kết quả đánh giá độ chính xác của mô hình trên tập dữ liệu với số phân đoạn 𝐾 khác nhau 𝐾 2 4 6 8 Accuracy (%) 88,88 91,66 95,37 96,13 Tham số quan trọng nhất chi phối hiệu suất mô hình là số phân đoạn 𝐾. Để tìm được số phân đoạn 𝐾 tốt nhất chúng tôi tiến hành đánh giá theo phương pháp thử-và-sai. Khi 𝐾 bằng 1, mô hình suy thoái thành mô hình CNN hai luồng [32], khi tăng 𝐾 thì hiệu suất của mô hình đã được cải thiện. Trong các thí nghiệm, chúng tôi đã lần lượt thay đổi 𝐾 là 2, 4, 6, 8. Kết quả được trình bày như trong Bảng 4, chúng tôi quan sát thấy rằng việc tăng số lượng phân đoạn 𝐾 dẫn đến hiệu suất tốt hơn, tuy nhiên thời gian huấn luyện mô hình sẽ tăng lên. Ví dụ hiệu suất của mô hình với 6 phân đoạn tốt hơn so với mô hình với 4 phân đoạn (95,37% so với 91,66%). Kết quả này chứng tỏ rằng việc sử dụng nhiều phân đoạn 𝐾 sẽ giúp các lớp tích chập CNN thu thập nhiều thông tin hơn. Nhờ đó đặc trưng kết quả của các đoạn video sẽ có mức độ trừu tượng cao, vì vậy hiệu suất phân lớp sẽ cao hơn. Tuy nhiên, khi tăng 𝐾 đến 8, chúng tôi thấy hiệu suất mô hình có dấu hiệu bão hòa (96,13% so với 95,37%). Do đó chúng tôi đã chọn 𝐾 bằng 8 để mô hình đạt được hiệu suất phân loại tốt nhất, đồng thời đảm bảo thời gian huấn luyện và đánh giá mô hình hợp lý. Ma trận nhầm lẫn để đánh giá hiệu quả của mô hình được trình bày như trong Hình 7. 2. Hiện thực chương trình Sau khi quá trình huấn luyện kết thúc chúng tôi đã thu được mô hình nhận dạng hành động dưới dạng tập tin HDF5. Mô hình kết quả này sau đó được cài đặt vào hệ thống thiết bị Raspberry Pi 4 như được trình bày trong Phần II.D. Chúng tôi đã tiến hành thử nghiệm và đánh giá thực tế với dữ liệu đầu vào thời gian thực thu được từ Camera Raspberry Pi NoIR V2 IMX219. Kết quả nhận dạng được trình bày như trong Bảng 5. Bảng 5. Kết quả nhận dạng hành động bệnh nhân thời gian thực trên hệ thống thiết bị Raspberry Pi 4, Camera Module Noir Vỗ tay: Đạt độ chính xác dao động từ 90-100% Đi bộ: Đạt độ chính xác dao động từ 99-100% Uống nước: Đạt độ chính xác dao động từ 85- 99%
  7. 116 HỆ THỐNG CAMERA THÔNG MINH GIÁM SÁT HÀNH ĐỘNG BỆNH NHÂN TỪ XA Đau bụng: Đạt độ chính xác dao động từ 68- 99% Đau đầu: Đạt độ chính xác dao động từ 84- 95% Té xỉu: Đạt độ chính xác dao động từ 85-94% Sau khi giai đoạn thử nghiệm nhận dạng hành động thời gian thực thông qua hệ thống Rapberry Pi 4 cho kết quả tốt và đáng tin cậy, chúng tôi bắt đầu tiến hành cài đặt và thử nghiệm hệ thống phát đi tin nhắn và email cảnh báo nếu camera nhận thấy các hành động bất thường liên quan đến sức khỏe của bệnh nhân (Hình 8 và Hình 9). Hình 9. Tin nhắn cảnh báo được gửi thông qua ứng dụng Hình 8. Email cảnh báo được phát Telegram đi cho người thân Hình 7. Ma trận nhầm lẫn khi huấn luyện mạng với K = 8 IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Nghiên cứu này đã đề xuất một hệ thống với các chức năng cơ bản của một camera giám sát thông minh, hỗ trợ giám sát hành động của bệnh nhân từ xa. Chúng tôi đã đề xuất mô hình kết hợp mạng LSTM, MobileNetV2 và Raspberry Pi 4 cho hệ thống nhận dạng hành động bệnh nhân. Kết quả cho thấy mô hình do chúng tôi đề xuất đạt kết quả phân loại tốt, trên 96% với tập dữ liệu do chúng tôi tự thu thập. Ngoài ra với việc sử dụng mạng MobileNetV2 nên kích thước mô hình nhỏ, các tham số huấn luyện mạng ít, vì vậy thích hợp khi triển khai trên các thiết bị di động có phần cứng hạn chế như Raspberry Pi 4. Do đó, phương pháp của chúng tôi có nhiều ưu điểm trong nhận dạng hành động bệnh nhân thời gian thực, chi phí thấp, dễ dàng cài đặt và triển khai thực tế. Chúng tôi đã tự thu thập và xây dựng một tập dữ liệu với các hành động cơ bản của một bệnh nhân ở điều kiện trong nhà. Mặc dù số lượng dữ liệu còn hạn chế và chưa có nhiều dữ liệu thực tế của bệnh nhân, nhưng đây là cơ sở để chúng tôi tiếp tục thu thập các tập dữ liệu lớn hơn với chất lượng tốt hơn, đóng góp nhiều hơn nữa cho cộng đồng nghiên cứu nhận dạng hành động của bệnh nhân. Công việc tiếp theo của chúng tôi là nghiên cứu các thiết bị di động tốt hơn như Jetson Nano Developer Kit [33] và các mô hình mạng CNN hiệu quả, có độ chính xác tốt hơn, phù hợp với các thiết bị di động mới nhất hiện nay. TÀI LIỆU THAM KHẢO [1] S. Herath, M. Harandi, and F. Porikli, “Going deeper into action recognition: A survey”, Image Vis. Comput., vol. 60, pp. 4- 21, 2017, doi: 10.1016/j.imavis.2017.01.010. [2] Y. Bengio, “Deep Learning of Representations: Looking Forward”, ArXiv, vol. abs/1305.0, 2013. [3] C. Szegedy et al., “Going deeper with convolutions”, Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., vol. 07- 12-June, no. January 2017, pp. 1-9, 2015, doi: 10.1109/CVPR.2015.7298594. [4] E. Kańtoch, “Recognition of sedentary behavior by machine learning analysis of wearable sensors during activities of daily living for telemedical assessment of cardiovascular risk”, Sensors (Switzerland), vol. 18, no. 10, pp. 1-17, 2018, doi: 10.3390/s18103219. [5] Q. Li, W. Cai, X. Wang, Y. Zhou, D. Feng, and M. Chen, “Medical image classification with convolutional neural network”, 2014 13th Int. Conf. Control Autom. Robot. & Vis., pp. 844-848, 2014.
  8. Đoàn Thanh Nghị, Nguyễn Thanh Hiền Triết, Thái Trường An 117 [6] J. Gu et al., “Recent advances in convolutional neural networks”, Pattern Recognit., vol. 77, no. June 2016, pp. 354-377, 2018, doi: 10.1016/j.patcog.2017.10.013. [7] M. Z. Uddin and M. Hassan, “Activity Recognition for Cognitive Assistance Using Body Sensors Data and Deep Convolutional Neural Network”, IEEE Sens. J., vol. 19, pp. 8413-8419, 2019. [8] A. D. Ignatov, “Real-time human activity recognition from accelerometer data using Convolutional Neural Networks”, Appl. Soft Comput., vol. 62, pp. 915-922, 2018. [9] C. Avilés-Cruz, A. Ferreyra-Ramírez, A. Zúñiga-López, and J. Villegas-Cortéz, “Coarse-fine convolutional deep-learning strategy for human activity recognition”, Sensors (Switzerland), vol. 19, no. 7, 2019, doi: 10.3390/s19071556. [10] W.-H. Chen, C. Baca, and C.-H. Tou, “LSTM-RNNs combined with scene information for human activity recognition”, 2017 IEEE 19th Int. Conf. e-Health Networking, Appl. Serv., pp. 1-6, 2017. [11] H. Li and M. Trocan, “Personal Health Indicators by Deep Learning of Smart Phone Sensor Data”, 2017 3rd IEEE Int. Conf. Cybern., pp. 1-5, 2017. [12] F. Karim, S. Majumdar, H. Darabi, and S. Chen, “LSTM Fully Convolutional Networks for Time Series Classification”, IEEE Access, vol. 6, pp. 1662-1669, 2017, doi: 10.1109/ACCESS.2017.2779939. [13] F. J. Ordóñez and D. Roggen, “Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition”, Sensors (Switzerland), vol. 16, no. 1, 2016, doi: 10.3390/s16010115. [14] W. Gay, Raspberry Pi Hardware Reference. 2014. [15] F. C. Heilbron, V. Escorcia, B. Ghanem, and J. C. Niebles, “ActivityNet: A large-scale video benchmark for human activity understanding”, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 07- 12-June. pp. 961-970, 2015, doi: 10.1109/CVPR.2015.7298698. [16] W. Kay et al., “The Kinetics Human Action Video Dataset”, ArXiv, 2017, [Online]. Available: http://arxiv.org/abs/1705.06950. [17] K. Soomro, A. R. Zamir, and M. Shah, “UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild”, no. December 2012, 2012, [Online]. Available: http://arxiv.org/abs/1212.0402. [18] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre, “HMDB: A large video database for human motion recognition”, Proc. IEEE Int. Conf. Comput. Vis., pp. 2556-2563, 2011, doi: 10.1109/ICCV.2011.6126543. [19] Y. Yoshikawa, J. Lin, and A. Takeuchi, “STAIR Actions: A Video Dataset of Everyday Home Actions.” 2018, [Online]. Available: http://arxiv.org/abs/1804.04326. [20] S. Gaglio, G. Lo Re, and M. Morana, “Human Activity Recognition Process Using 3-D Posture Data”, IEEE Trans. Human- Machine Syst., vol. 45, no. 5, pp. 586-597, 2015, doi: 10.1109/THMS.2014.2377111. [21] A. Shahroudy, J. Liu, T. T. Ng, and G. Wang, “NTU RGB+D: A large scale dataset for 3D human activity analysis”, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 2016-Decem. pp. 1010-1019, 2016, doi: 10.1109/CVPR.2016.115. [22] S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory”, Neural Comput., vol. 9, no. 8, pp. 1735-1780, 1997, doi: 10.1162/neco.1997.9.8.1735. [23] A. G. Howard et al., “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications”, 2017, [Online]. Available: http://arxiv.org/abs/1704.04861. [24] J. Donahue et al., “Long-Term Recurrent Convolutional Networks for Visual Recognition and Description”, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 4, pp. 677-691, 2017, doi: 10.1109/TPAMI.2016.2599174. [25] C. I. Orozco, M. E. Buemi, and J. J. Berlles, “CNN-LSTM Architecture for Action Recognition in Videos”, pp. 7-12. [26] D. Srihari and P. V. V. Kishore, “Multi Modal RGB D Action Recognition with CNN LSTM Ensemble Deep Network”, Int. J. Adv. Comput. Sci. Appl., vol. 11, no. 12, pp. 738-746, 2020, doi: 10.14569/IJACSA.2020.0111284. [27] P. Kuppusamy and C. Harika, “Human action recognition using cnn and lstm-rnn with attention model”, Int. J. Innov. Technol. Explor. Eng., vol. 8, no. 8, pp. 1639-1643, 2019. [28] E. Upton, “Raspberry Pi 4 on sale now from $35.” Raspberry Pi Foundation, 2019. [29] S. V. Stehman, “Selecting and interpreting measures of thematic classification accuracy”, Remote Sens. Environ., vol. 62, no. 1, pp. 77-89, 1997, doi: 10.1016/S0034-4257(97)00083-7. [30] A. Luhach, D. Jat, K. Ghazali, X.-Z. Gao, and P. Lingras, Advanced Informatics for Computing Research: Third International Conference, ICAICR 2019, Shimla, India, 15-16 June 2019; Revised Selected Papers; Springer Nature: Berlin/Heidelberg, Germany, 2019; Volume 1075. 35. 2019. [31] P. Y. Simard, D. Steinkraus, and J. C. Platt, “Best practices for convolutional neural networks applied to visual document analysis”, Proc. Int. Conf. Doc. Anal. Recognition, ICDAR, vol. 2003-Janua, no. May 2014, pp. 958-963, 2003, doi: 10.1109/ICDAR.2003.1227801. [32] L. Wang et al., “Temporal Segment Networks for Action Recognition in Videos”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 11. pp. 2740-2755, 2019, doi: 10.1109/TPAMI.2018.2868668. [33] M. Larabel, “NVIDIA’s Tegra TK1 Jetson Board Is Now Shipping.” NVIDIA, 2014.
  9. 118 HỆ THỐNG CAMERA THÔNG MINH GIÁM SÁT HÀNH ĐỘNG BỆNH NHÂN TỪ XA SMART CAMERA SYSTEM FOR REMOTE PATIENT ACTIVITY MONITORING Doan Thanh Nghi, Nguyen Thanh Hien Triet, Thai Truong An ABSTRACT: Telemedicine is a developing service that many hospitals have invested and developed, particularly in smart medical technology. These technologies can bypass the centralized treatment of patients in huge, crowded hospitals, allowing patients to be treated for at home instead. Then, a remote monitoring system of the patient's behaviors is critical, assisting in early warning and treatment. However, such systems currently have significant drawbacks. In this paper, we have proposed a real-time smart camera system that can remotely monitor, detect, and warn of abnormal patient activities at a low cost and with simple practical implementation. Specifically, we have presented a network model that combines LSTM, MobileNetV2, and Raspberry Pi 4 for remote patient action recognition. We have created the dataset by gathering actual data and utilizing existing data sets. Our method has been evaluated and tested in practice with an average accuracy of more than 96%.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0