Luận án Tiến sĩ Kỹ thuật Điện tử: Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu

Chia sẻ: Gaocaolon6 Gaocaolon6 | Ngày: | Loại File: PDF | Số trang:150

Thêm vào BST

Báo xấu

55
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án nghiên cứu ước lượng khung xương của người từ dữ liệu võ cổ truyền trong không gian 3-D; nhận dạng và chấm điểm động tác võ cổ truyền Việt Nam.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật Điện tử: Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội − 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU Ngành: Kỹ thuật điện tử Mã số : 9520203 LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Lê Dũng 2. TS. Phạm Thành Công Hà Nội − 2020
LỜI CAM ĐOAN Tôi xin cam đoan luận án: "Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu" là công trình nghiên cứu của riêng tôi. Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước và quốc tế. Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứu trong và ngoài nước. Hà Nội, tháng 01 năm 2020 NGHIÊN CỨU SINH Nguyễn Tường Thành TẬP THỂ HƯỚNG DẪN TS Lê Dũng TS. Phạm Thành Công i
LỜI CẢM ƠN Luận án tiến sĩ được thực hiện tại Viện Điện tử Viễn thông, trường Đại học Bách khoa Hà Nội dưới sự hướng dẫn khoa học của TS Lê Dũng và TS Phạm Thành Công. Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô về định hướng khoa học trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin được trân trọng cảm ơn các nhà khoa học, tác giả các công trình công bố đã được trích dẫn và cung cấp nguồn tư liệu quý báu trong quá trình hoàn thành luận án. Nghiên cứu sinh xin trân trọng cảm ơn Viện Điện tử Viễn thông; Phòng Đào tạo Trường Đại học Bách Khoa Hà Nội; Các thầy cô trong Viện Điện tử Viễn thông, các anh chị và các bạn trong nhóm NCS, các võ sư Hồ Minh Mộng Hùng, Phạm Đình Khiêm, Phạm Ngọc Dương, Bùi Thị Lành, Nguyễn Quốc Tiễn, Trung tâm Võ thuật cổ tryền Bình Định, TP. Quy Nhơn, tỉnh Bình Định...đã quan tâm, động viên giúp đỡ và tạo điều kiện thuận lợi về thời gian, địa điểm nghiên cứu, trang thiết bị, hỗ trợ về mặt nhân lực để NCS thực hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiên cứu. Nghiên cứu sinh xin cảm ơn TS. Lê Văn Hùng nghiên cứu tại Viện nghiên cứu quốc tế MICA, Đại học Bách khoa Hà Nội và Đại học Tân Trào đã hỗ trợ kỹ thuật, đồng tác giả giúp NCS thực hiện các nghiên cứu của luận án. Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Đại học Quy Nhơn; Ban chủ nhiệm Khoa Kỹ thuật và Công nghệ, gia đình, bạn bè và đồng nghiệp đã động viên khích lệ, tạo mọi điều kiện thuận lợi để NCS yên tâm công tác và học tập. Hà Nội, tháng 01 năm 2020 NGHIÊN CỨU SINH Nguyễn Tường Thành ii
NỘI DUNG LỜI CAM ĐOAN i LỜI CẢM ƠN ii NỘI DUNG v KÝ HIỆU VÀ VIẾT TẮT vi DANH SÁCH BẢNG BIỂU viii DANH SÁCH HÌNH VẼ xiv MỞ ĐẦU 1 Chương 1: TỔNG QUAN 12 1.1 Học máy, học sâu và ứng dụng . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.1 Học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.2 Học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Hệ thống khôi phục hoạt động của người trong không gian 3-D và chấm điểm võ thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-D . 16 1.2.2 Hệ thống chấm điểm võ thuật . . . . . . . . . . . . . . . . . . . 16 1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D . . . . 16 1.3.1 Ước lượng khung xương trên ảnh màu . . . . . . . . . . . . . . 17 1.3.2 Ước lượng khung xương trên ảnh độ sâu . . . . . . . . . . . . . 18 1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động . . 21 1.3.4 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4 Ước lượng khung xương và tư thế người trong môi trường 3-D . . . . . 23 1.4.1 Phục hồi tư thế 3-D của người từ một ảnh . . . . . . . . . . . . 23 1.4.2 Phục hồi tư thế 3-D của người . . . . . . . . . . . . . . . . . . . 24 1.4.2.1 Phục hồi khung xương, tư thế người trong không gian 3-D từ một ảnh . . . . . . . . . . . . . . . . . . . . . . 25 1.4.2.2 Phục hồi khung xương, tư thế người trong không gian 3-D từ một chuỗi ảnh . . . . . . . . . . . . . . . . . . 25 1.4.3 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.5 Các bộ cơ sở dữ liệu cho việc đánh giá ước lượng khung xương trong không gian 3-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.5.1 Giới thiệu Kinect . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.5.2 Hiệu chỉnh dữ liệu thu từ cảm biến Kinect . . . . . . . . . . . . 31 1.6 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 iii
Chương 2: ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D 38 2.1 Ước lượng khung xương trong không gian 2-D . . . . . . . . . . . . . . 39 2.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . 40 2.1.3 Sử dụng học sâu cho việc ước lượng các hành động trong bài võ cổ truyền trong không gian 2-D . . . . . . . . . . . . . . . . . . 43 2.1.3.1 Phương thức . . . . . . . . . . . . . . . . . . . . . . . 43 2.1.3.2 Cơ sở dữ liệu các bài võ cổ truyền . . . . . . . . . . . 47 2.1.3.3 Phương thức đánh giá . . . . . . . . . . . . . . . . . . 53 2.1.3.4 Xoay và dịch dữ liệu trong không gian 3-D . . . . . . . 56 2.1.3.5 Kết quả ước lượng và nhận xét . . . . . . . . . . . . . 61 2.1.4 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.2 Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất 74 2.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.2.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . 74 2.2.3 Phục hồi khung xương, tư thế người trong không gian 3-D . . . 77 2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương người trong không gian 3-D . . . . . . . . . . . . . . . . . . 78 2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D . . 82 2.2.3.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . 84 2.2.4 Ước lượng khung xương, tư thế người khi bị che khuất . . . . . 85 2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Chương 3: NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ TRUYỀN VIỆT NAM 93 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ 97 3.3.1 Nhận diện động tác tấn công . . . . . . . . . . . . . . . . . . . 97 3.3.1.1 Xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 97 3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect . 97 3.3.2 Mô hình chấm điểm động tác võ cổ truyền . . . . . . . . . . . . 102 3.3.2.1 Mô tả động tác người . . . . . . . . . . . . . . . . . . 102 3.3.2.2 Công thức chấm điểm . . . . . . . . . . . . . . . . . . 105 3.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.1 Nhận diện động tác tấn công . . . . . . . . . . . . . . . . . . . 107 iv
3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại . . . 107 3.4.1.2 Nhận diện động tác tấn công bằng mạng nơ ron . . . . 108 3.4.2 Chấm điểm động tác võ cổ truyền Việt Nam . . . . . . . . . . . 110 3.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3.6 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 115 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 117 TÀI LIỆU THAM KHẢO 120 PHỤ LỤC 134 v
DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT Số Viết tắt Giải nghĩa Nghĩa tiếng Việt 1 AD Average deviation Độ lệch trung bình 2 AP Average Precision Độ chính xác trung bình 3 APM Articulated Part-based Modeldeviation Mô hình dựa trên phần khớp nối 4 CPM Convolutional Pose Machines Máy học cử chỉ tích chập 5 CPU Central Processing Unit Đơn vị xử lý trung tâm 6 CNN Convolutional Nerural Network Mạng Nơ ron tích chập 7 CNNs Convolutional Nerural Networks Mạng Nơ ron tích chập nhiều lớp 8 DPM Deformable Part Model Mô hình phần biến dạng 9 DTW Dynamic Time Warping So khớp chuỗi thời gian động 10 DV Digital Video Video số 11 fps f rame per second Khung hình trên giây 12 GPU Graphics Processing Unit Đơn vị xử lý đồ họa 13 HMMs Hidden Markov Models Mô hình Markov ẩn 14 HOG Histogram of Oriented Gradients Biểu đồ hướng dốc 15 HRNet High-Resolution Network Mạng độ phân giải cao 16 IR InfraRed camera Máy ảnh hồng ngoại 17 JI Jaccard Index Chỉ số Jaccard 18 LSTM Long Short-Term Memory Mạng bộ nhớ ngắn định hướng dài hạn 19 MADS Martial Arts, Dancing and Sports Võ cổ truyền, khiêu vũ, thể thao 20 MOCAP MOtion CAPture Thu nhận chuyển động 21 MPJPE MeanPerJointPositionError Độ đo sai số trung bình của các khớp nối 22 MS MicroSoft Microsoft 23 MSE Mean Squared Error Sai số bình phương 24 OCR Optical Character Recognition Nhận dạng ký tự quang học 25 OKS Object Key point Similarity Độ tương tự các điểm đại diện 26 OpenCV Open Computer Vision Thư viện mã nguồn mở thị giác máy tính 27 OpenNI Open Natural Interaction Thư viện hỗ trợ đa ngôn ngữ 28 PCA Principal Component Analysis Phân tích nguyên lý thành phần vi
29 PCL Poind Cloud Library Thư viện đám mây điểm 30 RAM Random Access Memory Bộ nhớ truy nhập ngẫu nhiên 31 RDF Random Decision Forests Rừng quyết định ngẫu nhiên 32 RGB Red Green Blue Đỏ Xanh lá Xanh lơ 33 SDK Software Development Kit Kit phát triển phần mềm 34 SVM Support Vector Machine Học máy hỗ trợ vector 35 TOF Time-Of-Flight sensor Cảm biến TOF 36 V1 Version 1 Phiên bản 1 37 V2 Version 2 Phiên bản 2 38 VE Vector Estimation Vector dự đoán 39 VG Vector Ground truth Vector đánh dấu thực 40 VNMA VietNam Martial Arts Võ cổ truyền Việt Nam vii
DANH SÁCH BẢNG BIỂU Bảng 1.1 Thống kê các nghiên cứu ước lượng khung xương của người trong không gian 3-D mà có đánh giá trên cơ cở dữ liệu Human3.6M [86] và kết quả ước lượng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Bảng 1.2 Khảo sát về ước lượng tư thế người trong không gian 3-D sử dụng 1 ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Bảng 1.3 Khảo sát về ước lượng khung xương người trong không gian 3-D từ một chuỗi ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Bảng 2.1 Số khung hình trong các tư thế võ của cơ sở dữ liệu VNMA. . . . 50 Bảng 2.2 Số khung hình trong các tư thế võ của cơ sở dữ liệu SVNMA. . . 51 Bảng 2.3 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệch giữa các khớp của dữ liệu gốc và các khớp nối ước lượng được (AD) và khoảng cách giữa các trung bình giữa các điểm đại diện ước lượng được và các điểm đại diện của dữ liệu gốc, tương ứng với nhau. . . . . . . . 61 Bảng 2.4 Kết quả ước lượng khung xương trên ảnh và chiếu sang không gian 3-D với 14 điểm xương trên dữ liệu VNMA. Kết quả được đánh giá trên độ đo MPJPE theo đơn vị milimet (mm). . . . . . . . . . . . . . . . . . 68 Bảng 2.5 Số khung hình đánh giá trong dữ liệu VNMA. . . . . . . . . . . . 69 Bảng 2.6 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS với 14 điểm xương. . . . . . . . . . . 71 Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương trên ảnh sai đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS. . . . . . . . 72 Bảng 2.8 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên cơ sở dữ liệu VNMA với 15 điểm xương. . . . . . . . . . 88 Bảng 2.9 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS với 15 điểm xương. . . . . . . . . . . 89 Bảng 3.1 Thể hiện tám véc tơ chi . . . . . . . . . . . . . . . . . . . . . . . 104 viii
DANH SÁCH HÌNH VẼ Hình 1 Cảm biến MS Kinect phiên bản 1. . . . . . . . . . . . . . . . . . 2 Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1 [36]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Hình 4 Khung xương, tư thế của người được ước lượng (các điểm màu xanh là các điểm xương và các khớp nối màu vàng) và môi trường được xây dựng lại trong không gian 3-D (thế giới thực). . . . . . . . . . . . . 5 Hình 5 Minh họa thiết lập các thiết bị. . . . . . . . . . . . . . . . . . . . 7 Hình 6 Mô hình giải quyết vấn đề ước lượng khung xương, tư thế người trong không gian 3-D và tái tạo lại môi trường thực tế. . . . . . . . . . 9 Hình 1.1 Minh họa mô hình của học máy [58]. . . . . . . . . . . . . . . . . 13 Hình 1.2 Mô hình phân loại học máy [59]. . . . . . . . . . . . . . . . . . . 14 Hình 1.3 Mô hình của học sâu [59]. . . . . . . . . . . . . . . . . . . . . . . 15 Hình 1.4 Minh họa phương thức ước lượng tư thế, khung xương trong không gian 3-D [155]: Đầu vào là một ảnh màu (RGB), đầu tiên là ước lượng khung xương trong không gian ảnh (2-D) sau đó ước lượng giá trị độ sâu của khung xương bằng việc tìm kiếm một mô hình khung xương, tư thế phù hợp. Khung xương ước lượng được có màu đỏ, khung xương gốc có màu xám. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Hình 1.5 Minh họa ảnh màu, ảnh độ sâu thu được từ cảm biến Kinect phiên bản 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Hình 1.6 Minh họa cảm biến Kinect phiên bản 1. . . . . . . . . . . . . . . 32 Hình 1.7 Minh họa ảnh các trạng thái hoạt động của người trong thực tế [86], [89] và hệ thống MOCAP [102] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D. . . . . . . . . . . . . . . . . . . 34 ix
Hình 1.8 Minh họa ảnh về các loại hoạt động trong cơ sở dữ liệu [32] và hệ thống MOCAP [102] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Hình 2.1 Minh họa kết quả ước lượng khung xương, tư thế người trong không gian 2-D [106]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Hình 2.2 Minh họa bản đồ các điểm nổi bật được tạo ra từ ảnh cơ thể người. Trong đó mỗi vùng điểm nổi bật là một ứng cử viên vị trí của các điểm đại diện [110]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Hình 2.3 Minh họa đánh nhãn các điểm đại diện trên dữ liệu ảnh của người. Các điểm màu đỏ là các điểm đại diện trên cơ thể người. Các đoạn màu xanh thể hiện sự kết nối giữa các bộ phận trên cơ thể người. . . . . . . 44 Hình 2.4 Kiến trúc mạng nơ ron tích chập cho việc ước lượng các điểm đại diện St , và các bộ phận phù hợp trên cơ thể người khác nhau [24]. . . . 45 Hình 2.5 Minh họa chi tiết mô hình dự đoán vùng các điểm nổi bật (heatmaps) [111]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Hình 2.6 Minh họa chi tiết mô hình trích chọn đặc trưng cho việc huấn luyện mô hình dự đoán các vùng nổi bật (heatmaps) ở từng giai đoạn [111]. . 46 Hình 2.7 Minh họa kết quả ước lượng khung xương trên ảnh của mô hình đã được huấn luyện trên bộ cơ sở dữ liệu 2016 MSCOCO Keypoints Challenge [23]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Hình 2.8 Minh họa kiến trúc mạng HRnet [115]. Trong đó chiều ngang và chiều dọc lần lượt thể hiện độ sâu và biến đổi kích thước cửa sổ của bản đồ đặc trưng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Hình 2.9 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thế trong không gian 2-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Hình 2.10 Minh họa việc đánh dấu dữ liệu gốc về khung xương, tư thế người trong không gian 3-D. Trong đó thứ tự đánh dấu của các điểm như sau: (1) Đầu, (2) Cổ, (3) Vai phải, (4) khuyủ tay phải, (5) cổ tay phải, (6) Vai trái, (7) khuyủ tay trái, (8) cổ tay trái, (9) Giữa hông, (10) Hông phải, (11) Đầu gối phải, (12) Cổ chân phải, (13) Ngón chân cái phải, (14) Hông trái, (15) Đầu gối trái, (16) Cổ chân trái, (17) Ngón chân cái trái . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Hình 2.11 Các điểm đại diện (Key points) trên cơ thể người và nhãn. . . . . 51 x
Hình 2.12 Minh họa dữ liệu đám mây điểm của một cảnh. Các điểm màu xanh nước biển là dữ liệu của người trong môi trường 3-D. . . . . . . . 52 Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp được tạo ra từ các điểm đại diện [28] . . . . . . . . . . . . . . . . . . . . . . 54 Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được. Trong đó, các điểm màu xanh là các điểm quan tâm và đánh giá trong bài báo này. Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm. . 55 Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khung xương, tư thế người trong không gian ảnh. . . . . . . . . . . . . . . . . 56 Hình 2.16 Minh họa mô hình xoay và dịch dữ liệu trong không gian 3-D. . . 57 Hình 2.17 Minh họa kết quả ước lượng khung xương, tư thế người trong không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Hình 2.18 Minh họa các kết quả ước lượng các điểm đại diện và các khớp nối trên các video võ thuật cổ truyền. Các khớp nối của cơ thể người là có màu đỏ; Các khớp nối của tay phải có màu xanh lá cây; Các khớp nối của tay trái có màu giảm dần từ đỏ đến vàng; Các khớp nối của chân phải có màu xanh nước biển; Các khớp nối của chân trái có màu xanh lục. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Hình 2.19 Đồ thị thể hiện xác suất ước lượng các điểm đại diện trên 3 video võ thuật cổ truyền có thứ tự là: 2th , 9th , 12th . . . . . . . . . . . . . . . 66 Hình 2.20 Minh họa kết quả ước lượng các khớp nối trong không gian 2-D và 3-D. Tư thế của người trong không gian 3-D được thể hiện bằng Matplotlib của Python. . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Hình 2.21 Minh họa việc đánh giá ước lượng khung xương trong không gian 2-D và chiếu sang không gian 3-D. . . . . . . . . . . . . . . . . . . . . . 67 Hình 2.22 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và dữ liệu ước lượng được. . . . . . . . . . . . . . . . . . . . . . . . . . 67 Hình 2.23 Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect v1 trong bộ cơ sở dữ liệu VNMA. Vùng màu đen bị xa so với giới hạn đo của cảm biến MS Kinect v1 nên giá trị độ sâu bằng không, còn vùng người, và vùng sàn nhà có màu nâu nên giá trị độ sâu lớn hơn không. . 70 xi
Hình 2.24 Trái: Minh họa kết quả ước lượng khung xương trên ảnh màu (14 điểm xương) bằng cách sử dụng CPM trong nghiên cứu của Tome et al. [85]. Phải: Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect v1 trong bộ cơ sở dữ liệu VNMA bị mất dữ liệu vùng tóc. . . . . . . . 70 Hình 2.25 Minh họa ảnh thu thập được từ cảm biến MS Kinect v1 quá xa. 71 Hình 2.26 Phân bố lỗi khoảng cách lỗi MPJPE của các cặp điểm đại diện giữa dữ liệu gốc và dữ liệu ước lượng được trên cơ sở dữ liệu MADS. . 72 Hình 2.27 Minh họa kết quả ước lượng khung xương trên không gian 2-D (trên ảnh màu) sử dụng CPM trong nghiên cứu của Tome et al. [85]. . 73 Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong không gian 3-D với dữ liệu bị che khuất. Bên trái thể hiện kết quả ước lượng khung xương, tư thế của người trên 2-D với bộ ước lượng [24]. Bên phải là kết quả ước lượng tư thế, khung xương của người trong không gian 3-D sử dụng bộ ước lượng của [85]. . . . . . . . . . . . . . . . . . . . . 75 Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện mô hình khung xương người trong 3-D và việc so sánh khung xương ánh xạ được từ 2-D sang 3-D với bộ dữ liệu huấn luyện [85]. . . . . . . . . . . 76 Hình 2.30 Minh họa mô hình hoạt động của mạng [118]. . . . . . . . . . . . 77 Hình 2.31 Minh họa ước lượng khung xương, tư thế 3-D của người từ một chuỗi hình ảnh [124]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của người trong không gian 3-D theo từng năm. . . . . . . . . . . . . . . . . . . . 79 Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tư thế trong không gian 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . 80 Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS. [85]. . . 81 Hình 2.35 Minh họa kiến trúc mạng VNect [128]. . . . . . . . . . . . . . . . 82 Hình 2.36 Minh họa các tham số của mô hình CNN VNect. . . . . . . . . . 82 Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạng VNect. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 xii
Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụng mạng VNect [128]. Bên trái là kết quả ước lượng khung xương trong không gian 3-D; Giữa là kết quả ước lượng khung xương trên ảnh; Bên phải là kết quả ước lượng các điểm đại diện của khung xương trong không gian 2-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Hình 2.39 Minh họa mô hình khung xương, tư thế trong không gian 3-D cho việc đánh giá. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Hình 2.40 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu VNMA. Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMP training by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" là "3-D_VNECT_Method". . . . . . . . 86 Hình 2.41 Kết quả ước lượng khung xương, tư thế trong không gian 3-D. Mỗi khối là một cặp tương ứng giữa khung xương của dữ liệu gốc (ground truth - original) và khung xương ước lượng được (estimating). Mỗi cặp khung xương trong một khối đã được đồng nhất về hệ trục tọa độ. . . . 87 Hình 2.42 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu MADS. Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMP training by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" là "3-D_VNECT_Method". . . . . . . . 89 Hình 2.43 Minh họa kết quả ước lượng khung xương của phương thức "3- D_VNECT_Method" trên ảnh của cơ sở dữ liệu MADS với 21 điểm đại diện. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Hình 2.44 Minh họa kết quả ước lượng đầy đủ các khớp xương người trong không gian 3-D trên video 1th , 24th của cơ sở dữ liệu võ thuật cổ truyền Việt Nam (VNMA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Hình 3.1 Minh họa cây quyết định có đi chơi không. . . . . . . . . . . . . . 94 Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phân loại. Trong đó thuật toán này được áp dụng cho một rừng bao gồm nhiều cây quyết định. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hình 3.3 Thu thập dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Hình 3.4 Thể hiện tọa độ trên khung xương. . . . . . . . . . . . . . . . . . 99 xiii
Hình 3.5 Minh họa đặc trưng góc khuỷu tay. Đường màu đen thể hiện đặc trưng về góc khuỷu tay. . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Hình 3.6 Vị trí các khớp xương mà camera Kinect cung cấp. . . . . . . . . 103 Hình 3.7 Dữ liệu khung xương Kinect và véc tơ chân tay. . . . . . . . . . . 104 Hình 3.8 Chương trình thu nhận dữ liệu chuẩn từ võ sư. . . . . . . . . . . 105 Hình 3.9 Thể hiện chiều cao của cây và số đặc trưng. . . . . . . . . . . . . 108 Hình 3.10 Sự lặp lại kiến trúc module trong mạng RNN chứa một tầng ẩn . 109 Hình 3.11 Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3 sigmoid và 1 tanh) tương tác . . . . . . . . . . . . . . . . . . . . . . . . 110 Hình 3.12 Diễn giải các kí hiệu trong đồ thị mạng nơ ron . . . . . . . . . . 110 Hình 3.13 Kết quả nhận dạng trên tập Test thế võ công. . . . . . . . . . . . 111 Hình 3.14 Kết quả nhận dạng trên tập Test thế thủ. . . . . . . . . . . . . . 111 Hình 3.15 Lấy mẫu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Hình 3.16 Các vị trí dừng để chấm điểm. . . . . . . . . . . . . . . . . . . . . 113 Hình 3.17 Thống kê trung bình điểm chấm 36 động tác võ cổ truyền Việt Nam.113 Hình 3.18 Giao diện chương trình chấm điểm. . . . . . . . . . . . . . . . . . 114 Hình 3.19 Giao diện chương trình chấm điểm. . . . . . . . . . . . . . . . . . 114 xiv
MỞ ĐẦU 1. Tính cấp thiết của nghiên cứu Võ cổ truyền là một môn thể thao, nghệ thuật thể hiện bản sắc dân tộc. Võ thuật giúp rèn luyện sức khỏe, tự vệ cho con người của mỗi dân tộc, mỗi đất nước. Võ cổ truyền đã có từ lâu đời với mỗi quốc gia, đồng thời gắn liền với lịch sử dựng nước và giữ nước [12]; Như võ cổ truyền Bình Định của Việt Nam [8]; Võ Judo, Karate, Kendo, Kyudo của người Nhật Bản [9]; Võ Kung Fu, TaiChi của người Trung Quốc [10]. Để bảo tồn và duy trì các bài võ cổ truyền đặc sắc và có giá trị văn hóa là một vấn đề quan trọng đối với các nhà quản lý, quốc gia [6], [8], [11]. Trước kia việc lưu trữ là truyền miệng, qua các hình vẽ các thế võ liên tục và đời trước dạy cho đời sau, nên các thế võ có thể bị biến tướng và không chuẩn xác. Ngày nay, việc ghi lại thành các video để lưu trữ là một hướng tiếp cận tốt. Ở Việt Nam từ năm 2016, các bài võ cổ truyền được đưa vào giảng dạy trong các trường phô thông để rèn luyện sức khỏe và tự vệ cho các em học sinh. Nên việc xây dựng một mô hình chấm điểm các bài võ được truyền dạy trên lớp là điều cần thiết. Các mô hình này giúp học sinh phổ thông tự đánh giá các tư thế võ trong bài võ mà không cần phải nhờ đến các võ sư tại các võ đường. Tuy nhiên, các thế võ là các hành động nhanh, khó, quay bốn hướng mà các thiết bị ghi hình thường chỉ nằm ở một vị trí nên có nhiều tư thế bị che khuất. Nên thường để lưu giữ các bài võ thì phải quay từ nhiều góc khác nhau hoặc quay bằng nhiều camera đặt từ nhiều hướng. Để bảo tồn, truyền, dạy các thế võ một cách trực quan thì việc phát hiện, ước lượng các thế võ ở các cảnh bị che khuất là việc làm cần thiết. Đồng thời xây dựng môi trường 3-D để trực quan hóa việc đào tạo và dạy võ cổ truyền là một vấn đề cần thiết để giảm thời gian, chi phí, công sức của các võ sư. Đặc biệt là tăng tính tự giác chủ động trong tập luyện và đánh giá luyện tập của các học sinh phổ thông. Để thu thập được các video phục vụ cho việc bảo tồn và duy trì các thế võ người ta thường sử dụng các cảm biến hình ảnh như các loại camera gắn trên các điện thoại thông minh, hay các loại camera chuyên dụng. Đặc biệt, để xây dựng được khung cảnh (môi trường) 3-D về các tư thế võ người ta thường sử dụng các cảm biến có ảnh độ sâu như Kinect phiên bản 1 (Version 1 - V1), Kinect phiên bản 2 (Version 2 - V2), Real scene D435, vv. Trong đó, cảm biến Kinect V1 là một loại cảm biến rẻ tiền (giá ngoài thị trường chỉ khoảng 1 triệu Việt Nam đồng - 40 USD) như Hình 1 và chất lượng ảnh màu, ảnh độ sâu của cảm biến này là chấp nhận được. Với giá thành rẻ như vậy phù hợp với túi tiền của người Việt Nam và khả năng phổ dụng của loại cảm biến này là cao hơn so với các cảm biến khác. Cảm biến MS Kinect cũng có thể thu thập được dữ 1
Hình 1 Cảm biến MS Kinect phiên bản 1. Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1 [36]. liệu khung xương các tư thế của con người như Hình 2. Tuy nhiên, dữ liệu khung xương thu được từ cảm biến MS Kinect v1 là bị mất rất nhiều. Như trong nghiên cứu của Wang và các cộng sự [37] đã cho thấy sự sai khác và thiếu dữ liệu rất lớn giữa cảm biến MS Kinect v1 và MS Kinect v2. Do đó trước khi thực hiện xây dựng các mô hình đánh giá và chấm điểm các động tác võ được truyền dạy trên lớp thì cần thực hiện các nghiên cứu về ước lượng, khôi phục khung xương của người trong các video võ thuật cổ truyền. Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương, hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh. Hầu hết các nghiên cứu đều sử dụng việc học các đặc trưng trên ảnh màu, độ sâu để học mô hình người, các hành động của người và sử dụng các bộ phân lớp cho việc dự đoán. Trước đây thì thường sử dụng các bộ phân lớp như SVM (Support Vector Machine) [39], Random decision forests (RDF) [40] cho việc học và dự đoán các khớp 2
trên cơ thể người. Ngày nay với sự phát triển mạnh mẽ của học sâu (Deep Learning) thì có rất nhiều mạng được thiết kế cho việc ước lượng các khớp xương trên cơ thể người [41], [48]. Dữ liệu thu được từ cảm biến Kinect v1 bao gồm ảnh màu và ảnh độ sâu, nếu thực hiện ước lượng các điểm đại diện và các khớp xương trên ảnh màu thì có rất nhiều trường hợp các khớp xương bị che khuất không thể ước lượng được. Khi thực hiện ước lượng trên ảnh độ sâu thì có một số trường hợp dữ liệu ảnh độ sâu bị thiếu hoặc mất dữ liệu nên cũng có nhiều điểm đại diện và khớp nối không ước lượng được. Tuy nhiên trên ảnh độ sâu chứa thông tin trong không gian thực (giá trị độ sâu) của người nên có thể ước lượng được các khớp xương trong trường hợp bị che khuất. Nên luận án thực hiện kết hợp kết quả ước lượng trên ảnh màu và chiếu kết quả ước lượng vào không gian 3-D để có được kết quả ước lượng các điểm đại diện và các khớp xương cao hơn. Đặc biệt, khi ước lượng khung xương, tư thế người trong không gian 3-D có thể ước lượng được các khớp xương bị che khuất do dữ liệu thu được một phía nhìn thấy của người. Từ khớp xương đầy đủ có thể thể hiện được đầy đủ các động tác võ trong các video võ cổ truyền. Đây là một bước quan trọng trong việc tái tạo và ghi lại các tư thế võ cổ truyền của các võ sư và thực hành các động tác được truyền dạy của các em học sinh phổ thông. Trong đó hệ thống chấm điểm các động tác võ cũng là một ứng dụng quan trọng trong việc đánh giá việc biểu diễn các tư thế, động tác võ đúng và chuẩn hay không. Trong võ thuật thì việc thể hiện đúng và chuẩn làm cho võ thuật phát huy được hết sức mạnh: tấn công mạnh, phòng thủ chắc chắn (như Hình 3 thể hiện việc dạy võ cổ truyền tại võ đường Nguyễn Thanh Vũ, thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam). Các phương thức ước lượng khung xương, tư thế người trên ảnh màu và không gian 3-D gần đây thường sử dụng các mạng Nơ ron tích chập mới hiện nay cho việc huấn luyện mô hình ước lượng. Các kết quả được đánh giá trên cơ sở dữ liệu về các tư thế võ cổ truyền của Nhật Bản (Karate) và Trung Quốc (Tai Chi). Đặc biệt, luận án cũng công bố bộ cơ sở dữ liệu về các thế võ cổ truyền Việt Nam do các em học sinh phổ thông biểu diễn và đánh giá các kết quả ước lượng các điểm đại diện và khớp xương trên cơ sở dữ liệu này trong không gian 2-D và 3-D để xây dựng hệ thống bảo tồn, giảng dạy, đánh giá các bài võ cổ truyền Việt Nam trực quan. Tóm lại, luận án tập trung cải tiến kết quả ước lượng các điểm đại diện và các khớp xương trong các trường hợp bị che khuất khi chỉ sử dụng một cảm biến MS Kinect v1 để thu thập dữ liệu từ môi trường. Kết quả này là sự kết hợp của mô hình ước lượng tốt trên không gian ảnh 2-D và ánh xạ trong môi trường 3-D để nâng cao kết quả ước lượng. Đây chính là ý tưởng trong luận án này, trong mô hình xây dựng ứng dụng của luận án bao gồm một số bước: (1) Từ dữ liệu đầu vào thu được từ cảm biến MS Kinect (ảnh màu, ảnh độ sâu); (2) Sử dụng các mạng nơ ron tích chập đã được thiết kế để 3
Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam. huấn luyện mô hình ước lượng trên ảnh màu và ảnh độ sâu; (3) Kết hợp kết quả ước lượng trong không gian 2-D và 3-D, biểu diễn kết quả trong không gian 3-D, trong đó các khớp xương của người trong video được ước lượng và khôi phục đầu đủ; (4) từ đó xây dựng mô hình chấm điểm các động tác võ cổ truyền áp dụng cho các em học sinh phổ thông có thể tự đánh giá bài võ của mình. Trong đó bước (2) là bước quan trọng nhất trong mô hình này. 2. Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu Mục tiêu của luận án: - Đề xuất hướng tiếp cận để ước lượng và phục hồi khung xương trong không gian 3-D và để xây dựng một hệ thống tái tạo môi trường 3-D của các video biểu diễn võ thuật và ước lượng khung xương, tư thế của người trong video. Phương thức này được kết hợp giữa ước lượng các điểm đại diện và các khớp nối trên ảnh màu (không gian 2-D) và ước lượng trong không gian 3-D để có được kết quả ước lượng các khớp xương tốt, đặc biệt là khôi phục được các khớp xương trong trường hợp các bộ phận của người bị che khuất. Khi có ước lượng khung xương trong không gian 3-D tốt có nghĩa là giá trị khoảng cách lỗi giữa các điểm đại diện trên khung xương ước lượng được và khung xương gốc nhỏ. Từ đó thể hiện chính xác tư thế của người trong các động tác võ. Mô hình ước lượng các điểm đại diện trên không gian 2-D được chọn từ nghiên cứu so sánh cho bài toán ước lượng các điểm đại diện trong không gian 2-D, sử dụng các mạng nơ ron tích chập và huấn luyện trên các bộ cơ sở dữ liệu chuẩn (benchmark). Đồng thời 4