intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Kỹ thuật: Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:110

19
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của luận án là nghiên cứu đại số hình học bảo giác để biểu diễn các đối tượng chuyển động phức tạp trong không gian. Trên cơ sở đó, đề xuất mô hình kết hợp đại số hình học bảo giác với học máy để nâng cao hiệu quả nhận dạng các đối tượng chuyển động trong không gian và hành động của con người.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật: Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NĂNG HÙNG VÂN NGHIÊN CỨU BIỂU DIỄN VÀ NHẬN DẠNG ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC VÀ HỌC MÁY LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng – 2021
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NĂNG HÙNG VÂN NGHIÊN CỨU BIỂU DIỄN VÀ NHẬN DẠNG ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC VÀ HỌC MÁY Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS. Kanta Tachibana 2. TS. Phạm Minh Tuấn Đà Nẵng - 2021
  3. LỜI CAM ĐOAN Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ luận án nào khác. Một số kết quả nghiên cứu là thành quả của tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ. Tác giả Nguyễn Năng Hùng Vân i
  4. MỤC LỤC LỜI CAM ĐOAN ................................................................................................... i MỤC LỤC ............................................................................................................. ii DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... v DANH MỤC KÝ HIỆU TOÁN HỌC .................................................................. vi DANH MỤC HÌNH VẼ ....................................................................................... vii DANH MỤC BẢNG BIỂU .................................................................................... x MỞ ĐẦU ................................................................................................................ 1 1. Mục tiêu nghiên cứu.................................................................................. 3 2. Đối tượng và phạm vi nghiên cứu............................................................. 4 3. Phương pháp nghiên cứu .......................................................................... 5 4. Bố cục của luận án .................................................................................... 5 5. Đóng góp chính của luận án...................................................................... 6 Chương 1. PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG HỌC MÁY .............................................................................................. 9 1.1 Phương pháp biểu diễn dữ liệu trong không gian ................................. 9 1.1.1 Phương pháp biểu diễn dữ liệu bằng không gian vectơ................. 10 1.1.2 Phương pháp biểu diễn dữ liệu bằng ma trận ................................ 10 1.1.3 Phương pháp biểu diễn dữ liệu bằng Ten-xơ ................................ 11 1.2 Phương pháp biểu diễn đối tượng chuyển động trong học máy ......... 12 1.2.1 Biểu diễn dữ liệu dựa trên mô hình xác suất ................................. 13 1.2.2 Phương pháp giảm chiều dữ liệu .................................................. 16 1.2.3 Phương pháp tăng chiều dữ liệu ................................................... 19 1.3 Phương pháp biểu diễn đối tượng chuyển động sử dụng CGA........... 25 1.3.1 Đại số hình học ............................................................................ 27 ii
  5. 1.3.2 Đại số hình học bảo giác .............................................................. 27 1.4 Kết luận chương .................................................................................... 28 Chương 2. ĐỀ XUẤT PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC ..................................... 31 2.1 Đại số hình học hình học bảo giác ........................................................ 31 2.1.1 Đại số hình học ............................................................................ 31 2.1.2 Đại số hình học Bảo giác ............................................................. 37 2.2 Đề xuất phương pháp phân cụm dữ liệu sử dụng CGA ...................... 41 2.2.1 Phân cụm dữ liệu sử dụng CGA dựa trên GMM........................... 43 2.2.2 Lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA ...... 45 2.2.3 Phương pháp kết hợp HMM với phân cụm sử dụng CGA ............ 49 2.3 Đề xuất phương pháp trích chọn đặc trưng sử dụng CGA ................. 50 2.3.1 Phương pháp trích chọn đặc trưng sử dụng PCA .......................... 51 2.3.2 Phương pháp trích chọn đặc trưng sử dụng CGA ......................... 53 2.3.3 Phương pháp PCR kết hợp với CGA ............................................ 55 2.3.4 Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp RNN.... 60 2.4 Kết luận chương .................................................................................... 64 Chương 3. TRIỂN KHAI THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ........ 67 3.1 Dữ liệu thực nghiệm .............................................................................. 68 3.1.1 Đối tượng chuyển động trong không gian .................................... 68 3.1.2 Bộ dữ liệu chuyển động CMU...................................................... 69 3.1.3 Dữ liệu thực nghiệm .................................................................... 71 3.2 Nhận dạng hành động dựa trên phân cụm CGA kết hợp với HMM .. 71 3.2.1 Kết quả thực nghiệm .................................................................... 72 3.2.2 Đánh giá kết quả .......................................................................... 74 iii
  6. 3.3 Nhận dạng hành động dựa vào phương pháp PCR kết hợp với CGA 75 3.3.1 Các phương pháp thực nghiệm ..................................................... 76 3.3.2 Kết quả thực nghiệm .................................................................... 76 3.3.3 Đánh giá kết quả .......................................................................... 79 3.4 Nhận dạng hành động dựa vào phương pháp CGA kết hợp với RNN79 3.4.1 Kết quả thực nghiệm .................................................................... 79 3.4.2 Đánh giá kết quả .......................................................................... 81 3.5 Kết luận chương .................................................................................... 82 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................... 84 1. Kết quả của luận án ................................................................................ 84 2. Đánh giá kết quả ..................................................................................... 84 3. Hướng nghiên cứu tiếp theo.................................................................... 87 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ..................... 88 TÀI LIỆU THAM KHẢO ................................................................................... 89 iv
  7. DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt 2D Two Dimension Hai chiều 3D Three Dimension Ba chiều AI Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơron nhân tạo CGA Conformal Ageometric Algebra Đại số hình học bảo giác CMU Carnegie Mellon University Đại học Carnegie Mellon CNN Convolutional Neural Network Mạng nơron tích chập DL Deep Learning Học sâu DTW Dynamic Time Warping So khớp thời gian động EM Expectation Maximization Thuật toán cực đại hóa kỳ vọng GA Geometric Algebra Đại số hình học GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss HAR Human Activity Recognition Nhận dạnh hành động người HMM Hidden Markov Model Mô hình Markov ẩn KNN k-Nearest Neighbor láng giềng gần nhất LDA Linear Discriminant Analysis Phân tích biệt thức tuyến tính LSTM Long Short Term Memory Mạng nơron nhớ ngắn-dài hạn m-D m-Dimension m chiều PCA Principal Components Analysis Phân tích thành phần chính PCR Principal Component Regression Hồi quy thành phần chính RGB Red Green Blue Hệ màu Đỏ-Lục-Lam RNN Recurrent Neural Network Mạng nơron hồi quy SVM Support Vector Machine Máy vectơ hỗ trợ VQ Vector Quantization Lượng tử hóa vectơ v
  8. DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu, từ viết tắt Diễn giải Hàm số Lagrange Ma trận phương sai trong CGA Ma trận phương sai trong PCA Ma trận khoảng cách Hàm mật độ xác suất Gauss Tập dữ liệu huấn luyện Số phân cụm Xác suất chuyển từ trạng thái trong HMM Mật độ xác suất đầu ra trong HMM Tập các điểm trong không gian CGA Vectơ bảo giác trong không gín CGA Các trạng thái trong HMM Vectơ trọng số của phép biến đổi tuyến tính trong PCA Vectơ trung bình trong tập dữ liệu Hàm kích hoạt trong mô hình RNN vi
  9. DANH MỤC HÌNH VẼ Hình 1.1: Mô hình huấn luyện dữ liệu trong học máy ................................... 9 Hình 1.2: Mô hình hỗn hợp Gauss của M phân phối thành phần ................. 14 Hình 1.3: Mô hình Markov ẩn 3 trạng thái. ................................................. 15 Hình 1.4: Biểu diễn dữ liệu trong không gian mới của PCA ........................ 17 Hình 1.5: Phương pháp phân tích biệt thức tuyến tính hai lớp ..................... 18 Hình 1.6: Xác định siêu phẳng với lề cực đại của SVM trong 2D................ 20 Hình 1.7: Minh họa quá trình biểu diễn tăng số chiều dữ liệu bằng phương pháp kernel SVM ........................................................................................ 21 Hình 1.8: Mạng nơron với các nút kết nối với nhau để mô phỏng mạng nơron trong não người........................................................................................... 22 Hình 1.9: Kiến trúc của mạng nơron tích chập gồm hai thành phần ............. 23 Hình 1.10: Phép tích chập trong mạng nơron tích chập ............................... 24 Hình 1.11: Tầng hợp nhất (max pool) với bộ lộc và bước nhảy (stride) bằng 2 trong mạng nơron tích chập......................................................................... 25 Hình 1.12: Mô hình khớp xương và mật độ phân bố dữ liệu khớp lhumerus 26 Hình 2.1: Biểu diễn 2 vectơ trong không gian Clifford 2D .......................... 32 Hình 2.2: Biểu diễn 3 vectơ trong không gian Clifford 3D .......................... 33 Hình 2.3: Phép ngoại tích trong đại số hình học .......................................... 34 Hình 2.4: Phản xạ một vectơ qua một mặt phẳng trong không gian GA ...... 35 Hình 2.5: Phép quay trong không gian GA .................................................. 36 Hình 2.6: Mô hình nhận dạng hành động dựa trên phương pháp phân cụm sử dụng CGA kết hợp với HMM ..................................................................... 42 Hình 2.7: Dữ liệu của đối tượng phân bố dạng hình cung ............................ 43 Hình 2.8: Phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác .... 48 vii
  10. Hình 2.9: Mô hình nhận dạng hành động bằng phương pháp lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA và thuật toán k-means ................. 48 Hình 2.10: Mô hình nhận dạng hành động bằng hương pháp kết hợp HMM với phân cụm sử dụng CGA .............................................................................. 49 Hình 2.11: Mô hình nhận dạng hành động sử dụng phương pháp trích chọn đặc trưng sử dụng CGA_PCA ........................................................................... 51 Hình 2.12: So sánh phương pháp biểu diễn dữ liệu trong PCA và CGA ...... 54 Hình 2.13: Minh họa phương pháp biểu diễn dữ liệu sử dụng PCR trong một lớp .............................................................................................................. 55 Hình 2.14: Dữ liệu phân bố hai lớp dạng hỗn hợp của đối tượng chuyển động trong không gian ......................................................................................... 57 Hình 2.15: Mô hình đề xuất nhận dạng hành động dựa vào PCR kết hợp với CGA ........................................................................................................... 58 Hình 2.16: Ma trận khoảng cách của đối tượng ........................................... 59 Hình 2.17: Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN để nhận dạng hành động con người ............................................................. 61 Hình 2.18: Mô hình mạng nơron hồi quy ‘many to one’.............................. 63 Hình 3.1: Mô hình khởi tạo đối tượng (marker) chuyển động trên cơ thể, nguồn từ [21] ......................................................................................................... 68 Hình 3.2: Mô hình hóa các khớp xương (marker) trên cơ thể ...................... 69 Hình 3.3: Kết quả nhận dạng sử dụng HMM dựa trên thuật toán phân cụm k- mean và phương pháp đề xuất CGA clustering ........................................... 75 Hình 3.4: Mô hình khớp xương và mật độ phân bố dữ liệu khớp lhumerus . 77 Hình 3.5: Kết quả của phương pháp đề xuất sử dụng PCR kết hợp với CGA để nhận dạng hành đồng con người.................................................................. 78 Hình 3.6: So sánh kết quả của các phương pháp đề xuất thực nghiệm ......... 78 viii
  11. Hình 3.7: Kết quả nhận dạng hành động người khi kết hợp PCA và RNN ... 80 Hình 3.8: Kết quả nhận dạng hành động người khi kết hợp CGA và RNN .. 81 ix
  12. DANH MỤC BẢNG BIỂU Bảng 3.1: Bộ dữ liệu thực nghiệm ............................................................... 71 Bảng 3.2: Bảng so sánh kết quả nhận dạng hành động khi sử dụng CGA clustering và thuật toán k-means trong VQ ................................................. 73 Bảng 3.3: Bảng so sánh kết quả khi sử dụng phương pháp tiền xử lý trên mô hình huấn luyện RNN ................................................................................. 80 Bảng 3.4: Bảng so sánh kết quả của hai phướng pháp đề xuất ..................... 82 Bảng 3.5: Bảng tổng hợp kết quả của các phương pháp đề xuất .................. 85 x
  13. MỞ ĐẦU Học máy là một lĩnh vực của Trí tuệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép máy tính có thể thực hiện được các bài toán phức tạp. Cốt lõi của học máy là phân tích các tập dữ liệu để tìm ra những quy luật và mô hình thích hợp nhất để vận dụng vào thực tiễn. Những nghiên cứu trong lĩnh vực học máy đang hướng đến tất cả lĩnh vực khác nhau trong cuộc sống như tin sinh học, y học, thị giác máy tính [14], xử lý ngôn ngữ tự nhiên [19] và Trí tuệ nhân tạo [54] để cung cấp cho người dùng các công cụ xử lý thông tin và hỗ trợ ra quyết định [62]. Ngày nay, khoa học và công nghệ phát triển đã tạo ra một khối lượng dữ liệu lớn từ các hệ thống giao dịch điện tử, hệ thống lưu trữ dữ liệu đa phương tiện và các ứng dụng của cảm biến trong internet vạn vật (internet of things). Sự phát triển công nghệ đã thúc đẩy các nhà nghiên cứu chuyển từ thu, nhận dữ liệu ở mức thấp sang nghiên cứu tích hợp mức cao có khả năng phân tích, nhận dạng và dự báo các vấn đề có thể xảy ra trong tương lai [20]. Do đó, ngày càng nhiều bài toán thực tế cần được giải quyết, đặc biệt là nhận dạng đối tượng chuyển động trong không gian để hỗ trợ cho các hệ thống an ninh, ngôi nhà thông mình, bệnh viện thông minh, v.v. và cung cấp cho người dùng những công cụ ngày càng hoàn thiện hơn. Trong mô hình huấn luyện nhận dạng đối tượng chuyển động [45], dữ liệu đầu vào được biểu diễn dưới dạng không gian vectơ đặc trưng và sử dụng các phương pháp biểu diễn dữ liệu để trích chọn đặc trưng cho các mô hình học máy [14] phân loại đối tượng. Hiện nay, có rất nhiều nghiên cứu liên quan đến biểu diễn đối tượng trong học máy được các nhà khoa học đề xuất và thử nghiệm. Các nghiên cứu đã tập trung vào phương pháp trích chọn đặc trưng giảm số chiều dữ liệu như phân tích thành phần chính (Principal Components Analysis - PCA) [36], phân tích biệt thức tuyến tính (Linear Discriminant Analysis - LDA) [42] và hồi quy thành phần chính (Principal Component Regression - PCR) [35] và phương pháp tăng chiều dữ liệu như máy vectơ hỗ trợ (kernel Support Vector Machine - SVM) [11, 90] và mạng 1
  14. nơron (Neural Network - NN) [8]. Tuy nhiên, các phương pháp này chủ yếu sử dụng phương pháp tuyến tính và giả sử dữ liệu phân bố trên mặt phẳng hay siêu mặt phẳng đặc biệt nào đó mà không phải dạng phân bố ngẫu nhiên trong không gian. Do đó, quá trình biểu diễn các đối tượng chuyển động dựa vào học máy đã gặp rất nhiều khó khăn: - Thứ nhất, việc thu thập dữ liệu đầu vào từ nhiều nguồn, nhiều định dạng khác nhau rất phức tạp, trong khi đó các phương pháp biểu diễn dữ liệu bị giới hạn bởi các thuật toán đã có sẳn. - Thứ hai, các đặc trưng của đối tượng thường rất lớn và không phải đặc trưng nào cũng tốt cho các mô hình học máy. - Thứ ba, các thuật toán phổ biến trong học máy thường sử dụng các phép biến đổi tuyến tính và giả sử các đối tượng đều phân bố trên mặt phẳng hay siêu phẳng. Điều này dẫn đến những khó khăn nhất định đối với dữ liệu phân bố trên hình cầu hay siêu cầu, chẳng hạn như các đối tượng chuyển động quay trong không gian nhiều chiều. - Thứ tư, các hàm tối ưu trong học máy đa phần sử dụng hàm khoảng cách Euclid nên không phản ánh được mối liên kết hình học và biểu diễn không chính xác chuyển động của đối tượng. Ví dụ như, D. Gehrig [15] sử dụng các phương pháp biệt thức tuyến tính (LDA) và chuyển tiếp tuần tự (Sequential Forward Selection - SFS) để lựa chọn đặc trưng và giảm chi phí tính toán. L. Fengjun [26] phân tích và đưa ra bảy loại đặc trưng khác nhau dựa vào tư thế người và kết hợp với các khớp xương, sau đó sử dụng mô hình Markov ẩn (Hidden Markov Model - HMM) [24, 44, 53] để xây dựng mô hình nhận dạng. J. B. MacQueen [37] đã phân cụm dữ liệu bằng cách tối thiểu hàm mục tiêu khoảng cách để gắn nhãn cho dữ liệu. Vì vậy, luận án đề xuất sử dụng đại số hình học bảo giác (Conformal Geometric Algebra - CGA) [17, 18] để biểu diễn các đối tượng chuyển động trong không gian. CGA được mở rộng từ không gian thực chiều bằng cách thêm hai 2
  15. vectơ cơ sở và sử dụng phép biến đổi để chuyển các vectơ trong không gian thực thành tập hợp điểm trong không gian CGA. Một vectơ trong không gian CGA được biểu diễn dưới dạng là một điểm, mặt phẳng, siêu phẳng hoặc siêu cầu. Vì vậy, sử dụng CGA để biểu diễn các đối tượng chuyển động trong không gian có dữ liệu phân bố phức tạp dạng siêu phẳng hoặc siêu cầu rất đơn giản và chính xác. Xuất phát từ nhu cầu thực tiễn trên, tôi chọn đề tài “Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy” để làm nội dung nghiên cứu của luận án Tiến sĩ, nhằm góp phần vào việc biểu diễn đối tượng chuyển động trong không gian và ứng dụng vào lĩnh vực xử lý ảnh, nhận dạng vật thể chuyển động quay trong không gian và nhận dạng hành động con người. 1. Mục tiêu nghiên cứu Mục tiêu của luận án là nghiên cứu đại số hình học bảo giác để biểu diễn các đối tượng chuyển động phức tạp trong không gian. Trên cơ sở đó, đề xuất mô hình kết hợp đại số hình học bảo giác với học máy để nâng cao hiệu quả nhận dạng các đối tượng chuyển động trong không gian và hành động của con người. Đặc biệt, luận án tập trung vào các vấn đề nghiên cứu sau đây: - Thứ nhất, luận án nghiên cứu tổng quan về biểu diễn dữ liệu trong không gian và phương pháp biểu diễn dữ liệu trong học máy. Tổng quan về đại số hình học, đại số hình học bảo giác và tìm hiểu về một số mô hình học máy được sử dụng phổ biến hiện nay. - Thứ hai, luận án nghiên cứu và đề xuất kết đại số hình học bảo giác với học máy để phân cụm dữ liệu cho mô hình Markov ẩn huấn luyện và nhận dạng. - Thứ ba, từ những ưu điểm của đại số hình học bảo giác để biểu diễn đối tượng chuyển động trong không gian, luận án đề xuất sử dụng CGA thay thế cho PCA để tối ưu hóa dữ liệu trong mô hình học máy PCR và áp dụng cho nhận dạng hành động con người. 3
  16. - Thứ tư, luận án đề xuất giảm chiều dữ liệu bằng phương pháp trích chọn đặc trưng sử dụng đại số hình học bảo giác và kết hợp với mạng nơron hồi quy (RNN) để nhận dạng hành động con người. - Thứ năm, luận án kiểm chứng các mô hình đề xuất bằng cách xây dựng mô hình thực nghiệm dựa trên các phương pháp đề xuất để đánh giá và chọn ra mô hình có kết quả tốt nhất. Nhằm đáp ứng hiệu quả các phương pháp được đề xuất, luận án đã tiến hành thiết lập và thử nghiệm trên bộ dữ liệu chụp chuyển động của Trường Đại học Carnegie Mellon (Carnegie Mellon University, USA – CMU) [95] với nhiều hành động khác nhau của con người. Các thực nghiệm được tiến hành với nhiều tham số khác nhau để so sánh, đánh giá và phân tích các kết quả thu được để từ đó đưa ra hướng nghiên cứu phù hợp cho luận án. 2. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận án gồm: - Đại số hình học và đại số hình học bảo giác. - Một số mô hình học máy như HMM, PCR và RNN. - Phương pháp phân cụm dữ liệu và trích chọn đặc trưng sử dụng đại số hình học bảo giác trong chuyển động quay và hành động con người. Xác định mục tiêu và đối tượng nghiên cứu như trên, phạm vi nghiên cứu của luận án tập trung vào các vấn đề chính như sau: - Nghiên cứu về đại số hình học bảo giác dựa trên mối liên kết hình học như điểm, đường thẳng, mặt phẳng, hình cầu, siêu cầu để áp dụng vào học máy. - Nghiên cứu mô hình đại số hình học bảo giác trong học máy bao gồm hai công việc chính là: (1) sử dụng CGA để phân cụm và trích chọn đặc trưng của đối tượng; (2) kết hợp CGA với một số mô hình học máy để huấn luyện và nhận dạng đối tượng chuyển động. Luận án đề xuất sử dụng CGA để biểu diễn đối tượng chuyển động và kết hợp 4
  17. CGA với học máy để nhận dạng hành động người. 3. Phương pháp nghiên cứu Việc thực hiện luận án dựa trên cơ sở kế thừa các kiến thức nền tảng trong khoa học và kỹ thuật sau đây: - Đại số hình học và đại số hình học bảo giác - Các kỹ thuật và mô hình trong học máy. - Xử lý ảnh và khoa học dữ liệu. Phương pháp nghiên cứu sử dụng trong luận án là phương pháp kết hợp lý thuyết và thực nghiệm để đánh giá kết quả của mô hình đề xuất, như: - Tìm hiểu các nghiên cứu liên quan về học máy và đại số hình học bảo giác. Trên cơ sở đó đánh giá ưu điểm, khuyết điểm của từng phương pháp để đề xuất phương pháp nghiên cứu và mô hình biểu diễn đối tượng chuyển động trong không gian. Việc đánh giá các phương pháp sẽ dựa vào tỷ lệ nhận dạng chính xác và tốc độ xử lý. - Phân tích những đặc điểm của đối tượng chuyển động trong không gian 3D và sử dụng bộ dữ liệu CMU để thực nghiệm. Xây dựng mô hình dựa trên các phương pháp đề xuất để thực nghiệm và đánh giá kết quả. 4. Bố cục của luận án Trên cơ sở các nhiệm vụ nghiên cứu, để đạt mục tiêu đề ra và đảm bảo tính hợp lý của vấn đề nghiên cứu, ngoài phần mở đầu, phần kết luận và hướng phát triển, luận án được cấu trúc với ba chương và nội dung chính của các chương như sau: Chương 1. Phương pháp biểu diễn đối tượng chuyển động trong học máy. Giới thiệu tổng quan về phương pháp biểu diễn dữ liệu trong không gian và phương pháp biểu diễn dữ liệu trong học máy, trong đó chú trọng vào phương pháp biểu diễn 5
  18. đối tượng chuyển động bằng cách sử dụng đại số hình học bảo giác. Chương 2. Đề xuất phương pháp biểu diễn đối tượng chuyển động dựa trên đại số hình học bảo giác. Trình bày về đại số hình học với các toán tử, phép phản xạ và phép quay được sử dụng để giải quyết các vấn đề trong không gian nhiều chiều; đại số hình học bảo giác giới thiệu về phương pháp xấp xỉ siêu phẳng và siêu cầu. Trình bày các đề xuất áp dụng đại số hình học bảo giác để biểu diễn đối tượng chuyển động trong không gian. Trong đó, tập trung vào đề xuất kết hợp đại số hình học bảo giác với mô hình hỗn hợp Gauss và lượng tử hóa vectơ để phân cụm dữ liệu, phương pháp kết hợp CGA với PCR để phân lớp dữ liệu và phương pháp trích chọn đặc trưng của đối tượng dựa vào CGA. Cuối cùng là phần kết luận và đánh giá những ưu điểm, nhước điểm của các mô hình đề xuất cũng như sự cần thiết của việc kết hợp đại số hình học với học máy. Chương 3. Triển khai thực nghiệm và đánh giá kết quả. Trình bày về việc xây dựng các mô hình thực nghiệm dựa trên mô hình đề xuất và dữ liệu của đối tượng chuyển động. Mô hình phân cụm dữ liệu sử dụng CGA kết hợp với HMM, mô hình phân lớp PCR sử dụng CGA và phương pháp trích chọn đặc trưng CGA kết hợp với RNN. Cuối cùng là kết luận và đánh giá kết quả thử nghiệm để từ đó đưa ra hướng nghiên cứu tiếp theo của luận án. 5. Đóng góp chính của luận án Để thực hiện các mục tiêu đặc ra, luận án đã nghiên cứu về mặt lý thuyết, xây dựng mô hình đề xuất và tiến hành thực nghiệm để có các kết quả định lượng cao như mong đợi. Các đóng góp chính của luận án bao gồm những nội dung sau: Đóng góp thứ nhất của luận án là đề xuất phương pháp phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác và kết hợp với mô hình Markov ẩn để huấn luyện và nhận dạng hành động. Cụ thể là: - Hàm mật độ xác suất của phân phối Gauss biểu diễn dữ liệu bằng cách tối ưu khoảng cách từ điểm đến vectơ trung bình và phân phối dữ liệu thường 6
  19. gom cụm với nhau dạng hình “chuông”, tức là dữ liệu gần tâm được phân bố dày hơn và dữ liệu xa tâm thì phân bố thưa hơn. Nên khi dữ liệu phân bố phức tạp trong không gian như hình cong hay siêu cầu thì hàm mật độ Gauss thường biểu diễn không chính xác. Vì vậy, luận án đề xuất phương pháp kết hợp CGA với hàm mật độ Gauss để phân cụm dữ liệu phân bố phức tạp trong không gian. - Phương pháp phân cụm dữ liệu sử dụng thuật toán k-means để phân tách dữ liệu thành cụm dựa vào bài toán tối ưu khoảng cách Euclid từ điểm đến trọng tâm của cụm, tức là khoảng cách từ một điểm đến một điểm trong mặt phẳng. Luận án đề xuất phương pháp lượng tử hóa vectơ dựa trên phân cụm dữ liệu CGA. CGA sẽ tối ưu khoảng cách từ điểm đến trọng tâm (vectơ đại diện) của cụm có thể là điểm, mặt phẳng hoặc siêu cầu trong không gian CGA. Vì vậy, trong trường hợp dữ liệu phân bố phức tạp như hình cong hoặc siêu cầu thì đề xuất này sẽ biểu diễn rất chính xác. Đóng góp thứ hai của luận án là đề xuất phương pháp sử dụng CGA thay thế cho PCA để xác định phương sai trong mô hình phân lớp dữ liệu sử dụng phương pháp hồi quy thành phần chính (PCR). Cụ thể là: - Phương pháp hồi quy thành phần chính sẽ đi tìm tọa độ của từng lớp sao cho phương sai của dữ liệu khi chiếu lên hệ trục mới là nhỏ nhất, tức là PCR sẽ giải quyết bài toán tối ưu cho từng lớp bằng cách sử dụng thuật toán PCA để tìm phương sai nhỏ nhất trong từng lớp. Luận án đề xuất phương pháp PCR kết hợp với CGA để giải quyết bài toán tối ưu khoảng cách từ một điểm đến một vectơ trong không gian CGA xác định tìm phương sai (giá trị riêng) nhỏ nhất trong từng lớp. Đóng góp thứ ba của luận án là đề xuất phương pháp giảm chiều dữ liệu bằng cách trích chọn đặc trưng sử dụng đại số hình học bảo giác. Cụ thể là: - Phương pháp giảm chiều dữ liệu thông thường sử dụng các thuật toán PCA và LDA để xây dựng hệ trục tọa độ mới và xác định phương sai của đối 7
  20. tượng trên hệ trục này. Tuy nhiên, luận án đề xuất phương pháp trích chọn đặc trưng sử dụng đại số hình học bảo giác và xác định phương sai bằng cách tối ưu hàm khoảng cách từ một điểm đến vectơ đại diện trong không gian CGA (vectơ này có thể là điểm, đường, siêu phẳng hoặc siêu cầu). Phương pháp đề xuất này rất phù hợp cho dữ liệu phân bố phức tạp dạng hỗn hợp siêu phẳng hoặc siêu cầu trong không gian. Đóng góp thứ tư của luận án là đề xuất phương pháp tiền xử lý dữ liệu đầu vào cho phương pháp trích chọn đặc trưng của đối tượng nhằm nâng cao hiệu quả trong nhận dạng hành động người. Cụ thể là: - Khi con người di chuyển thì các khớp sẽ di chuyển theo và dữ liệu các khớp phân bố phức tạp trong không gian. Tuy nhiên, trong một số trường hợp khi con người di chuyển thì có những khớp không dịch chuyển hoặc ít dịch chuyển (dịch chuyển không đáng kể). Vì vậy, nếu lấy dữ liệu tất cả các khớp để trích chọn đặc trưng hoặc huấn luyện thì dữ liệu sẽ rất lớn, nên luận án đề xuất phương pháp tiền xử lý để chọn ra những khớp có dịch chuyển lớn. Phương pháp đề xuất này sẽ xây dựng ma trận khoảng cách giữa các cặp khớp, tiếp đến là lựa chọn các khớp bằng cách xác định phương sai của các cặp khớp nằm trong giá trị của ngưỡng sẽ được chọn. - Hành động con người sẽ không đồng nhất với nhau như đi bộ, chạy thì hành động này sẽ dịch chuyển tịnh tiến theo một hướng. Đối với những hành động như múa hay nhảy thì chuyển động sẽ diễn ra tại một vị trí cố định (không tịnh tiến). Vì vậy, luận án đề xuất phương pháp tiền xử lý để đồng bộ các hành động này lại với nhau bằng cách dịch tọa độ các khớp để các hành động như múa, nhảy, đi bộ và chạy… diễn ra tại một vị trí. Luận án nghiên cứu theo hướng ứng dụng kỹ thuật vào thực tiễn. Kết quả nghiên cứu đã mở ra một hướng mới về biểu diễn đối tượng chuyển động trong không gian dựa vào đại số hình học bảo giác và kết hợp đại số hình học bảo giác với các mô hình học máy. 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2