intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

18
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của luận án là nghiên cứu đại số hình học bảo giác để biểu diễn các đối tượng chuyển động phức tạp trong không gian. Trên cơ sở đó, đề xuất mô hình kết hợp đại số hình học bảo giác với học máy để nâng cao hiệu quả nhận dạng các đối tượng chuyển động trong không gian và hành động của con người.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu biểu diễn và nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NĂNG HÙNG VÂN NGHIÊN CỨU BIỂU DIỄN VÀ NHẬN DẠNG ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC VÀ HỌC MÁY Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2021
  2. Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: 1. PGS.TS. Kanta Tachibana 2. TS. Phạm Minh Tuấn Phản biện 1: ………………………..…………………… Phản biện 2: ………………………..…………………… Phản biện 3: ………………………..…………………… Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng Vào hồi …... giờ ....... ngày ........tháng …… năm ……. Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam; - Trung tâm Thông tin Học liệu và Truyền thông, ĐH Đà Nẵng
  3. 1 MỞ ĐẦU Ngày nay, khoa học và công nghệ phát triển đã tạo ra một khối lượng dữ liệu lớn từ các hệ thống giao dịch điện tử, hệ thống lưu trữ dữ liệu đa phương tiện và các ứng dụng của cảm biến trong internet vạn vật (internet of things). Sự phát triển công nghệ đã thúc đẩy các nhà nghiên cứu chuyển từ thu, nhận dữ liệu ở mức thấp sang nghiên cứu tích hợp mức cao có khả năng phân tích, nhận dạng và dự báo các vấn đề có thể xảy ra. Do đó, ngày càng nhiều bài toán thực tế được giải quyết, đặc biệt là lĩnh vực nhận dạng đối tượng chuyển động trong không gian để hỗ trợ cho các hệ thống an ninh, ngôi nhà thông mình, bệnh viện thông minh, v.v. và trí tuệ nhân tạo. Dữ liệu sinh ra trong các hệ thống ngày càng lớn và phức tạp, trong khi đó các mô hình học máy thường sử dụng các phép biến đổi tuyến tính để biểu diễn dữ liệu và giả sử dữ liệu phân phối trên mặt phẳng, nên trường hợp dữ liệu được phân bố dạng cong hoặc siêu cầu của đối tượng chuyển động trong không gian thì kết quả xử lý không cao. Vì vậy, luận án đề xuất nghiên cứu biểu diễn đối tượng chuyển động dựa trên đại số hình học bảo giác (CGA) để nhận dạng hành động con người. CGA được mở rộng từ không gian thực chiều bằng cách thêm hai vectơ cơ sở và sử dụng phép biến đổi để chuyển các vectơ trong không gian thực thành tập hợp điểm trong không gian CGA. Dữ liệu phân bố phức tạp trong không gian được tối ưu bằng phương pháp xấp xỉ dữ liệu dạng siêu phẳng hoặc siêu cầu và một vectơ trong không gian CGA được biểu diễn dưới dạng là một điểm, mặt phẳng, siêu phẳng hoặc siêu cầu. Vì vậy, sử dụng CGA để biểu diễn các đối tượng chuyển động là rất đơn giản và chính xác. 1. Mục tiêu nghiên cứu Mục tiêu của luận án là nghiên cứu đại số hình học bảo giác để biểu diễn các đối tượng chuyển động phức tạp trong không gian. Trên cơ sở đó, đề xuất mô hình kết hợp đại số hình học bảo giác với học máy để nâng cao hiệu quả nhận dạng các đối tượng chuyển động trong không gian và hành động của con người. Đặc biệt, luận án tập trung vào các vấn đề nghiên cứu sau đây: - Thứ nhất, luận án nghiên cứu tổng quan về biểu diễn dữ liệu trong không gian và phương pháp biểu diễn dữ liệu trong học máy. Tổng quan về đại số hình học, đại số hình học bảo giác và tìm hiểu về một số mô hình học máy được sử dụng phổ biến hiện nay. - Thứ hai, luận án nghiên cứu và đề xuất kết đại số hình học bảo giác với học máy để phân cụm dữ liệu cho mô hình Markov ẩn huấn luyện và nhận dạng. - Thứ ba, từ những ưu điểm của đại số hình học bảo giác để biểu diễn đối tượng chuyển động trong không gian, luận án đề xuất sử dụng CGA thay thế cho PCA để tối ưu hóa dữ liệu trong mô hình học máy PCR và áp dụng cho nhận dạng hành động con người. - Thứ tư, luận án đề xuất giảm chiều dữ liệu bằng phương pháp trích chọn đặc trưng sử
  4. 2 dụng đại số hình học bảo giác và kết hợp với mạng nơ ron hồi quy (RNN) để nhận dạng hành động con người. - Thứ năm, luận án kiểm chứng các mô hình đề xuất bằng cách xây dựng mô hình thực nghiệm dựa trên các phương pháp đề xuất để đánh giá và chọn mô hình tốt nhất. Nhằm đáp ứng hiệu quả các phương pháp được đề xuất, luận án đã tiến hành thiết lập và thử nghiệm trên bộ dữ liệu chụp chuyển động của Trường Đại học Carnegie Mellon, USA (CMU) [95] với nhiều hành động khác nhau của con người. Các thực nghiệm được tiến hành với nhiều tham số khác nhau để so sánh, đánh giá và phân tích các kết quả thu được để từ đó đưa ra hướng nghiên cứu phù hợp cho luận án. 2. Cấu trúc của Luận án Trên cơ sở các nhiệm vụ nghiên cứu, để đạt mục tiêu đề ra và đảm bảo tính hợp lý của vấn đề nghiên cứu, ngoài phần mở đầu, phần kết luận và hướng phát triển, luận án được cấu trúc với ba chương và nội dung chính của các chương như sau: Chương 1. Phương pháp biểu diễn đối tượng chuyển động trong học máy. Giới thiệu tổng quan về phương pháp biểu diễn dữ liệu trong không gian và phương pháp biểu diễn dữ liệu trong học máy, trong đó chú trọng vào phương pháp biểu diễn đối tượng chuyển động bằng cách sử dụng đại số hình học bảo giác. Chương 2. Đề xuất phương pháp biểu diễn đối tượng chuyển động dựa trên đại số hình học bảo giác. Trình bày về đại số hình học với các toán tử, phép phản xạ và phép quay được sử dụng để giải quyết các vấn đề trong không gian nhiều chiều; đại số hình học bảo giác giới thiệu về phương pháp xấp xỉ siêu phẳng và siêu cầu. Trình bày các đề xuất áp dụng đại số hình học bảo giác để biểu diễn đối tượng chuyển động trong không gian. Trong đó, tập trung vào đề xuất kết hợp đại số hình học bảo giác với mô hình hỗn hợp Gauss và lượng tử hóa vectơ để phân cụm dữ liệu, phương pháp kết hợp CGA với PCR để phân lớp dữ liệu và phương pháp trích chọn đặc trưng của đối tượng dựa vào CGA. Cuối cùng là phần kết luận và đánh giá những ưu điểm, nhước điểm của các mô hình đề xuất cũng như sự cần thiết của việc kết hợp đại số hình học với học máy. Chương 3. Triển khai thực nghiệm và đánh giá kết quả. Trình bày về việc xây dựng các mô hình thực nghiệm dựa trên mô hình đề xuất và dữ liệu của đối tượng chuyển động. Mô hình phân cụm dữ liệu sử dụng CGA kết hợp với HMM, mô hình phân lớp PCR sử dụng CGA và phương pháp trích chọn đặc trưng CGA kết hợp với RNN. Cuối cùng là kết luận và đánh giá kết quả thử nghiệm để từ đó đưa ra hướng nghiên cứu tiếp theo của luận án. 3. Đóng góp chính của Luận án Luận án đã nghiên cứu về mặt lý thuyết, xây dựng mô hình đề xuất và tiến hành thực nghiệm
  5. 3 để có các kết quả định lượng cao như mong đợi. Các đóng góp chính của luận án bao gồm những nội dung sau: Đóng góp thứ nhất của luận án là đề xuất phương pháp phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác kết hợp với mô hình Markov ẩn để huấn luyện và nhận dạng. Cụ thể là: - Hàm mật độ xác suất của phân phối Gauss biểu diễn dữ liệu bằng cách tối ưu khoảng cách từ điểm đến vectơ trung bình và phân phối dữ liệu thường gom cụm với nhau dạng hình chuông, tức là dữ liệu gần tâm được phân bố dày hơn và dữ liệu xa tâm thì phân bố thưa hơn. Nên khi dữ liệu phân bố phức tạp trong không gian như hình cong hay siêu cầu thì hàm mật độ Gauss thường biểu diễn không chính xác. Vì vậy, luận án đề xuất phương pháp kết hợp CGA với hàm mật độ Gauss để biểu diễn các đối tượng chuyển động có phân bố dữ liệu phức tạp trong không gian. - Phương pháp phân cụm dữ liệu sử dụng thuật toán k-means để phân tách dữ liệu thành cụm dựa vào bài toán tối ưu khoảng cách Euclid từ điểm đến trọng tâm của cụm, tức là khoảng cách từ một điểm đến một điểm trong mặt phẳng. Luận án đề xuất phân cụm dữ liệu sử dụng đại số hình học bảo giác để tối ưu khoảng cách từ điểm đến trọng tâm (vectơ đại diện) của cụm có thể là điểm, mặt phẳng hoặc siêu cầu trong không gian CGA. Vì vậy, trong trường hợp dữ liệu phân bố phức tạp như hình cầu hoặc hình cong thì đề xuất này biểu diễn rất chính xác. Đóng góp thứ hai của luận án là đề xuất phương pháp sử dụng CGA thay thế cho PCA để xác định phương sai trong mô hình phân lớp dữ liệu sử dụng phương pháp hồi quy thành phần chính (PCR). Cụ thể là: - Phương pháp hồi quy thành phần chính sẽ đi tìm tọa độ của từng lớp sao cho phương sai của dữ liệu khi chiếu lên hệ trục mới là nhỏ nhất, tức là PCR sẽ giải quyết bài toán tối ưu cho từng lớp bằng cách sử dụng thuật toán PCA để tìm phương sai của dữ liệu nhỏ nhất trong từng lớp. Luận án đề xuất phương pháp PCR kết hợp với đại số hình học bảo giác để giải quyết bài toán tối ưu bằng cách xác định từ điểm đến vectơ trong không gian CGA để tìm phương sai (giá trị riêng) nhỏ nhất trong từng lớp dữ liệu. Đóng góp thứ ba của luận án là đề xuất phương pháp giảm chiều dữ liệu bằng cách trích chọn đặc trưng sử dụng đại số hình học bảo giác. Cụ thể là: - Phương pháp giảm chiều dữ liệu thông thường sử dụng các thuật toán PCA và LDA để đi hệ trục tọa độ mới và xác định phương sai của đối tượng trên hệ trục này. Tuy nhiên, luận án đề xuất phương pháp trích chọn đặc trưng sử dụng đại số hình học bảo giác và xác định phương sai bằng cách tối ưu hàm khoảng cách từ một điểm đến vectơ đại diện trong không
  6. 4 gian CGA (vectơ này có thể là điểm, đường, siêu phẳng hoặc siêu cầu). Phương pháp đề xuất này rất phù hợp cho dữ liệu phân bố phức tạp dạng hỗn hợp siêu phẳng hoặc siêu cầu trong không gian. Đóng góp thứ tư của luận án là đề xuất phương pháp tiền xử lý dữ liệu đầu vào cho phương pháp trích chọn đặc trưng của đối tượng nhằm nâng cao hiệu quả trong nhận dạng hành động người. Cụ thể là: - Khi con người di chuyển thì các khớp sẽ di chuyển theo và dữ liệu các khớp phân bố phức tạp trong không gian. Tuy nhiên, trong một số trường hợp khi con người di chuyển thì có những khớp không dịch chuyển hoặc ít dịch chuyển (dịch chuyển không đáng kể). Vì vậy, nếu lấy dữ liệu tất cả các khớp để trích chọn đặc trưng hoặc huấn luyện thì dữ liệu sẽ rất lớn, nên luận án đề xuất phương pháp tiền xử lý để chọn ra những khớp có dịch chuyển lớn. Phương pháp đề xuất này sẽ xây dựng ma trận khoảng cách giữa các cặp khớp, tiếp đến là lựa chọn các khớp bằng cách xác định phương sai của các cặp khớp nằm trong giá trị của ngưỡng sẽ được chọn. - Hành động con người sẽ không đồng nhất với nhau như đi bộ, chạy thì hành động này sẽ dịch chuyển tịnh tiến theo một hướng. Đối với những hành động như múa hay nhảy thì chuyển động sẽ diễn ra tại một vị trí cố định. Vì vậy, luận án đề xuất phương pháp tiền xử lý để đồng bộ các hành động này lại với nhau bằng cách dịch tọa độ các khớp để các hành động diễn ra tại một vị trí. Kết quả nghiên cứu đã mở ra một hướng mới về biểu diễn đối tượng chuyển động trong không gian dựa vào đại số hình học bảo giác và kết hợp đại số hình học bảo giác với các mô hình học máy. Chương 1. PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG HỌC MÁY Trong chương 1, luận án sẽ trình bày các vấn đề liên quan đến phương pháp biểu diễn dữ liệu trong không gian và biểu diễn đối tượng chuyển động dựa vào các kỹ thuật học máy. Đặc biệt là những khó khăn khi biểu diễn dữ liệu đối tượng chuyển động trong không gian mà luận văn tập trung nghiên cứu. 1.1 Phương pháp biểu diễn dữ liệu trong không gian 1.1.1 Phương pháp biểu diễn dữ liệu bằng không gian vectơ Phương pháp biểu diễn dữ liệu bằng không gian vectơ là phương pháp ánh xạ một tập dữ liệu
  7. 5 vào không gian vectơ nhiều chiều và phương pháp này được áp dụng trong hầu hết các lĩnh vực của khoa học máy tính. Một không gian vectơ chứa các dãy số, các giá trị trong dãy số được gọi là các phần tử của vectơ và có thể viết để chỉ phần tử thứ trong vectơ . Trong toán học, một vectơ cột được biểu diễn dưới dạng = và vectơ hàng được biểu diễn dưới dạng =[ … ], ⋮ trong đó , …, là các phần tử thứ đến thứ của vectơ và các phần tử này là số thực thì có thể ký hiệu ={ ∈ ℝ}, ∈ {1, … , }. 1.1.2 Phương pháp biểu diễn dữ liệu bằng ma trận Phương pháp biểu diễn dữ liệu bằng ma trận là phương pháp sử dụng rất phổ biến trong xử lý ảnh và nhận dạng [12, 73]. Một ma trận được khái quát hóa để biểu diễn dữ liệu bằng hai trục gọi là × hàng và cột. Một ma trận ∈ℝ gồm hàng và cột có các phần tử là giá trị số thực, mỗi phần tử sẽ nằm ở hàng thứ ∈ {1, … , } và cột thứ ∈ {1, … , } của ma trận . Trong toán học, một ma trận có thể được biểu diễn như sau, … … = ⋮ ⋮ ⋱ ⋮ … × Trong ma trận ∈ℝ bất kỳ có số hàng bằng số cột ( = ) thì ma trận được gọi là ma trận vuông. Trong tính toán, có thể hoán đổi các hàng và cột của ma trận để có được ma trận chuyển vị được ký hiệu là , nếu = thì = với mọi và . Hai phương pháp biểu diễn dữ liệu đầu vào bằng ma trận có thể kể đến là mạng nơron tích chập [85] và thuật toánn P. Viola [72] trong nhận dạng hình ảnh. 1.1.3 Phương pháp biểu diễn dữ liệu bằng Ten-xơ Ten-xơ (tensor) [1] là một khái niệm phổ biến sử dụng để biểu diễn dữ liệu nhiều chiều trong học máy. Ten-xơ số thực với bậc dạng tổng quát ∈⊗ ℝ ∈ {1, … , } trong không gian Euclid ℝ , trong trường hợp vectơ ( = 1) và ma trận ( = 2). Các phần tử trong ten-xơ được xác định bằng các chỉ số trên từng chiều của ten-xơ, trong trường hợp ten-xơ ba chiều được ký hiệu là × × ∈ℝ , mỗi phần tử sẽ nằm ở hàng thứ ∈ {1, … , }, cột thứ ∈ {1, … , } và chiều sâu ∈ {1, … , } của ten-xơ . 1.2 Phương pháp biểu diễn đối tượng chuyển động trong học máy Học máy (tiếng Anh: Machine Learning) [14] có rất nhiều phương pháp và thuật toán khác nhau. Đồng thời cũng có nhiều cách để phân loại các thuật toán học máy, cách phân loại phổ biến nhất là chia học máy thành hai loại cơ bản là học có giám sát và học không giám sát.
  8. 6 1.2.1 Biểu diễn dữ liệu dựa trên mô hình xác suất Trong các mô hình học máy thông thường dữ liệu đầu vào rất lớn, nếu chúng ta xử lý trên toàn bộ dữ liệu đầu vào này sẽ tốn rất nhiều chi phí tính toán và không gian lưu trữ. Vì vậy, sử dụng các tham số trong mô hình xác suất như trung bình, phương sai và độ lệch chuẩn để thay thế cho dữ liệu lớn sẽ làm giảm được chi phí tính toán và lưu trữ. 1.2.1.1 Mô hình hỗn hợp Gauss Mô hình hỗn hợp Gauss (tiếng Anh: Gaussian Mixture Model - GMM) [25, 40, 43] là một mô hình phân phối xác suất rất quan trọng và được sử dụng rất phổ biến trong các nghiên cứu về nhận dạng hình ảnh, nhận dạng tiếng nói và hành động [51, 89]. GMM được biểu diễn bởi tổng trọng số các hàm mật độ xác suất của phân phối Gauss [1] thành phần là , , …, . ( )= ( | ,∑ ) (1.1) trong đó, ∈ là vectơ đặc trưng của đối tượng cần biểu diễn trong không gian chiều, là các trọng số của hỗn hợp thoả mãn điều kiện 0 ≤ ≤ 1 và ∑ = 1, ∈ {1, … , } là số lượng các thành phần của hàm mật độ Gauss. 1.2.1.2 Mô hình Markor ẩn Mô hình Markov ẩn (tiếng Anh: Hidden Markov Model – HMM) [32, 53] được công bố từ những năm 1960 (đặt theo tên nhà toán học người Nga Andrei Andreyevich Markov), đây là mô hình thống kê trong hệ thống mô hình hóa dữ liệu theo thời gian và trình tự. Các tham số trong HMM sẽ không biết trước và nhiệm vụ của chúng ta là xác định các tham số ẩn từ các tham số quan sát được. Do HMM có khả năng thay đổi cấu trúc dễ dàng và độ chính xác cao khi huấn luyện, nên HMM được ứng dụng rất phổ biến trong nhận dạng chữ viết [70], nhận dạng giọng nói [27, 79], nhân dạng hành động con người [74], mô hình nhận dạng ngôn ngữ tự nhiên [63], phân tích các trình tự sinh học như protein và DNA [10, 22]. 1.2.2 Phương pháp giảm chiều dữ liệu Giảm số chiều dữ liệu (tiếng Anh: Dimension Reduction) là quá trình biến đổi dữ liệu từ không gian có số chiều lớn sang không gian có số chiều nhỏ hơn để giảm chi phí tính toán và không gian lưu trữ. 1.2.2.1 Phân tích thành phần chính Phương pháp phân tích thành phần chính [36, 55, 64, 68] (tiếng Anh: Principal Components Analysis - PCA) là một thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một không gian nhiều chiều sang một không gian mới ít chiều hơn nhằm tối ưu hóa sự biến
  9. 7 thiên của dữ liệu (maximize the variability). Hình 1.1: Biểu diễn dữ liệu trong không gian mới của PCA Hình 1.1 trong không gian ban đầu hình a) (tập điểm màu xanh) được quan sát trong hệ trục xy, phương sai theo mỗi chiều đều lớn. Trong không gian mới hình b) (tập điểm màu đỏ) theo hệ trục ab có phương sai theo chiều thứ hai rất nhỏ so với . Điều này có nghĩa là khi chiếu dữ liệu lên trục a chúng ta có được các điểm rất gần nhau và gần với kỳ vọng theo chiều đó. Vì vậy, PCA còn được coi là phương pháp giảm số chiều dữ liệu mà vẫn giữ được tổng phương sai còn lại là lớn nhất. 1.2.2.2 Phân tích biệt thức tuyến tính đa biến Phân tích biệt thức tuyến tính đa biến (tiếng Anh: Multi-class Linear Discriminant Analysis – multi-class LDA) [6] là phương pháp phân tích biệt thức tuyến tính trong bài toán phân loại đa lớp được xây dựng bằng việc cải tiến phương pháp phân tích biệt thức tuyến tính hai lớp (Liner Discriminant Analysis – LDA). Hình 1.2: Phương pháp phân tích biệt thức tuyến tính hai lớp 1.2.3 Phương pháp tăng chiều dữ liệu Trong thực tế, dữ liệu được phân bố rất phức tạp trong không gian. Nếu chúng ta sử dụng các phương pháp tuyến tính hay giả sử dữ liệu được phân bố trên một mặt phẳng thì không thể phân tách chúng ra thành các lớp khác nhau. Nên cần ánh xạ tập dữ liệu ban đầu vào một không gian mới nhiều chiều hơn để biểu diễn dữ liệu. Phương pháp biểu diễn tăng chiều dữ liệu hay còn gọi là phương pháp sử dụng hàm nhân (kernel functions) được áp dụng phổ biến trong máy vector hỗ trợ và mạng nơron tích chập. 1.2.3.1 Máy vectơ hỗ trợ
  10. 8 1.2.3.2 Mạng nơron nhân tạo 1.3 Phương pháp biểu diễn đối tượng chuyển động sử dụng CGA 1.3.1 Đại số hình học Đại số hình học cũng là phương pháp biểu diễn làm tăng số chiều dữ liệu bằng cách định nghĩa thêm hai vectơ cơ sở và định nghĩa lại các toán tử như tích hình học, tích ngoại, phép ánh xạ, phép quay trong đại số hình học để biểu diễn dữ liệu trong không gian. 1.3.2 Đại số hình học bảo giác Đại số hình học bảo giác (tiếng Anh: Conformal Geomatric Algebra - CGA) [18, 95] là một phần của đại số hình học và được mở rộng từ không gian thực chiều bằng cách tăng thêm hai chiều, tức là trong không gian thực có chiều thì trong không gian CGA có + 2 chiều để biểu diễn dữ liệu. Trong không gian CGA, việc tối ưu hàm khoảng cách sẽ được xác định từ một điểm đến một vectơ có thể là một điểm, mặt phẳng hoặc siêu cầu. Phương pháp xấp xỉ siêu cầu là đi tìm một siêu cầu [82, 97] sao cho tổng bình phương tối thiểu hàm lỗi từ tập dữ liệu ban đầu là nhỏ nhất. 1.4 Kết luận chương Đóng góp chính của chương 1 là phân tích, đánh giá ưu khuyết điểm của các phương pháp biểu diễn dữ liệu. Đặc biệt là sử dụng CGA để biểu diễn đối tượng chuyển động trong không gian và đây là cơ sở để định hướng các vấn đề nghiên cứu tiếp theo trong luận án. Chương 2. ĐỀ XUẤT PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC Chương 2, luận án đề xuất các phương pháp biểu diễn đối tượng chuyển động dựa trên đại số hình học bảo giác để giải quyết các vấn đề khó khăn về phân bố dữ liệu phức tạp trong không gian. Đồng thời, đề xuất các mô hình kết hợp CGA với học máy để nhận dạng hành động con người. 2.1 Đại số hình học hình học bảo giác 2.1.1 Đại số hình học 2.1.2 Đại số hình học Bảo giác 2.2 Đề xuất phương pháp phân cụm dữ liệu sử dụng CGA Phân cụm dữ liệu là một kỹ thuật học máy không giám sát quan trọng trong khai phá dữ liệu. Mục đích của phân cụm là nhóm các đối tượng vào các cụm khác nhau sao cho các đối tượng trong cùng một cụm có các đặc trưng tương đồng với nhau cao và các cụm khác nhau có tính bất tương
  11. 9 đồng lớn [7], từ đó hỗ trợ cho các hệ thống huấn luyện dữ liệu và nhận dạng đối tượng. 2.2.1 Phân cụm dữ liệu sử dụng CGA dựa trên GMM Hàm mật độ xác suất Gauss sử dụng công thức (1.1) để xác định phân bố xác suất của đối tượng nên có hình dạng “chuông”. Tức là ở gần tâm của dữ liệu thì có phân bố dày và ở xa tâm thì sẽ có phân bố thưa hơn. Đối với những phân bố phức tạp như Error! Reference source not found. nếu sử dụng mật độ Gauss để xấp xỉ thì độ chính xác không cao. Vì vậy, luận án đề xuất mô hình phân cụm sử dụng CGA dựa trên GMM (CGA_Gauss) để biểu diễn dữ liệu các đối tượng chuyển động. Giả sử cho tập dữ liệu = =∑ ; ∈ | = , ∈ {1, … , } , trong đó là nhãn của cụm và phương pháp phân cụm CGA_Gauss sử dụng các công thức (2.19), (2.22), (2.30), (2.40) và (2.41) để ước tính (xấp xỉ) cặp siêu cầu hoặc siêu phẳng , ∈ {1, … , }. CGA sẽ tối ưu dữ liệu bằng cách sử dụng công thức (2.30) để đi tìm giá trị riêng và vectơ riêng (eigenvalues, eigenvectors) từ công thức (2.41). Một vectơ riêng trong không gian CGA được xem như là một vectơ bảo giác riêng (eigen conformal vector) và được biểu diễn là = + + và giá trị riêng là phương sai dựa trên khoảng cách ( , ) từ điểm đến vectơ . Trong luận án, chúng tôi giả sử rằng các phương sai dựa trên khoảng cách ( , ) tuân theo hàm phân phối Gauss. Khi đó, mô hình hỗn hợp Gauss trong không gian CGA sẽ là: ( )= ( | ) (2.42) với mật độ Gauss kết hợp với CGA, 1 ( , ) ( | )= exp − (2.43) 2 2 trong đó, = là một vectơ quan sát, = + , + , là vectơ bảo giác riêng (conformal eigenvector) thứ trong không gian CGA, = + ‖ ‖ + là một điểm trong không gian CGA và là phương sai hay giá trị riêng (eigenvalue) thứ l của quan sát trong không gian CGA. 2.2.2 Lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA Giả sử cho tập dữ liệu huấn luyện ={ ,⋯, }, trong đó = | | là số mẫu, quá trình lượng tử hóa vectơ là phép ánh xạ tập vectơ = , ,⋯, , , , ∈ ban đầu thành một tập xác định các vectơ = , ,⋯, , , ∈ mỗi vectơ được gọi là một codevector và một tập các codevector gọi là một codebook. Mục đích của lượng tử hóa là làm thế nào để sai số lượng tử là nhỏ nhất. Để đạt được điều này thì chúng ta phải chọn ra được các codevector sao cho độ lệch trung
  12. 10 bình giữa codevector với các vectơ trong vùng mã hóa là nhỏ nhất. Khi đó, các codebook được xem như trong tâm của các vectơ và = { ,⋯, }, ∈ trong đó, là số trọng tâm tương ứng các codebook . Như vậy, bây giờ vấn đề lượng tử hóa vectơ đã trở thành bài toán phân cụm dữ liệu với các cụm có tâm là và dữ liệu trong các cụm là và khoảng cách từ đến tâm là, = argmin ( , ), ∀ ∈ [1, ⋯ , ] (2.45) trong đó ( , )=‖ − ‖ là khoảng cách bình phương Euclid từ điểm đến tâm . Phương pháp phân cụm sử dụng CGA sẽ được thực hiện trên không gian CGA và dữ liệu tất cả các mẫu trong không gian thực được chuyên sang dạng tập các điểm (2.19), = , ,⋯, , , , = , + , + ∈ , trong không gian CGA. Codebook được định nghĩa bởi tập vectơ = { ,⋯, }, từ (2.22) được viết là = + , + , ∈ , khi đó hàm để ước lượng dữ liệu các cụm chúng ta sử dụng hàm tối thiểu (2.26) như sau: = argmin ,, , , (2.46) , s. t. ,, =1 , ,, ∈ {0, 1}, trong đó , , = , ∙ − , − , , là bình phương khoảng cách giữa điểm , và kth codebook trọng tâm trong không gian CGA, là số khung hình, là số hành động và ,, là nhãn của khung hình , hành động và phân cụm . Hình 2.1: Phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác 2.2.3 Phương pháp kết hợp HMM với phân cụm sử dụng CGA Để nhận dạng hành động, chúng ta cần phải xây dựng HMM có khả năng giải bài toán thứ 3 của HMM. Các HMM được xác định bởi các thiết lập tham số sau đây: = ( , , ) (2.49) trong đó, là phân phối xác suất chuyển tiếp trạng thái = , là phân phối xác suất của ký
  13. 11 hiệu quan sát (codebook index) = ( ) và là xác suất khởi đầu của mỗi trạng thái. Tuy nhiên, HMM là một mô hình ước lượng tham số và dự báo chuỗi thời gian nên khi thực hiện nhận dạng hành động cần phải quan sát hết một chuỗi hành động rồi mới tiến hành xác định kết quả (nhận dạng hành động). Trong khi đó, yêu cầu thực thế là cần phải xác định nhanh hành động diễn ra tại thời điểm quan sát nên có thể sử dụng các mô hình PCR hoặc RNN để thay thế cho HMM trong huấn luyện và nhận dạng hành động. 2.3 Đề xuất phương pháp trích chọn đặc trưng sử dụng CGA 2.3.1 Phương pháp trích chọn đặc trưng sử dụng PCA 2.3.2 Phương pháp trích chọn đặc trưng sử dụng PCA kết hợp với CGA Phương pháp trích chọn đặc trưng PCA chỉ sử dụng các phương sai lớn nhất bằng cách xác định khoảng cách từ một điểm đến giá trị trung bình (2.52) trong không gian thực. Tuy nhiên, luận án đề xuất phương pháp trích chọn đặc trưng sử dụng PCA kết hợp với CGA để tìm phương sai lớn nhất bằng các xác định khoảng cách từ một điểm đến một vectơ trong không gian CGA. Giả sử tập dữ liệu huấn luyện như (2.50), trong không gian CGA tập dữ liệu được chuyển thành tập hợp các điểm (2.20), như sau: 1 = + + ∈ × , (2.58) 2 Đồng thời quá trình ước tính bằng cách sử dụng hàm khoảng cách tối thiểu từ điểm đến hình cầu là ( , ). Hàm lỗi được viết lại như sau: ( ) () 1 = ( , )= ( − − ) (2.59) 2 Điều này có nghĩa là phải giảm tối đa hàm lỗi trong quá trình tính toán, có thể được giới hạn bởi ‖ ‖ = 1, ( ) 1 min ( − − ) , . ‖ ‖ =1 (2.60) 2 Để giải bài toán tối ưu (2.60), sử dụng hệ số Lagrange ≥ 0 cho hàm Lagrange như sau: ( ) 1 1 ( , )= ( − − ) − (‖ ‖ − 1) (2.61) ∑ () 2 Quá trình tối ưu hóa và kết quả tính toán đầu ra theo Pham [61]. Hàm ( ) được biểu diễn như sau: ( )= − − ∈ (2.62)
  14. 12 Tiếp đến công thức (2.61) có thể được viết lại, ( , )= As − (‖ ‖ − 1) (2.63) Cho nên bài toán tối ưu được giải quyết bởi việc giá trị riêng và vectơ riêng của biểu thức: = (2.64) trong đó là ma trận phương sai của tập dữ liệu huấn luyện thứ trong không gian CGA, và viết lại: = ( ) ( ) (2.65) Hình 2.2: So sánh phương pháp biểu diễn dữ liệu trong PCA và CGA 2.3.2 Phương pháp PCR kết hợp với CGA 2.3.2.1 Phương pháp hồi quy thành phần chính (PCR) 2.3.2.2 Phương pháp PCR kết hợp với CGA Giả sử tập dữ liệu huấn luyện: = , ∈ , ∈ = {1, … , }} (2.66) trong đó, là số hành động, là nhãn của tập dữ liệu thứ , là số chiều của hành động thứ và ( ) là số khung hình của hành động thứ . Đầu tiên, PCR tìm vectơ trọng số của phép biến đổi tuyến tính tương tự (2.51) trong PCA. Tuy nhiên, ở đây PCR sẽ đi tìm giá trị nhỏ nhất của và (2.51) được biểu diễn lại cho từng lớp như sau: () 1 max − , ∑ () (2.67) . ‖ ‖ = 1, trong đó, là vectơ trung bình của lớp thứ và ( ) 1 = (2.68) ∑ ()
  15. 13 PCR sử dụng trục có giá trị riêng nhỏ nhất đối với từng lớp và cuối cùng các đặc trưng được lựa chọn là, _ ( )=( − , ,…, ( − ) , ) (2.69) trong đó, (1 ≤ ≤ ) và = { − 1, } là số đặc trưng được chọn của tập dữ liệu và là số vectơ riêng. Cuối cùng, một vectơ mới được định nghĩa phân lớp như sau: ( )= _ ( ) (2.70) Bởi vì, PCR giả sử dữ liệu được phân bố trên mặt phẳng hoặc siêu phẳng, do đó PCR không thể biểu diễn chính xác trường hợp dữ liệu phân bố trên siêu cầu của các đối tượng quay trong không gian. Nên luận án đề xuất phương pháp phân lớp sử dụng PCR kết hợp với CGA để biểu diễn chính xác hơn các trường hợp dữ liệu phân bố trên siêu cầu như Hình 2.3. Hình 2.3: Dữ liệu phân bố hai lớp dạng hỗn hợp của đối tượng chuyển động trong không gian Khi đó, chúng ta có thể thay công thức (2.67) bằng công thức (2.59) để tính phương sai trong từng lớp. Cuối cùng, đặc trưng được trích chọn trong từng lớp được xác định từ, ( )=( . ,…, . ) (2.71) _ ; , , trong đó = { − 1, } là mức độ tự do của tập con và một vectơ mới được định nghĩa phân lớp đơn giản như sau: ( )= ( ) (2.72) _ ; Luận án đề xuất phương pháp PCR kết hợp với đại số hình học bảo giác để giải quyết bài toán tối ưu bằng cách xác định từ điểm đến vectơ trong không gian CGA để tìm phương sai (giá trị riêng) nhỏ nhất trong từng lớp dữ liệu. 2.3.2.3 Phương pháp PCR kết hợp với CGA để nhận dạng hành động Để nhận dạng hành động, phương pháp PCR có thể sử dụng để phân lớp đối tượng và xác
  16. 14 định hành động ngay tại thời điểm quan sát. Hình 2.4 là mô hình đề xuất phương pháp PCR kết hợp với CGA để nhận dạng hành động người. Trước tiến, dữ liệu huấn luyện được tiến hành tiền xử lý bằng cách chỉ chọn những khớp quan trọng. Tiếp đến, xây dựng mô hình huấn luyện từ kết hợp PCR và CGA để phân lớp đối tượng. Hình 2.4: Mô hình đề xuất nhận dạng hành động dựa vào PCR kết hợp với CGA 2.3.3 Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN Hình 2.5 là mô hình đề xuất nhận dạng hành động con người dựa trên phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN và mô hình gồm ba bước chính: Bước thứ nhất là xây dựng phương pháp tiền xử lý dữ liệu, bước thứ hai là trích chọn đặc trưng sử dụng CGA và cuối cùng là sử dụng mô hình RNN để huấn luyện và nhận dạng hành động. Hình 2.5: Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN để nhận dạng hành động con người 2.3.3.1 Phương pháp tiền xử lý bằng cách dịch chuyển tọa độ 2.3.3.2 Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN Mục đích của trích chọn đặc trưng sử dụng CGA là trích chọn các thành phần chính ( ) từ công thức (2.62) và sử dụng tập dữ liệu ( ) để tạo dữ liệu đầu vào cho mô hình RNN huấn luyện. Error! Reference source not found. là mô hình biểu diễn dữ liệu của RNN, ứng với mỗi hình vuông được gọi là một trạng thái và đầu vào của mỗi trạng thái này là đầu ra của trạng thái trước đó. Trong đó, là vectơ đặc trưng đầu vào của CGA, ℎ = {ℎ , … , ℎ } là chuỗi vectơ ẩn và là chuỗi vectơ đầu ra. Đầu ra của ℎ được định nghĩa trong RNN là, ℎ = ( ℎ + ) (2.73)
  17. 15 trong đó, là hàm kích hoạt và thường sử dụng hàm sigmoid hoặc tanh, là một hệ số ma trận giữa và , là ma trận hệ số kết nối ℎ và ℎ . Bởi vì chỉ có một giá trị đầu ra nên có thể được xác định thông qua hàm kích hoạt là softmax, = ( ℎ ) (2.74) trong đó, là ma trận hệ số chuyển đổi thành . 2.5 Kết luận chương Trong chương này, luận án đã đề xuất ba phương pháp biểu diễn đối tượng chuyển động dựa trên đại số hình học bảo giác và kết hợp với các mô hình học máy để phân cụm, trích chọn đặc trưng, huấn luyện và nhận dạng đối tượng. Đóng góp chính của chương bao gồm các nội dung sau: - Đóng góp thứ nhất là đề xuất phương pháp phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác kết hợp với mô hình hỗn hợp Gauss và phương pháp lượng tử hóa vectơ dựa trên đại số hình học bảo giác cho HMM huấn luyện và nhận dạng đối tượng - Đóng góp thứ hai là đề xuất kết hợp phương pháp hồi quy thành phần chính với đại số hình học để xây dựng mô hình huấn luyện dữ liệu và nhận dạng đối tượng chuyển động. - Đóng góp thứ ba là đề xuất mô hình nhận dạng đối tượng chuyển động dựa vào phương pháp trích chọn đặc trưng CGA kết hợp với mạng nơron hồi quy. Chương 3. TRIỂN KHAI THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Các thực nghiệm dựa trên các mô hình đã đề xuất như sau: - Thực nghiệm 1: Nhận dạng hành động người dựa vào phân cụm dữ liệu sử dụng CGA kết hợp với HMM. Mục đích thực nghiệm này là để so sánh tỷ nhận dạng hành động con người chính xác của mô hình đề xuất phân cụm sử dụng CGA kết hợp với HMM và mô hình phân cụm sử dụng k-means kết hợp với HMM. - Thực nghiệm 2: Nhận dạng hành động con người dựa vào phương pháp PCR kết hợp với CGA. Mục đích của thực nghiệm này là để xem xét khả năng áp dụng CGA trong học máy và so sánh tỷ lệ nhận dạng hành động con người của mô hình đề xuất phương pháp PCR kết hợp với CGA và phương pháp PCR kết hợp với PCA. - Thực nghiệm 3: Nhận dạng hành động con người dựa vào phương pháp trích chọn đặc trưng sử dụng CGA kết hớp với RNN. Mục đích của thực nghiệm là để so sánh tỷ lệ nhận dạng chính xác của phương pháp đề xuất trích chọn đặc trưng sử dụng CGA kết hợp với
  18. 16 RNN và phương pháp trích chọn đặc trưng sử dụng PCA kết hợp với RNN. Các thực nghiệm được tiến hành trên bộ dữ liệu CMU [95] để điều chỉnh các tham số của mô hình đề xuất và chọn ra những mô hình có khả năng nhận dạng con người tốt nhất. 3.1 Dữ liệu thực nghiệm 3.1.1 Đối tượng chuyển động trong không gian 3.1.2 Bộ dữ liệu chuyển động CMU 3.1.3 Dữ liệu thực nghiệm Luận án đã sử dụng bộ dữ liệu CMU để tiến hành thực nghiệm trên các mô hình đề xuất. Bảng 3.1 là bộ dữ liệu cụ thể với 08 hành động bao gồm: dance, jump, kicking, placingTee, putt, run, swing, walk với tổng cộng 19,862 khung hình, trong mỗi khung hình có 41 khớp xương tọa độ ( , , ). Trong đó, 60% dữ liệu được sử dụng để huấn luyện và 40% dữ liệu sử dụng để kiểm tra. Bảng 3.1: Bộ dữ liệu CMU của 8 hành động con người Hành động Số khung hình (frame) (action) Huấn luyện Kiểm tra Tổng cộng Dance 3,305 1,577 4,882 Jump 1,198 846 2,044 Kick 1,605 1,163 2,768 Placing Tee 1,487 1,096 2,583 Putt 1,534 974 2,508 Run 452 322 774 Swing 1,324 977 2,301 Walk 1,074 928 2,002 Tổng cộng 11,979 7,883 19,862 3.2 Nhận dạng hành động dựa trên phân cụm CGA kết hợp với HMM 3.2.1 Kết quả thực nghiệm 3.2.1.1 Các tham số của mô hình Trong quá trình lượng tử hóa vectơ sẽ tạo ra các lỗi lượng tử và làm cho tỷ lệ nhận dạng chính xác giảm xuống. Vì vậy, chúng ta cần phải tối ưu hóa các tham số trong mô hình để cho lỗi lượng tử càng nhỏ sẽ thì càng tốt, vấn đề này được giải quyết bằng cách tăng dần số phân cụm ( ). Trong thực nghiệm này, thì số phân cụm được chọn tăng dần từ = 2 cho đến khi có kết quả tốt nhất và số trạng thái ẩn được chọn =5( = 5). Để đảm bảo kết quả chính xác, thì ứng với mỗi phân cụm (mỗi giá trị ) sẽ tiến hành thực thi 200 lần và tỷ lệ nhận dạng chính xác là trung bình cộng của 200
  19. 17 thực thi đó. 3.2.1.2 Kết quả thực nghiệm Mục đích chính của thực nghiệm này là đánh giá tỷ lệ nhận dạng chính xác của mô hình đề xuất trong nhận dạng hành động con người, có hai thực nghiệm chính: - Thực nghiệm 1: Phương pháp lượng tử hóa vectơ dựa trên phân cụm dữ liệu k-means (k- means_HMM) kết hợp với HMM trong nhận dạng hành động con người khi di chuyển. - Thực nghiệm 2: Phương pháp lượng tử hóa vectơ dựa trên đề xuất phân cụm dữ liệu sử dụng CGA (CGA_Clustering_HMM) kết hợp với HMM để nhận dạng hành động con người khi di chuyển. Thực nghiệm tiến hành với số scale tăng dần từ scale = 1 đến scale = 20, số phân cụm tăng dần từ 2 đến 5 (classnum = 2 ÷ 5). Bảng 3.2 là kết quả thực nghiệm. Bảng 3.2: Bảng so sánh kết quả nhận dạng hành động khi sử dụng CGA clustering và thuật toán k-means trong HMM k-means-HMM CGA clustering-HMM Số cụm Số scale (%) (%) 2 5 59,30 65,75 3 5 72,57 77,30 4 5 49,25 69,75 5 5 51,75 86,95 2 10 59,85 54,80 3 10 61,80 63,75 4 10 49,75 65,75 5 10 70,35 63,30 Kết quả Bảng 3.2 cho thấy, khi số phân cụm là 2 và 5 thì tỉ lệ nhận dạng của phương pháp phân cụm k-means đạt ngưỡng cao nhất là 72.57% và phương pháp đề xuất CGA_Clustering khi số phân cụm là 5 đạt ngưỡng cao nhất là 86.95% cao hơn phân cụm k-means là 14,38%. 3.2.2 Đánh giá kết quả Từ phương pháp đề xuất và kết quả thực nghiệm cho thấy, ưu điểm của lượng tử hóa vectơ trong đề xuất sử dụng phương pháp phân cụm dữ liệu với các cụm dữ liệu có tâm là và dữ liệu trong các cụm là sẽ tiến tiến hành bằng cách tối ưu khoảng cách từ đến trọng tâm từ công thức (2.45). Trong đó, Thuật toán k-means sẽ tối ưu hàm bình phương khoảng cách giữa vectơ , và trọng tâm của phân cụm thứ dạng từ một điểm đến một điểm. Trong khi đó, phương pháp đề xuất CGA_Clustering sẽ sử dụng phương pháp xấp xỉ siêu cầu để tối ưu hàm khoảng cách từ điểm
  20. 18 , đến vectơ trọng tâm có thể là điểm, mặt phẳng hoặc siêu cầu trong không gian CGA. Vì vậy, sử dụng phương pháp CGA_Clustering biểu diễn đối tượng chuyển động chính xác hơn nhưng độ phức tạp của hai thuật toán này là như nhau. 3.3 Nhận dạng hành động dựa vào phương pháp PCR kết hợp với CGA 3.3.1 Các phương pháp thực nghiệm Kịch bản thực nghiệm được tiến hành bằng cách cho số khớp tăng dần (từ 1 đến 41) để so sánh kết quả nhận dạng dựa vào các mô hình đã đề xuất, cụ thể: - Thực nghiệm 1: Sử dụng phương pháp không chọn khớp kết hợp với PCR để huấn luyện (Non marker selection – nosl). - Thực nghiệm 2: Sử dụng phương pháp lựa chọn khớp kết hợp với PCR (Proposed marker selection – sl). - Thực nghiệm 3: Sử dụng phương pháp không chọn khớp kết hợp mô hình đề xuất PCR và CGA (Non marker selection + Proposed feature extraction – nosl_cga_pcr). - Thực nghiệm 4: Sử dụng mô hình đề xuất là lựa chọn khớp kết hợp với PCR và CGA (Proposed marker selection + Proposed feature extraction – sl_cga_pcr). Các phương pháp thực nghiệm này được thực hiện nhằm mục đích so sánh kết quả khi trích chọn đặc trưng sử dụng CGA trong PCR và trích chọn đặc trưng sử dụng PCA trong PCR. 3.3.2 Kết quả thực nghiệm Thực nghiệm tiến hành bằng cách cho tăng dần số khớp từ 1 đến 41 khớp trong bốn phương pháp đề xuất thực nghiệm và kết quả cụ thể các phương pháp như sau: - Thực nghiệm 1: Sử dụng phương pháp không chọn khớp kết hợp với PCR để huấn luyện (Non marker selection – nosl). Tức là, chúng ta sử dụng PCR để huấn luyện trên bộ dữ liệu không sử dụng phương pháp tiền xử lý lựa chọn khớp. Thực nghiệm này, kết quả nhận dạng khá thấp chỉ đạt 54.3%. - Thực nghiệm 2: Sử dụng phương pháp tiền xử lý lựa chọn khớp kết hợp với PCR (Proposed marker selection – sl). Thực nghiệm này, có cải thiện được kết quả nhận dạng tuy nhiên chỉ đạt 63.1%. - Thực nghiệm 3: Sử dụng phương pháp không chọn khớp kết hợp PCR và CGA (Non marker selection + Proposed feature extraction – nosl_cga_pcr).
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2