Nhận dạng các bộ phận trên đối tượng 3D dựa vào kỹ thuật học sâu Mask R-CNN

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

31
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày việc tìm hiểu phương pháp tái tạo mô hình 3D từ tập dữ liệu 2D chụp xung quanh đối tượng. Từ đó phân tích, nhận dạng các thành phần của đối tượng 3D, kết hợp sử dụng phương pháp học sâu và phân đoạn tập hình ảnh 2D tương đồng. Đề xuất dựa trên mối liên hệ giữa tập điểm bất biến trên ảnh 2D và mô hình 3D, tạo các chú thích các thành phần cấu thành nên mô hình 3D và kết quả bước đầu thu nhận để tạo cơ sở dữ liệu phục vụ trong nghiên cứu, phục dựng lại các mô hình đã bị khiếm khuyết.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nhận dạng các bộ phận trên đối tượng 3D dựa vào kỹ thuật học sâu Mask R-CNN

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00045 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN Lê Tiến Mẫu1, Nguyễn Tấn Khôi2, Romain Raffin3 1 Trường Cao đẳng Quảng Ngãi; tienmauqn@gmail.com 2 Đại học Bách khoa - Đại học Đà Nẵng; ntkhoi@dut.udn.vn 3 Trường Đại học Aix-Marseille & LSIS UMR7296, Pháp; romain.raffin@univ-amu.fr TÓM TẮT: Trong lĩnh vực tái tạo mô hình 3D các mẫu vật đã và đang được nhiều người quan tâm nghiên cứu, các kết quả nghiên cứu tái tạo đã được ứng dụng rộng rãi trong nhiều lĩnh vực như khảo cổ, y tế, sản xuất thiết bị, thực tại ảo …. Việc tái tạo, nhận dạng các thành phần cấu thành nên đối tượng 3D trở thành công cụ hiệu quả để nghiên cứu, bảo tồn và quảng bá các di tích khảo cổ. Trong bài báo này, chúng tôi tìm hiểu phương pháp tái tạo mô hình 3D từ tập dữ liệu 2D chụp xung quanh đối tượng. Từ đó phân tích, nhận dạng các thành phần của đối tượng 3D, kết hợp sử dụng phương pháp học sâu và phân đoạn tập hình ảnh 2D tương đồng. Đề xuất dựa trên mối liên hệ giữa tập điểm bất biến trên ảnh 2D và mô hình 3D, tạo các chú thích các thành phần cấu thành nên mô hình 3D và kết quả bước đầu thu nhận để tạo cơ sở dữ liệu phục vụ trong nghiên cứu, phục dựng lại các mô hình đã bị khiếm khuyết. Từ khóa: Tái tạo 3D, mô hình 3D, học sâu, phân đoạn 2D, chú thích 2D/3D, phân đoạn 3D, Mask R-CNN. I. GIỚI THIỆU Hiện nay, với sự phát triển của đồ họa máy tính và công nghệ thực tại ảo, hướng nghiên cứu về tái tạo mô hình, mẫu vật 3D đã và đang được nhiều công ty và tổ chức quan tâm phát triển về thuật toán và phương pháp. Các mô hình 3D tái tạo đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như trong y học, kiến trúc đặc biệt trong bảo tồn các di tích khảo cổ bằng cách số hóa dữ liệu các di tích, cổ vật để lưu trữ hay làm hướng dẫn viên ảo [1,3]. Có nhiều nghiên cứu đã đề xuất phương pháp tái tạo mô hình, mẫu vật bằng nhiều cách khác nhau như sử dụng máy quét, chụp cộng hưởng từ, laser, hay tái tạo từ một hay nhiều ảnh 2D [10, 11, 14, 15]. Các kết quả được sử dụng để phân tích, phân đoạn hay nhận dạng đối tượng. Tuy nhiên các nghiên cứu này chủ yếu thu nhận thông tin là các mô hình 3D mà chưa có sự kết hợp xử lý thu nhận thông tin từ dữ liệu ảnh đầu vào, hay kết hợp ảnh để phân tích nhận dạng mô hình. Ngoài ra, một lĩnh vực đang được nghiên cứu phổ biến là đề xuất các kỹ thuật cho phép máy tính tự học để giải quyết các vấn đề như nhận dạng hình ảnh, nhận đạng đối tượng trong video đó là “Học máy” (Machine learning) thuộc lĩnh vực trí tuệ nhân tạo. Các kết quả của nghiên cứu đã được ứng dụng trong y tế, phân tích tài chính hay truy vết đối tượng. Các nghiên cứu dựa trên học máy đều được sử dụng trong việc phân tích, xử lý phân đoạn hình ảnh, trích xuất thông tin từ dữ liệu ảnh 2D thu được kết quả rất cao [7, 21]. Hai hướng nghiên cứu trên theo hai hướng tiếp cận khác nhau, xử lý trên dữ liệu mô hình 3D và tập ảnh 2D. Tuy nhiên cùng bắt nguồn từ dữ liệu đầu vào là thực thể và ảnh chụp, giữa mô hình 3D và tập dữ liệu 2D luôn tồn tại mối quan hệ lẫn nhau. Xuất phát từ nhận xét đánh giá này, chúng tôi đề xuất một hướng tiếp cận kết hợp xử lý và trích xuất thông tin hai chiều từ dữ liệu 2D, 3D và ngược lại để phân tích đặc trưng ngữ nghĩa 2D và 3D tương ứng. Bài báo này giới thiệu phương pháp tái tạo 3D từ tập ảnh 2D và xác định mối tương quan giữa tập ảnh 2D và mô hình 3D của cùng một đối tượng. Đồng thời với việc tái tạo, chúng tôi sử dụng phương pháp học sâu để nhận dạng và phân đoạn tập ảnh 2D. Trên hai kết quả đó bài báo bước đầu tái tạo và xác định mối quan hệ đặc trưng giữa các ảnh và mô hình 3D, đồng thời nhận dạng và phân tích đặc trưng ngữ nghĩa trên mô hình 3D, kết quả này phục vụ trong quá trình số hóa, lưu trữ và bảo tồn các di tích. Nghiên cứu của chúng tôi bước đầu nghiên cứu trên dữ liệu khảo cổ đó là bảo tàng Chămpa Đà Nẵng và tượng tại di tích Mỹ Sơn, nhằm mục đích số hóa, chú thích ngữ nghĩa trên bộ dữ liệu này. Bài báo được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II giới thiệu một số nghiên cứu liên quan đến tái tạo mô hình 3D và phương pháp nhận dạng và phân tích đặc trưng 2D dựa vào kỹ thuật học sâu. Trong phần III, bài báo đề xuất một phương pháp kết hợp xử lý đồng thời từ tập dữ liệu 2D để tái tạo mô hình và nhận dạng các thành phần cấu thành đối tượng. Phần IV mô tả kết quả thử nghiệm với 2 bộ dữ liệu tượng Chămpa và phần V kết luận và thảo luận. II. NỘI DUNG Đã có nhiều phương pháp tái tạo mô hình 3D trên cơ sở ảnh và máy quét scan. Như [11] đưa ra một máy quét thời gian thực dựa trên máy quay phim và máy chiếu để hiện thị mô hình đối tượng. Và [10, 14] đã đề xuất một phương pháp trên cơ sở chỉ khai thác các ảnh chụp. Một số tiếp cận khác tái tạo đối tượng 3D trên cơ sở từ tập ảnh được thu thập từ nhiều nguồn khác nhau của đối tượng [14]. Các phương pháp tái tạo phụ thuộc vào máy móc và chi phí thường lớn và nghiên cứu chỉ dừng ở mô hình 3D tạo ra, chưa phân tích mối liên hệ giữa ảnh, mô hình 3D và mối tương quan của chúng. Việc tái tạo 3D từ nhiều ảnh là quá trình tạo ra mô hình ba chiều từ một tập các ảnh. Đó là một quá trình xử lý ngược thu ảnh 2D từ cảnh 3D. Bản chất của một hình ảnh là một phép chiếu từ một cảnh 3D trên một mặt phẳng 2D.
354 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN Trong suốt quá trình xử lý thì độ sâu của cảnh được loại bỏ. Điểm 3D tương ứng với một điểm ảnh được giới hạn trên đường thẳng ngắm [2]. Từ một ảnh đơn lẻ thì không thể xác định được điểm trên đường thẳng tương ứng đến điểm ảnh. Nếu có 2 ảnh, như vậy vị trí của một điểm 3D có thể được tìm thấy như giao điểm của hai tia chiếu. Việc xử lý này được đề cập như đỉnh hai cạnh của tam giác [2, 10, 3]. Nhằm tăng cường kết quả trong phân tích, nhận dạng đối tượng trên tập ảnh 2D với độ chính xác cao, phương pháp phổ biến và hiệu quả đó là mạng nơron tích chập (Convolutional Neural Network-CNNs). Phương pháp thường sử dụng cơ chế như cửa sổ trượt để phát hiện và nhận dạng các đối tượng [7, 21, 9] hay sử dụng các thuộc tính đặc trưng đã được học trong quá trình huấn luyện. Tất cả các ý tưởng giải pháp trên đều đi đến một mục đích xây dựng mô hình để nhận dạng các đối tượng có mối liên quan lẫn nhau hay có cùng những đặc trưng cố định với độ chính xác cao. Trên cơ sở sử dụng phương pháp học sâu, bài báo phân tích và nhận dạng các thành phần cấu thành nên đối tượng như: chân, tay, đầu,… từ tập ảnh 2D. Từ kết quả này, chúng tôi đề xuất phương pháp tái nhận dạng và phân đoạn đối tượng 3D để phân tích, chú thích đặc trưng ngữ nghĩa của 2D/3D tương ứng. III. ĐỀ XUẤT PHƯƠNG PHÁP Trong bài báo này chúng tôi đề xuất phương pháp kết hợp xử lý đồng thời nhiều giai đoạn trên dữ liệu 2D và 3D tương ứng. Mục tiêu nhằm từ tập dữ liệu 2D thu nhận từ đối tượng, tiến hành tạo chú thích ngữ nghĩa cho đối tượng trên ảnh 2D và mô hình 3D. Bài báo có 3 giai đoạn chính, được mô tả như hình 1. Ở giai đoạn thu thập dữ liệu là giai đoạn tiền xử lý dữ liệu liên quan đến việc huấn luyện để tạo mặt nạ và chú thích 2D và nó cũng là dữ liệu để tái tạo mô hình 3D cho đối tượng. Giai đoạn này dữ liệu được thu nhận bằng cách chụp ảnh vòng quanh đối tượng [2, 14]. Kết quả của giai đoạn này là tiền đề để huấn luyện ở giai đoạn 2, giai đoạn chúng tôi sử dụng phương pháp học máy [9] để nhận dạng từng thành phần của đối tượng, trên cơ sở đó tạo mặt nạ tương ứng với mỗi thành phần. Đồng thời với giai đoạn phân đoạn hình ảnh trên cơ sở học máy, với bộ dữ liệu tập ảnh 2D chúng tôi tái tạo mô hình 3D tương ứng. Giai đoạn cuối cùng chúng tôi đề xuất kết hợp giữa kết quả chú thích ngữ nghĩa ở giai đoạn 2 để tạo mặt nạ chú thích ngữ nghĩa trên đối tượng 3D. Hình 1. Các giai đoạn xử lý chính Phần này bài báo mô tả một số giai đoạn chính trong quá trình tái tạo và trích lọc điểm đặc trưng như: thu thập dữ liệu ảnh 2D, trích xuất các điểm đặc trưng [4], xác định cặp điểm tương đồng, tính hướng chụp của máy ảnh [2], tính toán độ sâu điểm ảnh và tái tạo 3D [14]. Giai đoạn cuối cùng là phân tích mối liên hệ các điểm bất biến trên ảnh 2D và 3D để làm cơ sở cho truy vết tập điểm tương ứng trên 2D/3D. Lưu đồ trong phương pháp tiếp cận của chúng tôi được biểu diễn như Hình 1. A. Thu thập dữ liệu Đã có nhiều phương pháp thu thập dữ liệu như chụp ảnh cắt lớp, ảnh từ và phương pháp phổ biến trong tái tạo hiện nay đó là sử dụng máy scan. Những phương pháp trên thu được kết quả có độ chính xác cao, tuy nhiên chi phí đắt. Dữ liệu được sử dụng trong quá trình thử nghiệm chúng tôi tiến hành thu thập tại bảo tàng Chăm Đà Nẵng và Tượng tại di tích Mỹ Sơn bằng cách chụp từng ảnh xung quanh đối tượng như Hình 2. Hình 2. Mô tả các vị trí của camera chụp ảnh Với cùng một bộ dữ liệu chúng tôi sử dụng để thực hiện 2 giai đoạn khác nhau, giai đoạn thứ nhất để huấn luyện trong nhận dạng, phân đoạn cấu trúc thành phần đối tượng, giai đoạn thứ hai là để tái tạo mô hình 3D.
Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 355 Để nâng cao hiệu quả trong quá trình thu thập dữ liệu cần phải chụp ở mỗi cặp bức ảnh đều được giao nhau một vùng nào đó. Và tăng độ chính xác trong quá trình tái tạo máy ảnh cần đảm bảo các tham số như độ sáng, tiêu cự, khẩu độ và tốc độ hạn chế thay đổi. Hình 3 minh họa một số ảnh 2D được chụp xung quanh một đối tượng. Hình 3. Một số ảnh được chụp xung quanh đối tượng Nữ thần B. Xử lý và tái tạo mô hình 3D 1. Xác định tập điểm đặc trưng bất biến Để phát hiện các điểm bất biến tương ứng cho tập ảnh, bài báo đề xuất sử dụng thuật toán SIFT (Scale-Invariant Feature Transform). Các bước chính để phát hiện điểm bất biến được mô tả như [4]: 1) Tìm cực trị trong không gian đo, được định nghĩa bởi hàm không gian tỷ lệ của ảnh L( x, y, ) và được xác định tích chập giữa hàm Gaussian và ảnh gốc I ( x, y ) L( x, y, ) G( x, y, k ) * I ( x, y) (1) ( x2 y 2 ) 1 Trong đó: G ( x, y , k ) 2 e 2 2 2 I ( x, y ) : Ảnh đầu vào; L( x, y, ) : Hàm không gian tỷ lệ của ảnh; : tham số tỷ lệ. Để xác định điểm đặc trưng bất biến, là những điểm ít phụ thuộc vào giá trị co giãn và xoay ảnh, thuật toán đã sử dụng hàm DoG (Difference-of-Gaussian) để tính toán sự sai khác giữa hai không gian đo, hàm được ký hiệu D( x, y, ) và được xác định như sau: D( x, y, ) (G( x, y, k ) G( x, y, )) * I( x, y ) (2) L ( x, y , k ) L ( x, y , ) 2) Lọc loại bỏ các điểm tương phản kém, các điểm dư thừa theo biên và chỉ trích xuất các điểm đặc trưng tiềm năng. 3) Gán hướng cho các điểm đặc trưng (với mỗi mẫu ảnh L( x, y ) , gọi hai giá trị m( x, y), (x, y) tương ứng là độ dốc và hướng được xác định: 2 2 m( x, y ) ( L( x 1, y ) L( x 1, y )) ( L( x, y 1) L( x, y 1)) (3) 1 L( x, y 1) L( x, y 1) ( x, y ) tan (4) L( x 1, y ) L( x 1, y ) 4) Mô tả, gán tọa độ kích thước các điểm đặc trưng. Sau khi thu thập các tập điểm đặc trưng của mỗi ảnh, sử dụng phương pháp đối sánh mỗi cặp điểm để xác định cặp điểm tương đồng cho mỗi cặp ảnh. Hình 4 mô tả cặp điểm tương đồng giữa 2 ảnh. Hình 4. Điểm đặc trưng tương đồng của 2 ảnh Kết quả của giai đoạn này thu được tập điểm đặc trưng tương ứng cho mỗi ảnh và cặp ảnh. Nó là cơ sở để xác định hướng và vị trí tương đối của ảnh được chụp và cung cấp thông tin cho giai đoạn tái tạo.
356 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN 2. Xác định hướng các ảnh từ tập điểm đặc trưng Ở giai đoạn này, chúng ta cần xác định hướng và vị trí đặt của camera của các ảnh từ tập điểm đặc trưng bất biến và các cặp điểm tương đồng của mỗi cặp ảnh. Bởi vì tập các ảnh thu được từ các vị trí và hướng khác nhau của mỗi góc chụp, các điểm đặc trưng cung cấp các thông tin hữu ích trong việc xác định vị trí và hướng của ảnh tương ứng với góc chụp. Bài báo sử dụng phương pháp xác định hướng của các ảnh với một ảnh chính được chia thành 2 giai đoạn chính được mô tả [2, 14] như sau: 1) Chọn một ảnh chính, thực hiện đệ quy ghép cặp từng ảnh với ảnh chính; hướng của một ảnh thu được tốt nhất khi được xác định bởi ma trận đồng nhất và giảm tỉ lệ ảnh bằng thuật toán RANSAC [14]. Với mỗi bước thực hiện phải được điều chỉnh để tránh việc tích lũy lỗi. 2) Tính tổng bình phương bé nhất cho tất cả các tham số, trên các điểm đặc trưng của ảnh lỗi của một giải pháp trước đó. Trong đó, một ảnh lỗi của một điểm là sự sai khác giữa tọa độ của một điểm đặc trưng và phép chiếu ngược của nó trên một ảnh. Đầu ra của giai đoạn này cung cấp các thông tin về hướng và vị trí của camera chụp ảnh. Hình 5 mô tả các vị trí đã được chụp ảnh, được tái hiện trên mô hình 3D. Hình 5. Mô tả các vị trí ảnh thu được trong quá trình chụp 3. Tái tạo vật thể 3D từ tập dữ liệu 2D Tái tạo 3D là giai đoạn phục hồi thông tin độ sâu cho mỗi điểm ảnh đặc trưng. Một bản đồ độ sâu của ảnh là mỗi pixel được biểu diễn độ sâu tương ứng với điểm nhìn 3D từ điểm nhìn của một ảnh chính. Từ tập bản đồ độ sâu được chuyển đổi trực tiếp sang tập điểm 3D tương ứng, mỗi điểm 3D sau khi tái tạo luôn được liên kết với một pixel trong ảnh tương ứng. Giai đoạn này cung cấp một bản đồ hệ số tương quan giữa các cặp ảnh để tính toán độ sâu cho mỗi điểm ảnh trong bản đồ độ sâu. Các bước xử lý chính [14] mô tả như sau: 1) Chọn hướng và vị trí của camera thu được từ giai đoạn xử lý trước đó và xác định ảnh phù hợp; 2) Tính toán đo lường cho mỗi điểm có khả năng trong không gian (đó là tổng của các hệ số tương quan cho mỗi cặp ảnh); 3) Trích xuất bề mặt đối tượng bằng cách tiếp cận năng lượng tối thiểu trên toàn bộ không gian và làm mịn theo một thứ tự để đồng nhất bề mặt đối tượng. Kết quả của giai đoạn này là tập điểm 3D, mỗi điểm 3D được tạo từ tập điểm bất biến SIFT và chúng được bổ sung thông tin độ sâu cho mỗi điểm ảnh. Vì vậy giữa tập điểm 3D và 2D luôn tồn tại mối liên hệ lẫn nhau. Đây là cơ sở quan trọng để xác định mối tương quan giữa tập điểm 2D và 3D. C. Tương quan giữa tập điểm bất biến 2D và tập điểm 3D Giai đoạn tái tạo mô hình 3D (nội dung B), mỗi điểm 3D được tạo ra từ những điểm đặc trưng bất biến từ ảnh 2D và chúng được bổ sung thông tin độ sâu. Như vậy, mỗi điểm đặc trưng được chọn sẽ liên kết với một điểm 3D. Trong Hình 5, các điểm màu đỏ (Hình 5a) là tập điểm đặc trưng bất biến được tìm thấy bởi thuật toán và chỉ một số ít điểm nổi bật (Hình 5b) được chọn để tham gia vào giai đoạn tái tạo. (a) Tập điểm bất biến được (b) Tập điểm được chọn tìm thấy tham gia tái tạo Hình 6. Trích lọc tập điểm đặc trưng
Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 357 Để xác định và truy lại vết các điểm đặc trưng tương ứng với mỗi ảnh, bài báo đề xuất sử dụng phương pháp truy vết ngược. Do mỗi điểm 3D của đối tượng đã được liên kết với một ảnh chính (ảnh chính là ảnh được chọn để thu nhận màu sắc, đặc trưng của đối tượng (nội dung B)). Từ ảnh chính trích xuất các điểm đặc trưng bất biến và đối sánh, so khớp với tập điểm đặc trưng với mỗi ảnh khác. Nếu mỗi cặp điểm tương đồng thì đánh dấu và trích lọc. Hình 4 minh họa các vị trí và giá trị tương đồng của các cặp điểm đặc trưng giữa từng cặp ảnh. D. Phân đoạn đối tượng 2D dựa trên kỹ thuật học sâu Mask R-CNN Mạng nơron tích chập (Convolutional Neural Network - CNNs) đang được ứng dụng phổ biến trong kỹ thuật học sâu (Deep learning). Đã có nhiều ứng dụng sử dụng kết quả nghiên cứu CNNs trong việc nhận dạng, phân lớp các đối tượng trong ảnh. Hình 6 biểu diễn mô hình được đề xuất bởi [21] sử dụng mô hình mạng CNN để tạo phân vùng sự xuất hiện của đối tượng trên ảnh gồm 3 giai đoạn chính. 1) Trích xuất khoảng 2000 vùng được đề xuất sử dụng thuật toán [13] 2) Tính toán các thuộc tính cho các vùng đề xuất sử dụng mạng nơ-ron tích chập. 3) Phân lớp cho mỗi khu vực sử dụng phương pháp học có giám sát SVM (Support Vector Machine). Hình 7. Kiến trúc mạng R-CNN Tuy nhiên tốc độ xử lý của R-CNN và Fast R-CNN khá chậm bởi do phải tạo ra nhiều các vùng đặc trưng trong ảnh. Trong kết quả nghiên cứu [21], tác giả đã đề xuất bổ sung môđun ROIAlign (Region of Interest) để cải thiện tốc độ xử lý và nâng cao tính chính xác của các vùng đề xuất như vùng màu xanh trong Hình 8. Kết quả nghiên cứu [9] tiếp tục mở rộng môđun tích hợp tạo mặt nạ để phân vùng và nhận dạng vùng đặc trưng tương ứng. Trong giai đoạn này, chúng tôi đề xuất kết hợp tách các vùng đã được nhận dạng được tạo, đánh dấu và giãn nở (khôi phục) kích thước ảnh ban đầu cho mỗi vùng, đánh dấu và tạo mặt nạ cho từng bộ phận. Mục đích được sử dụng trong giai đoạn ánh xạ các vùng mặt nạ tương ứng từ tập điểm 2D sang 3D và xác định ngữ nghĩa cho đối tượng. Hình 8. Mô hình phân đoạn ảnh trên Mask R-CNN IV. KẾT QUẢ THỬ NGHIỆM Kết quả thực nghiệm tái tạo mô hình 3D và nhận dạng các vùng cục bộ và học máy được triển khai thử nghiệm trên nền tảng Google colab. Nhóm nghiên cứu đã tiến hành khảo sát và chụp ảnh xung quanh các pho tượng tại Bảo tàng Điêu khắc Chăm Đà Nẵng và khu di tích Mỹ Sơn ở Quảng Nam. Trong Bảng 1 thống kê số ảnh đã được chụp và thu nhận trên mỗi đối tượng và một số dữ liệu mẫu được sử dụng trong quá trình tái tạo và huấn luyện được upload tại [22]. Bảng 1. Số lượng ảnh thu thập trên mỗi đối tượng Tượng Số ảnh chụp Nữ thần Siva 70 Thần linh – Mỹ sơn 56 Tượng Dvarapala 60 Thần Brahma 65 Trong phương pháp đề xuất, chúng tôi chia thành ba giai đoạn xử lý chính. Giai đoạn thứ nhất, tái tạo mô hình 3D cho mỗi tập ảnh. Như kết quả Hình 7 và 8 một số ảnh đặc trưng các vị trí chụp và mô hình đối tượng 3D thu nhận được với ba góc nhìn sau khi được tái tạo.
358 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN Dữ liệu tập ảnh như Bảng 1 được sử dụng trong quá trình tái tạo. Hình 8, 9 hiển thị ảnh mẫu của dữ liệu và mô hình sau tái tạo với các vị trí chụp khác nhau quanh tượng Nữ thần Siva tại Bảo tàng Điêu khắc Chăm Đà Nẵng và Tượng vật ở Di tích Mỹ Sơn - Quảng Nam. (a) Một số ảnh chụp với vị trí khác nhau của tượng nữ Thần (b) Mô hình tái tạo 3D với 3 góc nhìn Hình 9. Dữ liệu ảnh chụp và mô hình tái tạo 3D tượng nữ Thần (a) Một số ảnh chụp với vị trí khác nhau của Tượng (b) Mô hình tái tạo 3D với 3 góc nhìn của Tượng Hình 10. Dữ liệu ảnh chụp và mô hình 3D tái tạo Tượng Chămpa Như ở giai đoạn thứ 2 từ bộ dữ liệu ảnh ban đầu chúng tôi thực hiện huấn luyện và phân đoạn ngữ nghĩa đối tượng. Trong giai đoạn này, chúng tôi truy vết và ghi nhận lại các vùng đã được phân đoạn từ mô hình huấn luyện. Như Hình 10, 3 cột bên trái là 3 ảnh 2D sau khi phân đoạn và được nhận dạng sau khi huấn luyện, cột phải là mô hình 3D được chú thích tương ứng với các thành phần từ dữ liệu 2D. Bảng 2. Dữ liệu 2D và mô hình 3D sau khi huấn luyện và chú thích Dữ liệu sau khi phân đoạn trên 2D Chú thích trên 3D Siva – Đà Nẵng Tượng nữ thần Tượng Di tích Quảng Nam Mỹ Sơn –
Lê Tiến Mẫu, Nguyễn Tấn Khôi, Romain Raffin 359 V. KẾT LUẬN VÀ THẢO LUẬN Trong bài báo này, chúng tôi giới thiệu và đề xuất một giải pháp kết hợp phân đoạn ngữ nghĩa trên đối tượng 2D/3D. Trên cơ sở kết hợp xử lý đồng thời tái tạo mô hình 3D và sử dụng phương pháp học sâu để phân đoạn hình ảnh để tái phân đoạn trên đối tượng 3D. Kết quả bài báo bước đầu đã thu thập ảnh và tái tạo thành công một số tượng Chăm cổ tại bảo tàng Đà Nẵng và di tích Mỹ Sơn. Kết quả bước đầu là cơ sở để phân đoạn, nhận dạng và phân tích từng bộ phận trên các đối tượng 2D/3D phục vụ số hóa lưu trữ và bảo tồn. Hướng phát triển tiếp theo của chúng tôi theo cách tiếp cận này là tái tạo đối tượng 3D từ tập ảnh cho các đối tượng khác nhau từ dữ liệu ảnh được thu thập từ nhiều nguồn khác nhau tiến hành phân đoạn, nhận dạng và phân tích ngữ nghĩa trên 2D và 3D. Từ đó xây dựng bộ dữ liệu số hóa cho các mô hình đối tượng cụ thể và chú thích các đặc trưng của mô hình 3D và tập ảnh thu được. VI. LỜI CẢM ƠN Nhóm nghiên cứu chân thành cảm ơn Phòng thí nghiệm LSIS, Trường Đại học Aix-Marseille - Cộng hòa Pháp; Bảo tàng Điêu khắc Chăm Đà Nẵng đã tư vấn trao đổi các nội dung chính của bài báo và hỗ trợ thu thập dữ liệu phục vụ thử nghiệm phương pháp đề xuất. TÀI LIỆU THAM KHẢO [1] Adeline Manuel, Livio De Luca and Philippe Véron, "A Hybrid Approach for the Semantic Annotation of Spatially Oriented Images", International Journal of Heritage in the Digital Era, 2014. [2] APERO: International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XXXVIII-5/W16, 2011 ISPRS Trento 2011 Workshop, 2-4 March 2011, Trento, Italy. [3] Christian Lindequist Larsen, "3D Reconstruction of Buildings From Images with Automatic Fac¸ade Refinement", Master’s Thesis, Vision, Graphics and Interactive Systems, 2010. [4] David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, Volume 60 Issue 2, November 2004. [5] Ding Yun Chen and Ming Ouhyoung, "A 3D Object Retrieval System based on Multi-Resolution Reeb Graph". Proc. of Computer Graphics Workshop, 2002. [6] Dmitriy Bespalov, William C. Regli, Ali Shokouf, "Local feature extraction and matching partial objects" Computer-Aided Design 38(9), pp. 1020–1037, 2006. [7] Girshick, Ross. “Fast R-CNN.” 2015 IEEE International Conference on Computer Vision (ICCV), 2015 [8] G. Stavropoulos, P. Moschonas, K. Moustakas, D. Tzovaras and M.G. Strintzis, "3D Model Search and Retrieval from Range Images using Salient Features", IEEE Transactions on Multimedia, vol. 12, no.7, pp. 692-704, November 2010. [9] He, Kaiming et al. “Mask R-CNN.” 2017 IEEE International Conference on Computer Vision (ICCV), 2017. [10] JC. Torres, G. Arroyo, C. Romo, "3D Digitization using Structure from Motion", CEIG-Spanish Computer Graphics Conference, 2012. [11] Jebara, Tony, Ali Azarbayejani, and Alex Pentland. "3D structure from 2D motion, Signal Processing Magazine", IEEE 16.3, pp. 66-84, 1999. [12] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. [13] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. [14] MicMac, Apero, Pastis and Other Beverages in a Nutshell, 2015. [15] SF. El-Hakim, JA. Beraldin, M. Picard, "Detailed 3D reconstruction of large-scale heritage sites with integrated techniques", Computer Graphics and Applications, IEEE Volume 24, Issue 3, pp. 21-29, 2004. [16] Park, Hyun Soo, et al, "3D Trajectory Reconstruction under Perspective Projection", International Journal of Computer Vision, pp. 1-21, 2015. [17] C. Baillard, C. Schmid, A. Zisserman, and A. Fitzgibbon, "Automatic line matching and 3D reconstruction of buildings from multiple views", In ISPRS Conference on Automatic Extraction of GIS Objects from Digital Imagery, volume 32, pp. 69-80, 1999. [18] R. Berthilsson, K. Astrom, and A. Heyden, "Reconstruction of general curves, using factorization and bundle adjustment", International Journal of Computer Vision, 41(3), pp. 171–182, 2001. [19] M. Pierrot-Deseilligny, N. Paparoditis. A multiresolution and optimization-based image matching approach: An application to surface reconstruction from SPOT5-HRS stereo imagery. In IAPRS vol XXXVI-1/W41 in ISPRS
360 NHẬN DẠNG CÁC BỘ PHẬN TRÊN ĐỐI TƯỢNG 3D DỰA VÀO KỸ THUẬT HỌC SÂU MASK R-CNN Workshop On Topographic Mapping From Space (With Special Emphasis on Small Satellites), Ankara, Turquie, 02-2006 [20] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014 [21] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015 [22] Dataset: https://drive.google.com/open?id=11pyGnMIgA9qj3jLfpD4rl-wsVvQEun8v [23] M. Le-Tien, K. Nguyen-Tan and R. Raffin, "A Method to Determine the Characteristic of Object Based on 2D/3D Correspondance," 2019 IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF), Danang, Vietnam, 2019, pp. 1-7 3D OBJECT-PARTS RECOGNITION BASED ON MASK-R CNN DEEP NEURAL NETWORK Le Tien Mau, Nguyen Tan Khoi, Romain Raffin ABSTRACT: This paper presents a new method to retrieve semantic of 3D objects by combination of 2D images and the corresponding 3D model reconstructed using photogrammetry. Our proposed method for determining the characteristics consists of three major steps: 1) reconstruction of 3D object, 2) recognization characteristics based on the Mask R-CNN method of the image set and 3) determining characteristics of this reconstructed 3D object from both spaces (2D and 3D) and extraction all semantic notation for 2D/3D data set.