intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tái tạo mô hình 3D của đối tượng từ ảnh phác thảo 2.5D

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:6

38
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu một mô hình có thể huấn luyện từ đầu đến cuối bằng cách tích hợp các mô hình học sâu, có khả năng ước tính tuần tự từ các ảnh phác thảo 2.5D thành hình dạng đối tượng 3D và tinh chỉnh hình dạng này.

Chủ đề:
Lưu

Nội dung Text: Tái tạo mô hình 3D của đối tượng từ ảnh phác thảo 2.5D

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0044 TÁI TẠO MÔ HÌNH 3D CỦA ĐỐI TƯỢNG TỪ ẢNH PHÁC THẢO 2.5D Quách Thị Bích Nhƣờng, Trần Văn Ninh, Đỗ Phúc Thịnh, Phan Mạnh Thƣờng Trường Đại học Công nghệ Đồng Nai quachthibichnhuong@dntu.edu.vn, tranvanninh@dntu.edu.vn, dophucthinh@dntu.edu.vn, phanmanhthuong@dntu.edu.vn TÓM TẮT: Hiện nay, trong rất nhiều lĩnh vực như: y khoa, điện ảnh, kiến trúc… mô hình 3D được ứng dụng rất nhiều. Tuy nhiên, để xây dựng mô hình 3D sẽ cần rất nhiều thông tin của đối tượng. Vì thế, việc tái tạo mô hình 3D từ bản phác thảo 2.5D là hoàn toàn cần thiết. Đầu tiên, so với hình dạng 3D đầy đủ, các bản phác thảo 2.5D dễ dàng được phục hồi hơn từ hình ảnh 2D; các mô hình phục hồi bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ các bộ dữ liệu tổng hợp sang dữ liệu thực tế. Thứ hai, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có thể học hoàn toàn từ các bộ dữ liệu tổng hợp. Thứ ba là có thể dễ dàng hiển thị các bản phác thảo 2.5D mà không cần mô hình hóa đối tượng trong ảnh thật. Trong bài báo này, chúng tôi nghiên cứu một mô hình có thể huấn luyện từ đầu đến cuối bằng cách tích hợp các mô hình học sâu, có khả năng ước tính tuần tự từ các ảnh phác thảo 2.5D thành hình dạng đối tượng 3D và tinh chỉnh hình dạng này. Thực nghiệm cho thấy, khi so sánh trên bộ dữ liệu ShapeNet Core55, phương pháp này cho kết quả tốt hơn so với các phương pháp trước đây. Từ khóa: Tái tạo mô hình, mạng học sâu, mạng tích chập, bản phác thảo 2.5D, mô hình 3D. I. GIỚI THIỆU Hiện nay, để mô phỏng hình ảnh của đối tượng một cách trực quan, sinh động, giúp người quan sát có những góc nhìn chi tiết đầy đủ hơn về đối tượng và việc tương tác với đối tượng đạt kết quả cao, hình ảnh 3D được ứng dụng trong rất nhiều lĩnh vực như: ảnh y khoa, tạo cảnh và xây dựng nhân vật trong điện ảnh, thiết kế trong kiến trúc, in 3D, … [1] [2]. Trong một số lĩnh vực, việc tái tạo hình dạng 3D của đối tượng đã được thực hiện thành công bằng cách sử dụng các thiết bị chuyên dụng thu hình ảnh chụp đối tượng ở nhiều góc độ khác nhau phục vụ việc tái tạo hình dạng 3D [3] [4]. Để tái tạo hình dạng 3D trực tiếp từ một hình ảnh đơn đòi hỏi phải có đầy đủ kiến thức về hình dạng hình học 3D của đối tượng cụ thể. Điều này đặt ra thách thức ở cách tiếp cận dựa trên phương pháp học vì thông tin đối tượng 3D rất đa dạng trong hình ảnh thực, các hướng nghiên cứu trước đây chỉ tập trung hoàn toàn vào dữ liệu tổng hợp [5] [6] [7], vì vậy thường bị ảnh hưởng bởi vấn đề thích nghi miền dữ liệu bởi việc hoàn thiện không hoàn hảo do chuyển trực tiếp từ 2D sang 3D, ảnh tái tạo chưa đạt hiệu quả tốt nhất. Các phương pháp tái tạo hình dạng 3D đã cho thấy rằng nếu tái tạo hình dạng 3D của đối tượng thông qua phác thảo 2.5D của hình ảnh sẽ giải quyết được các vấn đề như: so với hình dạng 3D hoàn chỉnh, các bản phác thảo 2.5D được khôi phục từ một hình ảnh 2D dễ dàng hơn nhiều; các mô hình phục hồi các bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang dữ liệu thực. Bên cạnh đó, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có thể học hoàn toàn từ dữ liệu tổng hợp, do đó có thể dễ dàng đưa ra các bản phác thảo 2.5D thực tế mà không cần mô phỏng các thay đổi của các đối tượng ở hình ảnh thực như: ánh sáng, kết cấu,… điều này giải quyết được một phần vấn đề thích ứng miền [6] [8] [9]. Từ những nhận định trên, chúng tôi đề xuất một phương pháp tái tạo hình dạng 3D thông qua hình ảnh 2.5D có thể giải quyết các hạn chế đặt ra trong tái tạo hình dạng 3D của đối tượng trực tiếp từ ảnh RGB đơn nhằm đạt hiệu suất tái tạo tốt nhất. Hiện nay, trong nhiều lĩnh vực [1] [2], việc tạo hình ba chiều của đối tượng đã được thực hiện bằng cách sử dụng các thiết bị chuyên dụng thu hình ảnh chụp đối tượng ở nhiều góc độ khác nhau [3] [4]. Để tạo hình ba chiều trực tiếp từ một hình ảnh đơn đòi hỏi phải có đầy đủ thông tin về hình dạng hình học ba chiều của đối tượng cụ thể. Điều này đặt ra thách thức ở cách tiếp cận dựa trên phương pháp học vì thông tin đối tượng ba chiều rất đa dạng. Các hướng nghiên cứu trước đây chỉ tập trung hoàn toàn vào dữ liệu tổng hợp [5] [6] [7], vì vậy thường bị ảnh hưởng bởi việc hoàn thiện không hoàn hảo do chuyển trực tiếp từ ảnh hai chiều sang ba chiều, ảnh được tạo ra chưa đạt hiệu quả tốt nhất. Để khắc phục tình trạng này, một hướng tiếp cận mới sử dụng bản phác thảo 2.5D làm trung gian [6] [8] [9]. Thay vì chuyển thẳng từ 2D sang 3D thì sẽ chuyển từ 2D sang 2.5D rồi sau đó chuyển từ 2.5D sang 3D. Cách tiếp cận này sẽ giải quyết được các vấn đề như: so với hình dạng ba chiều hoàn chỉnh, các bản phác thảo ảnh hai chiều tĩnh được khôi phục từ một hình ảnh hai chiều đơn dễ dàng hơn nhiều; các mô hình khôi phục các bản phác thảo ảnh hai chiều tĩnh cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang dữ liệu thực,…. Ngoài ra, với sự phát triển mạnh mẽ của học sâu, các mạng học sâu hoàn toàn có thể được áp dụng vào bài toán này để tăng cường khả năng mô hình hóa 3D. Từ những nhận định trên, chúng tôi đề xuất một phương tái tạo mô hình ba chiều từ ảnh hai chiều tĩnh bằng mạng học sâu để đạt hiệu suất tốt nhất. Hình 1. Ảnh RGB và ảnh 3D của đối tượng
  2. 70 TÁI TẠO MÔ HÌNH 3D CỦA ĐỐI TƯỢNG TỪ ẢNH PHÁC THẢO 2.5D Các phần còn lại của bài báo được tổ chức như sau. Trong phần kế tiếp, chúng tôi sẽ trình bày quá trình phát triển của việc tái tạo mô hình 3D. Chúng tôi sẽ mô tả về mô hình đề xuất cũng như các thuật toán sử dụng trong Phần III. Phần IV sẽ là phần thực nghiệm và đánh giá và Phần V sẽ là kết luận và hướng phát triển của mô hình. II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Hiện nay, các phương pháp tái tạo hình dạng 3D của một đối tượng từ một hình ảnh 2D duy nhất có thể được chia thành ba hướng tiếp cận: Phương pháp sử dụng mạng nhúng TL (TL-Embedding network), phương pháp sử dụng mạng đối kháng sinh mẫu (Generative Adversarial Network - GAN) và phương pháp sử dụng mạng nơron tái tạo hồi quy (Recurrent Reconstruction Neural Network). A. Phương pháp sử dụng mạng nhúng TL Các phương pháp thuộc dạng này xuất phát từ ý tưởng tạo ra một vector biểu diễn của đối tượng đáp ứng hai tiêu chí [7]: Một là vector biểu diễn đó phải có tính khái quát 3D nghĩa là có thể tái tạo lại hình dạng 3D của các đối tượng. Hai là vector này phải dự đoán được từ hình ảnh 2D, nghĩa là có thể dễ dàng suy ra biểu diễn hình dạng 3D từ hình ảnh 2D. Mô hình mạng nhúng TL có hai thành phần chính: phần Huấn luyện (mạng T) và phần Thử nghiệm (mạng L). Mạng L loại bỏ phần mã hóa của mạng mã hóa tự động (mạng T) và kết nối đầu ra của mạng nhúng hình ảnh với bộ giải mã để có được đầu ra là hình dạng voxel, điều này cho thấy mạng nhúng TL có thể được sử dụng để dự đoán hình dạng voxel 3D của hình ảnh 2D đã cho. B. Phương pháp sử dụng mạng đối kháng để sinh mẫu có bộ mã hóa tự động thay đổi 3D Các phương pháp thuộc dạng này dựa trên kiến trúc mạng đối kháng sinh mẫu [10][4] gồm 2 phần chính là trình sinh mẫu và trình phân biệt. Trong mạng 3D-GAN [20], trình sinh mẫu G ánh xạ một vector ẩn 200 chiều z, được lấy mẫu ngẫu nhiên từ một không gian ẩn xác suất, đến một khối 64 × 64 × 64, biểu diễn cho một đối tượng G(z) trong không gian voxel 3D. Trình phân biệt D đưa ra giá trị độ tin cậy D(x) cho dù đầu vào của đối tượng 3D là x thực hay tổng hợp. Phương pháp này tạo các đối tượng 3D bằng cách lấy mẫu vector ẩn z và ánh xạ nó vào không gian đối tượng. Trong mô hình mạng đối kháng để sinh mẫu có bộ mã hóa tự động thay đổi 3D (3D Variational Autoencoder Generative Adversarial Network - 3D-VEA-GAN), các tác giả mở rộng mô hình 3D-GAN bằng cách thêm một bộ mã hóa hình ảnh E bổ sung, lấy hình ảnh 2D làm đầu vào và xuất ra vector biểu diễn ẩn . Điều này được thể hiện trong nghiên cứu về VAE-GAN, kết hợp VAE [13] và GAN bằng cách chia sẻ bộ giải mã VAE với trình sinh mẫu của GAN. C. Phương pháp sử dụng mạng nơron tái tạo hồi quy Phương pháp này xuất phát từ mạng bộ nhớ dài-ngắn (Long Short-Term Memory Network - LSTM) và mạng nơron tích chập (Convolutional Neural Network - CNN), nghiên cứu đã cải tiến và đề xuất một kiến trúc mới là mạng nơron tái tạo hồi quy 3D (3D Recurrent Reconstruction Neural Network - 3D-R2N2) [2]. Mạng 3D-R2N2 dùng một hoặc nhiều hình ảnh của một đối tượng từ các góc nhìn khác nhau và đưa ra một bản dựng lại của đối tượng dưới dạng lưới. Ưu điểm lớn nhất của mạng R2N2 trong cả huấn luyện và thử nghiệm là không yêu cầu có bất kỳ nhãn của lớp đối tượng hoặc chú thích hình ảnh nào (tức là không cần các phân đoạn, các điểm chính hoặc các nhãn). Để giải quyết các khó khăn và thách thức của việc tái tạo hình dạng 3D từ một hình ảnh 2D RGB duy nhất, chúng tôi đề xuất phương pháp giải quyết cho bài toán bằng cách tích hợp các mô hình học sâu với các hình dạng được học trước. Đây là một mô hình có thể huấn luyện từ đầu đến cuối gồm ba bước: ước tính các bản phác thảo 2.5D, ước tính hình dạng 3D và tinh chỉnh hình dạng 3D. III. PHƢƠNG PHÁP ĐỀ XUẤT Hình 2. Mô hình tái tạo hình dạng 3D thông qua bản phác thảo 2.5D
  3. Quách Thị Bích Nhường, Trần Văn Ninh, Đỗ Phúc Thịnh, Phan Mạnh Thường 71 Phương pháp đề xuất của chúng tôi là xây dựng một mô hình có thể huấn luyện từ đầu đến cuối gồm ba thành phần chính: ước tính các bản phác thảo 2.5D từ ảnh 2D, ước tính hình dạng 3D từ bản phác thảo 2.5D và tinh chỉnh hình dạng 3D. Việc phân chia mô hình thành ba thành phần có những ưu điểm sau: • Đầu tiên, so với hình dạng 3D đầy đủ, các bản phác thảo 2.5D dễ dàng được phục hồi hơn từ hình ảnh 2D; các mô hình phục hồi các bản phác thảo 2.5D cũng có nhiều khả năng chuyển từ dữ liệu tổng hợp sang dữ liệu thực. • Thứ hai, để tái tạo hình dạng 3D từ bản phác thảo 2.5D, các hệ thống có thể học hoàn toàn từ dữ liệu tổng hợp. Điều này là do chúng ta có thể dễ dàng hiển thị các bản phác thảo 2.5D thực tế mà không cần mô hình hóa các biến thể xuất hiện của đối tượng trong ảnh thật, bao gồm ánh sáng, kết cấu,... Điều này càng làm giảm vấn đề thích ứng miền. • Thứ ba, do sự không chắc chắn vốn có của việc tái tạo hình dạng 3D từ một ảnh RGB, các mạng học thường dự đoán ra các hình dạng không thực tế. Thay vào đó, trong phương pháp này sử dụng một mạng đối nghịch 3D-GAN được huấn luyện để điều chỉnh hình dạng 3D của đối tượng làm cho hình dạng 3D có độ chính xác và tự nhiên nhất. A. Uớc tính bản phác thảo 2.5D từ ảnh 2D Đây là thành phần đầu tiên của mô hình (hình 2a), mô hình ước tính bản phác thảo 2.5D của đối tượng từ một hình ảnh RGB 2D. Mô hình này dựa trên kiến trúc của mạng ResNet-18. Bộ mã hóa sử dụng Resnet-18 với lớp Conv1 được sửa đổi kích thước kernel từ 7×7 thành 3×3, stride là 2 và padding là 1 với mục đích giảm nhiễu và làm mịn ảnh khi thực hiện tích chập để mã hóa từ ảnh RGB 2D có kích thước 256×256 thành 512 bản đồ đặc trưng có kích thước 8×8. Bộ giải mã gồm bốn lớp giải chập với một kernel kích thước là 5×5, stride là 2 và padding là 2. Nó xuất ra bản phác thảo 2.5D với các thông tin bề mặt, độ sâu, bóng (surface, depth, silhouette) (hình 2b) và có cùng độ phân giải là 256×256. Hình 3 là sơ đồ mô tả quá trình ước tính bản phác thảo 2.5D từ ảnh RGB 2D. Hình 3. Sơ đồ quá trình ước tính bản phác thảo 2.5D B. Ước tính hình dạng 3D Thành phần thứ hai của mô hình (hình 2b) là dự đoán hình dạng đối tượng 3D từ các bản phác thảo 2.5D ước tính ở bước trên (hình 2a). Vì chỉ lấy 3 thông tin surface, depth, silhouette làm đầu vào, mô hình có thể được huấn luyện bằng dữ liệu tổng hợp mà không gặp phải vấn đề không thích ứng. Điều này là các bản phác thảo 2.5D dễ dàng kết xuất hơn là hình ảnh thực tế. Mô hình ước tính 3D (hình 3.3) là cũng là một mạng mã hóa - giải mã, nó dự đoán hình dạng 3D từ các bản phác thảo 2.5D. Bộ mã hóa được điều chỉnh từ ResNet-18, thực hiện tích chập với một kernel kích thước 3×3, stride là 2, padding là 1 và gộp giá trị trung bình để mã hóa hình ảnh bốn kênh 256×256 (một cho depth, ba cho surface và một cho silhouette) thành một vector ẩn 200 chiều. Sau đó, vector này sẽ đi qua một bộ giải mã gồm 5 lớp giải chập 3D với stride và padding được thay đổi qua các lớp, kết hợp chuẩn hóa hàng loạt (batch-norm) và ReLU để tạo ra hình dạng voxel 128×128×128. Hình 4. Sơ đồ quá trình ước tính hình dạng 3D C. Tinh chỉnh độ chính xác của hình dạng 3D dự đoán Thành phần cuối cùng là mô hình tinh chỉnh hình dạng 3D có được ở bước 2b. Do hình dạng 3D có được từ ảnh phác thảo 2.5D theo bước trên sẽ không đạt kết quả cao. Vì vậy, chúng tôi tinh chỉnh lại hình dạng này nhờ mô hình 3D-GAN [4]. Bằng cách này, mô hình sẽ tăng độ chính xác của hình dạng 3D cuối cùng. Ý tưởng là xây dựng được một trình phân biệt và trình phân biệt này sẽ làm nhiệm vụ kiểm tra hình dạng 3D tạo được từ bước 2. Khác biệt giữa phương pháp đề xuất và phương pháp của của MarrNet: Cả hai cách tiếp cận trên đều lấy cảm hứng từ mạng nhúng TL và mạng 3D-VEA-GAN để dựa vào trung gian là bản phác thảo 2.5D. Tuy nhiên, MarrNet chỉ sử dụng mạng nơron và các hàm mất mát tương ứng với 3 thông tin của bản phác thảo 2.5D để chỉnh sửa hình dạng 3D ước tính được. Trong khi đó, chúng tôi sử dụng mô hình GAN để tăng cường chất lượng của hình dạng 3D. Hình 5. Sơ đồ quá trình tinh chỉnh độ chính xác của hình dạng 3D dự đoán
  4. 72 TÁI TẠO MÔ HÌNH 3D CỦA ĐỐI TƯỢNG TỪ ẢNH PHÁC THẢO 2.5D Một mạng 3D-GAN [4] được huấn luyện trước để xác định xem hình dạng 3D được tạo ra trong bước 2 của mô hình (hình 2b) có “thực tế” hay không. Tương tự như các mô hình GAN khác, trình sinh mẫu của nó tổng hợp một hình dạng 3D từ một vector được lấy ngẫu nhiên và trình phân biệt của nó phân biệt các hình dạng được tạo ra từ những hình dạng thực theo sơ đồ trong hình 5. Do đó, trình phân biệt có khả năng mô hình hóa phân phối hình dạng thực và có thể được sử dụng như hàm mất mát của mô hình. Trình sinh mẫu không tham gia vào quá trình huấn luyện hoàn chỉnh hình dạng sau này của mô hình. Trình sinh mẫu tạo ra một hình dạng 3D với đầu vào là một vector ngẫu nhiên đi qua 5 lớp giải chập 3D với stride và padding cũng được thay đổi qua các lớp, kết hợp chuẩn hóa hàng loạt (batch-norm) và ReLU cùng với lớp sigmoid cuối cùng để tạo ra hình dạng voxel 128×128×128. Đối với trình phân biệt, chúng tôi sử dụng 5 lớp tích chập 3D với leaky ReLU để phân biệt hình dạng 3D được tạo ra từ trình sinh mẫu và hình dạng thực tế. D. Huấn luyện mô hình Mạng ước tính phác thảo 2.5D được huấn luyện với hàm mất mát là tổng lỗi của 3 thông tin surface, depth và silhouette, sử dụng thuật toán Stochastic Gradient Descent - SGD với hệ số học là 1e-3, số lần lặp là 300, sử dụng tối ưu hóa theo thuật toán Adam. Đối với mạng ước tính hình dạng 3D, chúng tôi sử dụng hàm mất mát cross-entropy để huấn luyện mạng ở giai đoạn này với SGD, tỉ lệ học là 1e-3 với momentum là 0.9, số lần lặp là 80. Cuối cùng là mô hình 3D-GAN, do tính đa chiều của hình dạng 3D (128×128×128), việc huấn luyện mạng GAN trở nên không ổn định. Để giải quyết vấn đề này, chúng tôi sử dụng hàm mất mát GAN Wasserstein [19] [8] được tác giả đề nghị sử dụng cho các bài toán thuộc dạng này. [ ( ̃)] [ ( )] [(‖ ̂ ( ̂)‖ ) ] (2) ̃ ̂ ̂ với là trình phân biệt, và lần lượt là các phân phối của hình dạng được sinh ra và hình dạng thực. Trong quá trình huấn luyện, trình phân biệt cố gắng tối thiểu hàm mất mát trong khi trình sinh mẫu cố gắng tối đa hàm mất mát thông qua phần đầu của công thức (2), vì vậy có thể định nghĩa một hàm mất mát khác để thể hiện độ chính xác của mô hình là ̃ [ ( ̃)], trong đó là các hình dạng tái tạo hoàn chỉnh từ mạng này. Theo tác giả Gulrajani [19], phần sau của công thức (2) là hình phạt gradient (gradient penalty), chúng tôi chọn λ = 10 theo đề nghị của tác giả. Mạng tinh chỉnh độ chính xác của hình dạng 3D được huấn luyện trên trình sinh mẫu G và trình phân biệt D, trong đó sử dụng tối ưu hóa Adam [13] với tỷ lệ học là 1e-4 và kích thước batch là 4 cho 80 epoch. Mạng D được huấn luyện trên mẫu thật, mẫu giả và hình phạt gradident như phần sau của công thức (2). Mạng hoàn chỉnh hình dạng 3D được huấn luyện dựa trên mạng ước tính hình dạng 3D và trình phân biệt D của mạng tinh chỉnh hình dạng 3D. Mô hình này dùng hàm mất mát là tổng lỗi hàm mất mát của mô hình ước tính hình dạng 3D và hàm mất mát như đề cập ở phần trước: với sử dụng SGD trong 80 epoch. Theo tác giả Gulrajani [19], mô hình hoạt động tốt với tham số này. IV. THỰC NGHIỆM Hệ thống được triển khai xử lí trên máy tính với cấu hình vi xử lí CPU: Intel® Core™ i7-7700HQ 2.8GHz, turbo boost upto 3.8 Ghz, 6M Cache, RAM 16 GB DDR4 bus 2400Mhz, ổ cứng SSD 256GB, được trang bị card đồ họa rời NVIDIA GeForce GTX 1050i 4GB DDR5 128 bit. Máy tính cài đặt hệ điều hành Ubuntu 16.04 LTS được cài đặt các phần mềm Python 3.6, CUDA 9.0, Blender 2.76, chạy trên môi trường Anaconda3-2018.12 với các gói hỗ trợ: numpy = 1.15.4, pytorch = 0.4.1, torchvision = 0.2.1, tensorflow = 1.5.1. A. Độ đo đánh giá Trong đề tài sử dụng chỉ số đánh giá IoU (Intersection over Union) [22] để đo độ chính xác của bộ dữ liệu kết quả của mô hình theo công thức: | | (3) | | với là hình dạng 3D kết quả của mô hình và hình dạng thực tế của đối tượng. B. Bộ dữ liệu ShapeNet Core55 Trong nghiên cứu này sử dụng bộ dữ liệu ShapeNet Core55 [16] được cung cấp bởi học viện MIT, tổng số đối tượng trong bộ dữ liệu cả huấn luyện và thử nghiệm là 5.652 đối tượng trong đó ghế là 1.816, xe hơi là 1.906, máy bay là 1.930 với mỗi đối tượng gồm có ảnh RGB, depth, depth_minmax, surface normal, silhouette, voxel ở 20 chế độ xem ngẫu nhiên, không bị giới hạn và mô tả hình dạng chung của đối tượng ở các chế độ xem. Bộ dữ liệu có kích thước là 152.7GB. Các kết xuất hình ảnh trong bộ dữ liệu của các đối tượng được thực hiện bằng công cụ Mitsuba. Tỉ lệ dữ liệu cho huấn luyện và thử nghiệm là 70/30 hoặc 80/20, tuy nhiên, trong đề tài này sử dụng từ điển lưu trạng thái huấn luyện và thử nghiệm đi cùng với bộ dữ liệu được xây dựng sẵn để thực hiện huấn luyện và thử nghiệm với tỉ lệ tính toán được là dữ liệu huấn luyện chiếm 90% và dữ liệu thử nghiệm chỉ chiếm xấp xỉ 10% của toàn bộ bộ dữ liệu. Do điều kiện thử nghiệm không hoàn hảo, chúng tôi thử nghiệm 3 lần và lấy kết quả trung bình như bảng 1. Kết quả cho
  5. Quách Thị Bích Nhường, Trần Văn Ninh, Đỗ Phúc Thịnh, Phan Mạnh Thường 73 thấy, lần thử nghiệm đầu tiên cho kết quả không tốt như mong đợi, tuy nhiên đến lần thứ 2, chỉ số IoU cho kết quả khá tốt ở cả ba đối tượng thử nghiệm là ghế, xe hơi, máy bay. Lần thử nghiệm cuối cùng cũng cho kết quả tương đối tốt. Bảng 1. Độ chính xác trung bình của 3 lần thử nghiệm Số liệu IoU Thử nghiệm Ghế Xe hơi Máy bay Trung bình Lần 1 0.501 0.786 0.564 0.617 Lần 2 0.485 0.735 0.512 0.577 Lần 3 0.483 0.767 0.547 0.599 Trung bình 0.490 0.763 0.541 0.598 Bảng 2. So sánh phương pháp đề xuất với các phương pháp khác Số liệu IoU Thử nghiệm Ghế Xe hơi Máy bay Trung bình 3D-EPN [36] 0.147 0.274 0.155 0.181 DRC 3D [9] 0.470 0.760 0.570 0.600 ShapeHD [10] 0.488 0.698 0.452 0.529 Phương pháp đề xuất 0.490 0.763 0.541 0.598 Hình 6. Kết quả xử lí tái tạo hoàn chỉnh hình dạng 3D của đối tượng trên một số hình ảnh máy bay, xe hơi và ghế của mô hình Hình 6 cho thấy rằng khi không dùng , mô hình 3D tạo được không mượt bằng khi dùng . Chúng tôi dùng phần mềm Blender để mô tả hình ảnh 3D tạo được (hình 7). Hình 7. Kết xuất ra hình ảnh 3D của đối tượng bằng Blender
  6. 74 TÁI TẠO MÔ HÌNH 3D CỦA ĐỐI TƯỢNG TỪ ẢNH PHÁC THẢO 2.5D V. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong bài báo này, chúng tôi đã xây dựng một mô hình để tái tạo mô hình 3D của đối tượng thông qua bản phác thảo 2.5D. Với việc thêm một bước chuyển từ ảnh tĩnh 2D sang bản phác thảo 2.5D, mô hình được phân chia thành nhiều công đoạn với mục đích cụ thể. Nhờ đó, hình dạng 3D của đối tượng được xây dựng một cách tốt nhất. Thực nghiệm cho thấy phương pháp của chúng tôi cải thiện chất lượng của hình dạng 3D tạo được khi so sánh với các phương pháp trước đây. Trong tương lai chúng tôi sẽ tiếp tục nghiên cứu phát triển mô hình để tăng hiệu năng và mở rộng nghiên cứu trên hình ảnh của các đối tượng khác. Mặt khác, dựa trên kết quả hình dạng 3D của đối tượng, chúng tôi sẽ xây dựng các thuật toán để tính toán thể tích, hoặc khối lượng của đối tượng (chẳng hạn như con người) từ một bức ảnh hay hình ảnh ghi nhận trực tiếp qua camera. TÀI LIỆU THAM KHẢO [1] A. Chang et al. “Shapenet: An Information-rich 3D Model Repository”, in arXiv:1512.03012, pp. 2-6, 2015. [2] C. B. Choy et al. “3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction”, in arXiv:1604.00449, pp. 1-17, 2016. [3] A. Dai et al. “Shape Completion Using 3D-Encoder-Predictor CNNs and Shape Synthesis”, in arXiv:1612.00101v2, pp. 1-14, 2017. [4] L. Do. “Generative Adversarial Networks (GANs)”, Internet: https://ai.hblab.vn, Sep. 2017. [5] D. Freitag. “The Role of 3D Displays in Medical Imaging Applications”, Internet: https://www.meddeviceonline.com, May. 18, 2015. [6] A. G. García. “3D Object Recognition with Convolutional Neural Networks”. M. A. thesis, University of Alicante, Spain, 2016. [7] R. Girdhar et al. “Learning a Predictable and Generative Vector Representation for Objects”, in arXiv:1603.08637v2, pp. 1-16, 2016. [8] I. Gulrajan et al. “Improved Training of Wasserstein GANs”, in arXiv:1704.00028v3, pp. 1-5, 2017. [9] D. P. Kingma and J. L. Ba. “Adam: A Method for Stochastic Optimization”, in arXiv:1412.6980, pp. 1-9, 2015. [10] A. Krizhevsky et al. “Imagenet Classification with Deep Convolutional Neural Networks”, in NIPS, pp. 1097-1105, 2012. [11] L. Landini et al. “3D Medical Image Processing”, in Image Processing in Radiology. Berlin: Heidelberg, 2008, pp. 67-85. [12] B. Landoni. “3D Scanning with Microsoft Kinect”, Internet: https://www.open-electronics.org, May. 6, 2015. [13] A. Larsen et al. “Autoencoding Beyond Pixels using a Learned Similarity Metric”, in arXiv:1512.09300v2, pp. 2-4, 2016. [14] P. Le. “Create 3D Model from a Single 2D Image in PyTorch”, Internet: https://medium.com, Dec. 2018. [15] A. Patel and K. Mehta. “3D Modeling and Rendering of 2D Medical Image”, in International Conference on Communication Systems and Network Technologies, pp. 149-152, 2012. [16] T. Shubham et al. “Multi-view Supervision for Single-view”, in arXiv:1704.06254, pp. 1-9, 2017. [17] A. Soltani et al. “Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes with Deep Generative Networks”, in CVPR, pp. 1511-1519, 2017. [18] S. Tulsiani et al. “Multi-view Supervision for Single-view Reconstruction via Differentiable Ray Consistency”, in arXiv: 1704.06254, pp. 1-9, 2017. [19] L. Weng. “From GAN to WGAN?”, Internet: https://lilianweng.github.io, Aug. 2017. [20] J. Wu et al. “Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling”, in NIPS’16, pp. 82-90, 2016. [21] J. Wu et al. “Learning Shape Priors for Single-View 3D Completion and Reconstruction”, in arXiv:1809.05068, pp. 1-14, 2018. [22] Di. Zhou et al. “IoU Loss for 2D/3D Object Detection”, in arXiv: 1908.03851, pp. 3-4, 2019. RECONSTRUCTION 3D MODEL FROM 2.5D SKETCHES Quach Thi Bich Nhuong, Tran Van Ninh, Do Phuc Thinh, Phan Manh Thuong ABSTRACT: Currently, in many fields such as medicine, cinema, architecture... 3D models are applied a lot. However, to build a 3D model will need a lot of information of the object. Therefore, it is absolutely necessary to recreate the 3D model from the 2.5D sketch. First, compared to full 3D shapes, 2.5D sketches are more easily recovered from 2D images; 2.5D sketch recovery models are also more likely to go from synthetic data sets to real data. Second, to reconstruct 3D shapes from 2.5D sketches, systems can learn entirely from composite datasets. The third is that 2.5D sketches can be easily rendered without modeling the object in the real image. In this paper, we study an end-to-end trainable model by integrating deep learning models, capable of sequential estimation from 2.5D sketches into 3D models. Experiments show that, when compared on the ShapeNet Core55 dataset, this method gives better results than the previous methods.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
7=>1