Giới thiệu tài liệu
Phần giới thiệu thảo luận về tầm quan trọng của tổng hợp khung nhìn và biểu diễn đối tượng 3D trong thị giác máy tính. Nó nêu bật sự phát triển từ các phương pháp hình học 3D truyền thống (đám mây điểm, voxel, lưới) sang các phương pháp dựa trên học máy hiện đại như Trường Bức xạ Thần kinh (NeRF) và Phân tán Gaussian 3D, ghi nhận hiệu suất vượt trội của chúng về chất lượng kết xuất và hiệu quả huấn luyện. Bài báo này giới thiệu một phương pháp tái tạo đám mây điểm 3D tự động và kết xuất đối tượng 3D bằng cách sử dụng phân tán Gaussian từ hình ảnh chụp bằng camera thông thường, nhằm giảm thiểu công sức thủ công.
Đối tượng sử dụng
Bài báo này hướng đến các nhà nghiên cứu và chuyên gia trong lĩnh vực thị giác máy tính, đặc biệt là những người quan tâm đến tái tạo 3D, kết xuất và tổng hợp khung nhìn mới. Kỹ thuật được đề xuất sử dụng camera thông thường (như camera điện thoại) nhằm giảm thiểu công sức thủ công, giúp người dùng có thể tái tạo các mô hình 3D thú vị bằng thiết bị của họ. Phương pháp này phù hợp cho các ứng dụng đòi hỏi chất lượng cao và có tiềm năng triển khai rộng rãi trong tương lai.
Nội dung tóm tắt
Phục dựng và kết xuất đối tượng 3 chiều đóng vai trò quan trọng trong lĩnh vực thị giác máy tính nhờ vào các ứng dụng rộng rãi. Hiện nay, có nhiều kỹ thuật được áp dụng để thực hiện việc này, bao gồm máy quét laser và quang trắc. Trong những năm gần đây, các phương pháp dựa trên trí tuệ nhân tạo như Trường Bức xạ Thần kinh đã được đề xuất và đạt kết quả ấn tượng. Bài báo này trình bày một phương pháp áp dụng quang trắc để tự động phục dựng đám mây điểm 3D của một đối tượng, sau đó sử dụng phương pháp Phân tán Gaussian để kết xuất hình ảnh đối tượng 3D. Quy trình thực hiện bao gồm: đầu tiên, hình ảnh của đối tượng được chụp bằng máy ảnh thông thường, với đường chụp di chuyển 360 độ quanh đối tượng ở ba độ cao khác nhau. Thứ hai, phương pháp dựa trên cấu trúc từ chuyển động (structure from motion) được sử dụng để tái tạo đám mây điểm 3D trên bề mặt đối tượng. Kế tiếp, đám mây điểm 3D này được chuyển đổi và coi như các điểm Gaussian 3D khởi đầu. Sau đó, các điểm Gaussian này được huấn luyện bằng cách tối ưu hóa sự khác biệt giữa các phép tổng hợp hình chiếu của đám mây điểm Gaussian trên các hình ảnh huấn luyện. Cuối cùng, hình ảnh kết xuất từ một góc nhìn mới được tạo ra bằng cách tổng hợp hình chiếu của các Gaussian trên mặt phẳng góc nhìn mới. Các thử nghiệm cho thấy quy trình này mang lại kết quả ưu việt trong phục dựng và kết xuất hình ảnh vật thể 3D. Với một đối tượng nhỏ, cụ thể là mô hình bông hoa bằng chất liệu vải có kích thước 50cm x 40cm x 40cm, cần khoảng 90 ảnh huấn luyện và thời gian xử lý để tái tạo vật thể 3D là xấp xỉ 30 phút.