Trong bài đăng trên blog trước thềm Hội nghị Quốc tế về Thị giác Máy tính (ICCV) tại Seoul, Hàn Quốc, Facebook đã nhấn mạnh đến các tiến bộ mới nhất của họ liên quan đến khả năng hiểu nội dung của máy tính.
Giờ đây, các hệ thống của họ có thể được sử dụng để phát hiện các vật thể với khung cảnh nền phức tạp, như các chân ghế hoặc đồ nội thất chồng chéo lên nhau. Họ làm được điều đó nhờ các thuật toán máy học tiên tiến nhất hiện nay, khi chúng có thể trích xuất các đối tượng 2 chiều từ những bức ảnh và kiết xuất chúng sang dạng 3 chiều một cách chính xác.
Đây cũng là kỹ thuật phù hợp với các ứng dụng thực tế tăng cường và robot cũng như khả năng định hướng trong không gian.
Các nhà nghiên cứu thuộc Facebook, bao gồm Georgia Gkioxari, Shubham Tulsiani và David Novotny, cho biết: “Nghiên cứu của chúng tôi xây dựng trên các tiến bộ gần đây về sử dụng kỹ thuật học sâu để dự đoán và khoanh vùng các đối tượng trong một hình ảnh, cũng như các công cụ và kiến trúc mới về khả năng hiểu các hình dạng 3 chiều, như điểm ảnh 3 chiều voxel, các đám mây điểm, và các lưới mesh.”
Một trong những công trình của họ là Mesh R-CNN, một phương pháp có thể dự báo các hình dạng 3 chiều từ hình ảnh của các vật thể được đặt lộn xộn và bị che khuất.
Mesh R-CNN chuyển hình ảnh từ 2D thành 3D.
Các nhà nghiên cứu Facebook cho biết, họ làm được điều này nhờ tăng cường nền tảng mã nguồn mở Mask R-CNN (một nền tảng cao cấp về phân vùng đối tượng trong hình ảnh). Các nhà nghiên cứu tăng cường hệ thống này bằng một nhánh dự đoán lưới – vốn đã được củng cố bằng thư viện Torch3D, chứa các toán tử 3 chiều được tối ưu cao.
Mesh R-CNN có thể sử dụng Mask R-CNN một cách hiệu quả để phát hiện và phân loại các đối tượng khác nhau trong một hình ảnh, sau đó nó sẽ suy luận ra các hình ảnh 3 chiều dựa trên bộ phỏng đoán đã nói ở trên.
Facebook cho biết, với đánh giá dựa trên bộ dữ liệu công khai Pix3D, Mesh R-CNN phát hiện thành công các đối tượng trên mọi danh mục kiểm tra và dự đoán hình dạng 3 chiều đầy đủ đối với mọi ảnh chụp các đồ nội thất. Trong một bộ dữ liệu khác – ShapeNet – Mesh R-CNN có tỷ lệ phát hiện cao hơn 7% so với công cụ trước đây.
Các hình ảnh do C3DPO kiết xuất ra.
Một hệ thống khác cũng do Facebook phát triển – Canonical 3D Pose Networks (gọi tắt là C3DPO) – xử lý cho các tình huống khi không có các lưới mesh và hình ảnh phản hồi để huấn luyện.
Nó thực hiện việc tái cấu trúc mô hình các điểm mấu chốt (các keypoint) 3 chiều, hoàn thiện các kết quả tái cấu trúc đó bằng cách giám sát điểm mấu chốt 2 chiều. (Các keypoint trong trường hợp này liên quan đến các phần được theo dõi của những đối tượng có thể cung cấp một bộ các manh mối xung quanh hình dạng và các thay đổi trong góc nhìn của nó).
Facebook nhấn mạnh rằng việc tái cấu trúc này trước đây có thể thực hiện được một phần vì các hạn chế về bộ nhớ. Giờ đây, kiến trúc C3DPO của Facebook cho phép việc tái cấu trúc 3 chiều ngay cả khi phần cứng cho việc thu thập như vậy là không khả thi, giống như với các đối tượng có kích thước lớn.
Tham khảo VentureBeat