Microsoft đã phát hành mô hình khuếch tán có thể tạo hình đại diện 3D từ một bức ảnh duy nhất của một người

Khuếch tán Hình đại diện 3D là một thuật toán học máy có thể chụp một hình ảnh 2D duy nhất của khuôn mặt người và tạo hình đại diện ba chiều (3D). Sau đó, hình đại diện có thể được sử dụng để tạo trải nghiệm thực tế ảo (VR) hoặc thực tế tăng cường (AR) hoặc chỉ đơn giản là cung cấp chế độ xem 3D thực tế về người đó để chơi game hoặc các mục đích khác.
Mô hình khuếch tán được phát triển bởi một nhóm các nhà nghiên cứu tại Microsoft Research và được mô tả trong một bài báo đăng trên tạp chí arXiv.
Khuếch tán Avatar 3D dựa trên một loại thuật toán học máy được gọi là mô hình khuếch tán. Mô hình khuếch tán là mô hình tổng quát, có nghĩa là chúng có thể tạo ra dữ liệu mới tương tự như dữ liệu huấn luyện. Các mô hình khuếch tán trước đây đã được sử dụng để tạo hình ảnh 3D từ hình ảnh 2D, nhưng ADM là mô hình khuếch tán đầu tiên có thể tạo hình đại diện 3D thực tế từ một hình ảnh 2D duy nhất.
Để đào tạo mô hình, các nhà nghiên cứu đã sử dụng bộ dữ liệu gồm hơn 200.000 mô hình khuôn mặt 3D. Bộ dữ liệu bao gồm nhiều loại khuôn mặt với tông màu da, kiểu tóc và đặc điểm khuôn mặt khác nhau. Sau đó, ADM có thể tìm hiểu mối quan hệ giữa hình ảnh 2D và mô hình khuôn mặt 3D và tạo hình đại diện 3D chân thực từ một hình ảnh 2D duy nhất.
Mô hình này cũng có thể được sử dụng để tạo hình đại diện từ một bức ảnh được chụp từ một góc độ khác
 Đối với hình đại diện 3D được cá nhân hóa, mô hình Rodin cung cấp thao tác hướng dẫn bằng văn bản. Chỉnh sửa ngôn ngữ tự nhiên là một cách trực quan để thay đổi nhiều tính năng avatar 3D khác nhau.
Nghiên cứu này đề xuất một mô hình tạo 3D tự động tạo hình đại diện kỹ thuật số 3D được biểu diễn dưới dạng trường bức xạ thần kinh bằng cách sử dụng mô hình khuếch tán. Do yêu cầu về bộ nhớ và xử lý liên quan đến 3D rất cao nên việc tạo ra các tính năng phong phú cần thiết cho hình đại diện chất lượng cao là một vấn đề lớn. Các nhà phát triển đề xuất mạng lưới khuếch tán triển khai (Rodin) giải quyết vấn đề này.
 Xét về giới tính, độ tuổi, chủng tộc, biểu cảm, phụ kiện trên khuôn mặt, v.v., người mẫu thể hiện sự đa dạng thế hệ vượt trội. ​
Mạng này triển khai nhiều bản đồ đặc trưng 2D của trường bức xạ thần kinh thành một mặt phẳng đặc trưng 2D duy nhất, trong đó mô hình sau đó thực hiện khuếch tán nhận biết 3D. Mô hình Rodin sử dụng tích chập nhận biết 3D, tham gia vào các đặc điểm được chiếu trong mặt phẳng đặc trưng 2D theo mối quan hệ ban đầu của chúng trong 3D, để mang lại hiệu quả tính toán rất cần thiết trong khi vẫn duy trì tính toàn vẹn của khuếch tán trong 3D.
Đọc thêm về AI:
VALL-E: Mô hình chuyển văn bản thành giọng nói không cần chụp mới của Microsoft có thể sao chép giọng nói của mọi người trong ba giây
VALL-E của Microsoft dường như là phần mềm lừa đảo nguy hiểm nhất từ ​​trước đến nay
Nghệ sĩ tạo script chống trộm để bảo vệ tác phẩm, sử dụng hình mờ giống máy tạo AI
Microsoft và Google vào năm 2023: Cuộc đọ sức chính trong năm giữa những gã khổng lồ AI
Bài đăng Microsoft đã phát hành một mô hình phổ biến có thể tạo hình đại diện 3D từ một bức ảnh duy nhất của một người xuất hiện đầu tiên trên Metaverse Post.