Hunyuan3D 2.0 là hệ thống AI tạo hình 3D quy mô lớn tiên tiến của Tencent. Tận dụng kiến trúc khuếch tán, hệ thống này chuyển đổi mô tả văn bản hoặc hình ảnh thành các tài sản 3D chi tiết phong phú—các lưới được làm giàu với kết cấu chất lượng cao—thông qua quy trình hai giai đoạn. tạo hình dạng và tổng hợp kết cấu.
Các tính năng chính (nó làm gì)
- Thế hệ hai giai đoạn: tách rời hình học (lưới trần) từ tổng hợp kết cấu (Bản đồ UV / Kết cấu PBR), cải thiện khả năng kiểm soát và chất lượng.
- Chế độ điều chỉnh hình ảnh và điều chỉnh văn bản: chấp nhận hình ảnh đơn hoặc nhiều góc nhìn và / hoặc lời nhắc văn bản để định hình và kết cấu.
- Kết cấu có độ phân giải cao: hỗ trợ đầu ra kết cấu lớn (cấu hình cho quy trình làm việc 2K–6K+) và các bước SR/nâng cao. Từ khóa: độ phân giải kết cấu, độ phân giải siêu cao, nướng.
Chi tiết kỹ thuật
- Trình tạo hình dạng (Hunyuan3D-DiT): một mô-đun kiểu biến áp khuếch tán được đào tạo để tạo ra hình học (biểu diễn dạng octree / giống octree hoặc dạng lưới tùy thuộc vào phiên bản), được tối ưu hóa để căn chỉnh hình học với hình ảnh có điều kiện hoặc lời nhắc văn bản.
- Bộ tổng hợp kết cấu (bộ tổng hợp Hunyuan3D-Paint / PBR): một mô hình thứ hai tạo ra các bản đồ kết cấu được ánh xạ UV với kết xuất dựa trên vật lý đầu ra (độ phản chiếu, độ nhám, bản đồ kim loại) để các tài sản được tạo ra có thể sử dụng ngay trong trình kết xuất và công cụ trò chơi.
- Giải mã và phân giải: các phiên bản sau này nâng cao độ phân giải hình học (ví dụ: độ phân giải octree/lattice cao hơn) và kích thước kết cấu (cài đặt cộng đồng chung tạo ra kết cấu lên đến nhiều k để xuất).
- Tỷ lệ & kích thước mô hình: Báo cáo v2.5 cho thấy khả năng mở rộng đáng kể (số lượng tham số và tỷ lệ tập dữ liệu) từ 2.0 lên 2.5 để cải thiện độ chính xác hình học và độ trung thực của kết cấu.
- Bản nâng cấp Hunyuan3D-2.5: LƯỚI (tối đa 10B tham số) để có hình học sắc nét và rõ ràng hơn; Đường ống kết cấu PBR với sự cải thiện nhiều góc nhìn tính nhất quán; kết cấu 4K được báo cáo trong ghi chú cộng đồng.
Tính toán & VRAM: ghi chú kho lưu trữ tham khảo ~6 GB VRAM để tạo hình dạng và ~ 16 GB để suy ra hình dạng + kết cấu đầy đủ (GPU máy tính để bàn thông thường).
Hiệu suất chuẩn (v2.0 so với các phiên bản khác)
| Mẫu | CMMD ⬇ | FID_CLIP ⬇ | FID ⬇ | Điểm CLIP ⬆ |
|---|---|---|---|---|
| Nguồn mở hàng đầu | 3.591 | 54.639 | 289.287 | 0.787 |
| Nguồn đóng hàng đầu 1 | 3.600 | 55.866 | 305.922 | 0.779 |
| Nguồn đóng 2 | 3.368 | 49.744 | 294.628 | 0.806 |
| Nguồn đóng 3 | 3.218 | 51.574 | 295.691 | 0.799 |
| Hồn Nguyên3D 2.0 | 3.193 | 49.165 | 282.429 | 0.809 |
Kết quả xác nhận sự vượt trội đáng kể về chi tiết hình học và kết cấu thực tế.
Trường hợp sử dụng
- Chế độ đầu vào: Chuyển văn bản thành 3D, Chuyển hình ảnh thành 3D, Nhập nhiều chế độ xem (trong phiên bản nâng cao).
- Kết quả đầu ra: Lưới có độ phân giải cao + kết cấu chất lượng cao (PBR trong các phiên bản sau).
Nguyên mẫu trò chơi và quy trình phát triển tài sản: khái niệm nhanh chóng → lưới có kết cấu hoàn thiện; giảm thời gian lặp lại của nghệ sĩ đối với đạo cụ/nhân vật. Từ khóa: tạo mẫu, tài sản trò chơi.
Sản xuất AR/VR / ảo: Kết cấu PBR + xuất tương thích với công cụ cho phép tích hợp nhanh vào các cảnh tương tác và hình ảnh trực quan trước. Từ khóa: AR/VR, PBR, sẵn sàng cho động cơ.
Kiến trúc và hình ảnh sản phẩm: nguyên mẫu 3D cách điệu hoặc chân thực từ bản phác thảo hoặc hình ảnh tâm trạng. Từ khóa: trực quan hóa, lặp lại nhanh chóng.
Giáo dục / dụng cụ sáng tạo: cách dễ tiếp cận để dạy các khái niệm 3D và cho phép người sáng tạo tạo ra các lưới cơ sở để tinh chỉnh. Từ khóa: giáo dục, công cụ sáng tạo. (Ví dụ và hướng dẫn của cộng đồng.)
Hạn chế & Thử thách
- Mật độ lưới: Số lượng tam giác cao (lên tới ~600k) cần phải cấu trúc lại đường ống sản xuất.
- Chi tiết kết cấu: Các chi tiết nhỏ (ví dụ như vải) có thể bị mờ khi độ phân giải đầu vào thấp.
- Giới hạn khu vực: Các lo ngại về EU/GDPR hạn chế việc sử dụng; các phiên bản tuân thủ đang được tiến hành.
- Đường nối và ánh sáng không nhất quán: kết cấu nướng có thể tạo ra đường nối hoặc hiện vật chiếu sáng, đặc biệt là với các đầu vào hình ảnh đơn; đầu vào nhiều chế độ xem và SR/inpainting làm giảm bớt nhưng không loại bỏ hoàn toàn các vấn đề này.
- Độ nhạy nhắc nhở/điều kiện:** giống như các mô hình tạo sinh khác, diễn đạt nhanh và đóng khung đầu vào ảnh hưởng đáng kể đến kết quả; các trường hợp ngoại lệ và ràng buộc hình học tinh tế có thể cần được tinh chỉnh lặp đi lặp lại.
Cách gọi Hunyuan3D API từ CometAPI
Hunyuan3D-2 Giá API trong CometAPI,giảm giá 20% so với giá chính thức:
| Giá | $0.08000 |
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn hàng
Hunyuan3D-2” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để Tài liệu API:
- Điểm cuối: https://api.cometapi.com/v1/images/generations
- Thông số mô hình:
Hunyuan3D-2 - Xác thực:
Bearer YOUR_CometAPI_API_KEY - Loại-Nội dung:
application/json.
curl --location
--request POST 'https://api.cometapi.com/v1/images/generations' \
--header 'Authorization: Bearer {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{ "model": "Hunyuan3D-2", "prompt": "A cute baby sea otter", "image": "https://filesystem.site/cdn/20250414/chxiLc2O45zoLT8BCrQ6WQlTvGDDnK.png" }'
