แผนกวิจัยของ ByteDance เมล็ดพันธุ์ ได้เปิดตัวแล้ว ซีด3ดี 1.0แบบจำลองพื้นฐาน 3 มิติ ภาพเดียว → ความเที่ยงตรงสูง ที่สร้างตาข่ายที่พร้อมสำหรับการจำลอง วัสดุ PBR และพื้นผิวที่จัดเรียง ซึ่งเป็นทรัพยากรที่ออกแบบมาเพื่อเชื่อมต่อโดยตรงกับเอนจินฟิสิกส์และโปรแกรมจำลองหุ่นยนต์ การเปิดตัวนี้มีจุดมุ่งหมายเพื่อปิดช่องว่างที่เจ็บปวด นั่นคือ การสร้างเนื้อหาที่ปรับขนาดได้ (เนื้อหาภาพที่หลากหลาย) เทียบกับความเที่ยงตรงทางฟิสิกส์ที่จำเป็นสำหรับการฝึก AI และโปรแกรมจำลองแบบรวม
ByteDance Seed3D 1.0 คืออะไร?
Seed3D 1.0 เป็นโมเดลพื้นฐาน 3 มิติที่สร้างขึ้นเพื่อแปลง ภาพ RGB เดียว ของวัตถุหรือสภาพแวดล้อมเข้าไป พร้อมสำหรับการจำลอง ชุดทรัพยากร 3 มิติ — โดยทั่วไปประกอบด้วยตาข่ายแบบเจาะจงและกันน้ำ แมปพื้นผิว UV-map ที่เกี่ยวข้อง และพารามิเตอร์วัสดุการเรนเดอร์ตามหลักฟิสิกส์ (PBR) แบบจำลองนี้ไม่เพียงแต่ได้รับการออกแบบเพื่อสร้างรูปทรงเรขาคณิตและพื้นผิวที่สมจริงเท่านั้น แต่ยังปล่อยทรัพยากรที่ต้องการการประมวลผลหลังการประมวลผลน้อยที่สุดก่อนที่จะนำไปใช้ในโปรแกรมจำลอง เช่น Isaac Sim, Unity หรือ Unreal Engine สำหรับหุ่นยนต์ การฝึกอบรม หรือการสร้างโลกเสมือนจริง
เป้าหมายการออกแบบระดับสูงที่สำคัญ:
- อินพุตภาพเดียว: ไม่จำเป็นต้องใช้ฮาร์ดแวร์จับภาพหรือสแกนหลายมุมมอง
- ความพร้อมในการจำลอง:เพื่อให้แน่ใจว่าโทโพโลยี มาตราส่วน และวัสดุ PBR เหมาะสมกับการจำลองทางกายภาพ
- ความสามารถในการปรับขนาดฉาก: อนุญาตให้ประกอบวัตถุที่สร้างขึ้นเป็นฉากที่สอดคล้องกันโดยอัตโนมัติ
- บูรณาการ: การปรับตัวขั้นต่ำให้เข้ากับเอ็นจิ้นฟิสิกส์ทั่วไปและรันไทม์ไปป์ไลน์
Seed3D 1.0 มีคุณลักษณะอะไรบ้าง?
รูปทรงเรขาคณิตที่มีความเที่ยงตรงสูง (ตาข่ายกันน้ำ)
Seed3D ผลิต เรขาคณิตท่อร่วมแบบปิด ออกแบบมาเพื่อการจัดการการชนที่แม่นยำและฟิสิกส์การสัมผัสที่เชื่อถือได้ ส่วนประกอบทางเรขาคณิตใช้ไฮบริด VAE + หม้อแปลงกระจายเพื่อสร้างตาข่ายที่รักษาระดับรายละเอียด ซึ่งยังคงรักษารายละเอียดโครงสร้างที่ละเอียด เช่น ส่วนที่ยื่นออกมาบางๆ รู และข้อความไว้ กระบวนการสกัดตาข่ายใช้กลยุทธ์ลูกบาศก์เดินขบวนคู่และกลยุทธ์พื้นผิวไอโซแบบลำดับชั้น เพื่อสกัดพื้นผิวคุณภาพสูงอย่างมีประสิทธิภาพ ()
พื้นผิวที่เหมือนจริงและวัสดุ PBR
กระบวนการเท็กซ์เจอร์ไพพ์ไลน์ให้ผลลัพธ์เป็นแผนที่อัลเบโดที่สอดคล้องกันแบบหลายมุมมองและพื้นผิว PBR เต็มรูปแบบ (อัลเบโด, โลหะ, ความหยาบ) และสามารถสร้างผลลัพธ์พื้นผิวที่มีความละเอียดสูงสุด 4K แผนที่เหล่านี้ได้รับการออกแบบเพื่อให้แสงมีพฤติกรรมที่สมจริงในโปรแกรมเรนเดอร์ โมดูลการลงสี UV จะทำให้บริเวณที่ถูกบดบังสมบูรณ์และรับประกันความสอดคล้องเชิงพื้นที่ทั่วทั้ง UV atlas
การจำลองและความพร้อมของท่อส่ง
เอาต์พุตสามารถส่งออกเป็นรูปแบบทั่วไป (OBJ/GLB) สินทรัพย์ที่สร้างขึ้นนั้นถูกตั้งใจ พร้อมสำหรับการจำลอง: พวกมันผสานเข้ากับเครื่องจำลองฟิสิกส์ ซึ่งสามารถสร้างหรือปรับแต่งค่าตาข่ายการชนและพารามิเตอร์แรงเสียดทาน/ความแข็งได้โดยอัตโนมัติ ทำให้สามารถนำไปใช้งานในหุ่นยนต์หรือเอนจินเกมได้ทันที Seed3D สาธิตเวิร์กโฟลว์ที่นำทรัพยากรที่สร้างขึ้นไปไว้ใน Isaac Sim เพื่อการทดลองการควบคุม
การสร้างฉากและการประกอบแบบแยกตัวประกอบ
นอกเหนือจากวัตถุเดี่ยวๆ แล้ว Seed3D ยังใช้วิธีการสร้างฉากแบบแยกตัวประกอบ โดยที่โมเดลภาษาวิสัยทัศน์จะอนุมานแผนผังเค้าโครง (ตำแหน่ง มาตราส่วน ทิศทาง) และ Seed3D จะสังเคราะห์และวางวัตถุตามนั้น ทำให้สามารถจัดองค์ประกอบฉากสำหรับการตกแต่งภายในและเค้าโครงในเมืองได้อย่างสอดคล้องกัน
ผลการประเมินผลการปฏิบัติงาน
การสร้างรูปทรงเรขาคณิต
ในเกณฑ์มาตรฐานทางเรขาคณิต โมเดลเรขาคณิต 1.5 พันล้านพารามิเตอร์ของ Seed3D 1.0 (Seed3D-DiT + VAE) ให้ความแม่นยำเชิงโครงสร้างที่ดีกว่าและรายละเอียดที่ละเอียดกว่าเมื่อเทียบกับโมเดลพื้นฐานหลายตัว (TRELLIS, TripoSG, Step1X-3D, Direct3D-S2 และโมเดลขนาดใหญ่ เช่น Hunyuan3D-2.1) สถาปัตยกรรมของ Seed3D ซึ่งผสมผสานการกระจายพื้นที่แฝงเข้ากับการถอดรหัส SDF อย่างละเอียดและการแยกตาข่ายแบบลำดับชั้น ช่วยให้ได้ตาข่ายที่มีสิ่งแปลกปลอมน้อยลงและรักษารูปทรงเรขาคณิตความถี่สูง (ข้อความและส่วนที่ยื่นออกมาเล็กน้อย) ไว้ได้ดีกว่า

การสร้างพื้นผิว
สำหรับการประมาณค่าพื้นผิวและวัสดุ Seed3D รายงานถึงผลลัพธ์ที่ดีขึ้นอย่างมากในการจัดแนวกับภาพอ้างอิงและความสมจริงของวัสดุ การแยกส่วน Seed3D-PBR และการลงสี Seed3D-UV ร่วมกันสร้างแผนที่ UV ที่รักษารายละเอียดพื้นผิวความถี่สูง และให้แผนที่ PBR ที่สอดคล้องกัน (อัลเบโด โลหะ และความหยาบ) ซึ่งเหมาะสำหรับการเรนเดอร์ทางกายภาพ

การประเมินมนุษย์ (การศึกษาผู้ใช้)
รายงานฉบับนี้รายงานผลการศึกษาผู้ใช้กับผู้ประเมินที่เป็นมนุษย์ 14 คน ในชุดทดสอบ 43 ภาพ ผู้ประเมินได้เปรียบเทียบวิธีการต่างๆ ในหลายมิติ เช่น ความคมชัดของภาพ การบูรณะภาพที่ถูกต้อง ความแม่นยำของรูปทรงเรขาคณิต มุมมองและโครงสร้าง ความสมจริงของวัสดุและพื้นผิว และความละเอียดของรายละเอียด Seed3D 1.0 ได้รับคะแนนการประเมินแบบอัตนัยที่สูงขึ้นอย่างต่อเนื่องในหมวดหมู่เหล่านี้ โดยมีข้อได้เปรียบที่เด่นชัดที่สุดในด้านรูปทรงเรขาคณิตและคุณภาพของวัสดุ การศึกษาโดยมนุษย์ยืนยันเกณฑ์มาตรฐานเชิงปริมาณ โดยแสดงให้เห็นว่าความสมจริงที่รับรู้และความเหมาะสมของการจำลองดีขึ้นเมื่อเทียบกับค่าพื้นฐาน

Seed3D 1.0 ทำงานอย่างไร (สถาปัตยกรรมและไปป์ไลน์)
Seed3D 1.0 ถูกสร้างขึ้นเป็นระบบแบบหลายส่วนประกอบที่ผสานรวมการแสดงรูปทรงเรขาคณิตแฝงที่เรียนรู้ การลดสัญญาณรบกวนโดยใช้หม้อแปลงในพื้นที่แฝง และโมดูลการเติมเต็มมุมมองและพื้นผิวแบบหลายมุมมอง การออกแบบได้รับการออกแบบให้เป็นแบบโมดูลาร์โดยเฉพาะ เพื่อให้แต่ละส่วนประกอบสามารถปรับแต่งและอัปเกรดได้อย่างอิสระ
ส่วนประกอบหลัก
Seed3D-VAE (ตัวเข้ารหัส/ถอดรหัสแฝงทางเรขาคณิต):เรียนรู้การแทนค่าแฝงแบบกระชับสำหรับเรขาคณิตสามมิติ (เช่น TSDF/mesh latent) VAE ได้รับการฝึกฝนให้สร้างเรขาคณิตที่มีความละเอียดสูงและแน่นหนาขึ้นใหม่จากโค้ดแฝงที่ถูกบีบอัด วิธีนี้ทำให้เกิดคอขวดที่มีประสิทธิภาพสำหรับขั้นตอนการสร้าง
Seed3D-DiT (หม้อแปลงการแพร่กระจายสำหรับรูปทรงเรขาคณิต):หม้อแปลงกระแส/ลดสัญญาณรบกวนที่แก้ไขแล้ว (คล้าย DiT) ที่ทำงานในพื้นที่แฝงเรขาคณิตที่เรียนรู้แล้ว โดยมีเงื่อนไขว่าต้องฝังภาพอ้างอิงไว้ หม้อแปลงจะลดสัญญาณรบกวนโทเค็นแฝงให้เป็นแฝงเรขาคณิตที่ VAE ถอดรหัสเป็นเมชที่ชัดเจน
Seed3D-MV (การสังเคราะห์มุมมองหลายมุม) และ Seed3D-UV (การทำให้พื้นผิวสมบูรณ์):หลังจากสร้างรูปทรงเรขาคณิตเบื้องต้นแล้ว ระบบจะสังเคราะห์มุมมองหลายมุมเพื่อลดความคลุมเครือของการบดบัง จากนั้นจึงทำการทำให้แผนที่ UV เสร็จสมบูรณ์โดยใช้โมดูลการทาสีทับ/การปรับปรุง UV เพื่อสร้างพื้นผิวที่สมบูรณ์และสอดคล้องกัน
Seed3D-PBR (การสลายตัวของวัสดุ):ย่อยสลายพื้นผิวที่สร้างขึ้นเป็นแผนที่ PBR (ความเป็นโลหะ ความหยาบ แผนที่ปกติ ฯลฯ) เพื่อให้การแรเงาและการตอบสนองของการสัมผัสที่สมเหตุสมผลทางกายภาพได้รับการเก็บรักษาไว้ในการจำลอง
แบบจำลองภาษาวิสัยทัศน์สำหรับการแยกตัวประกอบฉาก:สำหรับการสร้างฉาก ไพพ์ไลน์จะใช้ VLM เพื่อตรวจจับวัตถุ คาดการณ์ความสัมพันธ์เชิงพื้นที่ และสร้างแผนผังเค้าโครง (ตำแหน่ง มาตราส่วน ทิศทาง) วัตถุแต่ละชิ้นจะถูกสร้างขึ้นและประกอบเป็นฉากตามแผนผังเค้าโครง ()
การไหลของการอนุมานระดับสูง
- อินพุต: ภาพ RGB เดี่ยว → ตัวเข้ารหัสภาพจะแยกการฝังภาพ
- การสร้างรูปทรงเรขาคณิต: Seed3D-DiT ที่มีเงื่อนไขในการฝังตัวเพื่อลดสัญญาณรบกวนของรูปทรงเรขาคณิต → Seed3D-VAE ถอดรหัสตาข่าย (กันน้ำ)
- การสังเคราะห์มุมมองหลายมุม: สร้างมุมมองสังเคราะห์จากไปป์ไลน์ตาข่าย + การเรนเดอร์สำหรับการทำให้พื้นผิวสมบูรณ์
- UV และพื้นผิว: Seed3D-UV ทำการ inpaint occlusions และสร้าง UV maps เต็มรูปแบบ → Seed3D-PBR แยกพื้นผิวออกเป็น material maps
- ส่งออก: สร้าง .obj/.gltf พร้อมด้วยพื้นผิวและแผนที่วัสดุ พร้อมสำหรับเครื่องมือฟิสิกส์ (ตาข่ายการชน การประมาณมาตราส่วนโดย VLM)
การสร้างฉาก
Seed3D ไม่เพียงแต่สร้างวัตถุแต่ละชิ้นเท่านั้น แต่ยังสร้างฉากที่สมบูรณ์โดยอัตโนมัติอีกด้วย
กระบวนการสร้าง:
- อินพุต: รูปภาพที่มีวัตถุหลายรายการ
- แบบจำลอง VLM ระบุวัตถุและความสัมพันธ์เชิงพื้นที่ในภาพ
- Seed3D สร้างรูปทรงเรขาคณิตและพื้นผิวสำหรับแต่ละวัตถุ
- ในที่สุดเค้าโครงเชิงพื้นที่ก็ถูกผสมผสานเข้าด้วยกันเพื่อสร้างฉากสามมิติที่สมบูรณ์
มีข้อจำกัดและความท้าทายที่เปิดอยู่บ้างอะไรบ้าง?
Seed3D 1.0 ถือเป็นก้าวสำคัญ แต่ยังคงมีข้อจำกัดอยู่หลายประการ ทั้งข้อจำกัดที่มีอยู่ภายในการสร้างภาพเดียวและข้อจำกัดที่เฉพาะเจาะจงกับบริบทการจำลอง:
- ความคลุมเครือในมุมมองเดียวการอนุมานรูปทรงเรขาคณิตที่ถูกบดบังและโทโพโลยีที่แน่นอนจากมุมมองเดียวถือเป็นการสันนิษฐานที่ไม่ถูกต้องโดยพื้นฐาน การใช้ไพรเออร์และสถิติที่เรียนรู้มาช่วยได้ แต่ยังคงมีข้อผิดพลาดสำหรับบริเวณที่ถูกบดบังอย่างหนัก
- ความถูกต้องทางกายภาพตามขนาด:แม้ว่าสินทรัพย์จะ "พร้อมสำหรับการจำลอง" ด้วยมาตรการปฏิบัติต่างๆ มากมาย แต่การประมาณมวล/ความเฉื่อยแบบละเอียดและพลวัตของข้อต่อสำหรับระบบที่มีข้อต่อที่ซับซ้อนยังคงต้องมีการปรับแต่งเฉพาะโดเมน
- วัสดุหายากและโครงสร้างจุลภาค:วัสดุที่มีการสะท้อนแสงสูง โปร่งแสง หรือแอนไอโซทรอปิก (เช่น โลหะขัดเงา ผ้าที่มีการกระเจิงใต้ผิว) จะสร้างซ้ำจากภาพเดียวได้อย่างแม่นยำยาก
- อคติของข้อมูล:แหล่งข้อมูลการฝึกอบรมมีอิทธิพลต่อสิ่งที่โมเดลบันทึกได้ดี — วัตถุที่ไม่ธรรมดาหรือสิ่งประดิษฐ์เฉพาะวัฒนธรรมอาจสร้างซ้ำได้ไม่ดี
- ทรัพย์สินทางปัญญาและจริยธรรม:เช่นเดียวกับระบบสร้างสรรค์ทั้งหมด ผู้สร้างและองค์กรจะต้องพิจารณาถึง IP และแหล่งที่มาเมื่อแปลงภาพที่มีลิขสิทธิ์เป็นทรัพย์สิน 3 มิติ
สถานการณ์จำลองแอปพลิเคชัน
Seed3D มีตำแหน่งที่ชัดเจนสำหรับ AI และการจำลองแบบรวม กรณีการใช้งาน แต่ผลที่ตามมาครอบคลุมหลายอุตสาหกรรม:
- การฝึกอบรมหุ่นยนต์และ RL: การสร้างเนื้อหาอย่างรวดเร็วสำหรับเกณฑ์มาตรฐานการจัดการ หลักสูตรฝึกอบรม และชุดข้อมูลแบบสุ่มโดเมนสำหรับการถ่ายโอนจากแบบจำลองสู่แบบจำลองจริง ความพร้อมทางฟิสิกส์ของสินทรัพย์ช่วยลดความยุ่งยากก่อนการประมวลผล
- การพัฒนาเกมและ XR:การสร้างสินทรัพย์ที่เร่งความเร็วสำหรับต้นแบบ อุปกรณ์ประกอบฉากพื้นหลัง หรือฉากทั้งหมด เวิร์กโฟลว์ PBR และพื้นผิว 4K มีประโยชน์อย่างยิ่งสำหรับประสบการณ์ความเที่ยงตรงสูง
- การผลิตและการแสดงภาพเสมือนจริง:การสร้างอุปกรณ์ประกอบฉากและองค์ประกอบสภาพแวดล้อมอย่างรวดเร็วสำหรับการสร้างแนวคิดหรือการสร้างภาพล่วงหน้า
- กระบวนการสร้างเนื้อหา:นักออกแบบสามารถทำซ้ำจากข้อมูลอ้างอิง 2 มิติ (รูปถ่าย งานศิลปะ) ไปจนถึงต้นแบบ 3 มิติได้เร็วขึ้นมาก ช่วยให้สามารถใช้งานเวิร์กโฟลว์แบบผสมผสานระหว่างมนุษย์และ AI ที่ศิลปินสามารถปรับแต่งผลลัพธ์ได้อย่างละเอียด ()
- การวิจัยศึกษา:การสร้างข้อมูลฝึกอบรม 3 มิติที่หลากหลายขนาดใหญ่สำหรับแบบจำลองการมองเห็น-ภาษา-การกระทำ และงานวิจัยแบบมัลติโมดัลอื่นๆ บทความนี้ได้กำหนดกรอบ Seed3D อย่างชัดเจนว่าเป็นเครื่องมือสำหรับการพัฒนาแบบจำลองโลกและการวิจัยด้านปัญญาประดิษฐ์
Seed3D สามารถแปลงภาพถ่ายเดี่ยวเป็นวัตถุ 3 มิติที่มีรายละเอียดเหมาะสำหรับการจำลองและการใช้งานแบบโต้ตอบ ซึ่งขยายการเข้าถึงการสร้างเนื้อหา 3 มิติคุณภาพสูง
สรุป
Seed3D 1.0 ของ ByteDance ถือเป็นก้าวสำคัญสู่ การสร้าง 3D ระดับจำลองที่ปรับขนาดได้ จากอินพุต 2 มิติแบบง่าย ด้วยการผสมผสานไปป์ไลน์รูปทรงเรขาคณิตที่มุ่งเน้น (VAE + DiT) การประมาณค่าพื้นผิว/PBR ที่แข็งแกร่ง และการเติมเต็มด้วยรังสี UV ระบบจึงสร้างทรัพยากรที่ทั้งสมจริงและใช้งานได้ทันทีในโปรแกรมจำลองฟิสิกส์ ซึ่งเป็นการผสมผสานที่ช่วยแก้ไขปัญหาคอขวดที่ยังคงมีอยู่สำหรับการวิจัย AI แบบฝังตัวและไปป์ไลน์ที่นำไปประยุกต์ใช้มากมาย ประสิทธิภาพ SOTA (รูปทรงเรขาคณิตและพื้นผิว) ที่รายงานของแบบจำลอง และผลการประเมินโดยมนุษย์ที่เป็นบวก ทำให้แบบจำลองนี้กลายเป็นผู้บุกเบิกที่แข็งแกร่งในภูมิทัศน์การสร้างภาพสามมิติที่กำลังพัฒนาอย่างรวดเร็ว
เริ่มต้นใช้งาน
CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI
นักพัฒนาสามารถเข้าถึงโมเดล 3 มิติและโมเดลอื่นๆ ของ ByteDance เช่น API ซีดรีม 4.0 ผ่านทาง CometAPI รุ่นใหม่ล่าสุด ได้รับการอัปเดตอยู่เสมอจากเว็บไซต์อย่างเป็นทางการ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ
พร้อมไปหรือยัง?→ ลงทะเบียน CometAPI วันนี้ !
หากคุณต้องการทราบเคล็ดลับ คำแนะนำ และข่าวสารเกี่ยวกับ AI เพิ่มเติม โปรดติดตามเราที่ VK, X และ ไม่ลงรอยกัน!
