ข้อมูลจำเพาะทาง技术ของ Seedance1.5 Pro
| ข้อกำหนด | รายละเอียด |
|---|---|
| รหัสรุ่น | doubao-seedance-1-5-pro |
| ตระกูลผู้ให้บริการ | Doubao / ByteDance Seed |
| ประเภทโมเดล | โมเดลสร้างสรรค์วิดีโอและเสียงแบบเนทีฟ |
| โหมดหลัก | การสร้างวิดีโอและเสียงร่วมกันจากโมเดลเดียว |
| กรณีใช้งานหลัก | แปลงข้อความเป็นวิดีโอ และการสร้างวิดีโอเชิงภาพยนตร์ที่ขับเคลื่อนด้วยพรอมต์ |
| รูปแบบอินพุต | พรอมต์ข้อความ; การสร้างแบบมีเงื่อนไขด้วยภาพก็รองรับเช่นกัน |
| รูปแบบเอาต์พุต | วิดีโอพร้อมเสียงที่ซิงโครไนซ์ รวมถึงเสียงพูดและเอฟเฟกต์เสียง |
| จุดเด่น | การทำตามพรอมต์ที่ซับซ้อน การซิงโครไนซ์ภาพและเสียง รองรับคำพูดหลายภาษา/ลิปซิงก์ การเคลื่อนไหวเชิงภาพยนตร์และการเล่าเรื่อง |
| บริบทการปรับใช้ | มีให้ใช้งานผ่านแพลตฟอร์มโมเดลของ ByteDance/Volcengine และเปิดให้ใช้บน CometAPI ภายใต้รหัสโมเดลนี้ |
| สถานะการให้บริการเชิงพาณิชย์ | ความพร้อมใช้งานเชิงพาณิชย์/API ระบุโดยผู้ให้บริการและรายการของแพลตฟอร์ม |
Seedance1.5 Pro คืออะไร?
Seedance1.5 Pro คือชื่อตัวระบุแพลตฟอร์มของ CometAPI สำหรับโมเดล Seedance 1.5 Pro ของ ByteDance ซึ่งเป็นโมเดลการสร้างภาพและเสียงแบบเนทีฟ ออกแบบมาเพื่อสร้างวิดีโอและเสียงร่วมกัน แทนการมองว่าเสียงเป็นขั้นตอนหลังการประมวลผลแยกต่างหาก ByteDance อธิบาย Seedance 1.5 Pro ว่าเป็นโมเดลวิดีโอ-เสียงร่วมที่ทำตามคำสั่งซับซ้อนได้อย่างแม่นยำ และรองรับทั้งการสร้างจากพรอมต์ข้อความและการขับเคลื่อนด้วยภาพ
ในทางปฏิบัติ โมเดลนี้มุ่งเน้นผู้สร้างและนักพัฒนาที่ต้องการวิดีโอแบบสั้นที่สร้างขึ้นพร้อมบทสนทนาที่ซิงก์กับภาพ เสียงบรรยากาศ เอฟเฟกต์ และความสอดคล้องของการเคลื่อนไหวในเวิร์กโฟลว์เดียว ตามเอกสารทางเทคนิคของ ByteDance โมเดลนี้เป็นโมเดลฐานสำหรับการสร้างวิดีโอ-เสียงแบบเนทีฟ สร้างบนสถาปัตยกรรม Diffusion Transformer แบบสองแขนงและการทำแบบจำลองข้ามโมดาลิตี เพื่อการซิงโครไนซ์ที่แน่นแฟ้นยิ่งขึ้นระหว่างสิ่งที่ปรากฏบนจอกับสิ่งที่ได้ยิน
โมเดลนี้ยังถูกวางตำแหน่งในระบบนิเวศ Doubao/Seed ที่กว้างขึ้นในฐานะข้อเสนอด้านการสร้างวิดีโอของ ByteDance โดย Volcengine แสดงรายการ Doubao-Seedance-1.5-pro ไว้ในโมเดลสำหรับการผลิต และเน้น “audio and image generated together” เป็นความสามารถหลัก
คุณสมบัติหลักของ Seedance 1.5 Pro
- การสร้างวิดีโอและเสียงแบบเนทีฟร่วมกัน: โมเดลสร้างวิดีโอและเสียงร่วมกัน ช่วยให้จังหวะระหว่างคำพูด เอฟเฟกต์เสียง และภาพเคลื่อนไหวเป็นธรรมชาติกว่าท่อกระบวนการที่นำเสียงมาเย็บภายหลัง
- ทำตามพรอมต์ได้แม่นยำ: ByteDance ระบุชัดว่า Seedance 1.5 Pro สามารถติดตามคำสั่งที่ซับซ้อนได้อย่างถูกต้อง เหมาะกับพรอมต์เชิงโครงสร้างและเอาต์พุตที่ควบคุมฉากได้
- เวิร์กโฟลว์ข้อความเป็นวิดีโอและขับเคลื่อนด้วยภาพ: รองรับการสังเคราะห์คอนเทนต์วิดีโอ-เสียงจากพรอมต์ข้อความ ให้ความยืดหยุ่นสำหรับการระดมไอเดีย การทำสตอรีบอร์ด และการสร้างที่อิงเฟรมแรก
- เสียงพูด เสียงเชิงพื้นที่ และเอฟเฟกต์: เอกสารของผู้ให้บริการเน้นเสียงพูดที่หลากหลายและเอฟเฟกต์เสียงเชิงพื้นที่ที่ประสานกับภาพ ซึ่งช่วยเสริมการเล่าเรื่องให้สมจริงและมีมิติ
- รองรับหลายภาษาและภาษาถิ่น: Seedance 1.5 Pro รองรับภาษาหลากหลายและภาษาถิ่น พร้อมลิปซิงก์และการจัดแนวการเคลื่อนไหวที่แข็งแกร่ง เหมาะสำหรับสื่อที่เจาะตลาดโลก
- การออกแบบการซิงโครไนซ์ที่มีงานวิจัยรองรับ: รายงานทางเทคนิคที่เผยแพร่เน้นการทำแบบจำลองร่วมข้ามโมดาลิตีและสายการฝึกเฉพาะทาง เพื่อปรับปรุงการซิงโครไนซ์ภาพ-เสียงและคุณภาพการสร้าง
- พร้อมใช้งานในระบบนิเวศการผลิต: โมเดลปรากฏในรายการอย่างเป็นทางการของ ByteDance/Volcengine และเปิดใช้งานผ่าน CometAPI ในชื่อ
doubao-seedance-1-5-proทำให้ใช้งานจริงผ่าน API ได้สะดวกในแอปและเวิร์กโฟลว์สื่อ
วิธีเข้าถึงและผสาน Seedance1.5 Pro
ขั้นตอนที่ 1: สมัครเพื่อรับ API Key
สมัครใช้งานบน CometAPI และสร้าง API key จากแดชบอร์ด เมื่อได้คีย์ที่ใช้งานได้แล้ว ให้เก็บรักษาอย่างปลอดภัยในตัวแปรสภาพแวดล้อมเพื่อให้แอปของคุณยืนยันตัวตนในการเรียก API ได้
ขั้นตอนที่ 2: ส่งคำขอไปยัง API doubao-seedance-1-5-pro
ใช้เอ็นด์พอยต์ที่เข้ากันได้กับ ByteDance/Volcengine ของ CometAPI ที่ POST /volc/v3/contents/generations/tasks.
ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง
API จะส่งคืน task ID ให้ ทำการโพลที่ GET /volc/v3/contents/generations/tasks/{task_id} เพื่อตรวจสอบสถานะการสร้างและดึง URL วิดีโอผลลัพธ์เมื่อภารกิจเสร็จสมบูรณ์