Seedance1.5 Pro 的技術規格
| 規格 | 詳細資訊 |
|---|---|
| 模型 ID | doubao-seedance-1-5-pro |
| 提供者系列 | Doubao / ByteDance Seed |
| 模型類型 | 原生影音生成模型 |
| 核心模態 | 由單一模型聯合生成影片與音訊 |
| 主要使用案例 | 文字轉影片,以及以提示驅動的電影級影片生成 |
| 輸入格式 | 文字提示;也支援以圖像為條件的生成 |
| 輸出格式 | 含同步音訊的影片,包括人聲與音效 |
| 優勢 | 複雜提示跟隨、視聽同步、多語言語音/口型同步支援、電影感運動與敘事 |
| 部署環境 | 可透過 ByteDance/Volcengine 模型平台取得,並在 CometAPI 以此模型 ID 提供 |
| 商業可用性 | 商業/API 可用性以提供方與平台列表的標示為準 |
什麼是 Seedance1.5 Pro?
Seedance1.5 Pro 是 CometAPI 對 ByteDance 的 Seedance 1.5 Pro 模型的平臺識別符。這是一個原生影音生成模型,旨在同時生成影片與聲音,而非將音訊視為後處理步驟。ByteDance 將 Seedance 1.5 Pro 描述為能準確遵循複雜指令,並同時支援文字提示與圖像驅動生成的聯合音視頻模型。
在實務上,該模型面向希望在單一工作流程中獲得含同步對白、環境音、音效與動作一致性的短影片的創作者與開發者。ByteDance 的技術資料將其描述為原生聯合影音生成的基礎模型,採用雙分支 Diffusion Transformer 架構與跨模態建模,以強化畫面與聲音之間的同步。
該模型亦定位於更廣泛的 Doubao/Seed 生態系中,作為 ByteDance 的影片生成方案。Volcengine 在其生產模型列表中收錄 Doubao-Seedance-1.5-pro,並將「音訊與影像共同生成」作為核心能力予以強調。
Seedance 1.5 Pro 的主要功能
- 原生影音生成:模型聯合生成影片與音訊,相較於後期拼接音訊的流程,更能產生自然的語音、音效與視覺動作之間的時間關係。
- 強大的提示遵從能力:ByteDance 明確表示 Seedance 1.5 Pro 能準確遵循複雜指令,適用於結構化創意提示與受控情境輸出。
- 文字轉影片與圖像驅動的工作流程:模型支援由文字提示合成影音內容,為開發者在發想、分鏡與首幀驅動的創作提供靈活性。
- 人聲、空間音效與特效:官方資料強調多樣化人聲與空間音效,並與視覺協同,有助於更豐富的敘事與更具沉浸感的影片片段。
- 多語言與方言支援:Seedance 1.5 Pro 支援廣泛語言與方言,具備良好的口型與動作對齊,適合面向全球的媒體應用。
- 有研究支撐的同步化設計:已發表的技術報告強調跨模態聯合建模與專門的訓練流程,以提升視聽同步與生成品質。
- 生產級生態系可用性:該模型已出現在官方 ByteDance/Volcengine 模型列表中,並在 CometAPI 以
doubao-seedance-1-5-pro提供,便於透過 API 整合到應用與媒體工作流程。
如何取得並整合 Seedance1.5 Pro
步驟 1:註冊取得 API 金鑰
在 CometAPI 註冊,並從儀表板建立一把 API 金鑰。取得有效金鑰後,請將其安全地儲存為環境變數,以便應用程式對 API 請求進行驗證。
步驟 2:向 doubao-seedance-1-5-pro API 發送請求
使用 CometAPI 與 ByteDance/Volcengine 相容的端點:POST /volc/v3/contents/generations/tasks。
步驟 3:擷取並驗證結果
API 會回傳一個任務 ID。輪詢 GET /volc/v3/contents/generations/tasks/{task_id} 以檢查生成狀態,並在任務完成時取得輸出影片 URL。