Wan 2.6 技術規格
| 項目 | Wan 2.6 影片套件 |
|---|---|
| 提供方 | Alibaba / Tongyi Lab |
| 模型系列 | Wan 2.6 |
| 發布時間 | 2025 年 12 月世代 |
| 輸入類型 | 文字、圖片、參考影片、音訊輸入 |
| 輸出類型 | 包含可選同步音訊的影片 |
| 核心模式 | 文字轉影片(T2V)、圖像轉影片(I2V)、參考轉影片(R2V) |
| Flash 變體 | I2V Flash、R2V Flash |
| 解析度支援 | 720P 與 1080P |
| 時長支援 | 2–15 秒(取決於工作流程) |
| 音訊功能 | 原生音訊生成、語音參考、口型同步 |
| 多鏡頭支援 | 單一工作流程中 2–8 個場景片段 |
| 參考支援 | 最多 5 個參考(依工作流程可混合圖片/影片) |
| API 工作流程 | 非同步任務建立 + 輪詢 |
什麼是 Wan 2.6?
Wan 2.6 是 Alibaba 的多模態影片生成系統,專注於可控的短片製作。不同於純粹以提示詞驅動,該模型結合文字提示、圖像參考、參考影片、音訊條件與場景串接,以支援創作者的工作流程。相較於先前的 Wan 版本,主要升級在於更強的參考驅動一致性與更長的敘事生成。
Wan 2.6 的主要功能
- 參考驅動的影片工作流程:使用者可輸入圖片或影片參考,在多次生成中維持角色身份、風格與聲音的連貫性。
- 多鏡頭敘事生成:支援在單一生成工作流程中串接多個提示詞,用於場景轉場與故事推進。
- 原生音訊同步:內建支援生成音訊、自訂音訊上傳與口型同步的工作流程。
- 彈性輸入模式:支援僅提示詞生成、首幀動畫與參考驅動的工作流程。
- 用於迭代的 Flash 變體:較快的版本可在最終高品質渲染前快速測試。
- 更長片段:相較於早期版本,延長的片段時長以支援敘事內容創作。
Wan 2.6 的基準表現
Wan 2.6 的正式基準透明度仍然有限;與文字 LLM 供應商相比,Alibaba 發布的標準化基準數據較少。多數評估來自工作流程測試與生態系比較,而非公開排行榜。社群測試一致指出:
- 相較舊版 Wan,角色一致性更佳。
- 更好的音訊與影片同步。
- 更強的多鏡頭連貫性。
- 更可靠的參考條件化。
由於基準發布稀少,部署前的生產測試仍然重要。
Wan 2.6 與其他影片模型的比較
| 功能 | Wan 2.6 | Wan 2.7 | Veo 系列模型 |
|---|---|---|---|
| 原生音訊生成 | 強 | 更強 | 強 |
| 多鏡頭工作流程 | 是 | 改進 | 中等 |
| 參考驅動生成 | 強調 | 更強的控制 | 中等 |
| 片段時長 | 最長 15 秒 | 類似/取決於工作流程 | 視情況而定 |
| 多參考支援 | 最多 5 個參考 | 擴展的工作流程 | 中等 |
| 編輯工作流程 | 中等 | 更佳的編輯支援 | 強 |
Wan 2.6 的限制
- 較短的片段時長仍限制長篇製作。
- 高運動場景可能仍出現時間穩定性不足。
- 高度依賴參考的工作流程提高設定複雜度。
- 公開基準報告仍然有限。
- 非同步生成管線提高整合複雜度。
代表性使用情境
- 角色一致的行銷影片。
- 多場景社群媒體短片。
- 創作者虛擬化身動畫。
- 參考驅動的產品影片。
- 具同步音訊的 AI 敘事創作。
- 需要維持識別度的品牌內容。