Q

Wan2.6

每秒:$0.08
從文字與圖片生成影片。建立與編輯圖片,保持參考一致性。
商業用途

Wan 2.6 技術規格

項目Wan 2.6 影片套件
提供方Alibaba / Tongyi Lab
模型系列Wan 2.6
發布時間2025 年 12 月世代
輸入類型文字、圖片、參考影片、音訊輸入
輸出類型包含可選同步音訊的影片
核心模式文字轉影片(T2V)、圖像轉影片(I2V)、參考轉影片(R2V)
Flash 變體I2V Flash、R2V Flash
解析度支援720P 與 1080P
時長支援2–15 秒(取決於工作流程)
音訊功能原生音訊生成、語音參考、口型同步
多鏡頭支援單一工作流程中 2–8 個場景片段
參考支援最多 5 個參考(依工作流程可混合圖片/影片)
API 工作流程非同步任務建立 + 輪詢

什麼是 Wan 2.6?

Wan 2.6 是 Alibaba 的多模態影片生成系統,專注於可控的短片製作。不同於純粹以提示詞驅動,該模型結合文字提示、圖像參考、參考影片、音訊條件與場景串接,以支援創作者的工作流程。相較於先前的 Wan 版本,主要升級在於更強的參考驅動一致性與更長的敘事生成。

Wan 2.6 的主要功能

  • 參考驅動的影片工作流程:使用者可輸入圖片或影片參考,在多次生成中維持角色身份、風格與聲音的連貫性。
  • 多鏡頭敘事生成:支援在單一生成工作流程中串接多個提示詞,用於場景轉場與故事推進。
  • 原生音訊同步:內建支援生成音訊、自訂音訊上傳與口型同步的工作流程。
  • 彈性輸入模式:支援僅提示詞生成、首幀動畫與參考驅動的工作流程。
  • 用於迭代的 Flash 變體:較快的版本可在最終高品質渲染前快速測試。
  • 更長片段:相較於早期版本,延長的片段時長以支援敘事內容創作。

Wan 2.6 的基準表現

Wan 2.6 的正式基準透明度仍然有限;與文字 LLM 供應商相比,Alibaba 發布的標準化基準數據較少。多數評估來自工作流程測試與生態系比較,而非公開排行榜。社群測試一致指出:

  • 相較舊版 Wan,角色一致性更佳。
  • 更好的音訊與影片同步。
  • 更強的多鏡頭連貫性。
  • 更可靠的參考條件化。

由於基準發布稀少,部署前的生產測試仍然重要。

Wan 2.6 與其他影片模型的比較

功能Wan 2.6Wan 2.7Veo 系列模型
原生音訊生成更強
多鏡頭工作流程改進中等
參考驅動生成強調更強的控制中等
片段時長最長 15 秒類似/取決於工作流程視情況而定
多參考支援最多 5 個參考擴展的工作流程中等
編輯工作流程中等更佳的編輯支援

Wan 2.6 的限制

  • 較短的片段時長仍限制長篇製作。
  • 高運動場景可能仍出現時間穩定性不足。
  • 高度依賴參考的工作流程提高設定複雜度。
  • 公開基準報告仍然有限。
  • 非同步生成管線提高整合複雜度。

代表性使用情境

  1. 角色一致的行銷影片。
  2. 多場景社群媒體短片。
  3. 創作者虛擬化身動畫。
  4. 參考驅動的產品影片。
  5. 具同步音訊的 AI 敘事創作。
  6. 需要維持識別度的品牌內容。

常見問題