xAI 發布 Imagine v0.9 — 它是什麼以及如何訪問

CometAPI
AnnaOct 10, 2025
xAI 發布 Imagine v0.9 — 它是什麼以及如何訪問

xAI 宣布 Imagine 想像 v0.9這是 xAI Grok “Imagine” 文字和圖像轉影片系列的重大更新,首次實現了在製作的影片片段中產生同步音訊(包括背景音樂、對話和歌唱),同時提升了視覺品質、動作和影院級控制。該模型由 xAI 於 2019 年 1 月 1 日發布。 2025 年 10 月 7 日 並正在 xAI/Grok 產品中推廣。

Imagine v0.9 是什麼

Imagine v0.9 是 xAI 的下一代視訊模型(屬於 Grok / Aurora 系列功能的一部分),它可以將文字提示或提供的圖像轉換為短片。早期版本只能產生無聲片段或需要單獨的音訊工具,而 Imagine v0.9 可以生成 與視覺事件一致的整合音軌 (嘴唇動作、動作、氣氛)作為單次生成過程的一部分。 xAI 將該模型定位為其 Grok Imagine 工具集的演進。

主要特徵

  • 原生音訊視訊同步: Imagine v0.9 可以產生背景音樂、環境聲音、對話甚至歌唱,這些都與生成的視覺效果同步,而不需要單獨進行聲音編輯。
  • 改善視覺保真度和運動: 更逼真的角色動作、更流暢的實體和電影攝影效果(焦點轉移、平移)。
  • 語音優先介面: 透過語音提示產生內容的選項-旨在實現免持工作流程。
  • 速度和迭代: 公開演示和報告聲稱短片的生成時間不到 15 秒(取決於模型模式和負載)。
  • 多種輸出模式: 文字→圖像→影片管道和直接圖像→影片轉換(將照片製作成動畫短片)。
  • **快速生成時間:**t 產生延遲較短(許多範例的短片段運行時間約為 15-20 秒)。

與先前版本相比有何新變化

標題變化是 產生一流的音訊輸出而非事後諸葛亮。這意味著 Imagine v0.9 會嘗試將聲音事件(語音、腳步聲、吼叫聲、音樂提示)與其創建的視訊時序相匹配,而無需單獨的配音或剪輯步驟。 xAI 也強調了運動真實性、攝影機控制功能的飛躍,以及更快、更具互動性的介面。與 xAI 早期的 Imagine/Grok 視訊功能(例如 v0.1)相比,Imagine v0.9 帶來了以下優勢:

  • 整合音訊生成 (不僅僅是無聲視頻或單獨的 TTS 覆蓋)。
  • 改進的運動和相機控制,實現更具電影感的構圖和動態敘事。
  • 語音優先的使用者體驗 用於快速輸入,並報告由 xAI 底層 Aurora/Grok 堆疊驅動的速度和吞吐量升級。

如何存取 Imagine v0.9

當: 該能力體現在 格羅克 (xAI 的助理)和 Grok / xAI 應用程式和整合。

方法:

  1. 語音模式: 如果您更喜歡語音提示,請啟用應用程式的 語音優先 模式(早期指南中通常標記為「以語音模式開啟應用程式」)並口述您的提示或場景方向。
  2. 圖片→影片: 您可以透過提供影像以及動作和音訊(背景樂譜、對話台詞、演唱風格)的說明,將靜態影像轉換為簡短的、聲音同步的剪輯。
  3. 請求樣式、相機動作或短持續時間;輸出剪輯目前很短(範例/公告顯示非常短 - 幾秒鐘)。

限制和安全注意事項

  • 我注意到人體解剖學、跨幀連續性以及其他生成視訊系統的典型偽影中存在持續存在的問題——結果令人印象深刻但並不完美。
  • Grok Imagine 因其審核設定而飽受批評:v0.9 版本新增了「Spicy」模式,且 Grok 的防護機制先前曾被繞過,因此存在一些內容安全隱患(例如深度偽造、NSFW 內容、版權/名人濫用)。請謹慎使用並遵守平台規則。

總結:

Imagine v0.9 透過在 xAI 的 Grok Imagine 輸出中添加原生、同步音訊(音樂、對話、唱歌),同時改善運動和電影控制,朝著真正整合的文字/影像→短影片製作邁出了顯著的一步。

想要一個演示風格的提示嗎?

使用簡潔、描述性的提示,並包含動作和攝影機說明。例如:

提示: 「特寫鏡頭拍攝一條咆哮的紅龍,當它噴出火焰時,攝影機向內推並向上傾斜,電影燈光,6 秒循環,添加與呼吸同步的深沉雷鳴般的咆哮聲。”
此模式(主體+運動+相機+長度+音訊)通常會產生更清晰的結果。

如何開始透過 CometAPI 產生視頻

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

CometAPI 承諾持續關注最新的模型 API 動態,包括 Grok Imagine API,該 API 將與官方版本同步發布。敬請期待並持續關注 CometAPI。在等待期間,您可以探索我們的其他圖像模型,例如 索拉2號索拉2號 在您的工作流程中或在 AI Playground 中試用它們。您可以在 游乐场 並查閱 API 指南以取得詳細說明。造訪前,請確保您已登入 CometAPI 並取得 API 金鑰。 CometAPI 提供遠低於官方價格的整合價格,以幫助您整合。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣