xAI 推出 Imagine v0.9 —— 它是什么以及如何立即访问

CometAPI
AnnaOct 10, 2025
xAI 推出 Imagine v0.9 —— 它是什么以及如何立即访问

xAI 宣布 Imagine Imagine v0.9,这是其 Grok “Imagine” 文本与图像转视频系列的一次重大更新,首次在生成流程中在视频片段内生成同步音频——包括背景音乐、口语对白和歌唱——同时提升视觉质量、运动效果和电影化控制。该模型由 xAI 于 2025 年 10 月 7 日 发布,正在逐步推送到 xAI/Grok 的各类产品中。

Imagine v0.9 是什么

Imagine v0.9 是 xAI 的下一代视频模型(属于 Grok/Aurora 能力家族的一部分),可将文本提示或提供的图像转换为短篇电影化片段。此前的迭代要么生成静音片段,要么需要独立的音频工具,Imagine v0.9 则在单次生成流程中生成与视觉事件对齐的集成音轨(唇部动作、行为、氛围)。xAI 将该模型定位为其 Grok Imagine 工具集的演进。

关键特性

  • **原生音视频同步:**Imagine v0.9 生成与画面同步的背景音乐、环境音、口语对白乃至歌唱,无需额外的声音编辑。
  • **更高的视觉逼真度与运动效果:**角色动作更栩栩如生,物理更顺滑,并具备电影化的镜头效果(焦点转换、平移)。
  • **以语音为先的界面:**可通过口述提示来生成内容——面向免手操作的工作流。
  • **速度与迭代:**公开演示与报道称短片生成低于 15 秒(取决于模型模式与负载)。
  • **多种输出模式:**文本→图像→视频流水线,以及直接图像→视频转换(将照片动画化为短片)。
  • **快速生成时间:**短时延生成(许多示例短片约 15–20 秒)。

与此前版本相比有哪些新变化

最大亮点是将音频作为一等公民输出,而非事后补充。这意味着 Imagine v0.9 会尝试将声学事件(语音、脚步声、咆哮、音乐提示)与其生成的视频时间轴匹配,而不再需要单独的配音或剪辑步骤。xAI 还强调在运动真实感、镜头控制能力以及更快、更具交互性的界面方面的跃升。与 xAI 早期的 Imagine/Grok 视频能力(例如 v0.1)相比,Imagine v0.9 带来:

  • 集成式音频生成(不再只是静音视频或独立的 TTS 叠加)。
  • 改进的运动与镜头控制,实现更具电影感的构图与更动态的叙事。
  • 以语音为先的 UX 用于提示输入,并在 xAI 底层 Aurora/Grok 技术栈驱动下实现据称的速度与吞吐提升。

如何访问 Imagine v0.9

**在哪里:**该能力通过 Grok(xAI 的助手)以及 Grok / xAI 的应用与集成呈现。

方式:

  1. 语音模式:如果你偏好口述提示,请启用应用的以语音为先模式(在早期指南中常标注为“Open App in Voice Mode”),然后口述你的提示或场景指令。
  2. **图像 → 视频:**你可以提供一张静态图像以及运动与音频的指令(背景配乐、对白台词、演唱风格),将其转换为短小且声音同步的片段。
  3. 可请求风格、镜头动作或较短时长;当前输出片段较短(示例/公告显示非常短——数秒)。

限制与安全提示

  • 已知在人类解剖结构、跨帧连续性以及其他生成式视频系统常见伪影方面仍存在问题——效果令人印象深刻但并不完美。
  • Grok Imagine 的内容审核设置曾遭质疑:v0.9 暴露出“Spicy”模式,而历史上 Grok 的护栏曾被绕过,因此确有内容安全风险(深度伪造、NSFW、版权/名人滥用)。请谨慎使用并遵守平台规则。

结论:

Imagine v0.9 通过为 xAI 的 Grok Imagine 输出加入原生、同步的音频(音乐、对白、歌唱),同时改进运动与电影化控制,向真正的文本/图像→短视频一体化制作迈出了重要一步。

想要演示风格的小技巧?

使用紧凑且具描述性的提示,并加入运动与镜头指令。示例:

提示:“红色巨龙近景咆哮,当它喷吐火焰时镜头推进并上仰,电影级灯光,6 秒循环,添加与呼吸同步的低沉雷鸣般咆哮。”
这种模式(主体 + 运动 + 镜头 + 时长 + 音频)通常能获得更清晰的结果。

如何通过 CometAPI 开始生成视频

CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 个 AI 模型(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)汇聚到单一、对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析管道,CometAPI 都能帮助你更快迭代、控制成本并保持厂商无关性,同时利用 AI 生态的最新突破。

CometAPI 承诺跟踪最新的模型 API 动态,包括 Grok Imagine API,并将在官方发布的同时同步上线。请持续关注 CometAPI 并拭目以待。在等待期间,探索我们的其他图像模型,例如在你的工作流中使用 Sora 2,以及 Sora 2,或在 AI Playground 中试用它们。你可以在 Playground 中探索模型能力,并查阅 API 指南获取详细说明。在访问之前,请确保已登录 CometAPI 并获得 API key。CometAPI 提供远低于官方价格的报价,帮助你完成集成。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣