xAI 宣布 Imagine Imagine v0.9,这是其 Grok “Imagine” 文本与图像转视频系列的一次重大更新,首次在生成流程中在视频片段内生成同步音频——包括背景音乐、口语对白和歌唱——同时提升视觉质量、运动效果和电影化控制。该模型由 xAI 于 2025 年 10 月 7 日 发布,正在逐步推送到 xAI/Grok 的各类产品中。
Imagine v0.9 是什么
Imagine v0.9 是 xAI 的下一代视频模型(属于 Grok/Aurora 能力家族的一部分),可将文本提示或提供的图像转换为短篇电影化片段。此前的迭代要么生成静音片段,要么需要独立的音频工具,Imagine v0.9 则在单次生成流程中生成与视觉事件对齐的集成音轨(唇部动作、行为、氛围)。xAI 将该模型定位为其 Grok Imagine 工具集的演进。
关键特性
- **原生音视频同步:**Imagine v0.9 生成与画面同步的背景音乐、环境音、口语对白乃至歌唱,无需额外的声音编辑。
- **更高的视觉逼真度与运动效果:**角色动作更栩栩如生,物理更顺滑,并具备电影化的镜头效果(焦点转换、平移)。
- **以语音为先的界面:**可通过口述提示来生成内容——面向免手操作的工作流。
- **速度与迭代:**公开演示与报道称短片生成低于 15 秒(取决于模型模式与负载)。
- **多种输出模式:**文本→图像→视频流水线,以及直接图像→视频转换(将照片动画化为短片)。
- **快速生成时间:**短时延生成(许多示例短片约 15–20 秒)。
与此前版本相比有哪些新变化
最大亮点是将音频作为一等公民输出,而非事后补充。这意味着 Imagine v0.9 会尝试将声学事件(语音、脚步声、咆哮、音乐提示)与其生成的视频时间轴匹配,而不再需要单独的配音或剪辑步骤。xAI 还强调在运动真实感、镜头控制能力以及更快、更具交互性的界面方面的跃升。与 xAI 早期的 Imagine/Grok 视频能力(例如 v0.1)相比,Imagine v0.9 带来:
- 集成式音频生成(不再只是静音视频或独立的 TTS 叠加)。
- 改进的运动与镜头控制,实现更具电影感的构图与更动态的叙事。
- 以语音为先的 UX 用于提示输入,并在 xAI 底层 Aurora/Grok 技术栈驱动下实现据称的速度与吞吐提升。
如何访问 Imagine v0.9
**在哪里:**该能力通过 Grok(xAI 的助手)以及 Grok / xAI 的应用与集成呈现。
方式:
- 语音模式:如果你偏好口述提示,请启用应用的以语音为先模式(在早期指南中常标注为“Open App in Voice Mode”),然后口述你的提示或场景指令。
- **图像 → 视频:**你可以提供一张静态图像以及运动与音频的指令(背景配乐、对白台词、演唱风格),将其转换为短小且声音同步的片段。
- 可请求风格、镜头动作或较短时长;当前输出片段较短(示例/公告显示非常短——数秒)。
限制与安全提示
- 已知在人类解剖结构、跨帧连续性以及其他生成式视频系统常见伪影方面仍存在问题——效果令人印象深刻但并不完美。
- Grok Imagine 的内容审核设置曾遭质疑:v0.9 暴露出“Spicy”模式,而历史上 Grok 的护栏曾被绕过,因此确有内容安全风险(深度伪造、NSFW、版权/名人滥用)。请谨慎使用并遵守平台规则。
结论:
Imagine v0.9 通过为 xAI 的 Grok Imagine 输出加入原生、同步的音频(音乐、对白、歌唱),同时改进运动与电影化控制,向真正的文本/图像→短视频一体化制作迈出了重要一步。
想要演示风格的小技巧?
使用紧凑且具描述性的提示,并加入运动与镜头指令。示例:
提示:“红色巨龙近景咆哮,当它喷吐火焰时镜头推进并上仰,电影级灯光,6 秒循环,添加与呼吸同步的低沉雷鸣般咆哮。”
这种模式(主体 + 运动 + 镜头 + 时长 + 音频)通常能获得更清晰的结果。
如何通过 CometAPI 开始生成视频
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 个 AI 模型(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)汇聚到单一、对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析管道,CometAPI 都能帮助你更快迭代、控制成本并保持厂商无关性,同时利用 AI 生态的最新突破。
CometAPI 承诺跟踪最新的模型 API 动态,包括 Grok Imagine API,并将在官方发布的同时同步上线。请持续关注 CometAPI 并拭目以待。在等待期间,探索我们的其他图像模型,例如在你的工作流中使用 Sora 2,以及 Sora 2,或在 AI Playground 中试用它们。你可以在 Playground 中探索模型能力,并查阅 API 指南获取详细说明。在访问之前,请确保已登录 CometAPI 并获得 API key。CometAPI 提供远低于官方价格的报价,帮助你完成集成。
