OpenAI 正为 Sora 2 做准备，其下一代文本到视频 A

旧金山，2025年7月25日——据报道，OpenAI 正在准备推出其文本生成视频模型的下一代版本 Sora 2，力图超越 Google 的 Veo 3 等竞争对手。关于此次更新的传闻源自对 OpenAI 公开文件的分析以及服务器中对“Sora 2”的引用，尽管该公司尚未发布正式公告。

Sora 2 的预期增强

集成音频与语音

Sora 2 的核心预期功能之一是由 AI 生成的音频——包括画外音、环境噪声和音效——能够与屏幕上的动作精确同步。早期泄露信息显示，OpenAI 旨在让 Sora 2 在视频中“说话”，提供逼真的语调、环境氛围，以及严密的口型同步，以避免其前代的“无声电影”局限。

改进的人体动作

由于在物理与运动建模方面的限制，当前的 Sora 输出有时会出现扭曲或“融化”的人体形象。预计 Sora 2 将利用先进的训练技术，更好地模拟逼真的人体运动——减少肢体和身体姿态的变形，呈现更自然、流畅的动作。

更长且更高质量的片段

尽管竞争对手通常将视频时长限制在10秒以内，OpenAI 已展示了 Sora 可生成20秒或更长片段的能力。Sora 2 可能会进一步突破这些限制，潜在地达到30秒或更长，并在分辨率与视觉逼真度方面逐步提升。鉴于其巨大的计算需求，这些功能很可能会分层提供——在更高级的订阅计划中开放。

sora 2

集成与定价策略

OpenAI 可能会将 Sora 2 的发布与即将到来的 GPT‑5 推出同步，利用先进视频与语言模型之间的协同效应。业内观察人士指出，将 Sora 2 捆绑进 ChatGPT 生态系统，或可在与 Google 的基于订阅访问 Veo 3 的竞争中提供更具竞争力的定价，吸引创作者与企业用户。然而，定价策略仍不确定，OpenAI 正在权衡更广泛的使用配额与基础设施成本。

竞争格局

OpenAI 面临来自 Google 的 Veo 3 的强劲竞争，后者已具备集成音频与成熟的口型同步能力；以及 Kling、Runway、Moonvalley 等专业平台，它们在视频逼真度与功能方面都在快速进步。因此，Sora 2 需要不仅在质量与功能上，还在可获得性方面实现差异化——例如通过更具吸引力的定价以及与 ChatGPT 更广泛生态的整合。

展望未来，Sora 2 的成功将取决于其是否能够提供无缝、合乎伦理且具成本效益的视频生成。鉴于生成式视频技术因潜在滥用而受到审视，预计 OpenAI 将实施与初版 Sora 推出时类似的安全措施，包括内容过滤与使用政策，以防止有害或具有欺骗性的输出。随着竞争加剧，Sora 2 将成为检验 OpenAI 在 AI 驱动媒体领域领导力的关键考验。

入门指南

CometAPI 是一个统一的 API 平台，将来自领先提供商的500多种 AI 模型——如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到一个对开发者友好的界面中。通过提供一致的身份验证、请求格式与响应处理，CometAPI 大幅简化了将 AI 能力集成到您的应用中的过程。无论您在构建聊天机器人、图像生成器、音乐作曲器，还是数据驱动的分析管道，CometAPI 都能让您更快迭代、控制成本，并保持对供应商的中立性，同时利用整个 AI 生态的最新突破。

开发者可以通过 CometAPI 访问，文中列出的最新模型版本以文章发表日期为准。开始之前，请在 Playground 中探索该模型的功能，并查阅 API 指南获取详细说明。在访问之前，请确保您已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方价格的优惠，以帮助您集成。