Sora 是如何训练的?

CometAPI
AnnaMay 12, 2025
Sora 是如何训练的?

OpenAI 的视频生成模型 Sora 标志着生成式 AI 的重大飞跃,使得仅凭简单文本提示即可合成全高清视频。自 2024 年 2 月发布以来,Sora 因其创作潜力而令人振奋,同时也引发了对其伦理与法律影响的担忧。下文综合最新报道与技术披露,全面探讨Sora 是如何训练的

什么是 Sora?

Sora 是 OpenAI 开创性的文生视频 Transformer,可依据简短文字描述生成逼真、高分辨率的视频片段。不同于早期仅能输出数秒低分辨率片段的模型,Sora 可生成时长最长达 1 分钟、分辨率为 Full HD (1920×1080) 的视频,具备流畅的运动与细致的场景。

Sora 拥有哪些能力?

  • 文本驱动的视频生成:用户输入提示(例如:“东京公园里宁静的降雪”),Sora 输出与描述相匹配的视频片段。
  • 编辑与扩展:Sora 可扩展现有视频、补全缺失帧,并改变回放方向或风格。
  • 静态转动态:模型可为静态图像赋予运动,将照片或插画转化为动态场景。
  • 审美变体:通过风格标记,用户可以调整光照、色彩分级与电影化效果。

Sora 由何种架构驱动?

Sora 基于与 GPT-4 相似的 Transformer 基础,但对输入表征进行了适配,以处理视频的时间与空间维度:

  1. 时空补丁标记:将视频帧划分为 3D 补丁,既捕捉像素区域也捕捉其随时间的演化。
  2. 渐进式扩散:从噪声开始,Sora 迭代去噪,同时细化空间细节与连贯运动。
  3. 多模态条件化:来自大型语言模型的文本嵌入为扩散过程提供引导,确保与用户提示在语义上对齐。

Sora 是如何训练的?

使用了哪些数据集?

OpenAI 并未完全披露支撑 Sora 的专有数据集,但现有证据与报道显示其训练语料为复合式:

  • 公共视频库:来自 Pexels、Internet Archive 以及授权素材库的数百万小时不受版权限制的视频。
  • YouTube 与游戏内容:调查显示,为丰富动态场景(如角色运动、物理效果),OpenAI 纳入了游戏直播与游戏录屏(包括 Minecraft 视频),这引发了关于许可合规的质疑。
  • 用户贡献片段:在 beta 阶段,Sora 测试者提交了作为风格参考的个人视频,OpenAI 用于微调。
  • 合成预训练:研究者生成算法化运动序列(如移动形状、合成场景),在引入真实视频之前为模型的物理理解打基础。

进行了哪些预处理?

在训练前,所有视频数据经过广泛处理,以统一格式并确保训练稳定性:

  1. 分辨率归一化:将片段调整与填充到统一的 1920×1080 分辨率,并将帧率同步至 30 FPS。
  2. 时间分段:将较长视频切分为 1 分钟段,以匹配 Sora 的生成时长上限。
  3. 数据增广:通过随机裁剪、色彩抖动、时间反转与噪声注入等技术丰富数据集,提升在多样光照与运动模式下的鲁棒性。
  4. 元数据标注:解析标题、字幕等随附文本,构建成对的(视频、文本)样本,以实现有监督的文本条件训练。
  5. 偏见审计:流程早期对一部分片段进行人工审核,以识别并缓解显性内容偏见(如性别刻板印象),尽管后续分析显示挑战仍然存在。

OpenAI 如何构建 Sora 的训练方法?

在 DALL·E 3 的图像生成框架基础上,Sora 的训练流水线整合了针对时间连贯性与物理模拟而定制的架构与损失函数。

模型架构与预训练目标

Sora 采用针对视频数据优化的基于 Transformer 的架构,利用时空注意力机制捕捉帧级细节与运动轨迹。在预训练期间,模型学习预测跨连续帧的被掩蔽补丁——向前与向后扩展被掩蔽帧,以掌握连续性。

源自 DALL·E 3 的改造

Sora 的核心图像合成模块源于 DALL·E 3 的扩散技术,并升级以处理额外的时间维度。该改造涉及同时以文本嵌入与先前视频帧作为条件,从而无缝生成新片段或扩展现有片段。

物理世界模拟

一个关键训练目标是注入直觉式的“世界模型”,能够模拟物理交互——如重力、物体碰撞与镜头运动。OpenAI 的技术报告强调采用了辅助的物理启发损失项以惩罚物理上不合理的输出,尽管模型在流体运动与细腻阴影等复杂动态上仍有困难。

面临了哪些挑战与争议?

法律与伦理问题?

使用公共与用户生成内容引发了法律审视:

  • 版权争议:英国创意产业群体游说反对允许 AI 公司在未经明确选择加入的前提下使用艺术家作品进行训练;与此同时,Sora 于 2025 年 2 月在英国上线,引发了议会辩论。
  • 平台服务条款:YouTube 指出了可能因抓取用户视频用于 AI 训练而产生的违规,促使 OpenAI 审查其数据摄取策略。
  • 诉讼:继文本与图像模型相关案件之后,生成式视频工具(如 Sora)可能因未经授权使用受版权保护的素材而面临集体诉讼。

训练数据中的偏见?

尽管采取了缓解措施,Sora 仍表现出系统性偏见:

  • 性别与职业刻板印象:WIRED 的分析发现,Sora 生成的视频过度将 CEO 和飞行员描绘为男性,而女性多出现于照护或服务角色。
  • 种族呈现:模型难以表现多样的肤色与面部特征,常默认为较浅肤色或以西方为中心的图像。
  • 身体能力:残障人士最常被描绘为使用轮椅者,反映出对残障的狭隘理解。
  • 解决路径:OpenAI 投入了偏见降低团队,并计划纳入更具代表性的数据与反事实增广技术。

哪些进展推动了训练改进?

仿真与世界建模?

Sora 渲染逼真场景的能力依赖于先进的世界模拟模块:

  • 物理启发先验:在建模重力、流体动力学与碰撞响应的合成数据集上预训练,使 Sora 在 Transformer 层内形成直觉式物理引擎。
  • 时间连贯网络:特化子模块在帧间强制一致性,减少以往文生视频方法常见的闪烁与运动抖动。

物理真实感的改进?

关键技术突破提升了 Sora 的输出保真度:

  1. 高分辨率扩散:分层扩散策略先生成低分辨率的运动模式,再上采样至 Full HD,同时保留全局运动与精细细节。
  2. 跨时间注意力:时间自注意力允许模型引用更远的帧,确保长期一致性(例如持续数秒保持角色的朝向与轨迹)。
  3. 动态风格迁移:实时风格适配器可融合多种视觉美学,使单个片段内在电影、纪录片或动画风格之间切换。

Sora 未来的训练方向是什么?

降低偏见的技术?

OpenAI 与更广泛的 AI 社群正在探索方法以应对根深蒂固的偏见:

  • 反事实数据增广:合成训练片段的替代版本(例如在不改变语义的前提下调整性别或族裔),以迫使模型将属性与角色解耦。
  • 对抗式去偏:在训练中引入判别器,对刻板化输出施加惩罚。
  • 人类在环审核:与多元用户群体持续合作,在公开发布前对模型输出进行审计与反馈。

扩展数据集多样性?

确保更丰富的训练语料至关重要:

  • 全球视频合作:从非西方媒体机构处授权内容,以覆盖更广泛的文化、环境与场景。
  • 领域特定微调:在医疗、法律或科学素材上训练 Sora 的专用变体,以实现准确、与领域相关的视频生成。
  • 开放基准:与研究联盟合作,创建标准化、公开可用的文生视频评测数据集,促进透明度与良性竞争。

结论

Sora 立于文生视频前沿,结合基于 Transformer 的扩散、大规模视频语料与世界模拟先验,生成前所未有的逼真片段。然而,其以海量且部分不透明的数据集为基础的训练流水线,带来了紧迫的法律、伦理与偏见相关挑战。随着 OpenAI 与更广泛社区在去偏、许可合规与数据集多样化方面持续推进,Sora 的后续版本有望实现更趋自然的视频合成,解锁新的创意与专业应用,同时也需要以审慎治理守护艺术家权益与社会公平。

入门

CometAPI 提供统一的 REST 接口,将数百个 AI 模型(包括 Google 的 Gemini 系列)聚合到一致的端点之下,内置 API 密钥管理、用量配额与计费仪表板。无需在多个厂商的 URL 与凭据之间切换,只需将客户端指向 https://api.cometapi.com/v1,并在每个请求中指定目标模型。

开发者可通过 CometAPI 访问 Sora API。开始时,可在 Playground 中探索该模型的能力,并查阅 API 指南 获取详细说明。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣