Kling O1:全新的“统一”多模态视频模型 — 它是什么以及如何工作

CometAPI
AnnaDec 1, 2025
Kling O1:全新的“统一”多模态视频模型 — 它是什么以及如何工作

Kling O1 — 作为 Kling AI “Omni” 发布周的一部分发布 — 将自身定位为一个单一、统一的多模态视频基础模型,可在同一请求中接受文本、图像和视频,并在导演级的迭代式工作流中同时支持视频生成与编辑。Kling 团队称 O1 为“全球首个统一多模态视频大规模模型”。Kling 的内部测试声称相较 Google 的 Veo 3.1 和 Runway Aleph 拥有显著优势。

什么是 Kling O1?

Kling O1(常以 Video O1Omni One 进行市场推广)是 Kling AI 新发布的视频基础模型,在单一、以提示为驱动的框架内统一了跨文本、图像与视频的生成与编辑。与将文本转视频、图像转视频与视频编辑当作独立流水线不同,Kling O1 能在一个提示中接收混合输入(文本 + 多张图像 + 可选参考视频),对其进行综合推理,并生成连贯的短片或以精细控制编辑现有素材。公司将此次发布定位为“Omni Launch”的一部分,并将 O1 描述为围绕多模态视觉语言(MVL)范式与 Chain-of-Thought(CoT)推理路径构建的“多模态视频引擎”,用于理解复杂、分步骤的创意指令。

Kling 的对外信息强调三种实用工作流:(1)文本 → 视频生成,(2)图像/元素 → 视频(通过显式引用进行合成与主体/道具替换),以及(3)视频编辑/镜头延续(重设风格、对象添加/移除、起始帧/结束帧控制)。该模型支持多元素提示(包括用于针对特定参考图像的“@”语法),并提供导演式控制,如起/止帧锚定与视频续接,以构建多镜头序列。

Kling O1 的 5 大核心亮点

1) 真正统一的多模态输入(MVL)

Kling O1 的旗舰能力是将文本、静态图像(多个参考)与视频视为平等且可同时输入的一等公民。用户可同时提供多张参考图像(或一个短参考片段)以及自然语言指令;模型将共同解析所有输入,从而生成或编辑出连贯的输出。这减少了工具链摩擦,并支持如下工作流:“使用 @image1 的主体,将其置于 @image2 的环境中,匹配 ref_video.mp4 的运动,并应用电影级调色 X。”这种“多模态视觉语言”(MVL)的框架是 Kling 叙事的核心。

为何重要: 真实创意工作流常需组合多个参考:一个资产中的角色、另一个素材的机位运动,以及文本中的叙事指令。统一这些输入可实现一次性生成,减少手动合成步骤。

2) 在一个模型中同时实现编辑与生成(多元素模式)

以往大多数系统将生成(文本→视频)与帧级精确编辑分离。O1 刻意将二者合一:同一个能从零生成片段的模型,也能编辑现有素材——替换对象、重设服装风格、移除道具或延展镜头——且全部通过自然语言指令完成。对制作团队而言,这种融合大幅简化了工作流。

O1 模型在核心层面深度整合了多种视频任务:

  • 文本转视频生成
  • 图像/主体参考生成
  • 视频编辑与修补(inpainting)
  • 视频风格重设
  • 下一个/上一个镜头生成
  • 关键帧约束视频生成

这一设计的最大意义在于:过去需要多个模型或独立工具的复杂流程,现在可在单一引擎内完成。这不仅显著降低创作与计算成本,也为“统一的视频理解与生成模型”的发展奠定基础。

3) 视频生成的连贯性

身份一致性: O1 模型提升了跨模态一致性建模能力,在生成过程中保持参考主体的结构、材质、光照与风格的稳定:

  • 支持用于主体建模的多视角参考图像;
  • 支持跨镜头的主体一致性(角色、对象与场景特征在不同镜头间保持连续);
  • 支持多主体混合参考,能够进行群像生成与交互式场景构建。

该机制显著提升视频生成的连贯性与“身份一致性”,适合广告与电影级镜头生成等对一致性要求极高的场景。

记忆增强: O1 模型还具备“记忆”能力,防止因上下文过长或指令变化导致输出风格不稳定。它甚至可以:

  • 同时记住多个角色;
  • 允许不同角色在视频中互动;
  • 维持风格、服装与姿态的一致性。

4) 使用“@”语法与起/止帧控制实现精确合成

Kling 引入了一种合成速记(据称为“@提及”系统),可在提示中引用特定图像(如 @image1@image2),从而可靠地为素材分配角色。结合显式的起始帧与结束帧指定,这使得创作者能以导演级控制管理元素在生成片段中的过渡、移动或形变——这是将 O1 与许多面向消费者的生成器区分开的面向制作的能力组合。

5) 高保真、较长时长输出与多任务叠加

据称 Kling O1 可生成电影级 1080p 输出(30fps),并在此前 Kling 版本的基础上,公司在近期产品文章中宣称可生成更长片段(最长达 2 分钟)。它还支持在单次请求中叠加多个创意任务(生成、添加主体、改变光照、编辑构图)。这些特性使其与高端文本→视频引擎具备竞争力。

为何重要: 更长且高保真的片段,加之可组合的编辑能力,降低了拼接大量短片的需求,简化端到端制作。

Kling O1 的架构及底层机制是什么?

围绕 多模态视觉语言(MVL) 核心构建的 O1:该模型学习语言 + 图像 + 运动信号(视频帧与类似光流的特征)的联合嵌入,并使用扩散或基于 Transformer 的解码器来合成时间上连贯的帧。根据描述,模型会对多个参考(文本;一到多张图像;短视频片段)进行条件化,以生成潜在视频表征,随后解码为逐帧图像,并通过跨帧注意力或专用时间模块保持时间一致性。

1. 多模态 Transformer + 长上下文架构

O1 模型采用 Kling 自研的多模态 Transformer 架构,融合文本、图像与视频信号,并支持长时间上下文记忆(多模态长上下文)。

这使模型在视频生成期间能够理解时间连续性与空间一致性。

2. MVL:多模态视觉语言

MVL 是该架构的核心创新。

它通过统一的语义中间层在 Transformer 内部深度对齐语言与视觉信号,从而:

  • 允许在单一输入框中混合多模态指令;
  • 提升模型对自然语言描述的精准理解;
  • 支持高度灵活的交互式视频生成。

MVL 的引入标志着视频生成从“文本驱动”向“语义-视觉共驱动”的转变。

3. Chain-of-Thought 推理机制

O1 模型在视频生成阶段引入了“Chain-of-Thought”推理路径。

该机制允许模型在生成前进行事件逻辑与时序推断,从而保持视频内动作与事件之间的自然衔接。

推理与编辑流程

  • 生成: 输入:(文本 + 可选图像参考 + 可选视频参考 + 生成设置)→ 模型产生潜在视频帧 → 解码为帧 → 可选的色彩/时间后处理。
  • 基于指令的编辑: 输入:(原始视频 + 文本指令 + 可选图像参考)→ 模型在内部将所请求编辑映射为一组像素空间变换,然后在保留未改变内容的同时合成编辑后的帧。由于一切都在同一模型中,创建与编辑均复用相同的条件化与时间模块。

Kling Video O1 vs Veo 3.1 vs Runway Aleph

Kling O1:全新的“统一”多模态视频模型 — 它是什么以及如何工作

在内部评估中,Kling Video O1 在多个关键维度上显著优于现有的国际同类产品。性能结果(基于 Kling AI 自建评测集):

  • “图像参考”任务:O1 整体优于 Google Veo 3.1,胜率为 247%;
  • “指令转换”任务:O1 优于 Runway Aleph,胜率为 230%。

竞争对手快照(功能级对比)

能力 / 模型Kling O1Google Veo 3.1Runway(Aleph / Gen-4.5)
统一多模态提示(文本+图像+视频)是(核心卖点)。单请求的多模态流程。部分支持——存在文本→视频与参考,但对单一统一 MVL 的强调较少。Runway 关注生成+编辑,但常作为分离模式;最新 Gen-4.5 正在缩小差距。
基于对话/文本的像素级编辑——“像对话一样编辑”(无需蒙版)。部分支持——有编辑功能,但蒙版/关键帧工作流仍然常见。Runway 具备强大的编辑工具;Runway 声称指令转换能力强(随版本不同)。
起/止帧控制与镜头参考——可显式指定起/止帧,并描述参考镜头运动。有限/演进中Runway:控制在改进中;体验不完全相同。
长片段生成(高保真)在产品资料与社区帖子中称可达约 2 分钟(1080p,30fps);Veo 3.1:连贯性强,但早期版本默认时长较短;随模型/设置而异。Runway Gen-4.5:追求高质量;时长/保真度不一。

结论:

Kling O1 的最大亮点在于“工作流统一”:在同一语义系统中,让一个模型理解文本、图像与视频,并同时执行生成与丰富的基于指令的编辑。对于经常在“创建”“编辑”“扩展”之间切换的创作者与团队而言,这种整合可显著简化迭代并降低工具复杂度。改进的时间一致性、起/止帧控制,以及务实的平台集成,也让其更易被创作者采用。

Kling Video O1 API 即将在 CometAPI 上线。

开发者可通过 CometAPI 访问 Kling 2.5 TurbVeo 3.1 API,文中所列最新模型截至文章发布之日。要开始,请在 Playground 中探索模型能力,并查阅 API 指南 获取详细说明。在访问前,请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案,助您集成。

准备好开始了吗?→ 立即注册 CometAPI

如果你想了解更多技巧、指南与 AI 新闻,关注我们的 VKXDiscord

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣