Gemini Diffusion 是什么?你需要了解的一切

CometAPI
AnnaMay 25, 2025
Gemini Diffusion 是什么?你需要了解的一切

2025年5月20日,Google DeepMind 低调发布了Gemini Diffusion,这是一款实验性的文本扩散模型,有望重塑生成式 AI 的版图。该尖端研究原型在 Google I/O 2025 期间亮相,利用此前在图像与视频生成中广受欢迎的扩散技术,通过对随机噪声进行迭代细化来生成连贯的文本与代码。早期基准显示,它在速度与质量上可与 Google 现有的基于 Transformer 的模型匹敌,甚至在某些情况下更胜一筹。

什么是 Gemini Diffusion?

扩散如何用于文本与代码生成?

传统的大型语言模型(LLM)依赖自回归架构,通过在已生成内容的条件上逐个 token 预测下一个词来生成文本。相较之下,Gemini Diffusion从随机“噪声”场开始,通过一系列去噪步骤迭代地将噪声精炼为连贯的文本或可执行代码。这一范式与 Imagen 和 Stable Diffusion 等扩散模型生成图像的方式相呼应,但这是首次将此方法在文本生成上扩展到接近生产级的速度。

为什么“从噪声到叙事”至关重要

想象电视无信号时的雪花屏——随机闪烁、毫无形状。在基于扩散的 AI 中,那个“静态噪声”就是起点;模型从混沌中“雕刻”出意义,逐步赋予结构与语义。这种在每次精炼阶段的整体视角带来自带的自我纠错能力,缓解了逐 token 模型可能出现的语义不连贯或“幻觉”等问题。

关键创新与能力

  • 加速生成:Gemini Diffusion 能够同时生成整段文本,与逐 token 生成方法相比显著降低延迟 .()
  • 增强连贯性:通过一次性生成更大的文本片段,模型实现更高的上下文一致性,产出更连贯、逻辑结构更合理的结果 .()
  • 迭代式改进:模型架构允许在生成过程中实时纠错,提升最终输出的准确性与质量 .()

Google 为什么研发 Gemini Diffusion?

解决速度与延迟瓶颈

自回归模型虽强大,但在速度上存在根本性限制:每个 token 都依赖此前的上下文,从而形成顺序化瓶颈。Gemini Diffusion 通过在各位置并行精炼,打破了这一约束,实现了相似模型规模下**端到端快 4–5×**的生成速度。这种加速可转化为更低的实时应用延迟,从聊天机器人到代码助手皆是如此。

探索通往 AGI 的新路径

除了速度,扩散的迭代与全局视角与通用人工智能(AGI)的关键能力相契合:推理、世界建模与创造性综合。Google DeepMind 的领导层将 Gemini Diffusion 视为构建更具上下文感知、更加主动的 AI 系统的整体战略之一,使其能在数字与物理环境中无缝运行。

Gemini Diffusion 的底层工作原理是什么?

噪声注入与去噪循环

  1. 初始化:模型从一个随机噪声张量开始。
  2. 去噪步骤:在每次迭代中,神经网络依据其学习到的语言或代码模式,预测如何轻微降低噪声。
  3. 精炼:反复迭代收敛至连贯输出,每一轮都能在全局上下文中进行纠错,而不是仅依赖过往 token。

架构创新

  • 并行性:通过解耦 token 依赖,扩散实现了同时更新,最大化硬件利用率。
  • 参数效率:早期基准表明,尽管架构更紧凑,其性能可与更大的自回归模型相当。
  • 自我纠错:迭代特性天然支持中途调整,这对代码调试或数学推导等复杂任务至关重要。

哪些基准展示了 Gemini Diffusion 的性能?

Token 采样速度

Google 的内部测试报告显示,平均采样速率达 1,479 tokens/s,相较以往的 Gemini Flash 模型有显著跃升,但每次请求平均启动开销为 0.84 秒。该指标凸显了扩散在高吞吐应用中的潜力。

编码与推理评测

  • HumanEval(编码):89.6% 通过率,紧追 Gemini 2.0 Flash-Lite 的 90.2%。
  • MBPP(编码):76.0%,对比 Flash-Lite 的 75.8%。
  • BIG-Bench Extra Hard(推理):15.0%,低于 Flash-Lite 的 21.0%。
  • Global MMLU(多语):69.1%,对比 Flash-Lite 的 79.0%。

这些参差不齐的结果表明,扩散在迭代、局部化任务(如编码)方面表现出色,同时也凸显了在复杂逻辑推理与多语言理解领域仍需进行架构改进。

Gemini Diffusion 与此前的 Gemini 模型如何比较?

Flash-Lite 与 Pro 与 Diffusion

  • Gemini 2.5 Flash-Lite 提供面向通用任务的高性价比、低延迟推理。
  • Gemini 2.5 Pro 专注深度推理与编码,具备“Deep Think”模式以分解复杂问题。
  • Gemini Diffusion 擅长极速生成与自我纠错输出,被定位为一种互补路径而非直接替代。

优势与限制

  • 优势:速度、编辑能力、参数效率、在代码任务上的稳健表现。
  • 限制:在抽象推理与多语言基准上较弱;由于多次去噪带来更高的内存开销;生态成熟度落后于自回归工具链。

如何访问 Gemini Diffusion?

加入早期访问计划

Google 已为实验版 Gemini Diffusion 演示开放候补名单——开发者与研究人员可通过 Google DeepMind 博客报名。早期访问旨在收集反馈、完善安全协议,并在更广泛发布前优化延迟。

未来可用性与集成

尽管尚未公布明确的发布日期,Google 暗示其普遍可用性将与即将到来的 Gemini 2.5 Flash-Lite 更新保持一致。预计的集成路径包括:

  • Google AI Studio:用于交互式试验。
  • Gemini API:用于在生产流水线中的无缝部署。
  • 第三方平台(例如 Hugging Face):为学术研究与社区驱动的基准托管预发布检查点。

通过以扩散视角重构文本与代码生成,Google DeepMind 正在下一阶段的 AI 创新中占据一席之地。无论 Gemini Diffusion 是否将树立新标准,或与自回归巨头并行共存,其速度与自我纠错的结合力都将重塑我们构建、打磨与信任生成式 AI 系统的方式。

入门

CometAPI 提供统一的 REST 接口,将数百个 AI 模型(包括 Gemini 系列)聚合到一致的端点之下,并内置 API 密钥管理、用量配额与计费看板。无需同时处理多个厂商的 URL 与凭据。

开发者可以通过 CometAPI 访问 Gemini 2.5 Flash Pre API (model:gemini-2.5-flash-preview-05-20)以及 [Gemini 2.5 Pro API](https://www.cometapi.com/claude-opus-4-api/) (model:gemini-2.5-pro-preview-05-06)等。首先,可在 Playground 中探索模型能力,并查阅 API 指南 获取详细说明。在访问前,请确保已登录 CometAPI 并获取 API 密钥。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣