Gemini 3 Pro 图像( Nano Banana Pro) API

CometAPI
AnnaNov 17, 2025
Gemini 3 Pro 图像( Nano Banana Pro) API

Google 的 Nano Banana Pro(官方模型 ID 为 gemini-3-pro-image-preview)是 Gemini 3 Pro 的图像生成/图像编辑变体。这是一款处于预览阶段的专业级图像模型,新增 2K/4K 输出、高保真多图合成(最多 14 张参考图像、对 最多 5 位人物 的一致性)、更强的图内文字渲染,以及面向真实世界事实的搜索对齐。

基本功能

  • 文本 → 图像:完整的提示驱动生成,具备较强的提示遵从性。
  • 图像 → 图像(编辑):精细、定向的编辑,在多次编辑中保持主体/人物一致性。
  • **最大输出分辨率:**最高可达 4K(示例与支持的确切像素尺寸取决于纵横比;API 提供 1K/2K/4K 预设)
  • 迭代规划与自我纠错:内部“多阶段”流水线,可检测并纠正常见视觉错误(透视、文字、精细几何)。
  • 高级图内文字渲染:清晰、易读的多语言文本(从短标题到长段落),适用于海报、模型图和信息图。
  • 5 位人物与在单次工作流中对 最多 14 个对象/参考图像 的高保真一致性。
  • **水印/来源追溯:**所有生成图像均包含 SynthID 水印;模型在部分产品集成中嵌入 C2PA 溯源元数据。

Gemini 3 Pro Image 版本与命名

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

技术细节

架构

  • 传承/骨干:Nano Banana Pro 构建在 Google 不断演进的 Gemini 图像栈之上——具体为全新的 Gemini 3 Pro Image / GEMPIX 2 架构(更高容量的图像+文本多模态框架)。它由 Gemini 2.5 Flash Image(最初的“nano-banana”)演进而来,升级为原生多模态图像模型,并扩展了视觉-语言推理能力。
  • 模型行为:原生多模态(图像 + 文本 + 世界知识),具备用于多图融合的显式流水线;内部分阶段规划器会在多次迭代中优化输出,而非一次性生成静态样本。早期报告显示相较前代在几何/光学推理(玻璃、折射)方面更强。
  • 思考/内部精修:模型在内部使用可见的“思考”过程来优化构图(API 文档描述了此行为,并注明这些内部步骤不计入最终图像 tokens)。
  • 对齐与工具:支持 Search grounding(可在图表/信息图生成中纳入网页事实)。同时支持系统指令以实现更确定性的控制。

关键 API 参数:

  • thinking_level(低/高):在延迟与推理深度之间权衡;
  • media_resolution(低/中/高):控制图像 OCR/细节读取的 tokens;
  • generationConfig.imageConfig:控制图像输出的纵横比/分辨率。

图像限制:

  • **支持的输入模态:**文本与图像(该模型不接受音频或视频作为图像生成输入)。
  • **每次提示的最大图像数:**14(适用于 Gemini 3 Pro Image 预览版)。
  • **最大图片上传大小:**每张 7 MB。
  • **支持的纵横比:**1:1、3:2、16:9、9:16、21:9 等。

**输出图像/tokens:**上限较高,支持 4K/4096px。

基准表现

**简短总结:**目前公开/早期基准多为定性/社区驱动,但一致报告在分辨率、伪影减少与物理真实性方面较最初的 nano-banana(Gemini 2.5 Flash Image)有显著提升。特定命名的“挑战”展示了清晰的视觉增益,但 Google 目前尚无(公开)标准化的 v1 → v2 图像生成指标对照数表。

  • 社区定性测试:边缘更干净、微观细节更锐利、颜色更真实,对提示更加忠实(更少虚构道具,更一致的人物)。流行的非正式测试包括所谓的“Wine Glass Test”和“Glass Burger Challenge”,在这些测试中,GEMPIX2(Nano Banana Pro)对透明与折射的处理明显优于较早构建版本。
  • 文本处理:Nano Banana Pro 在图内排版与文字布局方面有明显改进(这是许多图像模型的长期弱项)。社区对比显示渲染字形的乱码更少。
  • 吞吐量/用户体验:迭代速度更快,后端进行多阶段精修,让用户首次出图更可靠(减少手动重试)。

限制与风险

  • 内容过滤与检测:集成该模型的平台(如 Whisk/第三方应用)可能启用严格的名人或相貌相似检测并屏蔽某些输出,这会影响依赖逼真名人相貌的创作工作流。
  • 幻觉/推理边界案例:尽管有所改善,模型仍可能产生物理上不现实的伪影,尤其是在图像内包含密集符号性文本或高度技术性的示意图时——不过与早期版本相比,NB2 似乎降低了这类错误。
  • **安全与滥用:**生成式图像模型可能被用于创建问题或有害内容。Google 通过约束、内容过滤与 SynthID 水印来帮助溯源;尽管如此,仍曾发生滥用事件(曾有与 Nano Banana 生成图像相关的政治敏感场景高调争议)。

与其他模型对比

  • Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image)——强移动端集成、多图融合、迭代自校正、原生 2K/4K 放大,深度集成于 Google 应用(Search、Photos、Workspace/Gemini)。适合需要可靠编辑、连续性与 Google 服务集成的工作流。
  • Midjourney——擅长风格化艺术输出与社区驱动的提示工程;通常不以照片级多图融合或深度多模态编辑流水线为目标。
  • Stable Diffusion / 开源权重——完全开源、可高度自定义、可本地部署;检查点与微调生态对研究与离线使用是决定性优势。相比 Nano Banana Pro,在“一键式”移动集成与开箱即用的多图编辑一致性方面略逊。
  • Seedream 4.0(ByteDance)——近期明确定位为 Nano Banana 竞品,强调超快渲染、2K 输出,以及支持多参考图像(最多 6 张)。定位为专业/创作者替代方案。

(以上对比为高层概览;应根据工作流选择工具:追求开放性/可定制性 → Stable Diffusion;风格化艺术 → Midjourney;集成度高、移动端一致性编辑与强迭代 → Nano Banana Pro/Gemini 3 Pro Image 系列。)


真实场景用例

  • 移动照片编辑与创意滤镜(Google Photos 集成——风格重塑、背景融合、人像重构)。
  • 市场与广告素材——快速概念生成,在多帧/角度下保持一致的品牌人物形象。
  • 概念设计与分镜——多图融合有助于跨画面保持角色连续性。
  • 电商/产品模型图——在不同场景/光照条件下生成一致的产品照片。
  • AR/VR 资产快速原型——高质量 2K/4K 输出,可进一步放大用于沉浸式场景。

如何调用 gemini-3-pro-image(Nano Banana Pro)API

CometAPI 上的 Nano Banana API 价格,较官方价优惠 20%:

价格$0.19200

必需步骤

  • 登录 cometapi.com。如果您尚未成为用户,请先注册
  • 获取接口访问凭证 API key。在个人中心的 API token 中点击 “Add Token”,获取令牌密钥:sk-xxxxx 并提交。
  • 获取本站点的 URL:https://api.cometapi.com/

使用方法

  1. 选择 “gemini-3-pro-image” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试,方便使用。
  2. 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。
  3. 将您的问题或请求插入 content 字段——模型将对其作出响应。
  4. . 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节:

另见 Gemini 2.5 Flash Image API (Nano-Banana)

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣