Gemini 3 Pro 图像( Nano Banana Pro) API

Google 的 Nano Banana Pro（官方模型 ID 为 gemini-3-pro-image-preview）是 Gemini 3 Pro 的图像生成/图像编辑变体。这是一款处于预览阶段的专业级图像模型，新增 2K/4K 输出、高保真多图合成（最多 14 张参考图像、对 最多 5 位人物 的一致性）、更强的图内文字渲染，以及面向真实世界事实的搜索对齐。

基本功能

文本 → 图像：完整的提示驱动生成，具备较强的提示遵从性。
图像 → 图像（编辑）：精细、定向的编辑，在多次编辑中保持主体/人物一致性。
**最大输出分辨率：**最高可达 4K（示例与支持的确切像素尺寸取决于纵横比；API 提供 1K/2K/4K 预设）
迭代规划与自我纠错：内部“多阶段”流水线，可检测并纠正常见视觉错误（透视、文字、精细几何）。
高级图内文字渲染：清晰、易读的多语言文本（从短标题到长段落），适用于海报、模型图和信息图。
5 位人物与在单次工作流中对 最多 14 个对象/参考图像 的高保真一致性。
**水印/来源追溯：**所有生成图像均包含 SynthID 水印；模型在部分产品集成中嵌入 C2PA 溯源元数据。

Gemini 3 Pro Image 版本与命名

gemini-3-pro-image-preview
gemini-3-pro-image

技术细节

架构

传承/骨干：Nano Banana Pro 构建在 Google 不断演进的 Gemini 图像栈之上——具体为全新的 Gemini 3 Pro Image / GEMPIX 2 架构（更高容量的图像+文本多模态框架）。它由 Gemini 2.5 Flash Image（最初的“nano-banana”）演进而来，升级为原生多模态图像模型，并扩展了视觉-语言推理能力。
模型行为：原生多模态（图像 + 文本 + 世界知识），具备用于多图融合的显式流水线；内部分阶段规划器会在多次迭代中优化输出，而非一次性生成静态样本。早期报告显示相较前代在几何/光学推理（玻璃、折射）方面更强。
思考/内部精修：模型在内部使用可见的“思考”过程来优化构图（API 文档描述了此行为，并注明这些内部步骤不计入最终图像 tokens）。
对齐与工具：支持 Search grounding（可在图表/信息图生成中纳入网页事实）。同时支持系统指令以实现更确定性的控制。

关键 API 参数：

thinking_level（低/高）：在延迟与推理深度之间权衡；
media_resolution（低/中/高）：控制图像 OCR/细节读取的 tokens；
generationConfig.imageConfig：控制图像输出的纵横比/分辨率。

图像限制：

**支持的输入模态：**文本与图像（该模型不接受音频或视频作为图像生成输入）。
**每次提示的最大图像数：**14（适用于 Gemini 3 Pro Image 预览版）。
**最大图片上传大小：**每张 7 MB。
**支持的纵横比：**1:1、3:2、16:9、9:16、21:9 等。

**输出图像/tokens：**上限较高，支持 4K/4096px。

基准表现

**简短总结：**目前公开/早期基准多为定性/社区驱动，但一致报告在分辨率、伪影减少与物理真实性方面较最初的 nano-banana（Gemini 2.5 Flash Image）有显著提升。特定命名的“挑战”展示了清晰的视觉增益，但 Google 目前尚无（公开）标准化的 v1 → v2 图像生成指标对照数表。

社区定性测试：边缘更干净、微观细节更锐利、颜色更真实，对提示更加忠实（更少虚构道具，更一致的人物）。流行的非正式测试包括所谓的“Wine Glass Test”和“Glass Burger Challenge”，在这些测试中，GEMPIX2（Nano Banana Pro）对透明与折射的处理明显优于较早构建版本。
文本处理：Nano Banana Pro 在图内排版与文字布局方面有明显改进（这是许多图像模型的长期弱项）。社区对比显示渲染字形的乱码更少。
吞吐量/用户体验：迭代速度更快，后端进行多阶段精修，让用户首次出图更可靠（减少手动重试）。

限制与风险

内容过滤与检测：集成该模型的平台（如 Whisk/第三方应用）可能启用严格的名人或相貌相似检测并屏蔽某些输出，这会影响依赖逼真名人相貌的创作工作流。
幻觉/推理边界案例：尽管有所改善，模型仍可能产生物理上不现实的伪影，尤其是在图像内包含密集符号性文本或高度技术性的示意图时——不过与早期版本相比，NB2 似乎降低了这类错误。
**安全与滥用：**生成式图像模型可能被用于创建问题或有害内容。Google 通过约束、内容过滤与 SynthID 水印来帮助溯源；尽管如此，仍曾发生滥用事件（曾有与 Nano Banana 生成图像相关的政治敏感场景高调争议）。

与其他模型对比

Nano Banana Pro（GEMPIX 2 / Gemini 3 Pro Image）——强移动端集成、多图融合、迭代自校正、原生 2K/4K 放大，深度集成于 Google 应用（Search、Photos、Workspace/Gemini）。适合需要可靠编辑、连续性与 Google 服务集成的工作流。
Midjourney——擅长风格化艺术输出与社区驱动的提示工程；通常不以照片级多图融合或深度多模态编辑流水线为目标。
Stable Diffusion / 开源权重——完全开源、可高度自定义、可本地部署；检查点与微调生态对研究与离线使用是决定性优势。相比 Nano Banana Pro，在“一键式”移动集成与开箱即用的多图编辑一致性方面略逊。
Seedream 4.0（ByteDance）——近期明确定位为 Nano Banana 竞品，强调超快渲染、2K 输出，以及支持多参考图像（最多 6 张）。定位为专业/创作者替代方案。

（以上对比为高层概览；应根据工作流选择工具：追求开放性/可定制性 → Stable Diffusion；风格化艺术 → Midjourney；集成度高、移动端一致性编辑与强迭代 → Nano Banana Pro/Gemini 3 Pro Image 系列。）

真实场景用例

移动照片编辑与创意滤镜（Google Photos 集成——风格重塑、背景融合、人像重构）。
市场与广告素材——快速概念生成，在多帧/角度下保持一致的品牌人物形象。
概念设计与分镜——多图融合有助于跨画面保持角色连续性。
电商/产品模型图——在不同场景/光照条件下生成一致的产品照片。
AR/VR 资产快速原型——高质量 2K/4K 输出，可进一步放大用于沉浸式场景。

如何调用 gemini-3-pro-image（Nano Banana Pro）API

CometAPI 上的 Nano Banana API 价格，较官方价优惠 20%：


价格	$0.19200

必需步骤

登录 cometapi.com。如果您尚未成为用户，请先注册
获取接口访问凭证 API key。在个人中心的 API token 中点击 “Add Token”，获取令牌密钥：sk-xxxxx 并提交。
获取本站点的 URL：https://api.cometapi.com/

使用方法

选择 “gemini-3-pro-image” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试，方便使用。
将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。
将您的问题或请求插入 content 字段——模型将对其作出响应。
. 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节：

**Base URL：**https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Model Names：gemini-3-pro-image
Authentication：Bearer YOUR_CometAPI_API_KEY 请求头
Content-Type：application/json 。

另见 Gemini 2.5 Flash Image API (Nano-Banana)