Google 的 Nano Banana Pro(官方模型 ID 为 gemini-3-pro-image-preview)是 Gemini 3 Pro 的图像生成/图像编辑变体。这是一款处于预览阶段的专业级图像模型,新增 2K/4K 输出、高保真多图合成(最多 14 张参考图像、对 最多 5 位人物 的一致性)、更强的图内文字渲染,以及面向真实世界事实的搜索对齐。
基本功能
- 文本 → 图像:完整的提示驱动生成,具备较强的提示遵从性。
- 图像 → 图像(编辑):精细、定向的编辑,在多次编辑中保持主体/人物一致性。
- **最大输出分辨率:**最高可达 4K(示例与支持的确切像素尺寸取决于纵横比;API 提供 1K/2K/4K 预设)
- 迭代规划与自我纠错:内部“多阶段”流水线,可检测并纠正常见视觉错误(透视、文字、精细几何)。
- 高级图内文字渲染:清晰、易读的多语言文本(从短标题到长段落),适用于海报、模型图和信息图。
- 5 位人物与在单次工作流中对 最多 14 个对象/参考图像 的高保真一致性。
- **水印/来源追溯:**所有生成图像均包含 SynthID 水印;模型在部分产品集成中嵌入 C2PA 溯源元数据。
Gemini 3 Pro Image 版本与命名
gemini-3-pro-image-previewgemini-3-pro-image
技术细节
架构
- 传承/骨干:Nano Banana Pro 构建在 Google 不断演进的 Gemini 图像栈之上——具体为全新的 Gemini 3 Pro Image / GEMPIX 2 架构(更高容量的图像+文本多模态框架)。它由 Gemini 2.5 Flash Image(最初的“nano-banana”)演进而来,升级为原生多模态图像模型,并扩展了视觉-语言推理能力。
- 模型行为:原生多模态(图像 + 文本 + 世界知识),具备用于多图融合的显式流水线;内部分阶段规划器会在多次迭代中优化输出,而非一次性生成静态样本。早期报告显示相较前代在几何/光学推理(玻璃、折射)方面更强。
- 思考/内部精修:模型在内部使用可见的“思考”过程来优化构图(API 文档描述了此行为,并注明这些内部步骤不计入最终图像 tokens)。
- 对齐与工具:支持 Search grounding(可在图表/信息图生成中纳入网页事实)。同时支持系统指令以实现更确定性的控制。
关键 API 参数:
thinking_level(低/高):在延迟与推理深度之间权衡;media_resolution(低/中/高):控制图像 OCR/细节读取的 tokens;generationConfig.imageConfig:控制图像输出的纵横比/分辨率。
图像限制:
- **支持的输入模态:**文本与图像(该模型不接受音频或视频作为图像生成输入)。
- **每次提示的最大图像数:**14(适用于 Gemini 3 Pro Image 预览版)。
- **最大图片上传大小:**每张 7 MB。
- **支持的纵横比:**1:1、3:2、16:9、9:16、21:9 等。
**输出图像/tokens:**上限较高,支持 4K/4096px。
基准表现
**简短总结:**目前公开/早期基准多为定性/社区驱动,但一致报告在分辨率、伪影减少与物理真实性方面较最初的 nano-banana(Gemini 2.5 Flash Image)有显著提升。特定命名的“挑战”展示了清晰的视觉增益,但 Google 目前尚无(公开)标准化的 v1 → v2 图像生成指标对照数表。
- 社区定性测试:边缘更干净、微观细节更锐利、颜色更真实,对提示更加忠实(更少虚构道具,更一致的人物)。流行的非正式测试包括所谓的“Wine Glass Test”和“Glass Burger Challenge”,在这些测试中,GEMPIX2(Nano Banana Pro)对透明与折射的处理明显优于较早构建版本。
- 文本处理:Nano Banana Pro 在图内排版与文字布局方面有明显改进(这是许多图像模型的长期弱项)。社区对比显示渲染字形的乱码更少。
- 吞吐量/用户体验:迭代速度更快,后端进行多阶段精修,让用户首次出图更可靠(减少手动重试)。
限制与风险
- 内容过滤与检测:集成该模型的平台(如 Whisk/第三方应用)可能启用严格的名人或相貌相似检测并屏蔽某些输出,这会影响依赖逼真名人相貌的创作工作流。
- 幻觉/推理边界案例:尽管有所改善,模型仍可能产生物理上不现实的伪影,尤其是在图像内包含密集符号性文本或高度技术性的示意图时——不过与早期版本相比,NB2 似乎降低了这类错误。
- **安全与滥用:**生成式图像模型可能被用于创建问题或有害内容。Google 通过约束、内容过滤与 SynthID 水印来帮助溯源;尽管如此,仍曾发生滥用事件(曾有与 Nano Banana 生成图像相关的政治敏感场景高调争议)。
与其他模型对比
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image)——强移动端集成、多图融合、迭代自校正、原生 2K/4K 放大,深度集成于 Google 应用(Search、Photos、Workspace/Gemini)。适合需要可靠编辑、连续性与 Google 服务集成的工作流。
- Midjourney——擅长风格化艺术输出与社区驱动的提示工程;通常不以照片级多图融合或深度多模态编辑流水线为目标。
- Stable Diffusion / 开源权重——完全开源、可高度自定义、可本地部署;检查点与微调生态对研究与离线使用是决定性优势。相比 Nano Banana Pro,在“一键式”移动集成与开箱即用的多图编辑一致性方面略逊。
- Seedream 4.0(ByteDance)——近期明确定位为 Nano Banana 竞品,强调超快渲染、2K 输出,以及支持多参考图像(最多 6 张)。定位为专业/创作者替代方案。
(以上对比为高层概览;应根据工作流选择工具:追求开放性/可定制性 → Stable Diffusion;风格化艺术 → Midjourney;集成度高、移动端一致性编辑与强迭代 → Nano Banana Pro/Gemini 3 Pro Image 系列。)
真实场景用例
- 移动照片编辑与创意滤镜(Google Photos 集成——风格重塑、背景融合、人像重构)。
- 市场与广告素材——快速概念生成,在多帧/角度下保持一致的品牌人物形象。
- 概念设计与分镜——多图融合有助于跨画面保持角色连续性。
- 电商/产品模型图——在不同场景/光照条件下生成一致的产品照片。
- AR/VR 资产快速原型——高质量 2K/4K 输出,可进一步放大用于沉浸式场景。
如何调用 gemini-3-pro-image(Nano Banana Pro)API
CometAPI 上的 Nano Banana API 价格,较官方价优惠 20%:
| 价格 | $0.19200 |
必需步骤
- 登录 cometapi.com。如果您尚未成为用户,请先注册
- 获取接口访问凭证 API key。在个人中心的 API token 中点击 “Add Token”,获取令牌密钥:sk-xxxxx 并提交。
- 获取本站点的 URL:https://api.cometapi.com/
使用方法
- 选择 “
gemini-3-pro-image” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试,方便使用。 - 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。
- 将您的问题或请求插入 content 字段——模型将对其作出响应。
- . 处理 API 响应以获取生成的答案。
CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节:
- **Base URL:**https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEY请求头 - Content-Type:
application/json。
