基本功能
- 文本 → 图像:基于提示的完整生成,严格遵循提示。
- 图像 → 图像(编辑):精细、定向的编辑,在多次编辑中保持主体/角色一致性。
- 最大输出分辨率: 最高 4K(示例与支持的精确像素尺寸取决于长宽比;API 提供 1K/2K/4K 预设)
- 迭代规划与自我纠正:内部“多阶段”流水线,可检测并纠正常见视觉错误(透视、文本、精细几何)。
- 高级图内文字渲染:清晰、可读的多语言文本(从短标题到长段落),适用于海报、模型图和信息图。
- 5 个角色,在单次工作流中对最多 14 个对象/参考图像保持保真。
- 水印/来源: 所有生成图像都包含 SynthID 水印;在某些产品集成中,模型会嵌入用于来源追溯的 C2PA 元数据。
Gemini 3 Pro Image 版本与命名
gemini-3-pro-image-previewgemini-3-pro-image
技术细节
架构
- 谱系/骨干:Nano Banana Pro 构建于 Google 持续演进的 Gemini 图像技术栈之上——具体为全新的 Gemini 3 Pro Image / GEMPIX 2 架构(更高容量的图像+文本多模态框架)。这由 Gemini 2.5 Flash Image(最初的“nano-banana”)演进而来,成为原生多模态图像模型,并扩展了视觉—语言推理能力。
- 模型行为:原生多模态(图像 + 文本 + 世界知识),具有用于多图融合的显式流程,以及分阶段的内部规划器,会在多次迭代中精炼输出,而非一次性生成静态样本。早期报告显示,相比先前版本,其几何/光学推理(玻璃、折射)更强。
- 思考/内部精炼:模型在内部使用可见的“思考”过程来细化构图(API 文档记录了此行为,并指出这些内部步骤不计入最终图像 token)。
- 锚定与工具:支持 Search grounding(可将网页事实纳入图表/信息图生成)。同时支持系统指令,以获得更确定性的控制。
关键 API 参数:
thinking_level(低 / 高):在时延与推理深度之间取舍;media_resolution(低/中/高):控制图像 OCR/细节读取的 token 消耗;generationConfig.imageConfig:控制输出图像的长宽比/分辨率。
图像限制:
- 支持的输入模态: 文本与图像(该模型不接受音频或视频作为图像生成输入)。
- 每次提示的最大图像数: 14(适用于 Gemini 3 Pro Image 预览版)。
- 最大图像大小(上传): 每张输入图像 7 MB。
- 支持的长宽比: 1:1、3:2、16:9、9:16、21:9 等。
输出图像/Token: 上限较高,支持 4K/4096px。
基准表现
简要概述: 目前公开/早期基准主要是定性/社区反馈,但一致报告相较于最初的 nano-banana(Gemini 2.5 Flash Image),在分辨率、伪影减少与物理逼真度方面有显著提升。若干具名“挑战”展示了清晰的视觉增益,不过 Google 尚未(公开)提供在标准图像生成指标上的 v1 → v2 数值化对比表。
- 社区定性测试:边缘更干净、微细节更锐利、色彩更真实,对提示的遵循更到位(更少无关道具、更一致的角色)。流行的非正式测试包括所谓的“Wine Glass Test”和“Glass Burger Challenge”,其中 GEMPIX2(Nano Banana Pro)在透明与折射方面的处理明显优于早期版本。
- 文本处理:Nano Banana Pro 在图内排版与文本放置上有可见改进(这是许多图像模型的长期弱项)。社区对比显示渲染错字形更少。
- 吞吐/体验:迭代速度更快,后端进行多阶段精炼,使用户更可能在首次生成就得到可靠结果(减少手动重试)。
限制与风险
- 内容过滤与检测:集成该模型的平台(如 Whisk/第三方应用)可能启用严格的名人或相似度检测并阻止某些输出,这会影响依赖真实名人相似度的创作流程。
- 幻觉/推理边界情况:虽有改进,但模型仍可能产生物理不合理的伪影,特别是在图像内包含密集符号文本或高度技术性的图表时——尽管与早期版本相比,NB2 已减少这些错误。
- 安全与滥用:生成式图像模型可能被用于创建有问题或有害内容。Google 通过约束、内容过滤与 SynthID 水印来帮助来源追溯;然而,滥用仍曾发生(曾有与 Nano Banana 生成图像相关的政治敏感事件引发高关注)。
Nano Banana Pro 与其他模型的对比
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image)——强移动端集成、多图融合、迭代自我纠正、2K 原生/4K 超分,深度整合到 Google 应用(Search、Photos、Workspace/Gemini)。适合需要可靠编辑、连续性与 Google 服务集成的工作流。
- Midjourney——擅长风格化艺术输出和社区驱动的提示工程;通常不以照片级多图融合或深度多模态编辑流水线为目标。
- Stable Diffusion / 开放权重——完全开放、高度可定制、可本地部署;检查点与微调生态对研究与离线使用具有决定性优势。相比 Nano Banana Pro,开箱即用的移动端一键集成较少,多图编辑一致性也较不稳定。
- Seedream 4.0(ByteDance)——近期明确定位为 Nano Banana 竞争者,强调超快渲染、2K 输出、并支持多参考图像(最多六张)。定位为面向专业/创作者的替代方案。
(以上对比为高层次;选择取决于工作流:重开放/可定制 → Stable Diffusion;重风格化艺术 → Midjourney;重集成、移动端一致编辑与激进迭代 → Nano Banana Pro / Gemini 3 Pro image 系列。)
实际应用场景
- 移动端照片编辑与创意滤镜(Google Photos 集成——风格重塑、背景融合、肖像重构)。
- 营销与广告素材——快速概念生成,在多帧/多角度中保持一致的品牌角色。
- 概念艺术与分镜——多图融合有助于在画面间保持角色连续性。
- 电商/产品模型图——在不同场景/光照下生成一致的产品照片。
- AR/VR 资产快速原型——高质量 2K/4K 输出,可进一步超分用于沉浸式场景。
- 如何访问 gemini-3-pro-image(Nano Banana Pro)API
必备步骤
- 登录 cometapi.com。若尚未成为用户,请先注册。
- 获取接口的访问凭证 API Key。在个人中心的 API token 中点击 “Add Token”,获取 token 密钥:sk-xxxxx 并提交。
- 获取站点地址:https://api.cometapi.com/
使用方法
- 选择 “
gemini-3-pro-image” 端点发送 API 请求并设置请求体。请求方法与请求体请参考我们网站的 API 文档。我们的网站也提供 Apifox 测试,便于使用。 - 将 <YOUR_API_KEY> 替换为你账号中的实际 CometAPI Key。
- 将你的问题或请求插入 content 字段——模型会对该字段内容作出响应。
- 处理 API 响应以获取生成的答案。
CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节 :
- 基础 URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- 模型名称:
gemini-3-pro-image - 认证:
Bearer YOUR_CometAPI_API_KEY请求头 - Content-Type:
application/json