Nano Banana Pro——官方名称为 Gemini 3 Pro Image——是 Google/DeepMind 全新的工作室级图像生成与编辑模型,融合了高级多模态推理、高保真文本渲染、多图像合成以及专业级创意控制能力。
什么是 Nano Banana Pro,为什么值得关注?
Nano Banana Pro 是 Google 最新的图像生成和图像编辑模型——即 “Gemini 3 Pro Image” 版本——旨在生成具有工作室级质量、最高可达 4K 的高保真、上下文感知图像以及图中嵌入文本。它是早期 Nano Banana 模型(Gemini 2.5 Flash Image / “Nano Banana”)的后继版本,在推理能力、Search grounding(现实世界事实锚定)、文本渲染以及更强大的局部编辑控制方面都有所提升。该模型可在 Gemini 应用中供交互式用户使用;而对于程序化访问,你可以通过标准 Gemini API 访问 Nano Banana Pro,但需要选择特定模型标识符(gemini-3-pro-image-preview 或其稳定后继版本)。
这之所以重要,是因为 Nano Banana Pro 不只是用于制作好看的图片,更是为了 将信息可视化 ——信息图表、数据驱动快照(天气、体育)、文本密集型海报、产品样机以及多图融合(最多可输入 14 张图像,并在最多 5 个人物之间保持角色一致性)。对于设计师、产品团队和开发者而言,这种准确性、图中文字能力以及程序化访问的结合,开启了过去难以自动化的生产工作流。
API 暴露了哪些功能?
开发者通常可通过 API 使用以下能力:
- 文本 → 图像生成(单步或多步“思考型”构图流程)。
- 图像编辑(局部蒙版、修补绘制、风格调整)。
- 多图像融合(组合参考图像)。
- 高级请求控制:分辨率、宽高比、后处理步骤,以及用于调试/可检查性的“构图思考”轨迹(预览模式下)。
Nano Banana Pro 的核心创新与功能
更智能的内容推理
利用 Gemini 3 Pro 的推理栈来理解复杂的、多步骤的视觉指令(例如:“根据这组数据制作一个 5 步信息图,并添加双语标题”)。API 暴露了一个 “Thinking” 机制,可生成中间构图测试以优化最终输出。
为什么重要: 不同于将提示词一次性映射为像素的单次生成方式,该模型会执行内部“思考”过程来优化构图,并可调用外部工具(例如 Google Search)进行事实锚定(如准确的图表标签或符合地区习惯的标识)。这使得生成的图像不仅更美观,而且在信息图、图表或产品样机等任务中语义上也更准确。
如何实现: Nano Banana Pro 的 “Thinking” 是一种受控的内部推理/构图过程,模型会在生成最终图像之前先产生中间视觉结果和推理轨迹。API 暴露的信息表明,该模型最多可创建两个中间帧,而最终图像是这一链条中的最后阶段。在生产环境中,这有助于改进构图、文字摆放和版式决策。
更准确的文本渲染
显著提升了图像内文本的清晰度、可读性和本地化表现(菜单、海报、图表)。Nano Banana Pro 在图像文字渲染方面达到了新的高度:
- 图像中的文字清晰、易读且拼写准确;
- 支持多语言生成(包括中文、日文、韩文、阿拉伯文等);
- 允许用户直接在图像中写入长段落或多行描述性文本;
- 支持自动翻译与本地化。
为什么重要: 传统图像模型通常难以渲染出可读、对齐良好的文字。Nano Banana Pro 明确针对可靠的文字渲染和本地化进行了优化(例如翻译并保留版式),这解锁了海报、包装、多语言广告等真实创意场景。
如何实现: 文本渲染的提升来自底层多模态架构,以及对强调“图中文字”样本的数据集训练,并结合有针对性的评测集(人工评估和回归测试集)。模型学会了对齐字形、字体和版式约束,从而在图像内部生成清晰、经过本地化处理的文字——不过较小字体和极高密度段落仍可能出错。
更强的视觉一致性与保真度
工作室级控制项(光照、焦点、机位角度、色彩分级)以及多图像合成(最多 14 张参考图,并对多个人类主体提供特殊支持)有助于在生成资产中保持角色一致性(在编辑过程中保持同一人物/角色)和品牌识别。模型支持原生 1K/2K/4K 输出。
为什么重要: 营销和娱乐工作流需要跨镜头和编辑过程保持角色一致。该模型最多可维持 5 个人物的相似性,并将最多 14 张参考图融合为单一构图,同时支持从草图到 3D 渲染。这对于广告创意、包装设计或多镜头叙事都非常有用。
如何实现: 模型输入支持多张图像,并可显式指定角色分工(例如,“图像 A:姿态”,“图像 B:面部参考”,“图像 C:背景纹理”)。其架构在生成时会基于这些图像进行条件控制,以在施加变换(光照、镜头)时保持身份/姿态/风格一致。
Nano Banana Pro 的性能基准
Nano Banana Pro(Gemini 3 Pro Image)“在 Text→Image AI 基准测试中表现出色”,并且相较于早期 Nano Banana 模型展现出更强的推理能力和上下文锚定能力。它强调相对于先前版本具有更高的保真度和更优的文字渲染能力。

实用性能建议
对于 2K/4K 高保真渲染,应预期其延迟更高、成本也高于 1K 输出或为速度优化的 “Flash” 模型。如果吞吐量/延迟至关重要,请使用 flash 变体(例如 Gemini 2.5 Flash / Nano Banana)来处理高并发任务;在追求质量和复杂推理任务时,则使用 Nano Banana Pro / gemini-3-pro-image。
开发者如何访问 Nano Banana Pro?
应选择哪些端点和模型
模型标识符(预览版 / Pro): gemini-3-pro-image-preview(预览版)——当你需要 Nano Banana Pro 功能时使用它。对于更快、成本更低的任务,gemini-2.5-flash-image(Nano Banana)仍然可用。
可使用的平台
- Gemini API(generativelanguage endpoint): 你可以使用 CometAPI key 访问 xx。CometAPI 以比官方网站更优惠的价格提供相同的 API。可直接通过 HTTP / SDK 调用
generateContent来进行图像生成(见下方示例)。 - Google AI Studio: 用于快速实验和混搭演示应用的 Web 界面。
- Vertex AI(企业版): 提供预置吞吐能力、计费选项(按量付费 / 企业套餐)以及适用于大规模生产的安全过滤。将其用于大型流水线集成或批量渲染作业。
免费层级有有限的使用额度;超出额度后将回退到 Nano Banana。Plus/Pro/Ultra 层级提供更高限额和无水印输出,而 Ultra 还可在 Flow 视频工具和 Antigravity IDE 中以 4K 模式使用。
如何使用 Nano Banana Pro 生成图像(分步说明)?
1)在 Gemini 应用中快速交互式使用
- 打开 Gemini → Tools → Create images。
- 选择 Thinking (Nano Banana Pro) 作为模型。
- 输入提示词:说明主体、动作、情绪、光照、镜头、宽高比以及任何要出现在图像中的文字。示例:
“制作一张 4K 机器人工作坊海报:一支多元化团队围坐在桌旁,叠加蓝图效果,使用无衬线粗体标题 ‘Robots in Action’,暖色钨丝灯光,浅景深,电影感 16:9。” - (可选)上传最多 14 张图像进行融合或作为参考。使用选区/蒙版工具进行局部编辑。
- 生成后,可继续使用自然语言迭代(例如:“把标题改成蓝色并顶端居中对齐;提高蓝图的对比度”),然后导出。
2)使用 HTTP 发送到 Gemini 图像端点
你需要登录 CometAPI 获取密钥。
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
该示例会将 base64 图像负载写入 PNG 文件。generationConfig.imageConfig.resolution 参数用于请求 4K 输出(适用于 3 Pro Image 模型)。
3)通过 SDK 直接调用 generateContent 进行图像生成
需要安装 Google SDK 并获取 Google 身份验证。Python 示例(文本 + 参考图像 + grounding):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
该示例展示了如何上传内联参考图像,并请求一个 4K 构图,同时启用 google_search 作为工具。Python SDK 会处理底层 REST 细节。
多图像融合与角色一致性
要生成在不同场景中保持同一人物的合成图,可传入多张 inline_data 部件(从你的照片集中选取),并在创意指令中明确要求模型“在输出之间保持身份一致”。
简短实用示例——真实提示词与预期流程
提示词:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
预期流程: 应用 → 提示模板 + CSV 数据 → 替换提示中的占位符 → 使用 image_size=2048x1152 发起 API 调用 → 接收 base64 PNG → 保存资产 + 溯源元数据 → 如有需要,可通过合成器叠加精确字体。
我应如何设计生产流水线并处理安全 / 溯源?
推荐的生产架构
- 提示词 + 草稿阶段(快速模型): 使用
gemini-2.5-flash-image(Nano Banana)以低成本生成大量低分辨率变体。 - 筛选与精修: 选出最佳候选,优化提示词,并通过修补绘制/蒙版编辑提高精度。
- 高保真最终渲染: 调用
gemini-3-pro-image-preview(Nano Banana Pro)输出最终 2K/4K 渲染,并进行后处理(超分、色彩分级)。 - 溯源与元数据: 在资产元数据存储中保存提示词、模型版本、时间戳和 SynthID 信息——该模型会附加 SynthID 水印,并且输出可以追溯,以满足合规与内容审计要求。
安全、权利与审核
- 版权与权利清理: 不要上传或生成侵犯权利的内容。对于用户上传的图像或可能生成可识别肖像的提示词,应要求用户作出明确确认。必须遵守 Google 的 Prohibited Use Policy 和模型安全过滤规则。
- 过滤与自动检查: 在下游使用或公开展示之前,应将生成图像接入内部内容审核流水线(NSFW、仇恨符号、政治/约束性内容检测)。
如何进行图像编辑(修补绘制)、多图像合成和文本渲染?
Nano Banana Pro 支持多模态编辑工作流:提供一张或多张输入图像,再附加描述编辑内容的文本指令(移除对象、更换天空、添加文字)。API 可在同一请求中接受图像 + 文本;模型也可以交错输出文本和图像作为响应。典型模式包括带蒙版的编辑和多图像混合(风格迁移 / 构图合成)。关于结合文本块和二进制图像的 contents 数组,请参阅文档。
示例:编辑(Python 伪流程)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
这种对话式编辑方式允许你不断迭代调整结果,直到达到可用于生产的资产质量。
Node.js 示例——使用蒙版和多参考图进行图像编辑
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API 有时接受 Cloud Storage URI 或 base64 图像负载;请查看 Gemini API 文档以确认准确的输入格式。)
有关使用 CometAPI 生成和编辑图像的信息,请参阅 Guide to calling gemini-3-pro-image 。
结论
Nano Banana Pro(Gemini 3 Pro Image)代表图像生成能力迈向生产级的重要飞跃:它是一款用于可视化数据、执行本地化编辑并驱动开发者工作流的工具。可使用 Gemini 应用进行快速原型设计,使用 API 进行生产集成,并遵循上述建议来控制成本、确保安全并维持品牌质量。始终应测试真实用户工作流,并保存溯源元数据,以满足透明度和审计要求。
当你需要工作室级质量的资产、对构图的精确控制、更强的图中文字渲染能力,以及将多张参考图融合为一个统一输出的能力时,请使用 Nano Banana Pro。
开发者可以通过 Gemini 3 Pro Image( Nano Banana Pro) API 使用 CometAPI。开始前,可先在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。在访问之前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的价格方案,帮助你完成集成。
准备开始了吗?→ 立即注册 CometAPI!
