如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

CometAPI
AnnaNov 20, 2025
如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

Nano Banana Pro——官方名称为 Gemini 3 Pro Image——是 Google/DeepMind 全新的工作室级图像生成与编辑模型,融合了高级多模态推理、高保真文本渲染、多图像合成以及专业级创意控制能力。

什么是 Nano Banana Pro,为什么值得关注?

Nano Banana Pro 是 Google 最新的图像生成和图像编辑模型——即 “Gemini 3 Pro Image” 版本——旨在生成具有工作室级质量、最高可达 4K 的高保真、上下文感知图像以及图中嵌入文本。它是早期 Nano Banana 模型(Gemini 2.5 Flash Image / “Nano Banana”)的后继版本,在推理能力、Search grounding(现实世界事实锚定)、文本渲染以及更强大的局部编辑控制方面都有所提升。该模型可在 Gemini 应用中供交互式用户使用;而对于程序化访问,你可以通过标准 Gemini API 访问 Nano Banana Pro,但需要选择特定模型标识符(gemini-3-pro-image-preview 或其稳定后继版本)。

这之所以重要,是因为 Nano Banana Pro 不只是用于制作好看的图片,更是为了 将信息可视化 ——信息图表、数据驱动快照(天气、体育)、文本密集型海报、产品样机以及多图融合(最多可输入 14 张图像,并在最多 5 个人物之间保持角色一致性)。对于设计师、产品团队和开发者而言,这种准确性、图中文字能力以及程序化访问的结合,开启了过去难以自动化的生产工作流。

API 暴露了哪些功能?

开发者通常可通过 API 使用以下能力:

  • 文本 → 图像生成(单步或多步“思考型”构图流程)。
  • 图像编辑(局部蒙版、修补绘制、风格调整)。
  • 多图像融合(组合参考图像)。
  • 高级请求控制:分辨率、宽高比、后处理步骤,以及用于调试/可检查性的“构图思考”轨迹(预览模式下)。

Nano Banana Pro 的核心创新与功能

更智能的内容推理

利用 Gemini 3 Pro 的推理栈来理解复杂的、多步骤的视觉指令(例如:“根据这组数据制作一个 5 步信息图,并添加双语标题”)。API 暴露了一个 “Thinking” 机制,可生成中间构图测试以优化最终输出。

为什么重要: 不同于将提示词一次性映射为像素的单次生成方式,该模型会执行内部“思考”过程来优化构图,并可调用外部工具(例如 Google Search)进行事实锚定(如准确的图表标签或符合地区习惯的标识)。这使得生成的图像不仅更美观,而且在信息图、图表或产品样机等任务中语义上也更准确。

如何实现: Nano Banana Pro 的 “Thinking” 是一种受控的内部推理/构图过程,模型会在生成最终图像之前先产生中间视觉结果和推理轨迹。API 暴露的信息表明,该模型最多可创建两个中间帧,而最终图像是这一链条中的最后阶段。在生产环境中,这有助于改进构图、文字摆放和版式决策。

更准确的文本渲染

显著提升了图像内文本的清晰度、可读性和本地化表现(菜单、海报、图表)。Nano Banana Pro 在图像文字渲染方面达到了新的高度:

  • 图像中的文字清晰、易读且拼写准确;
  • 支持多语言生成(包括中文、日文、韩文、阿拉伯文等);
  • 允许用户直接在图像中写入长段落或多行描述性文本;
  • 支持自动翻译与本地化。

为什么重要: 传统图像模型通常难以渲染出可读、对齐良好的文字。Nano Banana Pro 明确针对可靠的文字渲染和本地化进行了优化(例如翻译并保留版式),这解锁了海报、包装、多语言广告等真实创意场景。

如何实现: 文本渲染的提升来自底层多模态架构,以及对强调“图中文字”样本的数据集训练,并结合有针对性的评测集(人工评估和回归测试集)。模型学会了对齐字形、字体和版式约束,从而在图像内部生成清晰、经过本地化处理的文字——不过较小字体和极高密度段落仍可能出错。

更强的视觉一致性与保真度

工作室级控制项(光照、焦点、机位角度、色彩分级)以及多图像合成(最多 14 张参考图,并对多个人类主体提供特殊支持)有助于在生成资产中保持角色一致性(在编辑过程中保持同一人物/角色)和品牌识别。模型支持原生 1K/2K/4K 输出。

为什么重要: 营销和娱乐工作流需要跨镜头和编辑过程保持角色一致。该模型最多可维持 5 个人物的相似性,并将最多 14 张参考图融合为单一构图,同时支持从草图到 3D 渲染。这对于广告创意、包装设计或多镜头叙事都非常有用。

如何实现: 模型输入支持多张图像,并可显式指定角色分工(例如,“图像 A:姿态”,“图像 B:面部参考”,“图像 C:背景纹理”)。其架构在生成时会基于这些图像进行条件控制,以在施加变换(光照、镜头)时保持身份/姿态/风格一致。

Nano Banana Pro 的性能基准

Nano Banana Pro(Gemini 3 Pro Image)“在 Text→Image AI 基准测试中表现出色”,并且相较于早期 Nano Banana 模型展现出更强的推理能力和上下文锚定能力。它强调相对于先前版本具有更高的保真度和更优的文字渲染能力。

如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

实用性能建议

对于 2K/4K 高保真渲染,应预期其延迟更高、成本也高于 1K 输出或为速度优化的 “Flash” 模型。如果吞吐量/延迟至关重要,请使用 flash 变体(例如 Gemini 2.5 Flash / Nano Banana)来处理高并发任务;在追求质量和复杂推理任务时,则使用 Nano Banana Pro / gemini-3-pro-image。

开发者如何访问 Nano Banana Pro?

应选择哪些端点和模型

模型标识符(预览版 / Pro): gemini-3-pro-image-preview(预览版)——当你需要 Nano Banana Pro 功能时使用它。对于更快、成本更低的任务,gemini-2.5-flash-image(Nano Banana)仍然可用。

可使用的平台

  • Gemini API(generativelanguage endpoint): 你可以使用 CometAPI key 访问 xx。CometAPI 以比官方网站更优惠的价格提供相同的 API。可直接通过 HTTP / SDK 调用 generateContent 来进行图像生成(见下方示例)。
  • Google AI Studio: 用于快速实验和混搭演示应用的 Web 界面。
  • Vertex AI(企业版): 提供预置吞吐能力、计费选项(按量付费 / 企业套餐)以及适用于大规模生产的安全过滤。将其用于大型流水线集成或批量渲染作业。

免费层级有有限的使用额度;超出额度后将回退到 Nano Banana。Plus/Pro/Ultra 层级提供更高限额和无水印输出,而 Ultra 还可在 Flow 视频工具和 Antigravity IDE 中以 4K 模式使用。

如何使用 Nano Banana Pro 生成图像(分步说明)?

1)在 Gemini 应用中快速交互式使用

  1. 打开 Gemini → Tools → Create images
  2. 选择 Thinking (Nano Banana Pro) 作为模型。
  3. 输入提示词:说明主体、动作、情绪、光照、镜头、宽高比以及任何要出现在图像中的文字。示例:
    “制作一张 4K 机器人工作坊海报:一支多元化团队围坐在桌旁,叠加蓝图效果,使用无衬线粗体标题 ‘Robots in Action’,暖色钨丝灯光,浅景深,电影感 16:9。”
  4. (可选)上传最多 14 张图像进行融合或作为参考。使用选区/蒙版工具进行局部编辑。
  5. 生成后,可继续使用自然语言迭代(例如:“把标题改成蓝色并顶端居中对齐;提高蓝图的对比度”),然后导出。

2)使用 HTTP 发送到 Gemini 图像端点

你需要登录 CometAPI 获取密钥。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

该示例会将 base64 图像负载写入 PNG 文件。generationConfig.imageConfig.resolution 参数用于请求 4K 输出(适用于 3 Pro Image 模型)。

3)通过 SDK 直接调用 generateContent 进行图像生成

需要安装 Google SDK 并获取 Google 身份验证。Python 示例(文本 + 参考图像 + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

该示例展示了如何上传内联参考图像,并请求一个 4K 构图,同时启用 google_search 作为工具。Python SDK 会处理底层 REST 细节。

多图像融合与角色一致性

要生成在不同场景中保持同一人物的合成图,可传入多张 inline_data 部件(从你的照片集中选取),并在创意指令中明确要求模型“在输出之间保持身份一致”。

简短实用示例——真实提示词与预期流程

提示词:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

预期流程: 应用 → 提示模板 + CSV 数据 → 替换提示中的占位符 → 使用 image_size=2048x1152 发起 API 调用 → 接收 base64 PNG → 保存资产 + 溯源元数据 → 如有需要,可通过合成器叠加精确字体。

我应如何设计生产流水线并处理安全 / 溯源?

推荐的生产架构

  1. 提示词 + 草稿阶段(快速模型): 使用 gemini-2.5-flash-image(Nano Banana)以低成本生成大量低分辨率变体。
  2. 筛选与精修: 选出最佳候选,优化提示词,并通过修补绘制/蒙版编辑提高精度。
  3. 高保真最终渲染: 调用 gemini-3-pro-image-preview(Nano Banana Pro)输出最终 2K/4K 渲染,并进行后处理(超分、色彩分级)。
  4. 溯源与元数据: 在资产元数据存储中保存提示词、模型版本、时间戳和 SynthID 信息——该模型会附加 SynthID 水印,并且输出可以追溯,以满足合规与内容审计要求。

安全、权利与审核

  • 版权与权利清理: 不要上传或生成侵犯权利的内容。对于用户上传的图像或可能生成可识别肖像的提示词,应要求用户作出明确确认。必须遵守 Google 的 Prohibited Use Policy 和模型安全过滤规则。
  • 过滤与自动检查: 在下游使用或公开展示之前,应将生成图像接入内部内容审核流水线(NSFW、仇恨符号、政治/约束性内容检测)。

如何进行图像编辑(修补绘制)、多图像合成和文本渲染?

Nano Banana Pro 支持多模态编辑工作流:提供一张或多张输入图像,再附加描述编辑内容的文本指令(移除对象、更换天空、添加文字)。API 可在同一请求中接受图像 + 文本;模型也可以交错输出文本和图像作为响应。典型模式包括带蒙版的编辑和多图像混合(风格迁移 / 构图合成)。关于结合文本块和二进制图像的 contents 数组,请参阅文档。

示例:编辑(Python 伪流程)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

这种对话式编辑方式允许你不断迭代调整结果,直到达到可用于生产的资产质量。

Node.js 示例——使用蒙版和多参考图进行图像编辑

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API 有时接受 Cloud Storage URI 或 base64 图像负载;请查看 Gemini API 文档以确认准确的输入格式。)

有关使用 CometAPI 生成和编辑图像的信息,请参阅 Guide to calling gemini-3-pro-image

结论

Nano Banana Pro(Gemini 3 Pro Image)代表图像生成能力迈向生产级的重要飞跃:它是一款用于可视化数据、执行本地化编辑并驱动开发者工作流的工具。可使用 Gemini 应用进行快速原型设计,使用 API 进行生产集成,并遵循上述建议来控制成本、确保安全并维持品牌质量。始终应测试真实用户工作流,并保存溯源元数据,以满足透明度和审计要求。

当你需要工作室级质量的资产、对构图的精确控制、更强的图中文字渲染能力,以及将多张参考图融合为一个统一输出的能力时,请使用 Nano Banana Pro。

开发者可以通过 Gemini 3 Pro Image( Nano Banana Pro) API 使用 CometAPI。开始前,可先在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。在访问之前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的价格方案,帮助你完成集成。

准备开始了吗?→ 立即注册 CometAPI

如果你想了解更多 AI 技巧、指南和新闻,请关注我们的 VKX 和 Discord

以低成本 获取顶级模型

阅读更多