如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

CometAPI
AnnaNov 20, 2025
如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

Nano Banana Pro — 官方名称为 Gemini 3 Pro Image — 是 Google/DeepMind 推出的新一代工作室级图像生成与编辑模型,融合先进的多模态推理、高保真文本渲染、多图合成以及工作室级创意控制。

什么是 Nano Banana Pro,为什么你应该关注?

Nano Banana Pro 是 Google 最新的图像生成与图像编辑模型 — “Gemini 3 Pro Image” 版本 — 旨在以最高达 4K 的工作室品质生成高保真、具备上下文理解的图像及图中文本。它是早期 Nano Banana 系列(Gemini 2.5 Flash Image / “Nano Banana”)的继任者,具备更强的推理能力、Search grounding(真实世界事实)、更可靠的文本渲染,以及更强大的局部编辑控制。该模型在 Gemini 应用内向交互用户提供,并可通过标准 Gemini API 访问 Nano Banana Pro,但你需要选择特定的模型标识符(gemini-3-pro-image-preview 或其稳定后继)。用于程序化访问。

为什么这很重要:Nano Banana Pro 不仅用于生成漂亮的图像,更用于“可视化信息”——信息图、数据驱动快照(天气、体育)、文本密集的海报、产品模型稿以及多图融合(最多 14 张输入图,且可在最多 5 位人物之间保持角色一致性)。对于设计师、产品团队和开发者而言,这种准确性、图中文本能力与可编程访问的组合,打开了此前难以自动化的生产工作流。

API 暴露了哪些功能?

面向开发者的典型 API 能力包括:

  • 文本 → 图像生成(单步或多步“思考”式构图流程)。
  • 图像编辑(局部遮罩、补画、风格调整)。
  • 多图融合(组合参考图像)。
  • 高级请求控制:分辨率、纵横比、后处理步骤,以及用于预览模式的“构图思路”追踪以便调试/可检视。

Nano Banana Pro 的核心创新与功能

更智能的内容推理

借助 Gemini 3 Pro 的推理栈来理解复杂的多步视觉指令(例如,“基于此数据集创建一个 5 步信息图,并添加双语字幕”)。API 提供一种 “Thinking” 机制,可生成中间构图测试以优化最终输出。

为什么重要: 传统方法是一次性将提示映射为像素,而该模型会执行内部“思考”过程来细化构图,并可调用外部工具(如 Google Search)进行事实扎根(例如,准确的图表标签或符合本地语境的标识)。这使得图像不仅更美观,也在信息图、示意图或产品模型等任务上更符合语义。

如何实现: Nano Banana Pro 的 “Thinking” 是一次受控的内部推理/构图过程,模型会在生成最终图像前产生中间视觉与推理轨迹。API 指出模型最多可创建两帧中间图像,最终图像是该链的最后阶段。在生产中这有助于构图、文本位置与版式决策。

更准确的文本渲染

在图像中提供显著更清晰、可读、可本地化的文字(菜单、海报、示意图)。Nano Banana Pro 在图中文本渲染方面达到了新高度:

  • 图像中的文字清晰、易读且拼写准确;
  • 支持多语言生成(包括中文、日语、韩语、阿拉伯语等);
  • 允许用户在图像中直接书写长段落或多行描述性文字;
  • 支持自动翻译与本地化。

为什么重要: 传统的图像模型往往难以渲染可读、对齐良好的文本。Nano Banana Pro 明确针对可靠的文本渲染与本地化进行了优化(例如翻译同时保持版式),解锁了海报、包装或多语言广告等真实创意场景。

如何实现: 文本渲染的提升源自底层的多模态架构与强调图中文本示例的数据集训练,并结合针对性评估集(人工评测与回归集)。模型学习对齐字形、字体与版式约束,以在图像中生成可读、可本地化的文字——尽管非常小的文字和极其密集的段落仍可能存在误差。

更强的视觉一致性与保真度

工作室级控制(光照、焦点、镜头角度、调色)和多图构成(最多 14 张参考图,并对多位人物有特殊支持)有助于在生成素材中保持角色一致性(在编辑中保持同一人/角色)与品牌风格一致。模型原生支持 1K/2K/4K 输出。

为什么重要: 市场与娱乐制作需要在不同镜头与编辑间保持角色一致。该模型可在最多 位人物间保持相似度,并将最多 14 张参考图融合到单一构图中,同时支持从草图 → 3D 渲染。这对广告创意、包装或多镜头叙事非常有用。

如何实现: 模型输入可接受多张图像并明确分配角色(例如,“图 A:姿态”,“图 B:面部参考”,“图 C:背景纹理”)。架构会基于这些图像进行条件生成,以在应用光照与镜头等变换的同时保持身份/姿态/风格。

Nano Banana Pro 的性能基准

Nano Banana Pro(Gemini 3 Pro Image)在“文本→图像 AI 基准”上表现优异,并相较早期 Nano Banana 模型展现出更强的推理与上下文扎根能力。相较此前版本,它强调更高保真度与更佳的文本渲染。

如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

实用性能指南

对于高保真 2K/4K 渲染,预计更高的延迟与成本,相较于 1K 或为速度优化的 “Flash” 模型。如果吞吐/延迟至关重要,可使用闪速变体(如 Gemini 2.5 Flash / Nano Banana)进行高容量任务;若追求质量与复杂推理任务,请使用 Nano Banana Pro / gemini-3-pro-image。

开发者如何访问 Nano Banana Pro?

选择哪些端点与模型

模型标识符(预览 / 专业版): gemini-3-pro-image-preview(预览)——当你需要 Nano Banana Pro 的能力时使用此模型。对于更快、更低成本的工作,gemini-2.5-flash-image(Nano Banana)仍然可用。

使用的入口

  • Gemini API(generativelanguage 端点): 你可以使用 CometAPI 密钥访问 xx。CometAPI 以比官方网站更优惠的价格提供相同的 API。通过直接的 HTTP / SDK 调用 generateContent 来生成图像(见下方示例)。
  • Google AI Studio: 用于快速试验与改造演示应用的网页端。
  • Vertex AI(企业): 提供可配额吞吐、计费选项(按需/企业套餐)与安全过滤,适用于大规模生产。将 Vertex 用于大型流水线或批量渲染作业。

免费层有使用量上限;超限将回退到 Nano Banana。Plus/Pro/Ultra 层提供更高上限与无水印输出,但 Ultra 可在 Flow 视频工具与 Antigravity IDE 的 4K 模式中使用。

如何使用 Nano Banana Pro 生成图像(分步)?

1) 快速交互步骤:使用 Gemini 应用

  1. 打开 Gemini → Tools → Create images
  2. 选择 Thinking (Nano Banana Pro) 作为模型。
  3. 输入提示:说明主题、动作、氛围、光照、镜头、纵横比,以及需要出现在图像上的任何文字。示例:
    “创建一张 4K 机器人研讨会海报:多元团队围坐在桌旁,叠加蓝图,粗体标题‘机器人在行动’(无衬线),暖色钨丝灯光,浅景深,电影感 16:9。”
    4.(可选)上传最多 14 张图像进行融合或用作参考。使用选择/遮罩工具对局部区域进行编辑。
  4. 生成并用自然语言迭代(例如,“将标题改为蓝色并对齐到上方居中;提升蓝图的对比度”),然后导出。

2) 使用 HTTP 发送到 Gemini 图像端点

你需要登录 CometAPI 获取密钥。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

该示例将 base64 图像负载写入 PNG 文件。generationConfig.imageConfig.resolution 参数请求 4K 输出(适用于 3 Pro Image 模型)。

3) 直接通过 SDK 调用 generateContent 进行图像生成

需要安装 Google SDK 并获取 Google 身份验证。Python 示例(文本 + 参考图像 + 事实扎根):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

该示例展示了上传内联参考图像并请求 4K 构图,同时启用 google_search 作为工具。Python SDK 将处理底层 REST 细节。

多图融合与角色一致性

要生成在不同场景中保持同一人物一致性的合成图,请传入inline_data 部分(从你的照片集选择),并在创意指令中明确要求模型“在输出中保持身份一致”。

简短实用示例 — 真实提示与预期流程

提示:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

预期流程: 应用 → 提示模板 + CSV 数据 → 在提示中替换占位符 → 使用 image_size=2048x1152 发起 API 调用 → 接收 base64 PNG → 保存素材 + 溯源元数据 → 如有需要,通过合成器叠加精确字体。

如何设计生产管线并处理安全/溯源?

推荐的生产架构

  1. 提示 + 草稿阶段(快速模型): 使用 gemini-2.5-flash-image(Nano Banana)以较低成本生成大量小分辨率变体。
  2. 选择与精修: 挑选最佳候选,优化提示,通过补画/遮罩编辑实现精确调整。
  3. 高保真最终渲染: 使用 gemini-3-pro-image-preview(Nano Banana Pro)进行最终 2K/4K 渲染与后处理(超采样、调色)。
  4. 溯源与元数据: 在素材元数据库中存储提示、模型版本、时间戳与 SynthID 信息——模型会附加 SynthID 水印,输出可追溯以满足合规与内容审计。

安全、版权与审核

  • 版权与权利清理: 不要上传或生成侵犯权利的内容。针对可能生成可识别肖像的用户提供明确确认。必须遵守 Google 的禁止使用政策与模型安全过滤。
  • 过滤与自动化检查: 在下游使用或公开展示前,将生成图像通过内部内容审核管线(NSFW、仇恨符号、政治/敏感内容检测)。

如何进行图像编辑(补画)、多图合成与文本渲染?

Nano Banana Pro 支持多模态编辑工作流:在同一请求中提供一张或多张输入图像与描述编辑的文本指令(移除对象、替换天空、添加文字)。API 接受图像 + 文本的组合输入;模型可输出交错的文本与图像。常见模式包括遮罩编辑与多图混合(风格迁移/构图)。详见文档中关于 contents 数组如何组合文本块与二进制图像的说明。

示例:编辑(Python 伪流程)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

这种对话式编辑允许你迭代式地调整结果,直到获得可用于生产的素材。

Node.js 示例 — 使用遮罩与多参考进行图像编辑

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API 有时接受 Cloud Storage URI 或 base64 图像负载;请查阅 Gemini API 文档了解确切的输入格式。)

关于使用 CometAPI 生成与编辑图像的信息,请参阅 调用 gemini-3-pro-image 指南

结论

Nano Banana Pro(Gemini 3 Pro Image)在图像生成方面实现了生产级跃升:它可用于可视化数据、进行本地化编辑,并为开发者工作流提供支撑。使用 Gemini 应用进行快速原型设计,使用 API 集成到生产中,并遵循上述建议以控制成本、确保安全并保持品牌质量。务必测试真实用户工作流,并存储溯源元数据,以满足透明度与审计需求。

当你需要工作室级素材、对构图的精确控制、更佳的图中文字渲染,以及将多参考融合为一致输出的能力时,请选择 Nano Banana Pro。

开发者可通过 Gemini 3 Pro Image(Nano Banana Pro)API 在 CometAPI 上进行访问。开始之前,请在 CometAPIPlayground 中探索模型能力,并查阅 API 指南获取详细说明。访问前,请确保已登录 CometAPI 并获取 API 密钥。CometAPI 以远低于官方价格的成本帮助你完成集成。

准备好了吗?→ 立即注册 CometAPI

如果你想了解更多关于 AI 的技巧、指南与新闻,请在 VKXDiscord 关注我们!

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣