在 2025 年 8 月下旬，Google（DeepMind）发布了Gemini 2.5 Flash Image——广泛被昵称为**“nano-banana”**——这是一款低延迟、高质量的图像生成与编辑模型，已集成进 Gemini 应用、Google AI Studio、Gemini API 和 CometAPI。它旨在生成逼真的照片级图像、在多次编辑中保持角色一致性、融合多张输入图像，并通过自然语言提示进行精细的局部编辑。该模型以预览/早期 GA 的形式提供，已登顶图像领域榜单（LMArena），同时配备安全机制（SynthID 水印与产品级过滤器）。

什么是 Gemini 2.5 Flash Image（又名“Nano Banana”）？

Gemini 2.5 Flash Image——带有俏皮昵称 Nano Banana——是 Google DeepMind 在 Gemini 系列中最新的图像生成与编辑模型。它在 2025 年 8 月下旬发布，目前定位为预览版，引入更高保真度的编辑、多图融合、更好的角色一致性（在多次编辑中保持同一人物/宠物/物体的可识别性），以及低延迟图像生成，融入 Gemini 的多模态工具集中。它可通过 Gemini API、Google AI Studio、Gemini 移动/网页应用，以及面向企业客户的 Vertex AI 获取。

起源与命名

“nano banana”这一昵称在早期测试者与 LMArena 榜单条目采用水果主题标签后，在社交媒体和社区榜单中病毒式传播；Google 随后在开发者与产品发布中确认并公开沿用这一俏皮称呼。官方产品名为Gemini 2.5 Flash Image，你通常会在代码与 API 调用中看到模型标识（在预览期间，例如为 gemini-2.5-flash-image-preview）。

Gemini 2.5 Flash Image 的核心特性是什么？

“角色一致性”到底意味着什么？

其中一个主打能力是角色一致性：你可以让模型在多次编辑或新场景中复用同一主体（人物、宠物、吉祥物或产品），同时保留其可识别的视觉特征（面部/形体、配色、显著标识）。这解决了早期图像模型中的常见弱点：后续编辑虽然看似合理，但人物/物体会出现明显差异。因此，开发者可构建用于产品目录、连载故事或品牌资产生成的流程，减少人工修正。

还包含哪些编辑控制？

Gemini 2.5 Flash Image 支持：

定点局部编辑：通过自然语言提示实施（移除物体、换装、皮肤润饰、移除背景元素）。
多图融合：将最多三张输入图融为一个协调的构图（例如将图像 A 的产品放入图像 B 的场景，同时保留光照效果）。
风格与格式控制：照片级写实指令、相机与镜头属性、纵横比、以及风格化输出（插画、贴纸等）。
原生世界知识：模型利用更广泛的 Gemini 家族知识进行语义感知编辑（例如理解“Renaissance lighting”或“Tokyo crosswalk”的含义）。

速度、成本与可用性如何？

Gemini 2.5 Flash Image 属于 Gemini 2.5 的 Flash 等级——在保证高质量的同时优化低延迟与成本。Google 已预览图像输出 token 的定价，并通过 API 与 AI Studio 提供可用性；企业客户可通过 Vertex AI 访问。公告发布时，Gemini 2.5 Flash Image 等级的定价为**$30 per 1M output tokens**，并给出示例单图成本为1290 output tokens ≈ $0.039 per image。

Gemini 2.5 Flash Image 的底层原理是什么？

架构与训练方法

Gemini 2.5 Flash Image 继承 Gemini 2.5 家族架构：稀疏 Mixture-of-Experts（MoE）风格主干，采用融合文本、图像、音频等数据的多模态训练。Google 在规模庞大且经过过滤的多模态语料上训练，并针对图像任务（生成、编辑、融合）与安全行为进行微调。训练运行在 Google 的 TPU fabric 上，并通过自动与人工评估指标进行验证。

会话驱动的编辑

从高层来看，模型采用上下文条件化：当你提供图像（或多张图像）加文本提示时，模型会将主体的视觉身份编码进其内部表示。在后续编辑或新场景中，它会基于该表示进行生成，从而保留期望的视觉属性（面部几何、关键服饰或产品标识、配色）。实际层面上，这在 Gemini API 暴露的多模态内容管线中实现：你将参考图与编辑指令一并发送，模型在一个响应中返回编辑后的图像输出（或多张候选图）。

水印与溯源

Google 在 Gemini 2.5 Flash Image 中集成安全与内容政策过滤器。此次发布强调评估与红队测试、自动化过滤步骤、监督微调与强化学习，以在遵循指令的同时尽量减少有害输出。输出包含不可见的 SynthID 水印，使模型生成或编辑的图像日后可被识别为 AI 生成。

效能如何？（基准数据）

Gemini 2.5 Flash Image（在部分基准环境中以“nano-banana”营销）在 2025 年 8 月下旬登上LMArena 的图像编辑与文生图榜单第一，在报道的对比中相对于竞争者展现出较大的 Elo/偏好领先。我参考 LMArena 与 GenAI-Bench 的人工评估结果，显示其在文生图与图像编辑任务上均获得较高的偏好评分。

文生图对比

能力基准	Gemini Flash 2.5 Image	Imagen 4 Ultra 06-06	ChatGPT 4o / GPT Image 1 (High)	FLUX.1 Kontext	Gemini Flash 2.0 Image
总体偏好（LMArena）	1147	1135	1129	1075	988
视觉质量（GenAI-Bench）	1103	1094	1013	864	926
文生图一致性（GenAI-Bench）	1042	1053	1046	937	922

图像编辑

能力基准	Gemini Flash 2.5 Image	ChatGPT 4o / GPT Image 1 (High)	FLUX.1 Kontext	Qwen Image Edit	Gemini Flash 2.0 Image
总体偏好（LMArena）	1362	1170	1191	1145	1093
角色	1170	1059	1010	911	850
创意	1112	1057	968	983	879
信息图	1067	1029	967	1012	925
物体/环境	1064	1023	1002	1010	901
产品再情境化	1128	1032	943	1009	888
风格化	1062	1165	949	1091	733

Gemini 2.5 Flash Image(Nano Banana): 功能、基准测试与使用

这些基准在实践中意味着什么？

基准告诉我们两件事：（1）该模型在照片级真实生成方面具备竞争力；（2）它在编辑任务中脱颖而出，尤其体现在角色一致性与提示遵循。人工偏好排序表明，用户在观测输出时，普遍认为 Gemini 的结果在真实感与指令对齐方面表现较好。然而，也需明确现有已知限制（细节事实上的幻觉风险、图像内长文本的渲染、风格迁移的边缘案例）——因此基准是参考，而非保证。

使用 Gemini 2.5 Flash Image 可以做什么（应用场景）？

Gemini 2.5 Flash Image 明确面向创意、生产力与应用影像场景。典型与新兴用例包括：

快速产品打样与电商

将产品照片拖入不同场景，在各类环境中生成一致的目录图，或在同一产品线内替换颜色/面料——同时保留产品身份。多图融合与角色/产品一致性使其在目录工作流中颇具吸引力。

照片润饰与定点编辑

通过自然语言提示移除物体、修饰瑕疵、更换服饰/配饰，或调整光照。局部编辑能力让非专业用户也能通过会话式命令实现专业级润饰。

分镜与视觉叙事

将同一角色置入不同场景并保持其外观一致（适用于漫画、分镜或提案演示）。迭代编辑让创作者在不重建素材的情况下，精炼情绪、取景与叙事连贯性。

教育、示意图与设计原型

由于它能结合文本提示与图像，并具备“世界知识”，模型可帮助生成标注示意图、教育可视化，或用于演示的快速原型。Google 还在 AI Studio 中强调了如房地产模型与产品设计等模板用例。

如何使用 Nano Banana API ？

以下是基于CometAPI API 文档和 Google API 文档的实用片段。它们展示常见流程：使用官方 GenAI SDK 或 REST 端点进行文生图与图+文生成（编辑）。

注：在 CometAPI 的文档中，预览模型名为 gemini-2.5-flash-image-preview。下面的示例与官方 SDK 示例（Python 与 JavaScript）及一个 REST curl 示例一致；请根据你的环境调整密钥与文件路径。

来自 CometAPI 的 REST curl 示例

使用 Gemini 官方的 generateContent 端点进行文生图。将文本提示放入 contents.parts[].text。示例（Windows shell，使用 ^ 作为续行符）：

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

响应包含 Base64 图像字节；上述管线会提取 "data" 字符串并解码为 gemini-generated.png。

该端点支持“image-to-image”生成：上传输入图像（Base64），并接收修改后的新图像（同样为 Base64）。示例：

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**说明：**首先将源图像文件转换为 Base64 字符串，并放入 inline_data.data。不要包含诸如 data:image/jpeg;base64, 的前缀。输出位于 candidates.content.parts，包含：一个可选的文本部分（描述或提示）；以 inline_data 形式的图像部分（其中 data 是输出图像的 Base64）。对于多张图像，你可以直接追加，例如：

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

以下是基于 Google 官方文档与博客改编的开发者示例。请用你自己的凭据与文件路径替换。

Python（官方 SDK 风格）

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

这是来自 Google 文档的规范 Python 片段（展示预览模型 ID）。同样的 SDK 调用模式也支持图+提示编辑（将图像作为 contents 之一传入）。更多细节参见gemini 文档。

结论

如果你的产品需要稳健、低延迟的图像生成，尤其是具备主体一致性的可靠编辑，Gemini 2.5 Flash Image 现已成为值得评估的生产级选项：它将最先进的图像质量与面向开发者集成的 API（AI Studio、Gemini API 与 Vertex AI）相结合。请谨慎权衡模型的当前限制（图像中的细文字、部分风格化边缘案例），并实施负责任使用的防护措施。

入门

CometAPI 是一个统一的 API 平台，聚合了来自领先提供商的 500+ AI 模型——例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——并提供一致的认证、请求格式与响应处理，大幅简化将 AI 能力集成到你的应用中。无论你在构建聊天机器人、图像生成器、音乐创作或数据驱动分析管线，CometAPI 都能帮助你更快迭代、控制成本并保持供应商无关性，同时充分利用 AI 生态的最新突破。

开发者可通过 CometAPI 访问Gemini 2.5 Flash Image（CometAPI 列表中的 Nano Banana 条目以 gemini-2.5-flash-image-preview/gemini-2.5-flash-image 形式出现，具体以文章发布时为准）。开始之前，请在Playground中探索模型能力，并查阅API 指南获取详细说明。访问前请确保已登录 CometAPI 并获得 API Key。CometAPI提供远低于官方价格的方案，帮助你完成集成。