Nano-Banana 终极指南：如何使用与编写最佳提示词

Google 最近发布的 Gemini 2.5 Flash Image — 昵称为“Nano-Banana”，迅速成为对话式图像编辑的首选：它在多次编辑中保持相貌一致、可干净地融合多张图像，并支持非常自然的基于提示词的局部编辑。下面我将介绍 Nano Banana 是什么，如何通过 Google 的 Gemini 以及 第三方接入（例如 CometAPI） 使用它，提供可直接落地的提示词示例与代码，并分享关于多轮编辑、放大和高级提示词的开发者技巧。我以一名每天使用图像模型的开发者身份撰写——可将其视作一份务实、略带主观的操作手册。

什么是 Nano-Banana？

“Gemini 2.5 Flash Image / Nano-Banana”究竟是什么意思？

Nano-Banana 是 Gemini 2.5 Flash Image 的社区昵称/代号，即 Google DeepMind 最新的图像生成与编辑模型。它面向“提示词优先”的编辑（你提供自然语言指令），特别强调 角色一致性（在多次编辑中保持同一人物/宠物/物体的外观一致）、多图融合（在源照片之间融合对象），以及在 Gemini 与 Google AI Studio 等应用中的低时延交互使用。该模型可通过 Google 的 Gemini API、AI Studio 获取，并已在 CometAPI 中提供。

作为开发者，应将 Nano-Banana 主要视为高能力的照片编辑与合成助手，而非纯粹的“从零生成”图像器：它理解图像内容、在多次编辑中记住主题，并以适合快速迭代设计流程的方式响应自然语言指令。这使其特别适用于产品模型图、角色一致性拍摄、快速概念迭代以及社交创意玩法。

面向开发者的摘要

模型名称： gemini-2.5-flash-image-preview / gemini-2.5-flash-image。
一致性与连续性： Nano-Banana 在多次编辑中对角色细节的保持比许多竞品更可靠，适合连续编辑与叙事。
速度： 用户反馈生成速度很快——许多编辑通常在 10 秒内完成——有利于迭代工作流。
编辑优先的设计： 虽然许多模型更偏向纯文本驱动生成，Nano-Banana 的 UX 与 API 强调编辑（单次编辑、多图融合、风格迁移）。

如何在 CometAPI 上使用 Nano-Banana 进行编辑？

CometAPI 是一个聚合/封装多种模型的 API 市场（包括 Gemini 2.5 Flash Image API(Nano Banana))，并提供统一的、与 OpenAI 兼容的端点。如果你想快速原型或在首次测试中避免开通 Google Cloud/Vertex 账户，CometAPI 是一个实用桥梁——你获取一个 API key，选择 gemini-2.5-flash-image（或 gemini-2.5-flash-image-preview），然后以类似 Chat 风格的图像编辑方式发送请求。CometAPI 还提供示例与指南以试用该模型。

为什么使用 CometAPI？

一个 API key 即可通用——简化对多家提供商的测试。
当定价或 SLA 变化时，可在生产中切换提供商。
适合需要服务级控制（限流、集中化日志）的团队。

如何调用 Nano-Banana（CometAPI）— 实用示例

下面是一个直接的示例。将 YOUR_COMET_KEY 和文件路径替换为你自己的。

CURL — 基础编辑（图像 + 提示词 → 编辑后的图像）

示例：

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "cat"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

**说明：**首先，将源图像文件转换为 Base64 字符串并放入 inline_data.data。其次，不要包含诸如 data:image/jpeg;base64, 的前缀。输出同样位于 candidates.content.parts，包含：

可选的文本部分（描述或提示词）。
作为 inline_data 的图像部分（其中 data 为输出图像的 Base64）。

如果你只想试用 Nano-Banana 的图像编辑，CometAPI 为新用户提供免费积分。你可以在 playground 体验 Nano-Banana，或使用 Gemini 2.5 Flash Image API。不过，如果你希望无限使用，可以支付比 Gemini 价格便宜 20% 的费用。

Nano-Banana 拥有多项核心优势：外观一致性、基于自然语言的定向局部编辑，以及多图融合。

接下来，我将通过几个用例展示 Nano-Banana 的优势，你将看到它的“魔法”。

示例 1：将多张图像组合为单个拼贴

上传一张图像：

Nano-Banana 终极指南：如何使用与编写最佳提示词

示例输入描述： 一位模特摆姿势并靠在一辆粉色 bmw 上。她穿着以下物品，场景为浅灰色背景。绿色外星人是钥匙扣，挂在粉色手袋上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴粉色项圈和金色耳机的哈巴狗。

返回的 Base64 转回图像：

Nano-Banana 终极指南：如何使用与编写最佳提示词

代码：

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

注意：将源图像文件转换为 Base64 字符串并插入到 inline_data.data 中（不要包含诸如 data:image/jpeg;base64, 的前缀）。

用例分析： 通过多图融合，设计师可以更具创意。例如，家装设计师可将图像组合以生成效果的粗略渲染。消费者能将自己的全身照与想购买的物品组合，辅助决策。这也可作为动画与漫画制作的参考。

示例 2：编辑图像以保持相似性

下面我将提供多轮编辑来测试 nano banana。

首先，上传一张图像：

Nano-Banana 终极指南：如何使用与编写最佳提示词

其次，提示词： 在草地上添加一只小狗

输出：

Nano-Banana 终极指南：如何使用与编写最佳提示词

最后，提示词： 使用附件中的角色参考图。保留那只狗。将角色置于夜晚霓虹城市街景的雨天场景中。面部特征与参考图保持完全一致。

Nano-Banana 终极指南：如何使用与编写最佳提示词

用例分析： 可以看到，在多轮图像修改中保持了相当高的一致性。

示例 3：风格迁移与面部细节修改

上传一张图像：

Nano-Banana 终极指南：如何使用与编写最佳提示词

提示词： 略微锐化面部，添加 6% 电影颗粒，裁剪为 16:9。不要改变面部特征，在右侧加入柔和的轮廓光。

输出：

Nano-Banana 终极指南：如何使用与编写最佳提示词

Nano-Banana 的其他用例

1) 企业头像与职业肖像

用途：快速创建统一的品牌头像（营销、LinkedIn、公司简介）。在更换服装、背景或灯光的同时，Nano-Banana 能保持面部逼真度。

提示词 — 服装 + 灯光（编辑）

Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.

提示词 — 背景替换 + 精修

Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.

2) 电商与产品可视化

用途：将产品置入生活场景、生成不同角度的稳定产品图，或展示颜色款式。

提示词 — 场景中的产品（多图融合）

Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.

提示词 — 颜色变体（编辑）

Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.

3) 社交内容与达人营销

用途：快速风格化编辑、服装替换、季节性叠加，或为社交平台生成多种版式裁剪。

提示词 — 面向 feed 与 story 的季节性编辑

Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.

提示词 — 风格化宣传版本

Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.

4) 角色/品牌资产一致性（吉祥物、常驻角色）

用途：在不同场景、活动或剧集间保持徽标、吉祥物或角色的视觉一致性。

提示词 — 角色设定表约束

Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.

5) 历史照片修复与上色

用途：在保留构图与面部细节的同时修复或为档案图像上色。

提示词 — 上色 + 修复

Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.

哪些高级提示词技巧能提高可靠性？

使用参考锚点与微约束

参考锚点是你添加的简短且可核验的信息，用于降低歧义：精准的服装名称（“海军蓝西装外套，单排扣，缺角翻领”）、光照参考（“伦勃朗光”）或摄影术语（“50mm 人像镜头，f/2.8”）。微约束用于告知模型不得更改的内容（例如“不要更改右前臂上的纹身”）。这些方法以建设性的方式收缩模型自由度，通常能提升结果的忠实度。

迭代循环：提出、评估、优化

首次尝试：使用精确而简洁的提示词。
评估结果：记录模型的错误之处（例如改变了脸型、丢失了配饰）。
定向修正：发送简短的后续提示词并引用上一次结果（“保留上次输出的所有内容，但保留原本左耳的耳环，并使眉毛更浓密”）。Nano-Banana 的对话式编辑优势能让你快速回收质量。

针对复杂变换的编辑链

对于幅度较大的编辑，将任务拆解为一系列较小的步骤，而非一次性的大指令。示例编辑链：（1）背景替换 →（2）服装更新 →（3）色彩分级 →（4）最终修饰。这样能让每个提示词更聚焦，减少意外的交叉影响。

我该如何为 Nano-Banana 构建提示词？（提示词结构）

优秀的图像提示词具有一致的结构。按以下“提示词结构”来获得更精确、可复现的结果：

提示词结构（推荐顺序）

行动/目标——你希望模型做什么？（例如“将这张自拍编辑为专业头像”或“结合这两张图生成产品生活方式照片”）。
主体——图像中的人物或物体是什么？在身份、年龄、人数、项目等方面具体说明。
属性——视觉特征：服装、面部表情、眼睛颜色、发型、道具。
环境与光照——地点、时间、情绪光、焦距与镜头提示（“35mm 人像”）。
风格与完成度——摄影风格（电影感、影棚、胶片颗粒、超写实）或艺术风格（油画、矢量、漫画）。
约束/安全——需要避免的内容（无徽标、无裸露、无医疗文本）。
一致性标记（可选）——在多次提示中复用的短语，用于保持角色识别（例如“使用‘Luna scarf’角色参考”）。

角色一致性的技巧（实用步骤）

使用“参考短语”：在每次提示中加入与主体相关的简短且唯一的短语（例如“character token: ‘Maya-blue-jacket’”）。复用该短语可使模型更可靠地将编辑关联到同一角色。
加入锚定细节：明确具有辨识度且不可更改的特征（例如“左眉伤疤、右脸颊绿色胎记”），以便模型有固定的维持点。
尽可能保持姿态与构图：若需要真正的连续性，请在各提示中保持相似的机位/姿态描述。
从同一张原始图像开始：在编辑流程中始终提供同一源图像作为锚点。若必须更换照片，请将原图作为额外输入并解释变换。

常见失败模式及修复方法

失败：身份漂移（主体看起来不同）

原因：模型对请求的风格过度泛化或误解了约束。
修复：添加明确的“保留”条款、附上原始图像作为参考，或将编辑分解为更小的步骤并验证中间输出。

失败：道具或手部不一致

原因：手部与小型配件历来是许多图像模型的难点。
修复：加入微约束（“保留右手腕上的手表”）、为小物件提供细节特写参考，或进行一次仅聚焦问题元素的定向修正。

失败：光照或阴影不自然

原因：大幅编辑（背景替换或主要重光）可能造成不匹配。
修复：要求模型匹配“左上方方向光、柔和阴影”，或提供期望光照的参考图像。

结论

Nano-Banana（Gemini 2.5 Flash Image）在消费级图像编辑与生成方面迈出了重要一步：快速、一致，并与 Google 的 Gemini 生态与安全工具链集成。最佳结果来自于清晰、以任务为中心的提示词，在需要身份一致性时明确的保留说明，以及将快速预览与最终渲染分隔开的分阶段工作流。随着模型与生态的发展，提示工程师应持续测试、记录结果，并构建让编辑透明且可回退的用户侧控件。

什么是 Nano-Banana？

“Gemini 2.5 Flash Image / Nano-Banana”究竟是什么意思？

面向开发者的摘要

如何在 CometAPI 上使用 Nano-Banana 进行编辑？

为什么使用 CometAPI？

如何调用 Nano-Banana（CometAPI）— 实用示例

示例 1：将多张图像组合为单个拼贴

示例 2：编辑图像以保持相似性

示例 3：风格迁移与面部细节修改

Nano-Banana 的其他用例

1) 企业头像与职业肖像

2) 电商与产品可视化

3) 社交内容与达人营销

4) 角色/品牌资产一致性（吉祥物、常驻角色）

5) 历史照片修复与上色

哪些高级提示词技巧能提高可靠性？

使用参考锚点与微约束

迭代循环：提出、评估、优化

针对复杂变换的编辑链

我该如何为 Nano-Banana 构建提示词？（提示词结构）

提示词结构（推荐顺序）

角色一致性的技巧（实用步骤）

常见失败模式及修复方法

失败：身份漂移（主体看起来不同）

失败：道具或手部不一致

失败：光照或阴影不自然

结论

阅读更多

一个 API 中超 500 个模型