Nano-Banana 终极指南:如何使用与编写最佳提示词

CometAPI
AnnaSep 8, 2025
Nano-Banana 终极指南:如何使用与编写最佳提示词

Google 最近发布的 Gemini 2.5 Flash Image — 昵称为“Nano-Banana”,迅速成为对话式图像编辑的首选:它在多次编辑中保持相貌一致、可干净地融合多张图像,并支持非常自然的基于提示词的局部编辑。下面我将介绍 Nano Banana 是什么,如何通过 Google 的 Gemini 以及 第三方接入(例如 CometAPI) 使用它,提供可直接落地的提示词示例与代码,并分享关于多轮编辑、放大和高级提示词的开发者技巧。我以一名每天使用图像模型的开发者身份撰写——可将其视作一份务实、略带主观的操作手册。

什么是 Nano-Banana?

“Gemini 2.5 Flash Image / Nano-Banana”究竟是什么意思?

Nano-BananaGemini 2.5 Flash Image 的社区昵称/代号,即 Google DeepMind 最新的图像生成与编辑模型。它面向“提示词优先”的编辑(你提供自然语言指令),特别强调 角色一致性(在多次编辑中保持同一人物/宠物/物体的外观一致)、多图融合(在源照片之间融合对象),以及在 Gemini 与 Google AI Studio 等应用中的低时延交互使用。该模型可通过 Google 的 Gemini API、AI Studio 获取,并已在 CometAPI 中提供。

作为开发者,应将 Nano-Banana 主要视为高能力的照片编辑与合成助手,而非纯粹的“从零生成”图像器:它理解图像内容、在多次编辑中记住主题,并以适合快速迭代设计流程的方式响应自然语言指令。这使其特别适用于产品模型图、角色一致性拍摄、快速概念迭代以及社交创意玩法。

面向开发者的摘要

  • 模型名称: gemini-2.5-flash-image-preview / gemini-2.5-flash-image。
  • 一致性与连续性: Nano-Banana 在多次编辑中对角色细节的保持比许多竞品更可靠,适合连续编辑与叙事。
  • 速度: 用户反馈生成速度很快——许多编辑通常在 10 秒内完成——有利于迭代工作流。
  • 编辑优先的设计: 虽然许多模型更偏向纯文本驱动生成,Nano-Banana 的 UX 与 API 强调编辑(单次编辑、多图融合、风格迁移)。

如何在 CometAPI 上使用 Nano-Banana 进行编辑?

CometAPI 是一个聚合/封装多种模型的 API 市场(包括 Gemini 2.5 Flash Image API(Nano Banana)),并提供统一的、与 OpenAI 兼容的端点。如果你想快速原型或在首次测试中避免开通 Google Cloud/Vertex 账户,CometAPI 是一个实用桥梁——你获取一个 API key,选择 gemini-2.5-flash-image(或 gemini-2.5-flash-image-preview),然后以类似 Chat 风格的图像编辑方式发送请求。CometAPI 还提供示例与指南以试用该模型。

为什么使用 CometAPI?

  • 一个 API key 即可通用——简化对多家提供商的测试。
  • 当定价或 SLA 变化时,可在生产中切换提供商。
  • 适合需要服务级控制(限流、集中化日志)的团队。

如何调用 Nano-Banana(CometAPI)— 实用示例

下面是一个直接的示例。将 YOUR_COMET_KEY 和文件路径替换为你自己的。

CURL — 基础编辑(图像 + 提示词 → 编辑后的图像)

示例:

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "cat"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

**说明:**首先,将源图像文件转换为 Base64 字符串并放入 inline_data.data。其次,不要包含诸如 data:image/jpeg;base64, 的前缀。输出同样位于 candidates.content.parts,包含:

  • 可选的文本部分(描述或提示词)。
  • 作为 inline_data 的图像部分(其中 data 为输出图像的 Base64)。

如果你只想试用 Nano-Banana 的图像编辑,CometAPI 为新用户提供免费积分。你可以在 playground 体验 Nano-Banana,或使用 Gemini 2.5 Flash Image API。不过,如果你希望无限使用,可以支付比 Gemini 价格便宜 20% 的费用。

Nano-Banana 拥有多项核心优势:外观一致性、基于自然语言的定向局部编辑,以及多图融合。

接下来,我将通过几个用例展示 Nano-Banana 的优势,你将看到它的“魔法”。

示例 1:将多张图像组合为单个拼贴

上传一张图像:

Nano-Banana 终极指南:如何使用与编写最佳提示词

示例输入描述: 一位模特摆姿势并靠在一辆粉色 bmw 上。她穿着以下物品,场景为浅灰色背景。绿色外星人是钥匙扣,挂在粉色手袋上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴粉色项圈和金色耳机的哈巴狗。

返回的 Base64 转回图像:

Nano-Banana 终极指南:如何使用与编写最佳提示词

代码:

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

注意:将源图像文件转换为 Base64 字符串并插入到 inline_data.data 中(不要包含诸如 data:image/jpeg;base64, 的前缀)。

用例分析: 通过多图融合,设计师可以更具创意。例如,家装设计师可将图像组合以生成效果的粗略渲染。消费者能将自己的全身照与想购买的物品组合,辅助决策。这也可作为动画与漫画制作的参考。

示例 2:编辑图像以保持相似性

下面我将提供多轮编辑来测试 nano banana。

首先,上传一张图像:

Nano-Banana 终极指南:如何使用与编写最佳提示词

其次,提示词: 在草地上添加一只小狗

输出:

Nano-Banana 终极指南:如何使用与编写最佳提示词

最后,提示词: 使用附件中的角色参考图。保留那只狗。将角色置于夜晚霓虹城市街景的雨天场景中。面部特征与参考图保持完全一致。

Nano-Banana 终极指南:如何使用与编写最佳提示词

用例分析: 可以看到,在多轮图像修改中保持了相当高的一致性。

示例 3:风格迁移与面部细节修改

上传一张图像:

Nano-Banana 终极指南:如何使用与编写最佳提示词

提示词: 略微锐化面部,添加 6% 电影颗粒,裁剪为 16:9。不要改变面部特征,在右侧加入柔和的轮廓光。

输出:

Nano-Banana 终极指南:如何使用与编写最佳提示词

Nano-Banana 的其他用例

1) 企业头像与职业肖像

用途:快速创建统一的品牌头像(营销、LinkedIn、公司简介)。在更换服装、背景或灯光的同时,Nano-Banana 能保持面部逼真度。

提示词 — 服装 + 灯光(编辑)

Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.

提示词 — 背景替换 + 精修

Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.

2) 电商与产品可视化

用途:将产品置入生活场景、生成不同角度的稳定产品图,或展示颜色款式。

提示词 — 场景中的产品(多图融合)

Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.

提示词 — 颜色变体(编辑)

Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.

3) 社交内容与达人营销

用途:快速风格化编辑、服装替换、季节性叠加,或为社交平台生成多种版式裁剪。

提示词 — 面向 feed 与 story 的季节性编辑

Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.

提示词 — 风格化宣传版本

Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.

4) 角色/品牌资产一致性(吉祥物、常驻角色)

用途:在不同场景、活动或剧集间保持徽标、吉祥物或角色的视觉一致性。

提示词 — 角色设定表约束

Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.

5) 历史照片修复与上色

用途:在保留构图与面部细节的同时修复或为档案图像上色。

提示词 — 上色 + 修复

Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.

哪些高级提示词技巧能提高可靠性?

使用参考锚点与微约束

参考锚点是你添加的简短且可核验的信息,用于降低歧义:精准的服装名称(“海军蓝西装外套,单排扣,缺角翻领”)、光照参考(“伦勃朗光”)或摄影术语(“50mm 人像镜头,f/2.8”)。微约束用于告知模型不得更改的内容(例如“不要更改右前臂上的纹身”)。这些方法以建设性的方式收缩模型自由度,通常能提升结果的忠实度。

迭代循环:提出、评估、优化

  1. 首次尝试:使用精确而简洁的提示词。
  2. 评估结果:记录模型的错误之处(例如改变了脸型、丢失了配饰)。
  3. 定向修正:发送简短的后续提示词并引用上一次结果(“保留上次输出的所有内容,但保留原本左耳的耳环,并使眉毛更浓密”)。Nano-Banana 的对话式编辑优势能让你快速回收质量。

针对复杂变换的编辑链

对于幅度较大的编辑,将任务拆解为一系列较小的步骤,而非一次性的大指令。示例编辑链:(1)背景替换 →(2)服装更新 →(3)色彩分级 →(4)最终修饰。这样能让每个提示词更聚焦,减少意外的交叉影响。

我该如何为 Nano-Banana 构建提示词?(提示词结构)

优秀的图像提示词具有一致的结构。按以下“提示词结构”来获得更精确、可复现的结果:

提示词结构(推荐顺序)

  1. 行动/目标——你希望模型做什么?(例如“将这张自拍编辑为专业头像”或“结合这两张图生成产品生活方式照片”)。
  2. 主体——图像中的人物或物体是什么?在身份、年龄、人数、项目等方面具体说明。
  3. 属性——视觉特征:服装、面部表情、眼睛颜色、发型、道具。
  4. 环境与光照——地点、时间、情绪光、焦距与镜头提示(“35mm 人像”)。
  5. 风格与完成度——摄影风格(电影感、影棚、胶片颗粒、超写实)或艺术风格(油画、矢量、漫画)。
  6. 约束/安全——需要避免的内容(无徽标、无裸露、无医疗文本)。
  7. 一致性标记(可选)——在多次提示中复用的短语,用于保持角色识别(例如“使用‘Luna scarf’角色参考”)。

角色一致性的技巧(实用步骤)

  • 使用“参考短语”:在每次提示中加入与主体相关的简短且唯一的短语(例如“character token: ‘Maya-blue-jacket’”)。复用该短语可使模型更可靠地将编辑关联到同一角色。
  • 加入锚定细节:明确具有辨识度且不可更改的特征(例如“左眉伤疤、右脸颊绿色胎记”),以便模型有固定的维持点。
  • 尽可能保持姿态与构图:若需要真正的连续性,请在各提示中保持相似的机位/姿态描述。
  • 从同一张原始图像开始:在编辑流程中始终提供同一源图像作为锚点。若必须更换照片,请将原图作为额外输入并解释变换。

常见失败模式及修复方法

失败:身份漂移(主体看起来不同)

原因:模型对请求的风格过度泛化或误解了约束。
修复:添加明确的“保留”条款、附上原始图像作为参考,或将编辑分解为更小的步骤并验证中间输出。

失败:道具或手部不一致

原因:手部与小型配件历来是许多图像模型的难点。
修复:加入微约束(“保留右手腕上的手表”)、为小物件提供细节特写参考,或进行一次仅聚焦问题元素的定向修正。

失败:光照或阴影不自然

原因:大幅编辑(背景替换或主要重光)可能造成不匹配。
修复:要求模型匹配“左上方方向光、柔和阴影”,或提供期望光照的参考图像。

结论

Nano-Banana(Gemini 2.5 Flash Image)在消费级图像编辑与生成方面迈出了重要一步:快速、一致,并与 Google 的 Gemini 生态与安全工具链集成。最佳结果来自于清晰、以任务为中心的提示词,在需要身份一致性时明确的保留说明,以及将快速预览与最终渲染分隔开的分阶段工作流。随着模型与生态的发展,提示工程师应持续测试、记录结果,并构建让编辑透明且可回退的用户侧控件。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣