谷歌最近發布的 Gemini 2.5 Flash 圖片 — 綽號“奈米香蕉” 迅速成為對話式影像編輯的首選:它能夠在編輯過程中保持一致的相似度,清晰地融合多張圖片,並支援非常自然的基於提示的本地編輯。接下來我將介紹 Nano Banana 是什麼,以及如何透過以下方式使用它: Google的雙子座 和通過 **第三方存取(例如 CometAPI)**提供具體的提示範例和可直接應用到專案中的程式碼,並分享多輪編輯、升級和進階提示的開發者技巧。我以每天使用圖像模型的開發者身份撰寫本文——您可以將其視為實用且略帶主觀意見的指南。
什麼是奈米香蕉?
「Gemini 2.5 Flash Image / Nano-Banana」 到底是什麼意思?
奈米香蕉 是社群暱稱/代號 Gemini 2.5 Flash 影像是 Google DeepMind 最新的圖像生成和編輯模型。它專為 提示優先 編輯(你給它自然語言指令)特別關注 角色一致性 (在編輯過程中保持同一個人/寵物/物體的顯示), 多影像融合 (在來源照片中混合物件)以及 Gemini 和 Google AI Studio 等應用程式中的低延遲互動式使用。該模型可透過 Google 的 Gemini API、AI Studio 取得,並且已在 CometAPI 中出現。
作為開發人員,不要將 Nano-Banana 主要視為純粹的「從零開始」圖像生成器,而應將其視為一個功能強大的 照片編輯與構圖助理:它能夠理解圖像內容,在編輯過程中記住主題,並以符合快速迭代設計循環的方式回應自然語言指令。這使得它特別適用於產品模型、一致的角色鏡頭、快速概念迭代和社交創意遊戲。
面向開發人員的摘要
- 型號名稱: gemini-2.5-flash-image-預覽/gemini-2.5-flash-image。
- 一致性和連續性: 與許多競爭對手相比,Nano-Banana 能夠更可靠地保留各個編輯中的角色細節,因此更適合連續編輯和講故事。
- 速度: 使用者報告稱生成速度很快——許多編輯通常在 10 秒內完成——這對迭代工作流程很有幫助。
- 編輯優先設計: 雖然許多模型針對純文字驅動產生進行了最佳化,但 Nano-Banana 的 UX 和 API 強調編輯(一次性編輯、多影像融合、風格轉換)。
如何在 CometAPI 上使用 Nano-Banana 進行編輯?
CometAPI 是一個 API 市場/包裝器,它聚合了許多模型(包括 Gemini 2.5 Flash 影像 API(Nano Banana))位於一個與 OpenAI 相容的端點後面。如果您想快速建立原型,或避免在首次測試時設定 Google Cloud/Vertex 帳戶,CometAPI 是一個實用的橋樑——您可以獲得 API 金鑰,選擇 gemini-2.5-flash-image gemini-2.5-flash-image-preview ),然後發送類似於聊天式圖像編輯的請求。 CometAPI 也提供範例和 說明 嘗試該模型。
為什麼要使用 CometAPI?
- 一個 API 金鑰即可控制所有金鑰 — 簡化多個提供者的測試。
- 如果價格或 SLA 發生變化,則更換生產提供者。
- 對於需要服務等級控制(速率限制、集中日誌記錄)的團隊很有用。
如何呼叫 Nano-Banana (CometAPI) — 實際範例
下面是一個簡單的例子。替換 YOUR_COMET_KEY 並使用您自己的文件路徑。
CURL — 基本編輯(圖片 + 提示 → 編輯後的圖像)
示例:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**描述:**首先,將來源圖像檔案轉換為 Base64 字串並將其放入 inline_data.data. 第二,不要包含類似 data:image/jpeg;base64, 。輸出也位於 candidates.content.parts 包括:
- 可選的文字部分(描述或提示)。
- 影像部分為
inline_data(哪裡data是輸出影像的Base64)。
如果您只是想在 Nano-Banana 上試用圖像編輯功能,CometAPI 會為新用戶提供免費積分。您可以在 Playground 上試用 Nano-Banana,也可以使用 Gemini 2.5 Flash Image API。但是,如果您想要無限使用,可以享受 Gemini 價格的 20% 折扣。
Nano-Banana 有幾個核心優勢:一致的相似性、透過自然語言進行有針對性的局部編輯以及多影像融合。
接下來我將透過幾個用例來展示Nano-Banana的優勢,你會看到它的神奇之處。
範例 1:將多幅圖像組合成一幅拼貼畫
上傳圖片:

輸入描述範例: 一位模特兒正倚靠在一輛粉紅色寶馬上擺姿勢。她穿著以下服飾,場景背景為淺灰色。綠色外星人是一個鑰匙扣,掛在粉紅色手提包上。模特兒肩上還坐著一隻粉紅色鸚鵡。旁邊坐著一隻戴著粉紅色項圈和金色耳機的哈巴狗。
返回轉換回映像的 Base64:

代碼:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
注意:將來源圖像檔案轉換為Base64字串並將其插入到 inline_data.data (不包括前綴,例如 data:image/jpeg;base64,).
用例分析: 透過多圖融合,設計師可以發揮更多創意。例如,居家設計師可以將多張圖片組合起來,呈現出效果的粗略效果圖。消費者可以將自己的全身圖與想要購買的商品結合起來,從而做出購買決定。這也可以作為動畫和漫畫製作的參考。
範例 2:編輯影像以保持相似性
下面我將提供幾輪編輯來測試奈米香蕉。
首先,上傳一張圖片:

第二, 提示: 在草坪上養一隻小狗
輸出:

最後, 提示: 使用附件中的角色參考圖。保留那隻狗。將角色放置在夜晚霓虹閃爍的雨天城市街景中。臉部特徵與參考影像保持一致。

用例分析: 可以看出,在多輪影像修改中保持了相當高的一致性。
範例 3:風格遷移和修改臉部細節
上傳圖片:

提示: 稍微銳利化臉部,加入6%的底片顆粒,裁切為16:9。不要改變臉部特徵,在右側添加柔和的邊緣光。
輸出:

Nano-Banana 的其他用例
1)企業頭像和專業肖像
用途:快速創建統一的品牌頭像(例如行銷、領英、公司簡介)。奈米香蕉技術可在變換服裝、背景或光線時保持臉部逼真度。
提示 — 服裝 + 燈光(編)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
提示 — 背景交換 + 修飾
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2)電子商務與產品視覺化
用途:將產品放入生活場景中,從不同角度產生一致的產品鏡頭,或顯示顏色變化。
提示-產品場景(多影像融合)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
提示 — 顏色變體(編輯)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3)社群內容和影響力行銷
用途:快速風格編輯、服裝交換、季節性疊加或社交平台的多格式裁剪。
提示 — 動態和故事的季節性編輯
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
提示 — 風格化的促銷變體
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4)角色/品牌資產的一致性(吉祥物、重複出現的角色)
用途:讓標誌、吉祥物或角色在場景、活動或劇集中保持視覺相同。
提示 — 角色表強制執行
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5)歷史照片修復及上色
用途:恢復或著色檔案影像,同時保留構圖和精細的臉部細節。
提示 — 著色 + 修復
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
哪些先進的提示技術可以提高可靠性?
使用 參考錨點 微約束
參考錨點是一些簡短、可驗證的信息,您可以添加這些信息來減少歧義:確切的服裝名稱(“海軍藍西裝外套,單排扣,缺口翻領”)、燈光參考(“倫勃朗燈光”)或相機術語(“50mm 人像鏡頭,f/2.8”)。微約束則告訴模型哪些內容不能改變(例如,「不要改變右前臂上的刺青」)。這些能夠有效地減少模型的自由度,通常能夠提高結果的保真度。
迭代循環:詢問、評估、改進
- 第一遍: 使用精確但簡潔的提示。
- 評估結果: 注意模特兒出了什麼問題(例如,改變臉型,失去配件)。
- 針對性矯正: 發送一個簡短的後續提示,引用先前的結果(「保留上次輸出的所有內容,但保留原來的左耳耳環,並加粗眉毛」)。 Nano-Banana 的對話式編輯優勢讓您快速恢復。
複雜轉換的編輯鏈
對於大型編輯,應將工作分解成一系列較小的編輯,而不是一次性完成一個龐大的指令。範例:(1) 背景交換 → (2) 服裝更新 → (3) 色彩分級 → (4) 最終潤飾。這樣可以使每個指令保持專注,並減少意外的交叉影響。
我應該如何構建 Nano-Banana 的提示? (提示結構)
好的圖片提示具有一致的結構。使用以下 快速解剖 獲得精確、可重複的結果:
提示解剖(建議順序)
- 行動/目標 — 您希望模型做什麼 do(例如,「編輯這張自拍照以創建專業的頭像」或「結合這兩張圖片來產生一張產品生活方式照片」)。
- 受檢者(S) ——圖片裡的人是誰或什麼?請具體說明身份、年齡、人數、物品等。
- 屬性 — 視覺特徵:服裝、臉部表情、眼睛顏色、頭髮、道具。
- 環境與照明 — 位置、時間、情緒照明、焦距、鏡頭提示(「35mm 肖像」)。
- 風格與飾面 — 攝影風格(電影風格、工作室風格、膠卷顆粒風格、超現實風格)或藝術風格(油畫風格、向量圖、漫畫風格)。
- 約束/安全 — 應避免的任何內容(無標誌、無裸體、無醫學文字)。
- 一致性標記 (可選)— 您可以重複使用的短語,以便在多個提示中保持字元辨識(例如,「使用『Luna 圍巾』字元參考」)。
角色一致性的提示(實用步驟)
- 使用“參考短語”:在每個提示中包含一個與主題相關的簡短且獨特的短語(例如,「角色標記:『Maya-blue-jacket』」)。如果重複使用此短語,模型將更可靠地將編輯連結到同一個角色。
- 包含錨定細節:指定獨特的、不變的特徵(例如,「左眉毛疤痕、右臉頰上的綠色胎記」),以便模型具有固定的錨點來維持。
- 盡可能保持姿勢和取景:如果您想要真正的連續性,請保持攝影機角度/姿勢描述在提示中相似。
- 從相同的原始影像開始:在編輯工作流程中,請務必提供與錨點相同的來源影像。當必須更改照片時,請將原始影像作為額外輸入,並解釋轉換過程。
常見的故障模式有哪些?如何修復它們?
失敗:身份漂移(主體看起來不一樣)
原因: 該模型過度概括了所要求的風格或誤解了約束。
修正: 新增明確的「保留」子句,附加原始影像作為參考,或以較小的步驟執行編輯並驗證中間輸出。
失敗:道具或手不一致
原因: 手和小配件對於許多形像模特兒來說歷來都是棘手的。
修正: 包括微約束(「保留右手腕上的手錶」),為小物件提供詳細的特寫參考,或運行僅關注有問題的元素的最終有針對性的校正步驟。
失敗:燈光或陰影看起來不自然
原因: 較大的編輯(背景交換或主要重新照明)可能會造成不匹配。
修正: 要求模型匹配“來自左上角的定向光,柔和陰影”或提供所需的照明參考影像。
結論
Nano-Banana(Gemini 2.5 Flash Image)在消費性影像編輯和生成方面取得了顯著進展:快速、一致,並與 Google 的 Gemini 生態系統和安全工具整合。最佳結果來自 清晰、以任務為中心的提示在需要身分一致性時提供明確的儲存說明,以及將快速預覽與最終渲染分開的分階段工作流程。隨著模型和生態系統的發展,快速工程師應持續測試、記錄結果,並建立面向使用者的控件,使編輯過程透明且可逆。


