Nano Banana 是 Google 的社群暱稱(也是內部簡稱) Gemini 2.5 Flash 影像 ——一個高品質、低延遲的多模態影像生成 + 編輯模型。本指南(包含程式碼、模式、部署步驟和 CometAPI 範例)展示了三種可在生產環境中使用的實用呼叫方法:(1) 與 OpenAI 相容的聊天介面(文字→圖像),(2) Google 官方 generateContent 文字→圖像介面,以及(3)Google 官方 generateContent 使用 Base64 輸入/輸出的影像→影像介面。在此過程中,您將獲得逐步分發/部署建議、環境設定、如何從 CometAPI 取得 API 操作、定價和浮水印說明,以及獲得可靠、經濟高效結果的最佳技巧。
什麼是 Nano Banana(Gemini 2.5 Flash 圖片)?
Nano Banana 是 Gemini 2.5 Flash Image 的非正式名稱,它是 Google Gemini 系列中最新的圖像模型。它專為照片級逼真的圖像生成和精準的圖像編輯(本地編輯、多圖像融合、跨編輯的字符一致性保留)而設計,可透過 Google 的 Gemini API、Google AI Studio 和 Vertex AI 使用。模型隨附一個不可見的 SynthID 浮水印,方便用戶識別來源。
為什麼這對開發人員很重要:Nano Banana 為您提供單一、高品質的多模式模型,可以處理:
- 文字 → 圖片 (根據文字提示建立新圖像)
- 影像 → 影像 (編輯/轉換提供的照片)
- 多影像融合 (將多張圖片合成一張)
所有這些都可以透過 Google 官方generateContent您可以透過 Vertex AI / Gemini API 端點或 CometAPI 和 OpenRouter 等第三方 API 閘道提供的 OpenAI 相容端點進行整合。這意味著您可以將 Gemini 2.5 Flash Image 整合到現有的 OpenAI 相容程式碼庫中,或直接呼叫 Google 官方 SDK。
它的優勢
- 有針對性的局部編輯(更改襯衫顏色、移除物件、調整姿勢)。
- 重新編輯時保持主題/角色的一致性。
- 將多幅影像混合/合併為一個連貫的合成影像。
- 與較重的研究模型相比,延遲較低且推理成本較低(Google將「Flash」模型定位為高吞吐量選項)。
我應該如何設定我的開發環境以透過 API 呼叫 Nano Banana?
以下是一步一步的檢查清單,您可以將其作為稍後描述的三種呼叫方法的基準。
先決條件(帳戶、金鑰、配額)
- Google 帳戶 + 雲端項目 如果您打算透過 Google 直接呼叫 Gemini(Gemini API / Vertex AI),請建立 Google Cloud 專案並啟用 Vertex AI / Gemini API。您需要計費和適當的角色(例如,
Vertex AI AdminorService Account具有推理權)。 - Gemini API 訪問 — 一些 Gemini 圖像模型處於預覽/有限可用性狀態;您可能需要根據您的帳戶透過 Google AI Studio 或 Vertex AI 請求存取或使用該模型。
- CometAPI(可選網關) 如果您希望使用與供應商無關的 API 來代理不同的模型(包括 Gemini),請在 CometAPI 上註冊以獲取 API 金鑰並查看其模型清單(他們公開了 Gemini 2.5 Flash 變體和與 OpenAI 相容的端點)。 CometAPI 可以簡化開發,讓您無需更改應用程式碼即可切換供應商。
本地工具
- 語言運行時:建議使用 Node.js 18+、Python 3.10+。
- HTTP 用戶端:
fetch/axios對於 JS;requests/httpx適用於 Python(或官方 SDK)。 - 影像助手:
Pillow(Python)或sharp(節點)用於調整大小、格式轉換和 Base64 編碼/解碼。 - 安全性:將金鑰儲存在環境變數或金鑰庫(HashiCorp Vault、AWS Secrets Manager、Google Secret Manager)中。切勿提交 API 金鑰。
安裝 Google/相容 SDK(選購)
Google 提供 SDK 和 openai 庫相容性墊片-您可以透過修改幾行程式碼(基本 URL + API 金鑰)來使用 OpenAI 用戶端程式庫來相容 Gemini,但為了獲得完整的多模態功能,建議使用原生的 Gemini/Google 用戶端。如果您使用 CometAPI 或相容 OpenAI 的網關,使用 OpenAI 用戶端可以加快開發速度,例如:
Google官方路線(Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
CometAPI / OpenAI 相容客戶端(Python):
pip install openai requests
Nano Banana 的三種通話方式該如何選擇?
選擇呼叫方法取決於您的架構、延遲/成本要求,以及您是否希望依賴 Google 官方端點或第三方 OpenAI 相容網關。三種常見模式如下:
1)相容OpenAI的聊天介面(文字轉圖像)
如果您已經擁有 OpenAI 風格的程式碼或 SDK,並且希望以最小的變更切換模型,請使用此選項。許多網關(CometAPI、OpenRouter)將 Gemini 模型暴露在與 OpenAI 相容的 REST 介面下,因此您現有的 chat or completions 通話工作方式不同 base_url 和型號名稱。如果您不想管理 Google Cloud 驗證,這通常是最快的生產路徑。
2)雙子座官方 generateContent — 文字轉圖像
使用谷歌官方 generateContent 通過 genai 如果您想要官方且完全支援的 SDK 並存取最新功能(細粒度的生成參數、串流、用於大型資源的檔案 API),以及 Google Cloud 計費/監控,請選擇 (Google) 用戶端或 Vertex AI。如果您需要生產支援和企業級控制,建議使用此選項。
3)雙子座官方 generateContent — 影像到影像(Base64 輸入/輸出)
當您必須以內聯方式提交二進位影像(Base64)或需要影像編輯/影像到影像管道時,請使用此選項。 Google 的 generateContent 支援內聯 (base64) 圖片和用於較大或可重複使用資源的檔案 API。產生/編輯圖片的回應通常以 Base64 字串形式傳回,您可以對其進行解碼和儲存。這提供了最清晰的多模態控制。
如何透過與 OpenAI 相容的聊天介面(文字到圖像)呼叫 Nano Banana?
OpenAI 相容的聊天端點接受一系列 {role, content} 訊息;您可以在使用者訊息中描述所需的映像,網關(CometAPI 或 OpenAI 相容 shim)會將其轉換為對底層 Gemini 模型的呼叫。如果您的應用程式已經使用聊天流程,或者您希望在一次互動中結合文字生成和圖像生成,這將非常方便。
步驟
1.註冊 CometAPI 並取得 API 金鑰:在 CometAPI 註冊,建立項目,複製 API 金鑰。 CometAPI 提供單一平台下的多種模型 base_url.()
-
安裝與 OpenAI 相容的客戶端: Python:
pip install openai或使用較新的openai/OpenAI許多網關使用的 SDK 包裝器。 -
將 SDK 指向 CometAPI 並呼叫聊天完成端點:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
注意:
-
stream 必須為 true;回應將以流的形式傳回;
-
回應結構由 CometAPI 包裝以實現 OpenAI 相容性。
-
回應中包含一張Base64圖片,根據需要解碼並保存在客戶端:
如何使用 Gemini 官方呼叫 Nano Banana generateContent 文字到圖像的介面?
Google 提供了 Gemini 開發者 API (Gemini API),並透過以下方式公開 Gemini 模型 頂點人工智能。為了以受支援的方式編程存取 Gemini 2.5 Flash 影像(Nano Banana),官方 generateContent 方法是純文字或多模態產生的規範入口點。使用 Google 的 GenAI SDK (Python: google-genai)或直接調用 REST 端點。它可以直接存取模型的參數和模態,並且是呼叫 Google 端點時使用進階功能(精確編輯、多影像融合)的建議方式。
1.使用谷歌的 GenAI SDK (Python: google-genai)
分發/調用步驟(概述):
- 取得 API 金鑰 從 Google AI Studio 或設定 Vertex AI 服務帳戶(取決於平台)。
- 安裝SDK (
pip install --upgrade google-genai) 並進行身份驗證(API 金鑰或 Google 應用程式預設憑證)。 - 選擇 模型:
gemini-2.5-flash-image或文件中顯示的預覽 slug(具體 slug 取決於 GA/預覽狀態)。 - 電話:
client.models.generate_content(...)帶有純文字提示(文字到圖像)。 - 解碼 返回圖像(如果返回的是 Base64)並保存/儲存。
Python(官方客戶端)範例-文字→圖像:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(注意:請檢查官方客戶端 API 以取得準確的參數名稱 - 上述範例遵循 Google 文件中的模式。)
2。 呼叫 奈米香蕉 透過 REST 端點
EST 端點(文字轉圖像範例): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
身份驗證選項:提供標頭 x-goog-api-key: $CometAPI_API_KEY.(在 CometAPI 中建立一個金鑰。)
這將發布一個文字提示並保存返回的 base64 圖像:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
注意:映像二進位檔案以 base64 形式傳回
candidates.content.parts.inline_data.data. 上面的例子使用jq選擇內聯資料並進行解碼。官方文件展示了相同的流程。
如何使用 Gemini 官方呼叫 Nano Banana generateContent 影像到影像介面(Base64 輸入/輸出)?
什麼時候應該使用影像到影像(base64 輸入/輸出)?
當您需要執行以下操作時,請使用圖像到圖像:
- 編輯現有照片(修復、風格轉換、物件替換)。
- 將多個來源影像組合成一個合成影像。
- 在編輯過程中保留主題的身份(Nano Banana 的優勢之一)。
雙子座 generateContent 支援透過 Base64(或檔案 URI)編碼的內聯圖像數據,並將生成或編輯後的圖像傳回為 Base64 字串。文件中提供了提供以下功能的詳細範例: inline_data - mime_type data.
分發/調用步驟(圖像到圖像)
- Prepare 輸入影像:讀取檔案位元組、Base64 編碼或透過 SDK 助手傳遞原始位元組。
- 建設 a
contents數組,其中一部分是內聯圖像(帶有mimeTypedata) 及後續部分包含文字編輯說明。 - 解決方案&帖子 至
generateContent(官方 SDK 或 REST)。 - 接收 回應:API 傳回已產生/編輯的映像(已編碼為 Base64 字串)。請進行解碼並保存在本地。
範例 — Python(透過 GenAI SDK 使用內聯位元組進行圖像到圖像)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Python 範例:透過靜止點使用 Base64 實現映像→影像
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
如果你想使用 CometAPI rest 連接埠存取它:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
內嵌:讀取圖片並進行 base64 編碼。重複使用或超過 20MB 時,請透過 File API 上傳,並在
generateContent.最適合需要輸入圖像和文字編輯說明的精確編輯和工作流程。
使用 Nano Banana 的最佳技巧是什麼?
及時工程與控制
- 明確:包括所需的寬高比、風格參考(如果允許,請僅提供藝術家姓名)、相機鏡頭、燈光和構圖。例如, “照片般逼真、3:2、淺景深、黃金時段、尼康 50 毫米鏡頭。”
- 使用連續編輯:相較於一次性完成的大型提示,我們更傾向於多次進行較小的局部編輯——這可以保持主題的一致性。 Nano Banana 的優勢在於迭代編輯。
影像衛生
- 預處理輸入:標準化色彩空間,如果需要隱私則刪除嵌入的 EXIF,縮放到合理的解析度以保存令牌。
- 後製輸出:執行人臉偵測,透過輕量級過濾器(Pillow / sharp)清理細微偽影,然後返回給使用者。
安全、合規和內容政策
- 在儲存/提供影像之前實施自動內容安全檢查(Vision 審核模型或黑名單檢查)。
- 如果上傳人物圖像,請遵守適用的隱私權法(GDPR/CCPA)並獲得必要的同意。
- 在提示受版權保護的角色或現有藝術作品時,請尊重模型使用政策和版權規則。
結束語
Nano Banana (Gemini 2.5 Flash Image) 代表了多模態影像生成和編輯的實用、高保真步驟:它旨在實現跨編輯的一致性和更豐富的多模態推理。 Nano Banana (Gemini 2.5 Flash Image) 是圖像生成/編輯中的重要一步 - 為多步驟編輯和多個整合介面(OpenAI 相容網關,如 CometAPI 和 Google 的 generateContent API)。為了加快採用速度,像 CometAPI 這樣的網關可讓您重複使用 OpenAI 風格的程式碼。始終對回應進行健全性檢查,遵守內容策略和來源特性 (SynthID),並在迭代期間監控成本。
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
開發人員可以訪問 Gemini 2.5 Flash 影像(奈米香蕉彗星API列表 gemini-2.5-flash-image-preview/gemini-2.5-flash-image 在其目錄中新增樣式條目。 )透過 CometAPI,列出的最新模型版本截至本文發布之日。首先,探索模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。



