如何透過 API 使用 Nano Banana? (Gemini-2-5-flash-image)

CometAPI
AnnaDec 10, 2025
如何透過 API 使用 Nano Banana? (Gemini-2-5-flash-image)

Nano Banana 是 Google 的社群暱稱(也是內部簡稱) Gemini 2.5 Flash 影像 ——一個高品質、低延遲的多模態影像生成 + 編輯模型。本指南(包含程式碼、模式、部署步驟和 CometAPI 範例)展示了三種可在生產環境中使用的實用呼叫方法:(1) 與 OpenAI 相容的聊天介面(文字→圖像),(2) Google 官方 generateContent 文字→圖像介面,以及(3)Google 官方 generateContent 使用 Base64 輸入/輸出的影像→影像介面。在此過程中,您將獲得逐步分發/部署建議、環境設定、如何從 CometAPI 取得 API 操作、定價和浮水印說明,以及獲得可靠、經濟高效結果的最佳技巧。

什麼是 Nano Banana(Gemini 2.5 Flash 圖片)?

Nano Banana 是 Gemini 2.5 Flash Image 的非正式名稱,它是 Google Gemini 系列中最新的圖像模型。它專為照片級逼真的圖像生成和精準的圖像編輯(本地編輯、多圖像融合、跨編輯的字符一致性保留)而設計,可透過 Google 的 Gemini API、Google AI Studio 和 Vertex AI 使用。模型隨附一個不可見的 SynthID 浮水印,方便用戶識別來源。

為什麼這對開發人員很重要:Nano Banana 為您提供單一、高品質的多模式模型,可以處理:

  • 文字 → 圖片 (根據文字提示建立新圖像)
  • 影像 → 影像 (編輯/轉換提供的照片)
  • 多影像融合 (將多張圖片合成一張)
    所有這些都可以透過 Google 官方 generateContent 您可以透過 Vertex AI / Gemini API 端點或 CometAPI 和 OpenRouter 等第三方 API 閘道提供的 OpenAI 相容端點進行整合。這意味著您可以將 Gemini 2.5 Flash Image 整合到現有的 OpenAI 相容程式碼庫中,或直接呼叫 Google 官方 SDK。

它的優勢

  • 有針對性的局部編輯(更改襯衫顏色、移除物件、調整姿勢)。
  • 重新編輯時保持主題/角色的一致性。
  • 將多幅影像混合/合併為一個連貫的合成影像。
  • 與較重的研究模型相比,延遲較低且推理成本較低(Google將「Flash」模型定位為高吞吐量選項)。

我應該如何設定我的開發環境以透過 API 呼叫 Nano Banana?

以下是一步一步的檢查清單,您可以將其作為稍後描述的三種呼叫方法的基準。

先決條件(帳戶、金鑰、配額)

  1. Google 帳戶 + 雲端項目 如果您打算透過 Google 直接呼叫 Gemini(Gemini API / Vertex AI),請建立 Google Cloud 專案並啟用 Vertex AI / Gemini API。您需要計費和適當的角色(例如, Vertex AI Admin or Service Account 具有推理權)。
  2. Gemini API 訪問 — 一些 Gemini 圖像模型處於預覽/有限可用性狀態;您可能需要根據您的帳戶透過 Google AI Studio 或 Vertex AI 請求存取或使用該模型。
  3. CometAPI(可選網關) 如果您希望使用與供應商無關的 API 來代理不同的模型(包括 Gemini),請在 CometAPI 上註冊以獲取 API 金鑰並查看其模型清單(他們公開了 Gemini 2.5 Flash 變體和與 OpenAI 相容的端點)。 CometAPI 可以簡化開發,讓您無需更改應用程式碼即可切換供應商。

本地工具

  • 語言運行時:建議使用 Node.js 18+、Python 3.10+。
  • HTTP 用戶端: fetch/axios 對於 JS; requests/httpx 適用於 Python(或官方 SDK)。
  • 影像助手: Pillow (Python)或 sharp (節點)用於調整大小、格式轉換和 Base64 編碼/解碼。
  • 安全性:將金鑰儲存在環境變數或金鑰庫(HashiCorp Vault、AWS Secrets Manager、Google Secret Manager)中。切勿提交 API 金鑰。

安裝 Google/相容 SDK(選購)

Google 提供 SDK 和 openai 庫相容性墊片-您可以透過修改幾行程式碼(基本 URL + API 金鑰)來使用 OpenAI 用戶端程式庫來相容 Gemini,但為了獲得完整的多模態功能,建議使用原生的 Gemini/Google 用戶端。如果您使用 CometAPI 或相容 OpenAI 的網關,使用 OpenAI 用戶端可以加快開發速度,例如:

Google官方路線(Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

CometAPI / OpenAI 相容客戶端(Python):

pip install openai requests

Nano Banana 的三種通話方式該如何選擇?

選擇呼叫方法取決於您的架構、延遲/成本要求,以及您是否希望依賴 Google 官方端點或第三方 OpenAI 相容網關。三種常見模式如下:

1)相容OpenAI的聊天介面(文字轉圖像)

如果您已經擁有 OpenAI 風格的程式碼或 SDK,並且希望以最小的變更切換模型,請使用此選項。許多網關(CometAPI、OpenRouter)將 Gemini 模型暴露在與 OpenAI 相容的 REST 介面下,因此您現有的 chat or completions 通話工作方式不同 base_url 和型號名稱。如果您不想管理 Google Cloud 驗證,這通常是最快的生產路徑。

2)雙子座官方 generateContent — 文字轉圖像

使用谷歌官方 generateContent 通過 genai 如果您想要官方且完全支援的 SDK 並存取最新功能(細粒度的生成參數、串流、用於大型資源的檔案 API),以及 Google Cloud 計費/監控,請選擇 (Google) 用戶端或 Vertex AI。如果您需要生產支援和企業級控制,建議使用此選項。

3)雙子座官方 generateContent — 影像到影像(Base64 輸入/輸出)

當您必須以內聯方式提交二進位影像(Base64)或需要影像編輯/影像到影像管道時,請使用此選項。 Google 的 generateContent 支援內聯 (base64) 圖片和用於較大或可重複使用資源的檔案 API。產生/編輯圖片的回應通常以 Base64 字串形式傳回,您可以對其進行解碼和儲存。這提供了最清晰的多模態控制。

如何透過與 OpenAI 相容的聊天介面(文字到圖像)呼叫 Nano Banana?

OpenAI 相容的聊天端點接受一系列 {role, content} 訊息;您可以在使用者訊息中描述所需的映像,網關(CometAPI 或 OpenAI 相容 shim)會將其轉換為對底層 Gemini 模型的呼叫。如果您的應用程式已經使用聊天流程,或者您希望在一次互動中結合文字生成和圖像生成,這將非常方便。

步驟

1.註冊 CometAPI 並取得 API 金鑰:在 CometAPI 註冊,建立項目,複製 API 金鑰。 CometAPI 提供單一平台下的多種模型 base_url.()

  1. 安裝與 OpenAI 相容的客戶端: Python: pip install openai 或使用較新的 openai/OpenAI 許多網關使用的 SDK 包裝器。

  2. 將 SDK 指向 CometAPI 並呼叫聊天完成端點:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

注意:

  1. stream 必須為 true;回應將以流的形式傳回;

  2. 回應結構由 CometAPI 包裝以實現 OpenAI 相容性。

  3. 回應中包含一張Base64圖片,根據需要解碼並保存在客戶端:

如何使用 Gemini 官方呼叫 Nano Banana generateContent 文字到圖像的介面?

Google 提供了 Gemini 開發者 API (Gemini API),並透過以下方式公開 Gemini 模型 頂點人工智能。為了以受支援的方式編程存取 Gemini 2.5 Flash 影像(Nano Banana),官方 generateContent 方法是純文字或多模態產生的規範入口點。使用 Google 的 GenAI SDK (Python: google-genai)或直接調用 REST 端點。它可以直接存取模型的參數和模態,並且是呼叫 Google 端點時使用進階功能(精確編輯、多影像融合)的建議方式。

1.使用谷歌的 GenAI SDK (Python: google-genai)

分發/調用步驟(概述):

  1. 取得 API 金鑰 從 Google AI Studio 或設定 Vertex AI 服務帳戶(取決於平台)。
  2. 安裝SDK (pip install --upgrade google-genai) 並進行身份驗證(API 金鑰或 Google 應用程式預設憑證)。
  3. 選擇 模型: gemini-2.5-flash-image 或文件中顯示的預覽 slug(具體 slug 取決於 GA/預覽狀態)。
  4. 電話: client.models.generate_content(...) 帶有純文字提示(文字到圖像)。
  5. 解碼 返回圖像(如果返回的是 Base64)並保存/儲存。

Python(官方客戶端)範例-文字→圖像:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(注意:請檢查官方客戶端 API 以取得準確的參數名稱 - 上述範例遵循 Google 文件中的模式。)

2。 呼叫 奈米香蕉 透過 REST 端點

EST 端點(文字轉圖像範例): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

身份驗證選項:提供標頭 x-goog-api-key: $CometAPI_API_KEY.(在 CometAPI 中建立一個金鑰。)

這將發布一個文字提示並保存返回的 base64 圖像:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

注意:映像二進位檔案以 base64 形式傳回 candidates.content.parts.inline_data.data. 上面的例子使用 jq 選擇內聯資料並進行解碼。官方文件展示了相同的流程。

如何使用 Gemini 官方呼叫 Nano Banana generateContent 影像到影像介面(Base64 輸入/輸出)?

什麼時候應該使用影像到影像(base64 輸入/輸出)?

當您需要執行以下操作時,請使用圖像到圖像:

  • 編輯現有照片(修復、風格轉換、物件替換)。
  • 將多個來源影像組合成一個合成影像。
  • 在編輯過程中保留主題的身份(Nano Banana 的優勢之一)。

雙子座 generateContent 支援透過 Base64(或檔案 URI)編碼的內聯圖像數據,並將生成或編輯後的圖像傳回為 Base64 字串。文件中提供了提供以下功能的詳細範例: inline_data - mime_type data.

分發/調用步驟(圖像到圖像)

  1. Prepare 輸入影像:讀取檔案位元組、Base64 編碼或透過 SDK 助手傳遞原始位元組。
  2. 建設 a contents 數組,其中一部分是內聯圖像(帶有 mimeType data) 及後續部分包含文字編輯說明。
  3. 解決方案&帖子generateContent (官方 SDK 或 REST)。
  4. 接收 回應:API 傳回已產生/編輯的映像(已編碼為 Base64 字串)。請進行解碼並保存在本地。

範例 — Python(透過 GenAI SDK 使用內聯位元組進行圖像到圖像)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

Python 範例:透過靜止點使用 Base64 實現映像→影像

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

如果你想使用 CometAPI rest 連接埠存取它:

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

內嵌:讀取圖片並進行 base64 編碼。重複使用或超過 20MB 時,請透過 File API 上傳,並在 generateContent.最適合需要輸入圖像和文字編輯說明的精確編輯和工作流程。

使用 Nano Banana 的最佳技巧是什麼?

及時工程與控制

  1. 明確:包括所需的寬高比、風格參考(如果允許,請僅提供藝術家姓名)、相機鏡頭、燈光和構圖。例如, “照片般逼真、3:2、淺景深、黃金時段、尼康 50 毫米鏡頭。”
  2. 使用連續編輯:相較於一次性完成的大型提示,我們更傾向於多次進行較小的局部編輯——這可以保持主題的一致性。 Nano Banana 的優勢在於迭代編輯。

影像衛生

  • 預處理輸入:標準化色彩空間,如果需要隱私則刪除嵌入的 EXIF,縮放到合理的解析度以保存令牌。
  • 後製輸出:執行人臉偵測,透過輕量級過濾器(Pillow / sharp)清理細微偽影,然後返回給使用者。

安全、合規和內容政策

  • 在儲存/提供影像之前實施自動內容安全檢查(Vision 審核模型或黑名單檢查)。
  • 如果上傳人物圖像,請遵守適用的隱私權法(GDPR/CCPA)並獲得必要的同意。
  • 在提示受版權保護的角色或現有藝術作品時,請尊重模型使用政策和版權規則。

結束語

Nano Banana (Gemini 2.5 Flash Image) 代表了多模態影像生成和編輯的實用、高保真步驟:它旨在實現跨編輯的一致性和更豐富的多模態推理。 Nano Banana (Gemini 2.5 Flash Image) 是圖像生成/編輯中的重要一步 - 為多步驟編輯和多個整合介面(OpenAI 相容網關,如 CometAPI 和 Google 的 generateContent API)。為了加快採用速度,像 CometAPI 這樣的網關可讓您重複使用 OpenAI 風格的程式碼。始終對回應進行健全性檢查,遵守內容策略和來源特性 (SynthID),並在迭代期間監控成本。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 Gemini 2.5 Flash 影像(奈米香蕉彗星API列表 gemini-2.5-flash-image-preview/gemini-2.5-flash-image 在其目錄中新增樣式條目。 )透過 CometAPI,列出的最新模型版本截至本文發布之日。首先,探索模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣