如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

CometAPI
AnnaNov 20, 2025
如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

Nano Banana Pro —— 官方名稱為 Gemini 3 Pro Image —— 是 Google/DeepMind 推出的全新工作室級影像生成與編輯模型,結合了進階多模態推理、高保真文字渲染、多圖像合成,以及工作室級創意控制。

什麼是 Nano Banana Pro,為什麼你該關注它?

Nano Banana Pro 是 Google 最新的影像生成與影像編輯模型——也就是 “Gemini 3 Pro Image” 版本——旨在生成具備高保真、上下文感知能力的影像與影像內文字,並可提供最高達 4K 的工作室級品質。它是早期 Nano Banana 模型(Gemini 2.5 Flash Image / “Nano Banana”)的後繼版本,在推理能力、Search grounding(真實世界事實)、文字渲染,以及更強大的局部編輯控制方面都有所提升。該模型可在 Gemini app 中供互動式使用者使用,而你也可以透過標準 Gemini API 存取 Nano Banana Pro,但需要選擇特定模型識別碼(gemini-3-pro-image-preview 或其穩定後繼版本)以進行程式化存取。

這之所以重要,是因為 Nano Banana Pro 不只是用來製作漂亮圖片,而是能夠 將資訊視覺化 ——資訊圖表、資料驅動的快照(天氣、體育)、文字密集型海報、產品 mockup,以及多圖融合(最多可輸入 14 張圖片,且可在最多 5 人之間保持角色一致性)。對設計師、產品團隊與開發者而言,這種準確性、影像內文字能力與程式化存取的組合,開啟了以往難以自動化的生產流程。

API 透過哪些功能對外提供?

對開發者開放的典型 API 能力包括:

  • 文字 → 圖像生成(單步或多步「思考型」合成流程)。
  • 影像編輯(局部遮罩、inpainting、風格調整)。
  • 多圖融合(結合參考圖片)。
  • 進階請求控制:解析度、長寬比、後處理步驟,以及用於除錯/檢視的「composition thought」追蹤(在預覽模式中提供)。

Nano Banana Pro 的核心創新與功能

更聰明的內容推理

使用 Gemini 3 Pro 的推理堆疊來理解複雜、多步驟的視覺指令(例如:「根據這份資料集建立一個 5 步驟資訊圖表,並加上雙語說明」)。API 暴露了一種 “Thinking” 機制,可產生中間合成測試,以精煉最終輸出。

為什麼重要: 與其單次將 prompt 對應到像素,該模型會執行內部的「思考」過程來精煉構圖,並可呼叫外部工具(例如 Google Search)以進行事實 grounding(例如正確的圖表標籤或符合地區的標誌)。這使生成的影像不只是更美觀,對於資訊圖表、示意圖或產品 mockup 等任務而言,在語義上也更加正確。

如何實現: Nano Banana Pro 的 “Thinking” 是一種受控的內部推理/構圖流程,模型會在生成最終影像前先產生中間視覺結果與推理軌跡。API 對外顯示,模型最多可能建立兩個中間畫面,而最終影像是該鏈條中的最後階段。在生產環境中,這有助於構圖、文字擺放與版面決策。

更準確的文字渲染

顯著提升了影像中清晰、可辨識且本地化的文字呈現能力(如菜單、海報、圖表)。Nano Banana Pro 在影像文字渲染方面達到新高度:

  • 圖像中的文字清晰、可讀,且拼寫準確;
  • 支援多語言生成(包括中文、日文、韓文、阿拉伯文等);
  • 允許使用者直接在圖像中寫入長段落或多行描述性文字;
  • 提供自動翻譯與本地化功能。

為什麼重要: 傳統影像模型往往難以渲染可讀、對齊良好的文字。Nano Banana Pro 明確針對可靠的文字渲染與本地化(例如翻譯並保留版面)進行最佳化,這解鎖了海報、包裝或多語廣告等真正的創意應用場景。

如何實現: 文字渲染能力的提升來自底層多模態架構,以及在強調圖像中文字範例的資料集上進行訓練,並結合針對性的評估集(人工評估與回歸測試集)。模型學會對齊字形、字體與版面約束,以在影像中生成清晰可讀且本地化的文字——不過,小字與極度密集的段落仍可能出現錯誤。

更強的視覺一致性與保真度

工作室控制項(光線、對焦、鏡頭角度、色彩分級)以及多圖合成(最多 14 張參考圖,並對多位人物主體提供特殊支援)有助於在生成資產中保留角色一致性(在多次編輯中保持同一人/角色)與品牌識別。該模型支援原生 1K/2K/4K 輸出。

為什麼重要: 行銷與娛樂工作流程需要角色在不同鏡頭與編輯中的一致性。該模型可針對最多 人保持相似性,並將最多 14 張參考圖融合為單一構圖,同時產出從 Sketch → 3D Render 的結果。這對廣告創意、包裝或多鏡頭敘事都非常實用。

如何實現: 模型輸入可接受多張圖片,並帶有明確角色分配(例如:「Image A:姿勢」、「Image B:臉部參考」、「Image C:背景材質」)。其架構會以這些圖片作為生成條件,以在套用轉換(光線、鏡頭)時維持身分/姿勢/風格。

Nano Banana Pro 的效能基準

Nano Banana Pro(Gemini 3 Pro Image)「在 Text→Image AI 基準測試中表現出色」,並展現出相較於早期 Nano Banana 模型更佳的推理能力與上下文 grounding。它也強調相較於先前版本具有更高的保真度與更優秀的文字渲染能力。

如何使用 Nano Banana Pro(Gemini 3 Pro Image)API?

實用效能建議

與 1K 或針對速度最佳化的 “Flash” 模型相比,2K/4K 高保真渲染預期會有更高延遲與更高成本。若吞吐量/延遲至關重要,請對高流量場景使用 flash 變體(例如 Gemini 2.5 Flash / Nano Banana);若要追求品質與複雜推理任務,則使用 Nano Banana Pro / gemini-3-pro-image。

開發者如何存取 Nano Banana Pro?

應該選擇哪些端點與模型

模型識別碼(preview / pro): gemini-3-pro-image-preview(預覽版)——當你需要 Nano Banana Pro 能力時請使用此模型。若是追求更快、更低成本的工作流程,gemini-2.5-flash-image(Nano Banana)仍可使用。

可使用的平台

  • Gemini API(generativelanguage endpoint): 你可以使用 CometAPI key 存取 xx。CometAPI 提供與官方網站相同的 API,但價格更優惠。可直接透過 HTTP / SDK 呼叫 generateContent 來進行影像生成(範例如下)。
  • Google AI Studio: 用於快速實驗與 remix demo app 的 Web 介面。
  • Vertex AI(企業版): 提供保證吞吐量、不同計費選項(隨用隨付 / 企業方案),以及適用於大規模生產的安全過濾器。當你要整合進大型流程或批次渲染工作時,請使用 Vertex。

免費方案有使用量限制;超出限制後將回退為 Nano Banana。Plus/Pro/Ultra 方案提供更高額度與無浮水印輸出,而 Ultra 還可在 Flow video tools 與 Antigravity IDE 中以 4K 模式使用。

我該如何使用 Nano Banana Pro 生成圖片(逐步說明)?

1) 使用 Gemini app 的快速互動式操作方式

  1. 開啟 Gemini → Tools → Create images
  2. 選擇 Thinking (Nano Banana Pro) 作為模型。
  3. 輸入 prompt:說明主體、動作、氛圍、光線、鏡頭、長寬比,以及任何要顯示在圖像中的文字。例如:
    「建立一張 4K 機器人工作坊海報:多元團隊圍繞桌子、疊加藍圖、以無襯線字體加入醒目標題『Robots in Action』、暖色鎢絲燈光、淺景深、電影感 16:9。」
  4. (可選)上傳最多 14 張圖片用於融合或作為參考。使用選取/遮罩工具進行局部編輯。
  5. 生成後,可透過自然語言迭代(例如:「把標題改成藍色並置中對齊到頂部;提高藍圖的對比度」),然後匯出。

2) 使用 HTTP 傳送至 Gemini 影像端點

你需要登入 CometAPI 以取得金鑰。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

此範例會將 base64 圖像負載寫入 PNG 檔案。generationConfig.imageConfig.resolution 參數用來請求 4K 輸出(適用於 3 Pro Image 模型)。

3) 直接使用 SDK 呼叫 generateContent 進行影像生成

需要先安裝 Google SDK 並取得 Google 驗證。Python 範例(文字 + 參考圖片 + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

此範例展示了如何上傳內嵌參考圖像,並在啟用 google_search 作為工具的情況下請求 4K 構圖。Python SDK 會處理底層 REST 細節。

多圖融合與角色一致性

若要產生在多個場景中保持同一人物的合成圖,請傳入多個 inline_data parts(從你的照片集中選取),並在創意指令中明確指定模型應「preserve identity across outputs」。

簡短實用範例——真實 prompt 與預期流程

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

預期流程: app → prompt 範本 + CSV 資料 → 以資料取代 prompt 中的占位符 → 使用 image_size=2048x1152 發起 API 呼叫 → 接收 base64 PNG → 儲存資產 + provenance metadata → 如有需要,可再透過 compositor 疊加精確字型。

我該如何設計生產流程並處理安全性 / provenance?

建議的生產架構

  1. Prompt + 草稿階段(快速模型): 使用 gemini-2.5-flash-image(Nano Banana)以低成本產生大量小解析度變體。
  2. 挑選與精修: 選出最佳候選,精煉 prompts,並套用 inpainting/遮罩編輯以提升精確度。
  3. 高保真最終渲染: 呼叫 gemini-3-pro-image-preview(Nano Banana Pro)進行最終 2K/4K 渲染與後處理(升頻、色彩分級)。
  4. Provenance 與中繼資料: 在你的資產中繼資料儲存系統中保存 prompt、模型版本、時間戳,以及 SynthID 資訊——該模型會附加 SynthID 浮水印,且輸出可回溯,便於合規與內容稽核。

安全、權利與審核

  • 版權與權利清理: 不要上傳或生成侵犯權利的內容。對於使用者提供的圖像或可能建立可辨識肖像的 prompts,請要求明確的使用者確認。必須遵守 Google 的 Prohibited Use Policy 與模型安全過濾規則。
  • 過濾與自動檢查: 在下游使用或公開展示之前,先讓生成圖像通過內部內容審核流程(NSFW、仇恨符號、政治/約束性內容檢測)。

我要如何進行影像編輯(inpainting)、多圖合成與文字渲染?

Nano Banana Pro 支援多模態編輯工作流程:提供一張或多張輸入圖像,再搭配描述編輯內容的文字指令(移除物件、更換天空、加入文字)。API 接受在同一請求中同時包含圖像與文字;模型也可以交錯輸出文字與圖像作為回應。常見模式包括遮罩編輯與多圖融合(風格轉換 / 合成)。請參閱 contents 陣列的文件,了解如何組合文字區塊與二進位圖像。

範例:編輯(Python pseudo-flow)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

這種對話式編輯可讓你反覆調整結果,直到達到可投入生產的資產品質。

Node.js 範例——使用遮罩與多個參考圖進行影像編輯

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API 有時接受 Cloud Storage URI 或 base64 圖像負載;請查閱 Gemini API 文件以確認精確的輸入格式。)

如需了解如何使用 CometAPI 進行影像生成與編輯,請參閱 Guide to calling gemini-3-pro-image

結論

Nano Banana Pro(Gemini 3 Pro Image)代表影像生成領域邁向生產級的一大躍進:它是一種能夠將資料視覺化、產生本地化編輯內容,並驅動開發者工作流程的工具。使用 Gemini app 可快速進行原型設計,使用 API 可整合進生產環境,而遵循上述建議則有助於控制成本、確保安全並維持品牌品質。請務必測試真實使用者工作流程,並儲存 provenance metadata,以滿足透明度與稽核需求。

當你需要 工作室級品質 的資產、對構圖的精準控制、影像內更優秀的文字渲染能力,以及將多個參考來源融合為一個一致輸出的能力時,就應該使用 Nano Banana Pro。

開發者可透過 CometAPI 存取 Gemini 3 Pro Image( Nano Banana Pro) API。開始之前,請先在 Playground 探索 CometAPI 的模型能力,並查閱 API guide 以獲得詳細指引。在存取之前,請務必先登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的方案,幫助你完成整合。

準備開始了嗎?→ 立即註冊 CometAPI

如果你想了解更多 AI 技巧、指南與新聞,歡迎關注我們的 VKXDiscord

以低成本 存取頂級模型

閱讀更多