如何使用 Nano Banana Pro(Gemini 3 Pro 鏡像)API?

CometAPI
AnnaDec 10, 2025
如何使用 Nano Banana Pro(Gemini 3 Pro 鏡像)API?

Nano Banana Pro—正式 Gemini 3 Pro 影像 — 是 Google/DeepMind 的全新工作室級圖像生成和編輯模型,它結合了先進的多模態推理、高保真文本渲染、多圖像合成和工作室級創意控制。

Nano Banana Pro是什麼?為什麼你應該關注它?

Nano Banana Pro 是 Google 最新的圖像生成和圖像編輯模型——“Gemini 3 Pro Image”版本——旨在生成高保真、上下文感知的圖像以及圖像上的文本,最高可達 4K 分辨率,達到工作室級品質。它是早期 Nano Banana 模型(Gemini 2.5 Flash Image / “Nano Banana”)的升級版,改進了推理能力、搜尋基礎(基於現實世界的事實)、更強大的文本渲染功能以及更強大的本地編輯控制。此模型可在 Gemini 應用中供互動式使用者使用,也可透過標準的 Gemini API 存取 Nano Banana Pro,但需要選擇特定的模型識別碼(gemini-3-pro-image-preview 或其穩定後繼版本)。用於程式化存取。

為什麼這很重要:Nano Banana Pro 的設計初衷不僅是為了製作漂亮的圖像,而且是為了 可視化信息 ——資訊圖表、數據驅動的快照(天氣、體育)、文字密集型海報、產品模型和多圖融合(最多可輸入 14 張圖像,並保持最多 5 人繪製的字符一致性)。對於設計師、產品團隊和開發人員而言,這種精準性、影像內文字和程式化存取的結合,開啟了以往難以自動化的生產工作流程。

透過 API 公開了哪些功能?

開發者可存取的典型 API 功能包括:

  • 文字 → 圖片生成 (單步或多步驟「思考」創作流程)。
  • 圖像編輯 (局部遮罩、影像修復、風格調整)。
  • 多影像融合 (合併參考影像)。
  • 進階請求控制:解析度、寬高比、後製步驟以及「構圖思路」軌跡,以便在預覽模式下進行調試/檢查。

Nano Banana Pro 的核心創新與功能

更聰明的內容推理

它利用 Gemini 3 Pro 的推理堆疊來解讀複雜的多步驟視覺指令(例如,「根據此資料集創建一個 5 步驟資訊圖表並添加雙語說明」)。該 API 提供了一個「思考」機制,可以產生階段性組合測試,以優化最終輸出。

為什麼它的事項: 該模型並非簡單地將提示資訊映射到像素,而是執行一個內部「思考」過程,優化圖像構圖,並可調用外部工具(例如Google搜尋)來獲取事實依據(例如,準確的圖表標籤或符合當地語言習慣的標牌)。這使得生成的圖像不僅更美觀,而且語義也更準確,適用於資訊圖表、示意圖或產品模型等任務。

如何實現: Nano Banana Pro 的「思考」功能是一個受控的內部推理/合成過程,模型會在生成最終影像之前產生中間視覺效果和推理軌跡。 API 公開了模型最多可以創建兩個中間幀,而最終圖像是流程的最後一個階段。在實際應用中,這有助於進行合成、文字放置和佈局決策。

更精確的文字渲染

顯著提升了圖像(菜單、海報、圖表)內文字的清晰度和在地化效果。 Nano Banana Pro 在圖像文字渲染方面達到了新的高度:

  • 圖片中的文字清晰、易讀、拼字準確;
  • 支援多語言生成(包括中文、日文、韓文、阿拉伯文等);
  • 允許使用者直接在圖像中編寫長段落或多行描述性文字;
  • 支援自動翻譯和在地化。

為什麼它的事項: 傳統圖像模型難以渲染清晰易讀、對齊良好的文字。 Nano Banana Pro 針對可靠的文字渲染和在地化(例如,翻譯並保留佈局)進行了專門優化,從而解鎖了海報、包裝或多語言廣告等真正的創意應用程式場景。

如何實現: 文字渲染效能的提升源自於底層多模態架構,以及在專注於影像中文字範例的資料集上進行的訓練,並結合了針對性的評估資料集(人工評估和迴歸資料集)。該模型學習如何對齊字形、字體和佈局約束,從而在圖像中產生清晰易讀的局部化文字——儘管小字和極其密集的段落仍然容易出錯。

更強的視覺一致性和保真度

工作室控制功能(燈光、對焦、鏡頭角度、色彩分級)和多影像合成功能(最多可添加 14 張參考影像,並針對多人物拍攝進行了特殊處理)有助於保持角色一致性(確保不同剪輯版本中人物/角色的一致性)以及品牌標識的統一性。此模型支援原生 1K/2K/4K 輸出。

為什麼它的事項: 行銷和娛樂工作流程要求在所有鏡頭和剪輯中保持角色形象的一致性。模特兒可以保持相似度長達… 人們融合在一起 14 在產生草圖→3D渲染圖的過程中,可以將參考影像合成到單一影像中。這對於廣告創意、包裝設計或多鏡頭敘事非常有用。

如何實現: 模型輸入接受多張影像,並明確指定其角色(例如,「影像 A:姿態」、「影像 B:臉部參考」、「影像 C:背景紋理」)。架構基於這些影像生成模型,在應用變換(光線、相機)的同時,保持人物的身份/姿態/風格。

Nano Banana Pro 的效能基準測試

Nano Banana Pro(Gemini 3 Pro Image)在文字轉影像的AI基準測試中表現出色,與先前的Nano Banana模型相比,其推理能力和情境理解能力均有所提升。它尤其強調更高的保真度和更佳的文字渲染效果。

如何使用 Nano Banana Pro(Gemini 3 Pro 鏡像)API?

實用性能指導

期望 更高的延遲 與 1K 或針對速度優化的「Flash」型號相比,2K/4K 高保真渲染的成本更高。如果吞吐量/延遲至關重要,則對於大量渲染,請使用 Flash 版本(例如 Gemini 2.5 Flash / Nano Banana);對於高品質和複雜的推理任務,請使用 Nano Banana Pro / gemini-3-pro-image。

開發者如何使用 Nano Banana Pro?

選擇哪些端點和模型

型號識別碼(預覽版/專業版): gemini-3-pro-image-preview (預覽)— 當您需要 Nano Banana Pro 的各項功能時,請使用此選項。為了更快、更低成本地完成工作, gemini-2.5-flash-image (納米香蕉)仍有售。

可使用的表面

  • Gemini API(產生語言端點): 您可以使用 CometAPI 金鑰存取 xx。 CometAPI 以比官方網站更優惠的價格提供相同的 API。直接透過 HTTP/SDK 呼叫存取。 generateContent 用於影像生成(示例如下)。
  • 谷歌人工智慧工作室: 用於快速實驗和重新混合演示應用​​程式的 Web 平台。
  • Vertex AI(企業版): Vertex 提供預置吞吐量、多種計費方式(按需付費/企業級套餐)以及適用於大規模生產的安全過濾器。在整合到大型管道或批次渲染作業時,Vertex 是理想之選。

免費版的使用次數有限;超出限制後將自動降級為 Nano Banana。 Plus/Pro/Ultra 版提供更高的使用次數限制和無浮水印輸出,但 Ultra 版還可以在 Flow 視訊工具和 Antigravity IDE 中以 4K 模式使用。

如何使用 Nano Banana Pro 產生影像(逐步指南)?

1) 使用 Gemini 應用程式快速互動食譜

  1. 開啟 Gemini → 工具 → 創建圖像.
  2. 選擇 思考(納米香蕉專業版) 作為模型。
  3. 輸入提示訊息:說明主體、動作、氛圍、光線、相機、寬高比以及要在影像上顯示的任何文字。例如:
    “製作一張機器人工作坊的 4K 海報:一群來自不同背景的團隊成員圍坐在桌旁,藍圖疊加,醒目的無襯線字體標題‘機器人行動’,溫暖的鎢絲燈光,淺景深,電影般的 16:9 比例。”
  4. (可選)上傳最多 14 張圖片用於融合或作為參考。使用選擇/蒙版工具進行局部編輯。
  5. 生成,使用自然語言進行迭代(例如,“將標題設為藍色並居中對齊;增加藍圖對比”),然後導出

2) 使用 HTTP 向 Gemini 映像端點傳送請求

您需要登入 CometAPI 才能取得金鑰。

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

此範例將 base64 編碼的圖像有效載荷寫入 PNG 檔案。 generationConfig.imageConfig.resolution 參數請求 4K 輸出(適用於 3 Pro Image 型號)

3) 直接呼叫 SDK generateContent 用於影像生成

需要安裝 Google SDK 並取得 Google 驗證。 Python 範例(文字 + 參考圖片 + 基礎說明):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

此範例展示如何上傳內嵌參考影像並請求 4K 合成,同時啟用 google_search 作為一種工具。 Python SDK 將處理底層 REST 細節。

多影像融合與字元一致性

為了產生一張能夠使不同場景中人物保持相同形象的合成照片,請傳遞以下訊息。 多種 inline_data (從您的照片集中選擇)部分,並指定創作指導,即模型應「在各種輸出中保持其獨特性」。

簡短的實用範例—真實的提示和預期流程

提示:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

預期管道: 應用 → 提示範本 + CSV 資料 → 取代提示中的佔位符 → API 呼叫 image_size=2048x1152 → 接收 base64 PNG → 保存資產 + 來源元資料 → 如有需要,可透過合成器選擇性地疊加精確字體。

我應該如何設計生產流程並處理安全/溯源問題?

推薦的生產架構

  1. 提示 + 草稿傳遞(快速模式): 使用 gemini-2.5-flash-image (Nano Banana)可以低成本地生產許多小分辨率變體。
  2. 篩選與精煉: 挑選最佳候選人,完善提示,應用圖像修復/蒙版編輯以提高精確度。
  3. 高保真最終渲染圖: 聯絡 gemini-3-pro-image-preview (Nano Banana Pro)用於最終的 2K/4K 渲染和後製(升頻、調色)。
  4. 來源及元資料: 將提示、模型版本、時間戳記和 SynthID 資訊儲存在資產元資料儲存中——模型會附加 SynthID 浮水印,輸出結果可以追溯到合規性和內容審核。

安全、權利和適度

  • 版權及權利許可: 請勿上傳或產生侵犯版權的內容。對於使用者提供的圖片或可能產生可識別肖像的提示訊息,請使用明確的使用者確認。必須遵守谷歌的禁止使用政策和模特兒安全過濾器。
  • 過濾和自動檢查: 在下游消費或公開展示之前,將產生的影像透過內部內容審核流程(NSFW、仇恨符號、政治/約束性內容偵測)進行處理。

如何進行影像編輯(影像修復)、多影像合成和文字渲染?

Nano Banana Pro 支援多模態編輯工作流程:提供一張或多張輸入影像以及描述編輯操作的文字指令(例如移除物件、更換天空、新增文字)。 API 接受在同一請求中同時傳入圖像和文字;該模型可以產生交錯的文字和圖像作為回應。範例模式包括蒙版編輯和多圖像混合(風格遷移/合成)。詳情請參閱文件。 contents 結合文字區塊和二值影像的陣列。

範例:編輯(Python 偽流程)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

這種對話式編輯方式可讓您重複調整結果,直到您獲得可用於生產的素材。

Node.js 範例-使用蒙版和多個引用進行影像編輯

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API有時會接受雲端儲存URI或base64映像有效負載;請查看Gemini API文件以了解確切的輸入格式。)

有關使用 CometAPI 生成和編輯圖像的信息,請參閱: 使用 gemini-3-pro-image 的指南 .

結論

Nano Banana Pro(Gemini 3 Pro Image)是一款生產級影像產生工具,它可用於資料視覺化、產生在地化編輯並增強開發人員的工作流程。使用 Gemini 應用快速建立原型,使用 API 進行生產集成,並遵循上述建議以控製成本、確保安全並維護品牌品質。始終測試真實使用者的工作流程,並儲存來源元資料以滿足透明度和稽核要求。

需要時請使用 Nano Banana Pro 工作室品質 資源、對構圖的精確控制、改進的影像內文字渲染,以及將多個參考資料整合到一個連貫的輸出中的能力。

開發人員可以訪問 Gemini 3 Pro 影像(Nano Banana Pro)API 透過 CometAPI。首先,探索模型功能。彗星API ,詳見 游乐场 並查閱 API 指南以取得詳細說明。造訪前,請確保您已登入 CometAPI 並取得 API 金鑰。 COMetAPI 提供遠低於官方價格的價格,幫助您整合。

準備出發了嗎? → 立即註冊 CometAPI !

如果您想了解更多有關 AI 的提示、指南和新聞,請關注我們 VKX   不和!

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣