Gemini 3 Pro 影像(Nano Banana Pro)API

CometAPI
AnnaDec 10, 2025
Gemini 3 Pro 影像(Nano Banana Pro)API

谷歌的 Nano Banana Pro (官方型號ID) **gemini-3-pro-image-preview**是 Gemini 3 Pro 的影像生成/影像編輯版本。它是一款預覽階段的專業級影像模型,增加了 2K/4K 輸出、高保真多影像合成(最高可達 2K/4K)功能。 14張參考圖片角色一致性 給5人)、更強大的影像中文字渲染,以及基於現實世界事實的搜尋基礎。

基本特徵

  • 文字 → 圖片:完全基於提示的生成,並嚴格遵守提示。
  • 圖 → 圖片(編):在多次修改中保持主題/角色一致性的精細、有針對性的修改。
  • 最大輸出解析度:4K (範例和支援的確切像素尺寸取決於寬高比;API 提供 1K/2K/4K 預設)
  • 迭代規劃與自我糾錯:一個內部「多階段」管道,用於檢測和糾正常見的視覺錯誤(透視、文字、精細幾何形狀)。
  • 進階影像內文字渲染清晰易讀的多語言文字(從簡短的標題到較長的段落),適用於海報、模型和資訊圖表。
  • 5字符 保真度高達 14 個物件/參考圖 在一個工作流程中。
  • 水印/來源資訊: 所有產生的影像都包含 SynthID 浮水印;模型嵌入 C2PA 元數據,以便在某些產品整合中進行溯源。

Gemini 3 Pro 圖片版本與命名

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

技術細節

卓越的建築

  • 譜系/主幹Nano Banana Pro 將基於 Google 不斷發展的 Gemini 圖像堆疊構建——特別是新的 Gemini 3 Pro 影像 / GEMPIX 2 架構(一個更高容量的多模態圖像+文字框架)。這是從…演進而來 Gemini 2.5 Flash 影像 將原始的「奈米香蕉」轉化為具有擴展視覺語言推理能力的原生多模態影像模型。
  • 模型行為:原生多模態(影像+文字+世界知識)、明確的多影像融合流程,以及內部分階段規劃器,該規劃器透過多次迭代優化輸出,而非產生單一靜態樣本。早期報告顯示,與先前的版本相比,其幾何/光學推理能力(玻璃、折射)更強。
  • 思考/內部改進該模型在內部使用可見的「思考」過程來完善構圖(API 記錄了這種行為,並指出這些內部步驟不作為最終圖像代幣收費)。
  • 接地和工具:支持 搜尋接地 (可以將網路資訊融入圖表/資訊圖表生成)。它還支援系統指令,以實現更確定性的控制。

關鍵API參數:

  • thinking_level (低/高)權衡延遲與推理深度;
  • media_resolution (低/中/高)控制影像 OCR/細節讀取標記;
  • generationConfig.imageConfig 控制影像輸出的寬高比/解析度。

圖片限制:

  • 支援的輸入方式: 文字和圖像(該模型不接受音訊或視訊作為圖像生成輸入)。
  • 每個提示最多可顯示的圖片數量: 14(用於 Gemini 3 Pro 影像預覽)。
  • 最大圖片尺寸(上傳): 每張輸入影像7MB。
  • 支援的寬高比: 1:1、3:2、16:9、9:16、21:9 等。

輸出影像/標記: 支援高分辨率,最高可達 4K/4096px。

基準性能

簡短的摘要: 目前公開的早期基準測試大多是定性的/由社群驅動的,但一致表明,與原始的奈米香蕉(Gemini 2.5 Flash Image)相比,分辨率、偽影減少和物理保真度均有顯著提升。一些特定的「挑戰」也顯示出明顯的視覺效果提升,但Google尚未發佈公開的標準化數值基準測試表格,對 v1 到 v2 在標準圖像生成指標上的表現進行比較。

  • 定性社區測試更清晰的邊緣、更銳利的微細節、更真實的色彩以及更忠實的畫面還原(更少的虛幻道具,更一致的角色)。一些流行的非正式測試包括所謂的“酒杯測試”和“玻璃漢堡挑戰”,在這些測試中,GEMPIX2(Nano Banana Pro)在處理透明度和折射方面明顯優於早期版本。
  • 文字處理Nano Banana Pro 在影像內部的排版和文字位置方面有了顯著改進(這是許多影像模型長期存在的弱點)。使用者對比顯示,渲染出的亂碼現像也更少。
  • 吞吐量/使用者體驗更快的迭代速度和在後端執行多階段改進的用戶體驗,使用戶能夠看到更可靠的首次結果(減少手動重新迭代)。

局限性和風險

  • 內容過濾器和檢測整合此模型的平台(例如 Whisk/第三方應用程式)可能會啟用嚴格的名人或肖像檢測,並阻止某些輸出,這會影響依賴逼真名人肖像的創意工作流程。
  • 幻覺/推理邊緣案例雖然有所改進,但該模型仍然會產生物理上不真實的瑕疵,尤其是在圖像中包含密集符號文字或高度技術性的圖表時——儘管 NB2 似乎比早期版本減少了這些錯誤。
  • 安全與誤用: 生成式影像模型可能被用於創建有問題或有害的內容。谷歌應用了限制、內容過濾器和 SynthID 水印來幫助追溯來源;儘管如此,濫用現象仍然存在(例如,在政治敏感的背景下,一張由 Nano Banana 生成的圖像引發了備受矚目的爭議)。

Nano Banana Pro 與其他型號相比如何

  • Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro 影像) — 強大的行動裝置整合、多影像融合、迭代式自校正、原生 2K/4K 升頻,並與 Google 應用程式(搜尋、照片、Workspace/Gemini)緊密整合。最適合需要可靠編輯、連續性和與 Google 服務整合的工作流程。
  • 中途 — 擅長風格化的藝術輸出和社群驅動的提示工程;通常不以照片精確的多影像融合或深度多模態編輯流程為目標。
  • 穩定擴散/開放權重 — 完全開放、高度可自訂且支援本地部署;檢查點和微調功能是其在研究和離線使用方面的決定性優勢。但與 Nano Banana Pro 相比,其「一鍵式」行動整合功能較少,且開箱即用的多影像編輯一致性也略遜一籌。
  • Seedream 4.0(位元組跳動) — 近期明確定位為 Nano Banana 的競爭對手,強調超快渲染速度、2K 輸出以及對大量參考影像(最多六張)的支援。定位為專業人士/創作者的替代方案。

(這些比較只是粗略的;請根據您的工作流程選擇合適的工具:開放性/可定制性 → Stable Diffusion;風格化藝術 → Midjourney;集成化、一致的移動編輯功能以及快速迭代 → Nano Banana Pro/Gemini 3 Pro 圖像系列。)


實際用例

  • 手機照片編輯與創意濾鏡 (Google照片整合-重新設計、背景融合、肖像重組)。
  • 行銷和廣告資產 — 快速生成概念,在多個畫面/角度中保持一致的品牌形象。
  • 概念藝術與故事板 — 多圖融合有助於維持不同畫面中人物角色的連貫性。
  • 電子商務/產品模型 — 在不同的場景/光線條件下拍攝出一致的產品照片。
  • AR/VR資產的快速原型製作 — 高品質的 2K/4K 輸出,可進行升頻處理,用於沉浸式應用。

如何呼叫 gemini-3-pro-image(Nano Banana Pro)  API

CometAPI上的Nano Banana API定價,比官方價格低20%:

價格$0.19200

所需步驟

  • 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊
  • 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。
  • 取得此網站的 URL: https://api.cometapi.com/

使用方法

  1. 選擇“gemini-3-pro-image「端點發送 API 請求並設定請求體。請求方法和請求體可從我們網站的 API 文件取得。為了方便您使用,我們網站也提供了 Apifox 測試。
  2. 代替使用您帳戶中的實際 CometAPI 金鑰。
  3. 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
  4. 。處理 API 回應以取得產生的答案。

CometAPI 提供完全相容的 REST API,實現無縫遷移。主要細節:

也可以看看 Gemini 2.5 Flash 影像 API(Nano-Banana)

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣