基本功能
- 文字 → 影像:以完整提示詞驅動的生成,對提示詞高度遵循。
- 影像 → 影像(編輯):細緻、精準的定向編輯,並在多次編輯中維持主體/角色一致性。
- **最大輸出解析度:**最高至 4K(實際支援的像素尺寸取決於長寬比;API 提供 1K/2K/4K 預設)
- 迭代規劃與自我修正:內部「多階段」流程,可偵測並修正常見的視覺錯誤(透視、文字、精細幾何)。
- 進階影像內文字渲染:清晰可讀的多語種文字(從短標語到長段落),適用於海報、模型稿與資訊圖表。
- 5 位角色,以及在單一工作流程中可處理最多 14 個物件/參考影像,並保持保真度。
- 浮水印/溯源:所有生成影像皆包含 SynthID 浮水印;在部分產品整合中,模型會嵌入 C2PA 中介資料以供溯源。
Gemini 3 Pro Image 版本與命名
gemini-3-pro-image-previewgemini-3-pro-image
技術細節
架構
- 譜系/骨幹:Nano Banana Pro 建立在 Google 不斷演進的 Gemini 影像技術堆疊之上——具體為全新的 Gemini 3 Pro Image / GEMPIX 2 架構(更高容量的影像+文字多模態框架)。這是從 Gemini 2.5 Flash Image(原始的「nano-banana」)演進而來,成為原生多模態影像模型,並擴展視覺-語言推理能力。
- 模型行為:原生多模態(影像 + 文字 + 世界知識)、明確的多影像融合流程,以及內部分階段規劃器,會在多次通過中反覆精修輸出,而非一次產生靜態樣本。早期報告指出,相較先前版本,幾何/光學推理(玻璃、折射)更強。
- 思考/內部精修:模型會在內部使用可見的「思考」流程來優化構圖(API 文件記載此行為,且這些內部步驟不會計入最終影像 Token)。
- 對齊與工具:支援 Search grounding(可在圖表/資訊圖生成中納入網路事實)。亦支援系統指令以獲得更具決定性的控制。
關鍵 API 參數:
thinking_level(low / high),在延遲與推理深度間取捨;media_resolution(low/medium/high),控制影像 OCR/細節閱讀 Token;generationConfig.imageConfig控制輸出影像的長寬比/解析度。
影像限制:
- **支援的輸入模態:**文字與影像(模型不接受音訊或視訊作為影像生成的輸入)。
- **每個提示的最大圖片數:**14(適用於 Gemini 3 Pro Image preview)。
- **最大圖片大小(上傳):**每張 7 MB。
- **支援的長寬比:**1:1、3:2、16:9、9:16、21:9 等。
**輸出影像/Token:**上限較高,支援 4K/4096px。
基準表現
**簡短摘要:**目前公開/早期基準多為定性與社群回饋,但一致指出相較原始 nano-banana(Gemini 2.5 Flash Image),在解析度、偽影減少與物理保真度上有顯著提升。特定命名的「挑戰」測試顯示明顯進步,不過 Google 尚未公開以標準影像生成指標比較 v1 → v2 的數值化表格。
- 社群定性測試:邊緣更乾淨、微小細節更銳利、色彩更準確,且對提示詞的忠實度更高(較少臆造道具,更一致的角色)。常見的非正式測試包括所謂的「Wine Glass Test」與「Glass Burger Challenge」,GEMPIX2(Nano Banana Pro)在透明與折射處理上明顯優於較早版本。
- 文字處理:Nano Banana Pro 在影像內的字體排印與文字定位顯著改善(這一直是許多影像模型的弱項)。社群對比顯示較少渲染錯亂的字形。
- 吞吐量/使用者體驗:迭代速度更快,且在後端執行多階段精修,讓使用者第一輪就能看到更可靠的結果(減少手動重試)。
限制與風險
- 內容篩選與偵測:整合該模型的平台(例如 Whisk/第三方應用)可能啟用嚴格的名人或肖像相似度偵測並封鎖特定輸出,影響依賴逼真名人相似度的創作流程。
- 幻覺/推理邊界情境:雖已改善,模型仍可能產生物理上不合理的偽影,特別是在影像內含密集符號文字或高度技術性的圖表時——然而相較早期版本,NB2 似乎降低了這些錯誤。
- **安全與誤用:**生成式影像模型可能被用於製造問題或有害內容。Google 施加限制、內容篩選,並以 SynthID 浮水印輔助溯源;儘管如此,仍曾發生誤用(曾有在政治敏感情境中,由 Nano Banana 生成影像引發的高關注爭議)。
Nano Banana Pro 與其他模型的比較
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image)——強大的行動端整合、多影像融合、迭代自我修正、原生 2K/支援 4K 放大,並與 Google 應用(Search、Photos、Workspace/Gemini)深度整合。最適合需要可靠編輯、連貫性與 Google 服務整合的工作流程。
- Midjourney——擅長風格化藝術輸出與社群驅動的提示工程;通常不以照片級準確的多影像融合或深度多模態編輯流程為目標。
- Stable Diffusion / 開放權重——完全開放、高度可自訂,且可在本地部署;檢查點與微調的生態系在研究與離線使用上是決定性優勢。相較 Nano Banana Pro,行動端「一鍵」整合較少,且開箱即用的多影像編輯一致性較弱。
- Seedream 4.0 (ByteDance)——近期明確定位為 Nano Banana 的競品,強調極速渲染、2K 輸出,以及多參考影像(最多六張)。定位為專業/創作者的替代方案。
(以上比較屬高層級;請依你的工作流程選擇合適工具:重視開放性/可自訂性 → Stable Diffusion;風格化藝術 → Midjourney;整合度高、行動端一致編輯與積極迭代 → Nano Banana Pro / Gemini 3 Pro image 系列。)
實際使用情境
- 行動相片編輯與創意濾鏡(Google Photos 整合——風格重塑、背景融合、人像重構)。
- 行銷與廣告素材——快速概念生成,於多個畫面/角度保持一致的品牌角色。
- 概念藝術與分鏡——多影像融合有助於在多個分鏡中保持角色連貫性。
- 電商/產品模型稿——在不同情境/光照下生成一致的產品照。
- AR/VR 資產快速原型——高品質 2K/4K 輸出,可進一步放大以用於沉浸式體驗。
- 如何存取 gemini-3-pro-image(Nano Banana Pro) API
必要步驟
- 登入 cometapi.com。若你尚未成為我們的使用者,請先註冊。
- 取得該介面的存取憑證 API key。在個人中心的 API token 處點選「Add Token」,取得 token 金鑰:sk-xxxxx 並提交。
- 取得本站的網址:
https://api.cometapi.com/
使用方法
- 選擇 “
gemini-3-pro-image” 端點送出 API 請求並設定請求內容。請求方法與 Body 可從我們網站的 API 文件取得;網站亦提供 Apifox 測試以利使用。 - 將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI 金鑰。
- 將你的問題或請求插入 content 欄位——模型會回應這段內容。
- 處理 API 回應以取得生成的答案。
CometAPI 提供完全相容的 REST API——以便無縫遷移。關鍵細節 :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json