基本功能

文字 → 影像：完全由提示驅動的生成，對提示的遵循度高。
影像 → 影像（編輯）：精細、具針對性的編輯，並在多次編輯中維持主體/角色的一致性。
**最大輸出解析度：**最高至 4K（範例與支援的精確像素尺寸取決於長寬比；API 提供 1K/2K/4K 預設）
迭代規劃與自我校正：內部「多階段」流程，偵測並修正常見視覺錯誤（透視、文字、精細幾何）。
進階影像內文字渲染：清晰可讀的多語言文字（從短標題到長段落），適用於海報、模型稿與資訊圖表。
5 位角色，並在單一流程中對最多 14 個物件/參考圖像保持一致與逼真。
**浮水印/來源驗證：**所有生成影像皆包含 SynthID 浮水印；模型在部分產品整合中會嵌入 C2PA 中繼資料以標示來源。

Gemini 3 Pro Image 版本與命名

gemini-3-pro-image-preview
gemini-3-pro-image

技術細節

架構

譜系/骨幹：Nano Banana Pro 建立於 Google 不斷演進的 Gemini 影像技術棧之上——具體而言是全新的 Gemini 3 Pro Image / GEMPIX 2 架構（更高容量的影像+文字多模態框架）。這是從 Gemini 2.5 Flash Image（原始的「nano-banana」）演進為原生多模態影像模型，並擴展視覺-語言推理能力。
模型行為：原生多模態（影像 + 文字 + 世界知識）、具體的多影像融合管線，以及內建分階段規劃器，透過多次迭代精煉輸出，而非一次產出單一樣本。早期回報顯示，相較前代在幾何/光學推理（玻璃、折射）上更強。
思考/內部優化：模型在內部使用可見的「思考」流程來精煉構圖（API 有文件說明此行為，並註明這些內部步驟不計入最終影像 tokens）。
對齊與工具：支援 Search grounding（可將網路事實納入圖表/資訊圖生成）。亦支援系統指令以獲得更具決定性的控制。

關鍵 API 參數：

thinking_level（low / high），在延遲與推理深度間權衡；
media_resolution（low/medium/high），控制影像 OCR/細節讀取 tokens；
generationConfig.imageConfig 控制影像輸出之長寬比/解析度。

影像限制：

**支援的輸入模態：**文字與影像（模型不接受音訊或視訊作為影像生成輸入）。
**每次提示的最大影像數：**14（適用於 Gemini 3 Pro Image preview）。
**最大影像大小（上傳）：**每張輸入影像 7 MB。
**支援的長寬比：**1:1、3:2、16:9、9:16、21:9 等。

**輸出影像/代幣：**上限較高，支援 4K/4096px。

基準表現

**簡述：**目前公眾/早期基準多為質性/社群測試，但普遍回報解析度、偽影減少與物理逼真度相較原始 nano-banana（Gemini 2.5 Flash Image）有顯著提升。特定具名「挑戰」顯示清楚的視覺增益，但 Google 尚未公開提供 v1 → v2 在標準影像生成指標上的對照數據表。

質性社群測試：邊緣更乾淨、微小細節更銳利、色彩更準確、對提示更忠實（較少憑空產生的道具、更一致的角色）。常見的非正式測試包含所謂的「Wine Glass Test」與「Glass Burger Challenge」，GEMPIX2（Nano Banana Pro）在處理透明與折射方面明顯優於早期版本。
文字處理：Nano Banana Pro 在影像中的排版與文字定位顯著改善（這一直是許多影像模型的弱項）。社群對比顯示渲染字形更少出現扭曲/亂碼。
吞吐/使用體驗：更快的迭代速度，且後端執行多階段優化，讓使用者初次產出就更可靠（減少手動重試）。

限制與風險

內容過濾與偵測：整合此模型的平台（如 Whisk/第三方應用）可能啟用嚴格的名人或肖像偵測並阻擋特定輸出，影響仰賴逼真名人肖像的創作流程。
幻覺/推理邊界情境：雖已有改進，模型仍可能產生物理上不合理的瑕疵，特別是在影像中包含密集符號文字或高度技術性的圖表時——但 NB2 相較早期版本已降低此類錯誤。
**安全與濫用：**生成式影像模型可能被用於產出具爭議或有害內容。Google 施加限制、內容過濾，並使用 SynthID 浮水印協助來源驗證；然而，仍曾發生濫用（某起與 Nano Banana 生成影像相關、具政治敏感性的爭議事件）。

Nano Banana Pro 與其他模型的比較

Nano Banana Pro（GEMPIX 2 / Gemini 3 Pro Image）——強大的行動端整合、多影像融合、迭代自我校正、原生 2K/4K 升頻，與 Google 應用（Search、Photos、Workspace/Gemini）緊密整合。適合需要可靠編輯、連貫一致與深度整合 Google 服務的工作流程。
Midjourney——擅長風格化藝術輸出與社群導向的提示工程；通常不以寫實的多影像融合或深度多模態編輯管線為主。
Stable Diffusion / 開放權重——完全開放、高度可自訂，可在本機部署；多樣的檢查點與微調生態對研究與離線使用具決定性優勢。相較之下，行動端「一鍵式」整合較少，開箱即用的多影像編輯一致性也不如 Nano Banana Pro。
Seedream 4.0（ByteDance）——近期明確定位為 Nano Banana 競品，強調超高速渲染、2K 輸出，並支援多張參考圖（最多六張）。定位為專業/創作者替代方案。

（以上比較為高層概述；請依你的工作流程選擇工具：開放性/可定制化 → Stable Diffusion；風格化藝術 → Midjourney；整合式、行動端一致編輯與積極迭代 → Nano Banana Pro/Gemini 3 Pro image 系列。）

實際應用情境

行動照片編輯與創意濾鏡（Google Photos 整合——風格轉換、背景融合、人像重構）。
行銷與廣告素材——快速概念生成，於多張畫面/角度間維持一致的品牌角色。
概念設計與分鏡故事——多影像融合協助在不同分鏡中維持角色連貫性。
電商/產品模型稿——在不同情境/光照下生成一致的產品照。
AR/VR 資產快速原型——高品質 2K/4K 輸出，可進一步升頻以用於沉浸式場景。
如何存取 gemini-3-pro-image（Nano Banana Pro）API

必要步驟

登入 cometapi.com。若你尚未成為我們的使用者，請先註冊。
取得介面存取憑證 API 金鑰。在個人中心的 API token 中點選「Add Token」，取得金鑰：sk-xxxxx 並提交。
取得本站的 URL：https://api.cometapi.com/

使用方式

選擇 “gemini-3-pro-image” 端點發送 API 請求並設定請求本文。請求方法與本文可於我們網站的 API 文件取得。我們也提供 Apifox 方便測試。
將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI 金鑰。
將你的問題或需求填入 content 欄位——模型將針對其做出回應。
處理 API 回應以取得生成的答案。

CometAPI 提供完全相容的 REST API——便於無縫遷移。關鍵資訊：

Base URL：https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Model Names：gemini-3-pro-image
Authentication： Bearer YOUR_CometAPI_API_KEY 標頭
Content-Type：application/json 。