基本功能
- 文字 → 影像:完全由提示驅動的生成,對提示的遵循度高。
- 影像 → 影像(編輯):精細、具針對性的編輯,並在多次編輯中維持主體/角色的一致性。
- **最大輸出解析度:**最高至 4K(範例與支援的精確像素尺寸取決於長寬比;API 提供 1K/2K/4K 預設)
- 迭代規劃與自我校正:內部「多階段」流程,偵測並修正常見視覺錯誤(透視、文字、精細幾何)。
- 進階影像內文字渲染:清晰可讀的多語言文字(從短標題到長段落),適用於海報、模型稿與資訊圖表。
- 5 位角色,並在單一流程中對最多 14 個物件/參考圖像保持一致與逼真。
- **浮水印/來源驗證:**所有生成影像皆包含 SynthID 浮水印;模型在部分產品整合中會嵌入 C2PA 中繼資料以標示來源。
Gemini 3 Pro Image 版本與命名
gemini-3-pro-image-previewgemini-3-pro-image
技術細節
架構
- 譜系/骨幹:Nano Banana Pro 建立於 Google 不斷演進的 Gemini 影像技術棧之上——具體而言是全新的 Gemini 3 Pro Image / GEMPIX 2 架構(更高容量的影像+文字多模態框架)。這是從 Gemini 2.5 Flash Image(原始的「nano-banana」)演進為原生多模態影像模型,並擴展視覺-語言推理能力。
- 模型行為:原生多模態(影像 + 文字 + 世界知識)、具體的多影像融合管線,以及內建分階段規劃器,透過多次迭代精煉輸出,而非一次產出單一樣本。早期回報顯示,相較前代在幾何/光學推理(玻璃、折射)上更強。
- 思考/內部優化:模型在內部使用可見的「思考」流程來精煉構圖(API 有文件說明此行為,並註明這些內部步驟不計入最終影像 tokens)。
- 對齊與工具:支援 Search grounding(可將網路事實納入圖表/資訊圖生成)。亦支援系統指令以獲得更具決定性的控制。
關鍵 API 參數:
thinking_level(low / high),在延遲與推理深度間權衡;media_resolution(low/medium/high),控制影像 OCR/細節讀取 tokens;generationConfig.imageConfig控制影像輸出之長寬比/解析度。
影像限制:
- **支援的輸入模態:**文字與影像(模型不接受音訊或視訊作為影像生成輸入)。
- **每次提示的最大影像數:**14(適用於 Gemini 3 Pro Image preview)。
- **最大影像大小(上傳):**每張輸入影像 7 MB。
- **支援的長寬比:**1:1、3:2、16:9、9:16、21:9 等。
**輸出影像/代幣:**上限較高,支援 4K/4096px。
基準表現
**簡述:**目前公眾/早期基準多為質性/社群測試,但普遍回報解析度、偽影減少與物理逼真度相較原始 nano-banana(Gemini 2.5 Flash Image)有顯著提升。特定具名「挑戰」顯示清楚的視覺增益,但 Google 尚未公開提供 v1 → v2 在標準影像生成指標上的對照數據表。
- 質性社群測試:邊緣更乾淨、微小細節更銳利、色彩更準確、對提示更忠實(較少憑空產生的道具、更一致的角色)。常見的非正式測試包含所謂的「Wine Glass Test」與「Glass Burger Challenge」,GEMPIX2(Nano Banana Pro)在處理透明與折射方面明顯優於早期版本。
- 文字處理:Nano Banana Pro 在影像中的排版與文字定位顯著改善(這一直是許多影像模型的弱項)。社群對比顯示渲染字形更少出現扭曲/亂碼。
- 吞吐/使用體驗:更快的迭代速度,且後端執行多階段優化,讓使用者初次產出就更可靠(減少手動重試)。
限制與風險
- 內容過濾與偵測:整合此模型的平台(如 Whisk/第三方應用)可能啟用嚴格的名人或肖像偵測並阻擋特定輸出,影響仰賴逼真名人肖像的創作流程。
- 幻覺/推理邊界情境:雖已有改進,模型仍可能產生物理上不合理的瑕疵,特別是在影像中包含密集符號文字或高度技術性的圖表時——但 NB2 相較早期版本已降低此類錯誤。
- **安全與濫用:**生成式影像模型可能被用於產出具爭議或有害內容。Google 施加限制、內容過濾,並使用 SynthID 浮水印協助來源驗證;然而,仍曾發生濫用(某起與 Nano Banana 生成影像相關、具政治敏感性的爭議事件)。
Nano Banana Pro 與其他模型的比較
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image)——強大的行動端整合、多影像融合、迭代自我校正、原生 2K/4K 升頻,與 Google 應用(Search、Photos、Workspace/Gemini)緊密整合。適合需要可靠編輯、連貫一致與深度整合 Google 服務的工作流程。
- Midjourney——擅長風格化藝術輸出與社群導向的提示工程;通常不以寫實的多影像融合或深度多模態編輯管線為主。
- Stable Diffusion / 開放權重——完全開放、高度可自訂,可在本機部署;多樣的檢查點與微調生態對研究與離線使用具決定性優勢。相較之下,行動端「一鍵式」整合較少,開箱即用的多影像編輯一致性也不如 Nano Banana Pro。
- Seedream 4.0(ByteDance)——近期明確定位為 Nano Banana 競品,強調超高速渲染、2K 輸出,並支援多張參考圖(最多六張)。定位為專業/創作者替代方案。
(以上比較為高層概述;請依你的工作流程選擇工具:開放性/可定制化 → Stable Diffusion;風格化藝術 → Midjourney;整合式、行動端一致編輯與積極迭代 → Nano Banana Pro/Gemini 3 Pro image 系列。)
實際應用情境
- 行動照片編輯與創意濾鏡(Google Photos 整合——風格轉換、背景融合、人像重構)。
- 行銷與廣告素材——快速概念生成,於多張畫面/角度間維持一致的品牌角色。
- 概念設計與分鏡故事——多影像融合協助在不同分鏡中維持角色連貫性。
- 電商/產品模型稿——在不同情境/光照下生成一致的產品照。
- AR/VR 資產快速原型——高品質 2K/4K 輸出,可進一步升頻以用於沉浸式場景。
- 如何存取 gemini-3-pro-image(Nano Banana Pro)API
必要步驟
- 登入 cometapi.com。若你尚未成為我們的使用者,請先註冊。
- 取得介面存取憑證 API 金鑰。在個人中心的 API token 中點選「Add Token」,取得金鑰:sk-xxxxx 並提交。
- 取得本站的 URL:https://api.cometapi.com/
使用方式
- 選擇 “
gemini-3-pro-image” 端點發送 API 請求並設定請求本文。請求方法與本文可於我們網站的 API 文件取得。我們也提供 Apifox 方便測試。 - 將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI 金鑰。
- 將你的問題或需求填入 content 欄位——模型將針對其做出回應。
- 處理 API 回應以取得生成的答案。
CometAPI 提供完全相容的 REST API——便於無縫遷移。關鍵資訊 :
- Base URL:https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEY標頭 - Content-Type:
application/json。