基本功能
- 文字 → 圖像:完全由提示驅動的生成,對提示高度遵從。
- 圖像 → 圖像(編輯):精細、精準的修改,在多次編輯中維持主體/角色的一致性。
- **最大輸出解析度:**最高可達 4K(示例與支援的精確像素尺寸依寬高比而定;API 提供 1K/2K/4K 預設)
- 迭代規劃與自我修正:內部「多階段」流程,可檢測並修正常見的視覺錯誤(透視、文字、精細幾何)。
- 進階的圖中文字渲染:清晰可讀的多語言文字(從短標題到長段落),適用於海報、模型稿與資訊圖表。
- 5 個角色,並可在單一流程中對最多 14 個物件/參考圖像保持高保真度。
- **浮水印 / 溯源:**所有生成圖像均包含 SynthID 浮水印;模型在部分產品整合中嵌入 C2PA 中繼資料以提供溯源。
Gemini 3 Pro Image 版本與命名
gemini-3-pro-image-previewgemini-3-pro-image
技術細節
架構
- 系譜 / 主幹:Nano Banana Pro 建構於 Google 不斷演進的 Gemini 影像技術堆疊之上——具體而言是新的 Gemini 3 Pro Image / GEMPIX 2 架構(更高容量的多模態影像+文字框架)。它是從 Gemini 2.5 Flash Image(原始「nano-banana」)演進而來,成為原生多模態的影像模型,並擴展視覺—語言推理能力。
- 模型行為:原生多模態(影像+文字+世界知識),針對多影像融合的明確管線,以及內部分階段規劃器,透過多次修正來完善輸出,而非僅生成單一靜態樣本。早期報告顯示,相較先前版本,在幾何/光學推理(玻璃、折射)方面更強。
- 思考 / 內部精修:模型使用可見的「思考」過程在內部優化構圖(API 文件記載此行為,並指出這些內部步驟不計入最終影像代幣)。
- 對齊與工具:支援 Search grounding(可在圖表/資訊圖生成中納入網路事實)。同時支援系統指令以提供更確定性的控制。
關鍵 API 參數:
thinking_level(low / high):在延遲與推理深度之間取捨;media_resolution(low/medium/high):控制影像 OCR/細節閱讀代幣;generationConfig.imageConfig:控制輸出影像的寬高比/解析度。
影像限制:
- **支援的輸入模態:**文字與圖像(模型不接受音訊或影片作為影像生成輸入)。
- **每次提示的最大圖像數:**14(適用於 Gemini 3 Pro Image 預覽版)。
- **最大圖像大小(上傳):**每張輸入圖像 7 MB。
- **支援的寬高比:**1:1、3:2、16:9、9:16、21:9 等。
**輸出影像 / 代幣:**上限較高,支援 4K/4096px。
基準表現
**簡短摘要:**目前公開/早期基準大多為定性/社群驅動,但一致報告與原始 nano-banana(Gemini 2.5 Flash Image)相比,在解析度、偽影減少與物理保真度方面有顯著提升。特定命名的「挑戰」已顯示明確的視覺增益,但目前尚無(公開的)由 Google 提供、涵蓋標準影像生成指標的 v1 → v2 數值化基準表。
- 定性社群測試:邊緣更乾淨、微細細節更銳利、色彩更準確,且對提示的遵從度更高(較少臆造道具、角色更一致)。常見的非正式測試包括「紅酒杯測試」與「玻璃漢堡挑戰」,其中 GEMPIX2(Nano Banana Pro)對透明度與折射的處理明顯優於早期版本。
- 文字處理:Nano Banana Pro 在影像中的字體與文字排布有明顯改善(這一直是多數影像模型的弱項)。社群比較顯示,渲染字形更少錯亂。
- 吞吐量 / 使用體驗:更快的迭代速度與後端的多階段精修,使使用者在第一版結果上更可靠(減少手動重試)。
限制與風險
- 內容過濾與偵測:整合該模型的平台(如 Whisk/第三方應用)可能啟用嚴格的名人或相似度偵測並封鎖特定輸出,這會影響依賴逼真名人相似度的創作流程。
- 幻覺 / 推理邊界情境:雖然有所改善,模型仍可能產生物理上不合理的偽影,尤其在圖中密集的符號文字或高度技術性的圖表中——不過與早期版本相比,NB2 似乎降低了這些錯誤。
- **安全與濫用:**生成式影像模型可能被用於創造有問題或有害內容。Google 施加限制、內容過濾與 SynthID 浮水印以協助溯源;然而,濫用仍曾發生(與 Nano Banana 生成影像在政治敏感情境中引發的高聲量爭議相關)。
Nano Banana Pro 與其他模型的比較
- Nano Banana Pro(GEMPIX 2 / Gemini 3 Pro Image) — 強大的行動端整合、多影像融合、迭代自我修正、原生 2K 與 4K 超採樣,與 Google 應用(Search、Photos、Workspace/Gemini)緊密整合。最適合需要可靠編輯、連貫性與與 Google 服務整合的工作流程。
- Midjourney — 擅長風格化藝術輸出與社群驅動的提示工程;不以照片準確的多影像融合或深度多模態編輯管線為主要目標。
- Stable Diffusion / 開源權重 — 完全開放、高度可自訂,並可在本地部署;檢查點與微調的生態系是研究與離線使用的決定性優勢。相較 Nano Banana Pro,行動端的一鍵整合較弱,且開箱即用的多影像編輯一致性較不穩定。
- Seedream 4.0(ByteDance) — 近來明確定位為 Nano Banana 競品,強調超快速渲染、2K 輸出,並支援多參考圖(最多六張)。定位為專業/創作者的替代方案。
(這些比較屬於高階概覽;請依工作流程選擇適合的工具:開放性/自訂性 → Stable Diffusion;風格化藝術 → Midjourney;整合完善、行動端一致的編輯並具強力迭代 → Nano Banana Pro / Gemini 3 Pro Image 系列。)
真實世界用例
- 行動照片編輯與創意濾鏡(Google Photos 整合——風格變換、背景融合、人像重構)。
- 行銷與廣告素材——快速概念生成,在多個畫面/角度維持一致的品牌角色。
- 概念美術與分鏡——多影像融合有助於在多個分格中保持角色連貫性。
- 電商 / 產品模型——在不同情境/光線條件下生成一致的產品照片。
- AR/VR 素材的快速原型——高品質的 2K/4K 輸出,可進一步超採樣用於沉浸式用途。
- 如何存取 gemini-3-pro-image(Nano Banana Pro) API
必要步驟
- 登入 cometapi.com。如果您尚未成為我們的使用者,請先註冊。
- 取得介面存取憑證 API key。在個人中心的 API token 處點選「Add Token」,取得 token 金鑰:sk-xxxxx,並提交。
- 取得本站的 URL:https://api.cometapi.com/
使用方法
- 選擇「
gemini-3-pro-image」端點以傳送 API 請求並設定請求本文。請求方法與請求本文可於我們網站的 API 文件取得。我們的網站也提供 Apifox 測試,方便您使用。 - 將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。
- 將您的問題或請求填入 content 欄位——模型會根據該內容回應。
- 處理 API 回應以取得生成的答案。
CometAPI 提供完全相容的 REST API——以達到無縫遷移。關鍵細節:
- Base URL:https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json。