2025 年 XNUMX 月下旬,Google (DeepMind) 發布 Gemini 2.5 Flash 影像 — 被廣泛稱為 “奈米香蕉” 一個低延遲、高品質的圖像生成和編輯模型,已整合到 Gemini 應用程式、Google AI Studio、Gemini API 和 CometAPI 中。該模型旨在產生逼真的圖像,在編輯過程中保持角色一致性,融合多個輸入圖像,並透過自然語言提示執行精細的本地化編輯。該模型目前處於預覽版/早期正式版階段,並且已在圖像排行榜 (LMArena) 上名列前茅,同時配備了安全機制(SynthID 浮水印和產品級過濾器)。
什麼是 Gemini 2.5 Flash Image(又稱“Nano Banana”)?
Gemini 2.5 Flash Image — 暱稱 奈米香蕉 ——是 Google DeepMind Gemini 系列中最新的圖像生成和編輯模型。該模型於 2025 年 XNUMX 月下旬發布,定位為預覽版,旨在為 Gemini 的多模態工具集帶來更高保真度的編輯、多圖像融合、更佳的角色一致性(確保同一個人/寵物/物體在多次編輯後仍可識別)以及低延遲圖像生成功能。企業客戶可透過 Gemini API、Google AI Studio、Gemini 行動/網頁應用程式和 Vertex AI 取得此模型。
起源與命名
在早期測試人員和 LMArena 參賽者使用水果主題標籤後,“納米香蕉”的暱稱在社交媒體和社區排行榜上迅速走紅;谷歌證實了這一聯繫,並在開發者和產品帖子中公開接受了這個俏皮的暱稱。官方產品名稱是 Gemini 2.5 Flash 影像 您通常會看到程式碼和 API 呼叫中使用的模型標識符(對於預覽使用,它顯示為例如 gemini-2.5-flash-image-preview).
Gemini 2.5 Flash Image 的主要功能是什麼?
「性格一致性」究竟是什麼意思?
其中一個功能是 角色一致性:您可以讓模型在多次編輯或新場景中重複使用相同主題(人物、寵物、吉祥物或產品),同時保留可識別的視覺特徵(臉部/形狀、調色板、識別標記)。這解決了早期影像模型的一個常見缺陷,即後續編輯會產生視覺上看似合理但實際存在明顯差異的人物/物體。因此,開發人員可以建立產品目錄、情節式敘事或品牌資產生成的工作流程,而無需進行太多手動校正。
還包括哪些其他編輯控制項?
Gemini 2.5 Flash Image 支援:
- 針對性的本地編輯 透過簡單的語言提示(移除物件、更換服裝、修飾皮膚、移除背景元素)。
- 多影像融合:將最多三個輸入影像組合成一個連貫的構圖(例如,將影像 A 中的產品放入場景 B,同時保留照明)。
- 樣式和格式控件:逼真的說明、相機和鏡頭屬性、縱橫比和風格化輸出(插圖、貼紙等)。
- 本土世界知識:此模型利用更廣泛的 Gemini 家族知識進行語義感知編輯(例如,理解「文藝復興時期的照明」或「東京人行橫道」的含義)。
速度、成本和可用性如何?
Gemini 2.5 Flash Image 是 Gemini 2.5 Flash 層的一部分,針對低延遲和成本進行了最佳化,同時保持了出色的品質。 Google 已預覽圖像輸出令牌的定價,並透過 API 和 AI Studio 提供可用性;企業客戶可以透過 Vertex AI 存取它。 Gemini 2.5 Flash Image 層的發布價格為 每 30 萬個輸出代幣 1 美元,每張圖片的成本示例如下 1290 輸出代幣 ≈ 每張圖片 $0.039.
Gemini 2.5 Flash Image 內部是如何運作的?
架構和訓練方法
Gemini 2.5 Flash Image 繼承了 Gemini 2.5 系列的架構:採用稀疏混合專家 (MoE) 風格的主幹架構,並結合文字、圖像、音訊和其他資料進行多模態訓練。 Google 使用非常龐大且經過篩選的多模態語料庫對 Flash Image 進行訓練,並針對影像任務(生成、編輯、融合)和安全行為對模型進行了微調。訓練在 Google 的 TPU 架構上進行,並使用自動和人工判斷指標進行評估。
對話驅動的編輯
從高層次來看,模型使用上下文條件:當您提供一張(或多張)圖像以及文字提示時,模型會將主體的視覺特徵編碼到其內部表徵中。在後續編輯或新場景中,它會根據該表徵進行生成條件,從而保留所需的視覺屬性(臉部幾何形狀、關鍵服裝或產品標識符、調色板)。實際上,這是作為 Gemini API 公開的多模態內容管道的一部分實現的:您將參考圖像與編輯指令一起發送,模型會在一次回應中返回編輯後的圖像輸出(或多張候選圖像)。
水印和出處
Google 將安全性和內容策略篩選器整合到 Gemini 2.5 Flash Image 中。此版本強調評估和紅隊測試、自動過濾步驟、監督式微調和強化學習,以實現指令遵循,同時最大限度地減少有害輸出。輸出包含一個不可見的 SynthID 浮水印,因此模型生成或編輯的圖像稍後可以被識別為 AI 生成的。
它的表現如何? (基準數據)
Gemini 2.5 Flash Image(在某些基準測試中被稱為「奈米香蕉」)達到了 LMArena 影像編輯與文字轉影像排行榜第一名 截至2025年XNUMX月底,在報告的比較中,其Elo/偏好值顯著領先競爭對手。我參考了LMArena和GenAI-Bench的人工評估結果,這些結果顯示在文字轉影像和影像編輯任務中,其偏好值均最高。
文字與圖像比較
| 能力基準 | Gemini Flash 2.5 影像 | Imagen 4 Ultra 06-06 | ChatGPT 4o / GPT 影像 1(高) | FLUX.1 上下文 | Gemini Flash 2.0 影像 |
|---|---|---|---|---|---|
| 整體偏好(LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| 視覺品質(GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| 文字到圖像對齊(GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
圖片編輯
| 能力基準 | Gemini Flash 2.5 影像 | ChatGPT 4o / GPT 影像 1(高) | FLUX.1 上下文 | Qwen 圖像編輯 | Gemini Flash 2.0 影像 |
|---|---|---|---|---|---|
| 整體偏好(LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| 性格 | 1170 | 1059 | 1010 | 911 | 850 |
| 藝術類 | 1112 | 1057 | 968 | 983 | 879 |
| 信息圖表 | 1067 | 1029 | 967 | 1012 | 925 |
| 物件/環境 | 1064 | 1023 | 1002 | 1010 | 901 |
| 產品再語境化 | 1128 | 1032 | 943 | 1009 | 888 |
| 程式化 | 1062 | 1165 | 949 | 1091 | 733 |

這些基準在實務上意味著什麼?
基準測試告訴我們兩件事:(1)該模型在照片級真實感生成方面具有競爭力;(2)它在以下方面脫穎而出 編輯 角色一致性和提示遵循性至關重要的任務。人類偏好排名表明,觀看輸出的使用者對 Gemini 的輸出評價很高,因為它們在許多評估的提示中都體現了其真實性和與指令的一致性。然而,由於已知的限制(例如精細事實細節的幻覺風險、圖像中長文字的渲染、風格遷移的極端情況),基準測試僅供參考,而非保證。
您可以使用 Gemini 2.5 Flash Image 做什麼(用例)?
Gemini 2.5 Flash Image 專為創意、生產力和應用成像場景打造。典型和新興用例包括:
快速產品模型與電子商務
將產品照片拖入場景,在不同環境中產生一致的目錄影像,或在整個產品線中交換顏色/布料-同時保留產品特性。多影像融合功能以及角色/產品一致性使其成為目錄工作流程的理想選擇。
照片修飾與針對性的編輯
使用自然語言提示,移除物件、修復瑕疵、更換服裝/配件或調整燈光。在地化編輯功能讓非專業人士也能使用對話式指令進行專業風格的潤飾。
故事板和視覺敘事
將同一個角色放置在不同的場景中,並保持其外觀一致(適用於漫畫、故事板或宣傳稿)。迭代編輯使創作者能夠優化氛圍、框架和敘事連續性,而無需從頭開始重建素材。
教育、圖表和設計原型
由於該模型能夠將文字提示與圖像結合,並具備“世界知識”,因此可以幫助產生帶有註釋的圖表、教育性視覺效果或用於演示的快速模型。谷歌甚至在 AI Studio 中突出顯示了用於房地產模型和產品設計等用例的模板。
如何使用 Nano Banana API?
以下是改編自 CometAPI API 文件 以及 Google 的 API 文件。它們演示了常見的流程: 文字轉圖片 圖像+文字到圖像(編輯) 使用官方 GenAI SDK 或 REST 端點。
注意:在 CometAPI 的文件中,預覽模型名稱顯示為
gemini-2.5-flash-image-preview。下面的範例呼應了官方 SDK 範例(Python 和 JavaScript)和 REST curl 範例;請根據您的環境調整金鑰和檔案路徑。
CometAPI 的 REST curl 範例
使用 Gemini 官方 generateContent 用於文字到圖像生成的端點。將文字提示放置在 contents.parts[].text.範例(Windows shell,使用 ^ 用於行延續):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
回應包含 base64 圖像位元組;上面的管道提取 "data" 字串並將其解碼為 gemini-generated.png.
此端點支援「影像到影像」產生:上傳輸入影像(作為 Base64)並接收修改後的新影像(也是 Base64 格式)。示例:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**描述:**首先,將來源圖像檔案轉換為 Base64 字串並將其放入 inline_data.data. 請勿包含類似 data:image/jpeg;base64,.輸出也位於 candidates.content.parts 並包括:可選的文字部分(描述或提示)。影像部分作為 inline_data (哪裡 data 是輸出圖片的Base64)。對於多張圖片,可以直接追加,例如:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
以下是根據 Google 官方文件和部落格改編的開發者範例。請將憑證和檔案路徑替換為您自己的。
Python(官方 SDK 風格)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
這是 Google 文件中的規範 Python 程式碼片段(顯示預覽模型 ID)。相同的 SDK 呼叫模式支援「圖片 + 提示」編輯(將圖片作為 contents)更多詳情請參閱 雙子座醫生
結論
如果您的產品需要強大、低延遲的影像生成,尤其是 可靠的編輯,主題一致Gemini 2.5 Flash Image 現已成為值得評估的生產級方案:它結合了最先進的影像品質和專為開發者整合而設計的 API(AI Studio、Gemini API 和 Vertex AI)。請仔細權衡模型目前的限制(例如圖像中的精細文字、一些風格化邊緣情況),並實施負責任的使用保障措施。
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
開發人員可以訪問 Gemini 2.5 Flash 影像(奈米香蕉彗星API列表 gemini-2.5-flash-image-preview/gemini-2.5-flash-image 在其目錄中新增樣式條目。 )透過 CometAPI,列出的最新模型版本截至本文發布之日。首先,探索模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
