如何使用 Gemini 2.0 Flash 預覽建立和編輯影像

CometAPI
AnnaMay 9, 2025
如何使用 Gemini 2.0 Flash 預覽建立和編輯影像

自 7 年 2025 月 2.0 日發布以來,Gemini XNUMX Flash 的圖像功能一直以預覽形式提供 - 讓開發人員和創意專業人士能夠透過自然語言對話產生和完善視覺效果。本文綜合了最新的公告、實際報告和技術文檔,以引導您完成從製作第一個圖像提示到對現有資產進行精確編輯的所有操作。每個二級標題都會提出一個關鍵問題來引導您的探索,而三級標題則會分解您今天開始建立所需的具體內容。

用於影像生成和編輯的 Gemini 2.0 Flash 預覽是什麼?

Gemini 2.0 Flash 是 Google 最新的針對速度(「Flash」)和多模式任務進行最佳化的 AI 模型,現在可以透過 Google AI Studio 和 Vertex AI 提供預覽中的圖像生成和編輯功能。 Google AI Studio 產品經理 Kat Kampf 於 7 年 2025 月 XNUMX 日宣布預覽版將公佈模型名稱 gemini-2.0-flash-preview-image-generation 透過 GenAI API,實現更高的請求率並無縫整合到應用程式中。 India Today Tech 證實,免費用戶(透過 Gemini 應用程式)和開發人員(透過 AI Studio/Vertex AI)都可以免費試用這些升級工具,這標誌著高級圖像 AI 的顯著民主化。

Gemini 2.0 Flash 與早期的影像產生版本有何不同?

與先前嵌入在 Gemini 中的實驗性影像模型相比,Flash 具有以下優勢:

  • 提高視覺保真度:更清晰的細節、更逼真的紋理以及更好地處理頭髮、樹葉和反射等精細元素。
  • 增強文字渲染:準確地在圖像中放置和設定文字樣式,減少早期版本中常見的亂碼和錯位字形。
  • 降低過濾阻塞率:放寬內容過濾器允許更多良性提示通過,同時仍對不允許的材料執行策略,簡化合規用例的工作流程。

開發人員如何使用 Gemini 2.0 Flash 預覽版產生影像?

生成圖像非常簡單,只需使用提示呼叫 GenAI SDK 或 REST API 並指定您想要文字和圖像模式。

在google中使用API​​:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

此程式碼片段說明了最小設定:替換 GEMINI_API_KEY 使用鑰匙,調整 contents 字串到您的創意願景,並接收生成的圖像的 URL。

在 CometAPI 中使用 Gemini 2.0 Flash 映像生成

哪些最佳實踐可以產生最高品質的視覺效果?

  1. 具體說明風格和媒介:「水彩」、「霓虹賽博龐克場景」或「極簡主義向量藝術」有助於模型固定其輸出。
  2. 包含構圖提示:諸如「三分法」、「左側的戲劇性燈光」或「清晰對焦的前景主體」等短語可指導取景。
  3. 根據後續提示進行迭代:使用對話編輯(請參閱下一部分)來調整色彩平衡、調整比例或細化細節,而無需從頭開始。

如何以對話方式編輯現有影像?

編輯工作透過上傳圖像或選擇先前產生的資產,然後發出自然語言指令來改變特定區域或屬性。

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

支援哪些對話編輯功能?

  • 選擇性編輯:僅更改指定區域(例如“使眼睛變亮”,“在路標上添加書法”),而不影響周圍的像素。
  • 即時協同繪圖:透過 Gemini Co-Drawing Sample App,多個合作者可以直接在 AI Studio 中繪製草圖和註釋,從而加速迭代工作流程。
  • 重新語境化:將產品或角色放入全新的場景中 - 非常適合行銷模型或視覺概念的快速原型製作。
  • 去水印:早期採用者報告稱,Gemini 2.0 Flash 可以去除可見的水印,並用中性的 SynthID 標記替換它們,但需遵守道德使用準則。

雙子座2.0閃存

預覽版適用哪些費率限制和定價?

谷歌已經解除了實驗階段的許多限制:開發人員可以享受更高的每分鐘配額和折扣預覽率。

速率限制如何改進?

  • 提高 QPS:與先前的實驗模型相比,每秒請求數增加了一倍,支援突發工作負載和即時應用。
  • 批量編輯:Gemini 現在最多可以同時接受 10 張圖像進行編輯,從而簡化了需要在多個資產之間進行一致樣式調整的工作流程。

預覽定價是什麼樣的?

  • 圖像生成:每張圖片約 0.039 美元(3.9 美分),以每個唯一輸出計費。
  • 編輯操作:定價與生成作業類似,預覽結束後規劃進一步折扣。

您今天如何存取和配置預覽?

  1. 登入 到 Google Cloud Console 中的 Google AI Studio 或 Vertex AI。
  2. 啟用 GenAI API 並在「憑證」下建立 API 金鑰。
  3. 選擇 該模型 gemini-2.0-flash-preview-image-generation 在您的程式碼或 API 呼叫中。
  4. 上傳 透過雲端儲存或直接在 Studio UI 中取得來源影像(如果正在編輯)。
  5. 調用 在 Studio 儀表板中或以程式設計方式查看提示和審查輸出。

我們可以期待未來有哪些改進?

Google 已表示,一旦 Gemini 2.0 Flash 完成預覽,將會推出幾項增強功能:

擴充功能

  • 更高解析度的輸出 (高達 4K+),非常適合印刷和大型顯示。
  • 高級風格融合,在一張圖片中結合多種藝術參考。

更廣泛的整合

  • Chrome、文件、投影片的原生支持以及其他 G Suite 應用程序,實現一鍵圖像創建和編輯。
  • 增強型多模式藥物 (Project Astra),將影像任務整合到更長的、情境感知的對話中。

透過直覺的對話式介面實現影像生成和精確編輯,Gemini 2.0 Flash 的預覽標誌著可存取、可擴展的 AI 驅動創造力的里程碑。無論您是在製作產品視覺原型、協作行銷資產,還是只是探索新的藝術視野,預覽都會為您提供比以往更快、更豐富的迭代工具。隨著預覽版逐漸演變為正式版,預計 Google 生態系統將實現更深入的整合,並且擁有更先進的功能,為您的下一個突破提供動力。

入門

開發人員可以訪問  Gemini 2.0 Flash Exp-影像產生 API 通過 彗星API。首先,在 Playground 中探索模型的功能,並查閱 API指南 (型號名稱: gemini-2.0-flash-exp-image-generation) 了解詳細說明。請注意,一些開發人員可能需要在使用該模型之前驗證他們的組織。 Gemini 2.0 Flash pre-Image-Generation API 即將推出。

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣