自 2025 年 5 月 7 日发布以来,Gemini 2.0 Flash 的图像能力一直以预览形式提供——使开发者与创意专业人士都能够通过自然语言对话生成并优化视觉作品。本文综合最新公告、上手报告与技术文档,指导你从编写首个图像提示开始,到对既有素材进行精细编辑。每个二级标题都提出一个关键问题以帮助你定位探索方向,三级标题则拆解你今天就能开始构建所需的具体细节。
什么是用于图像生成与编辑的 Gemini 2.0 Flash 预览版?
Gemini 2.0 Flash 是 Google 最新的、针对速度(“Flash”)与多模态任务优化的 AI 模型,现已通过 Google AI Studio 和 Vertex AI 提供图像生成与编辑的预览。由 Google AI Studio 产品经理 Kat Kampf 于 2025 年 5 月 7 日宣布,该预览通过 GenAI API 暴露模型名称 gemini-2.0-flash-preview-image-generation,支持更高的请求速率并可无缝集成到应用中。India Today Tech 确认,普通用户(通过 Gemini 应用)与开发者(通过 AI Studio/Vertex AI)都可免费试用这些升级工具——标志着先进图像 AI 的重要普惠化。
Gemini 2.0 Flash 与早期图像生成版本有何不同?
与此前内嵌在 Gemini 中的实验性图像模型相比,Flash 提供:
- 更高的视觉逼真度:细节更锐利、材质更真实,对发丝、枝叶、反射等精细元素的处理更佳。
- 增强的文本渲染:更准确地在图像中放置与呈现文本,减少早期版本常见的字母混乱与字形错位。
- 更低的过滤拦截率:更宽松的内容过滤让更多良性提示通过,同时仍对不允许的内容执行政策,为合规工作流提效。
开发者如何使用 Gemini 2.0 Flash 预览生成图像?
生成图像只需通过 GenAI SDK 或 REST API 调用你的提示,并指定你需要文本与图像两种模态即可。
使用 Google 的 API:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
config=types.GenerateContentConfig(
response_modalities=
),
)
print(response.images.url)
此代码段展示了最小化的设置:将 GEMINI_API_KEY 替换为你的密钥,把 contents 字符串调整为你的创意愿景,即可收到生成图像的 URL。
在 CometAPI 中使用 Gemini 2.0 Flash 图像生成
哪些提示词最佳实践能产出最高质量的视觉效果?
- 明确风格与媒介:如“水彩画”“霓虹赛博朋克场景”“极简矢量艺术”,有助于模型锚定输出。
- 加入构图暗示:如“三分法”“从左侧的戏剧性打光”“前景主体清晰对焦”,以指导取景与布局。
- 通过后续提示迭代:使用对话式编辑(见下一节)微调色彩平衡、调整比例或细化局部,无需从头开始。
如何以对话方式编辑现有图像?
编辑的方式是上传一张图像或选择此前生成的素材,然后用自然语言指令修改特定区域或属性。
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=(
"Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
),
config=types.GenerateContentConfig(
response_modalities=
),
input_image="gs://my-bucket/path/to/source.png"
)
支持哪些对话式编辑功能?
- 选择性编辑:仅更改指定区域(例如“提亮眼睛”“在路牌上添加书法”),不影响周围像素。
- 实时协同绘制:通过 Gemini Co-Drawing Sample App,多个协作者可在 AI Studio 中直接勾画与标注,加速迭代工作流程。
- 重新语境化:将产品或角色置于全新场景——非常适合营销模型图或快速原型设计视觉概念。
- 水印移除:早期用户反馈 Gemini 2.0 Flash 可以移除可见水印并以中性的 SynthID 标记替换,使用时需遵守伦理准则。

预览阶段的速率限制与定价如何?
Google 已放宽实验阶段的诸多限制:开发者可享受更高的每分钟配额与优惠的预览价格。
速率限制有哪些改进?
- 更高的 QPS:每秒请求数较此前的实验模型翻倍,支持突发负载与实时应用。
- 批量编辑:Gemini 现可在单次批处理中接收最多 10 张图像进行编辑,简化多素材一致风格调整的工作流。
预览定价是什么水平?
- 图像生成:约 $0.039 每张(3.9 美分),按唯一输出计费。
- 编辑操作:定价与生成作业相近,预览结束后还将进一步优惠。
今日如何访问与配置该预览?
- 登录 Google AI Studio 或在 Google Cloud Console 中的 Vertex AI。
- 启用 GenAI API 并在“凭据”下创建一个 API 密钥。
- 在代码或 API 调用中选择 模型
gemini-2.0-flash-preview-image-generation。 - 上传 源图(如需编辑),可通过 Cloud Storage 或在 Studio UI 中直接上传。
- 调用 你的提示,并在 Studio 控制台或通过程序化方式查看输出。
未来我们可以期待哪些改进?
Google 表示,一旦 Gemini 2.0 Flash 超越预览阶段,将带来若干提升:
能力扩展
- 更高的输出分辨率(最高可达 4K+),适用于印刷与大尺寸展示。
- 高级风格融合,在单幅图像中结合多种艺术参考。
更广泛的集成
- 在 Chrome、Docs、Slides 等应用中原生支持,实现一键图像创建与编辑。
- 增强的多模态智能体(Project Astra),将图像任务纳入更长、更具上下文的对话。
通过直观的对话式界面同时支持图像生成与精确编辑,Gemini 2.0 Flash 的预览标志着可及、可扩展的 AI 驱动创意的一个里程碑。无论你是在为产品视觉做原型、协作制作营销素材,还是探索新的艺术边界,预览版都为你提供更快、更丰富的迭代工具。随着预览演进到正式发布,预计其将在 Google 生态内实现更深集成,并提供更复杂的能力,助力你的下一次突破。
入门
开发者可通过 CometAPI 访问 Gemini 2.0 Flash Exp-Image-Generation API。开始使用时,可在 Playground 中探索模型能力,并查阅 API guide(model name: gemini-2.0-flash-exp-image-generation)获取详细说明。请注意,部分开发者在使用该模型前可能需要完成组织验证。Gemini 2.0 Flash pre-Image-Generation API 即将上线。
