Home/Models/OpenAI/GPT Image 1.5
O

GPT Image 1.5

輸入:$6.4/M
輸出:$25.6/M
GPT-Image-1.5 是 GPT Image 系列中的 OpenAI 图像模型。它是一个原生多模态的 GPT 模型,旨在根据文本提示生成图像,并对输入图像进行高保真编辑,同时严格遵循用户指令。
新
商用
Playground
概览
功能亮点
定价
API
版本

什么是 GPT-Image-1.5 API?

GPT-Image-1.5 是 OpenAI 的 GPT Image 家族中的最新成员,也是 ChatGPT 焕新的 Images 体验背后的模型。它旨在将图像生成从新奇实验推进为面向生产的创意工具:更高的照片写实度、对迭代编辑的更精细控制,以及更快的推理速度,以支持交互式与企业级工作流。

gpt-image-1.5 API 是一个多模态图像模型端点,接受一个或多个图像输入(文件标识符或字节)以及文本提示,并返回生成图像或编辑后的图像。它支持:

  • 文生图(从提示创建),
  • 图像编辑 / 局部重绘(in-painting)/ 合成(对现有图像应用指令,支持多图输入),以及
  • 通过 Responses API 的迭代式、多轮编辑工作流(支持“微调与迭代”的界面)。

该 API 对图像提示的处理方式不同于旧版 DALL·E 的限制:GPT 图像模型接受显著更长的文本提示(参考 32k 字符上限),使复杂、约束密集的指令成为可能。

主要特性(实用向)

  • 更强的可编辑性 / 多轮一致性: 在迭代编辑中保留角色外观、光照与关键视觉属性。这使“同一模型、重复编辑”在商品目录或品牌素材等工作流中更可靠。
  • 更高吞吐 — 相较 GPT Image 1 实现 4× 速度提升,旨在降低迭代创作的延迟。
  • 成本优化 — 相比 GPT Image 1,图像输入/输出成本降低约 20%,为高频次用户降低单次迭代成本。
  • 多图合成与风格参照 — 接受多张参考图以进行场景合成或风格/光照迁移。
  • 质量/保真度调节 — 通过 API 参数在速度与保真度间取舍(批量生成用较低质量;生产资产用更高质量)。
  • 多轮编辑 / 集成 Responses API — 支持逐步工作流(提出更改,再“微调”,同时保留状态)。

技术能力

  • 文本提示上限(图像模型): 最多 32,000 个字符(注:OpenAI 将其记为 GPT 图像模型的文本长度允许值)。适用于长篇、约束密集的提示。
  • 图像输入: 接受文件 ID(多轮流程优先)或原始字节;可提供多张图用于合成与参照。
  • 输出: 由 API 返回 PNG/JPEG 或平台默认的图像制品(或作为 ChatGPT 内的附件)。输出可包含多张候选图,并支持通过迭代请求进行细化。
  • 生成模式: 文生图、图像编辑(按指令重绘/扩展),以及变体。多轮编辑支持“添加/删除/组合”式指令。
  • 指令感知的编辑: 模型针对指令服从性进行了优化(例如“不要更改 logo”“保持姿态与光照”等不变量的保留)。提示工程模式(在每轮中显式重复不变量)可减少语义漂移。

基准表现

  • 排行榜表现: 某整合报告称,GPT Image 1.5 在一项 Artificial Analysis 排行上以约 1264 分领先文本到图像赛道,较下一名有可衡量的优势。
  • 任务级指标(编辑与保留): Microsoft Foundry 的评估汇总显示,GPT-Image-1.5 在单轮 BinaryEval 上取得近乎满分的二元修改成功率(100%),在 AuraFace 的人脸保留指标上也有较强表现(约 90%)。这些对比指标显示,相较部分竞品与早期 OpenAI 模型,其在保留与编辑保真方面占优。

GPT Image 1.5

GPT-Image-1.5 与同类对比

  • 对比 GPT Image 1(上一代 OpenAI 模型): 更快(最高 4×)、更便宜(图像 IO 成本约低 20%)、更强的编辑保真度——从“原型/演示”迈向“更适配生产”的图像工作流。
  • 对比 Google 的 Nano Banana Pro / Gemini 图像模型: GPT-Image-1.5 与 Google 的 Nano Banana Pro / Gemini 3 系列互为劲敌——各自在不同提示类型上具备优势。OpenAI 的信息强调编辑保真与迭代速度;Google 的方案在部分示例中被赞为具备影棚级写实度。
  • 对比 Qwen Image 及其他开源/闭源模型: 在单轮编辑与保留指标上,GPT-Image-1.5 优于 Qwen Image 的若干项,但在多轮或其他特定领域测试中差距收窄。

GPT-Image-1.5 的强项

  • 电商商品成像: 批量变体、背景替换、从单张照片构建一致的商品目录(品牌/Logo 保留)。
  • 创意与营销素材制作: 快速概念迭代、照片级拟真效果图、可控的风格迁移。
  • 照片润饰与编辑工作流: 真实的服饰/发型试穿、选择性润饰,同时保持身份与光照一致性。
  • 设计工具集成: 接入设计平台或 CMS,按需生成图像变体(保真度旋钮有助于成本控制)。
  • 多步合成管线: 多图输入支持复杂场景的合成与基于参照的生成。

如何访问 GPT Image 1.5 API

第一步:注册获取 API Key

登录 cometapi.com。若尚未成为用户,请先注册。进入 CometAPI 控制台。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。

第二步:向 GPT Image 1.5 API 发送请求

选择 “gpt-image-1.5” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获得。我们的网站也提供 Apifox 测试以便于使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI key。base url 为 Images(https://api.cometapi.com/v1/images/generations)以及 [Image Editing]。

将你的问题或请求插入到 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。

第三步:检索并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。

另见 Gemini 3 Pro Preview API

常见问题

How fast is GPT Image 1.5 compared to GPT Image 1?

GPT Image 1.5 delivers up to 4× speed improvements over GPT Image 1, significantly reducing latency for iterative creative workflows.

Does GPT Image 1.5 support multi-turn conversational editing?

Yes, through the Responses API, GPT Image 1.5 supports multi-turn editing workflows where you can iteratively refine images by providing follow-up instructions while preserving context.

What resolutions and quality settings does GPT Image 1.5 support?

GPT Image 1.5 supports 1024×1024 (square), 1536×1024 (landscape), and 1024×1536 (portrait). Quality options include low, medium, high, and auto.

Can GPT Image 1.5 use multiple reference images for compositing?

Yes, GPT Image 1.5 accepts multiple input images for compositing and style reference. The first 5 images are preserved with higher fidelity when using high input_fidelity mode.

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

GPT Image 1.5 emphasizes editing fidelity and iteration speed, while Nano Banana Pro is praised for studio realism. Both are closely competitive—choose based on your workflow needs.

Does GPT Image 1.5 support transparent backgrounds?

Yes, set the background parameter to 'transparent' with PNG or WebP output formats. Transparency works best at medium or high quality settings.

What is the maximum text prompt length for GPT Image 1.5?

GPT Image 1.5 accepts prompts up to 32,000 characters, enabling highly detailed and constrained instructions for complex image generation tasks.

GPT Image 1.5 的功能

了解 GPT Image 1.5 的核心能力,帮助提升性能与可用性,并改善整体体验。

GPT Image 1.5 的定价

查看 GPT Image 1.5 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
輸入:$6.4/M
輸出:$25.6/M
輸入:$8/M
輸出:$32/M
-20%

GPT Image 1.5 的示例代码与 API

gpt-image-1.5 API 是一个多模态图像模型端点,可接受一个或多个图像输入(文件标识符或字节)以及文本提示,并返回生成的图像或编辑后的图像。它支持:
Python
JavaScript
Curl
import base64
import os
from openai import OpenAI

# Set your API key if not set globally
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# Create output/ folder
folder_path = "output"
os.makedirs(folder_path, exist_ok=True)

# Generate the image using gpt-image-1.5
result = client.images.generate(
    model="gpt-image-1.5",
    prompt="A cute baby sea otter",
    n=1,
    size="1024x1024"
)

# Save the image to a file
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open(os.path.join(folder_path, "gpt-image-1.5-output.png"), "wb") as f:
    f.write(image_bytes)

print("Image saved to: output/gpt-image-1.5-output.png")

GPT Image 1.5 的版本

GPT Image 1.5 可能存在多个快照,原因包括:更新后保持一致性需要保留旧版、给开发者留出迁移窗口,以及全球/区域端点提供的优化差异。具体差异请参考官方文档。
version
gpt-image-1.5
gpt-image-1.5-2025-12-16

更多模型