O

GPT Image 1.5

輸入:$6.4/M
輸出:$25.6/M
GPT-Image-1.5 是 GPT Image 系列中的 OpenAI 图像模型。它是一个原生多模态的 GPT 模型,旨在根据文本提示生成图像,并对输入图像进行高保真编辑,同时严格遵循用户指令。
商用

什么是 GPT-Image-1.5 API?

GPT-Image-1.5 是 OpenAI 的 GPT Image 家族中的最新成员,也是 ChatGPT 焕新的 Images 体验背后的模型。它旨在将图像生成从新奇实验推进为面向生产的创意工具:更高的照片写实度、对迭代编辑的更精细控制,以及更快的推理速度,以支持交互式与企业级工作流。

gpt-image-1.5 API 是一个多模态图像模型端点,接受一个或多个图像输入(文件标识符或字节)以及文本提示,并返回生成图像或编辑后的图像。它支持:

  • 文生图(从提示创建),
  • 图像编辑 / 局部重绘(in-painting)/ 合成(对现有图像应用指令,支持多图输入),以及
  • 通过 Responses API 的迭代式、多轮编辑工作流(支持“微调与迭代”的界面)。

该 API 对图像提示的处理方式不同于旧版 DALL·E 的限制:GPT 图像模型接受显著更长的文本提示(参考 32k 字符上限),使复杂、约束密集的指令成为可能。

主要特性(实用向)

  • 更强的可编辑性 / 多轮一致性: 在迭代编辑中保留角色外观、光照与关键视觉属性。这使“同一模型、重复编辑”在商品目录或品牌素材等工作流中更可靠。
  • 更高吞吐 — 相较 GPT Image 1 实现 4× 速度提升,旨在降低迭代创作的延迟。
  • 成本优化 — 相比 GPT Image 1,图像输入/输出成本降低约 20%,为高频次用户降低单次迭代成本。
  • 多图合成与风格参照 — 接受多张参考图以进行场景合成或风格/光照迁移。
  • 质量/保真度调节 — 通过 API 参数在速度与保真度间取舍(批量生成用较低质量;生产资产用更高质量)。
  • 多轮编辑 / 集成 Responses API — 支持逐步工作流(提出更改,再“微调”,同时保留状态)。

技术能力

  • 文本提示上限(图像模型): 最多 32,000 个字符(注:OpenAI 将其记为 GPT 图像模型的文本长度允许值)。适用于长篇、约束密集的提示。
  • 图像输入: 接受文件 ID(多轮流程优先)或原始字节;可提供多张图用于合成与参照。
  • 输出: 由 API 返回 PNG/JPEG 或平台默认的图像制品(或作为 ChatGPT 内的附件)。输出可包含多张候选图,并支持通过迭代请求进行细化。
  • 生成模式: 文生图、图像编辑(按指令重绘/扩展),以及变体。多轮编辑支持“添加/删除/组合”式指令。
  • 指令感知的编辑: 模型针对指令服从性进行了优化(例如“不要更改 logo”“保持姿态与光照”等不变量的保留)。提示工程模式(在每轮中显式重复不变量)可减少语义漂移。

基准表现

  • 排行榜表现: 某整合报告称,GPT Image 1.5 在一项 Artificial Analysis 排行上以约 1264 分领先文本到图像赛道,较下一名有可衡量的优势。
  • 任务级指标(编辑与保留): Microsoft Foundry 的评估汇总显示,GPT-Image-1.5 在单轮 BinaryEval 上取得近乎满分的二元修改成功率(100%),在 AuraFace 的人脸保留指标上也有较强表现(约 90%)。这些对比指标显示,相较部分竞品与早期 OpenAI 模型,其在保留与编辑保真方面占优。

GPT Image 1.5

GPT-Image-1.5 与同类对比

  • 对比 GPT Image 1(上一代 OpenAI 模型): 更快(最高 4×)、更便宜(图像 IO 成本约低 20%)、更强的编辑保真度——从“原型/演示”迈向“更适配生产”的图像工作流。
  • 对比 Google 的 Nano Banana Pro / Gemini 图像模型: GPT-Image-1.5 与 Google 的 Nano Banana Pro / Gemini 3 系列互为劲敌——各自在不同提示类型上具备优势。OpenAI 的信息强调编辑保真与迭代速度;Google 的方案在部分示例中被赞为具备影棚级写实度。
  • 对比 Qwen Image 及其他开源/闭源模型: 在单轮编辑与保留指标上,GPT-Image-1.5 优于 Qwen Image 的若干项,但在多轮或其他特定领域测试中差距收窄。

GPT-Image-1.5 的强项

  • 电商商品成像: 批量变体、背景替换、从单张照片构建一致的商品目录(品牌/Logo 保留)。
  • 创意与营销素材制作: 快速概念迭代、照片级拟真效果图、可控的风格迁移。
  • 照片润饰与编辑工作流: 真实的服饰/发型试穿、选择性润饰,同时保持身份与光照一致性。
  • 设计工具集成: 接入设计平台或 CMS,按需生成图像变体(保真度旋钮有助于成本控制)。
  • 多步合成管线: 多图输入支持复杂场景的合成与基于参照的生成。

如何访问 GPT Image 1.5 API

第一步:注册获取 API Key

登录 cometapi.com。若尚未成为用户,请先注册。进入 CometAPI 控制台。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。

第二步:向 GPT Image 1.5 API 发送请求

选择 “gpt-image-1.5” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获得。我们的网站也提供 Apifox 测试以便于使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI key。base url 为 Imageshttps://api.cometapi.com/v1/images/generations)以及 [Image Editing]

将你的问题或请求插入到 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。

第三步:检索并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。

另见 Gemini 3 Pro Preview API

常见问题

更多模型