什么是 GPT-Image-1.5 API？

GPT-Image-1.5 是 OpenAI 的 GPT Image 家族中的最新成员，也是 ChatGPT 焕新的 Images 体验背后的模型。它旨在将图像生成从新奇实验推进为面向生产的创意工具：更高的照片写实度、对迭代编辑的更精细控制，以及更快的推理速度，以支持交互式与企业级工作流。

gpt-image-1.5 API 是一个多模态图像模型端点，接受一个或多个图像输入（文件标识符或字节）以及文本提示，并返回生成图像或编辑后的图像。它支持：

文生图（从提示创建），
图像编辑 / 局部重绘（in-painting）/ 合成（对现有图像应用指令，支持多图输入），以及
通过 Responses API 的迭代式、多轮编辑工作流（支持“微调与迭代”的界面）。

该 API 对图像提示的处理方式不同于旧版 DALL·E 的限制：GPT 图像模型接受显著更长的文本提示（参考 32k 字符上限），使复杂、约束密集的指令成为可能。

主要特性（实用向）

更强的可编辑性 / 多轮一致性： 在迭代编辑中保留角色外观、光照与关键视觉属性。这使“同一模型、重复编辑”在商品目录或品牌素材等工作流中更可靠。
更高吞吐 — 相较 GPT Image 1 实现 4× 速度提升，旨在降低迭代创作的延迟。
成本优化 — 相比 GPT Image 1，图像输入/输出成本降低约 20%，为高频次用户降低单次迭代成本。
多图合成与风格参照 — 接受多张参考图以进行场景合成或风格/光照迁移。
质量/保真度调节 — 通过 API 参数在速度与保真度间取舍（批量生成用较低质量；生产资产用更高质量）。
多轮编辑 / 集成 Responses API — 支持逐步工作流（提出更改，再“微调”，同时保留状态）。

技术能力

文本提示上限（图像模型）： 最多 32,000 个字符（注：OpenAI 将其记为 GPT 图像模型的文本长度允许值）。适用于长篇、约束密集的提示。
图像输入： 接受文件 ID（多轮流程优先）或原始字节；可提供多张图用于合成与参照。
输出： 由 API 返回 PNG/JPEG 或平台默认的图像制品（或作为 ChatGPT 内的附件）。输出可包含多张候选图，并支持通过迭代请求进行细化。
生成模式： 文生图、图像编辑（按指令重绘/扩展），以及变体。多轮编辑支持“添加/删除/组合”式指令。
指令感知的编辑： 模型针对指令服从性进行了优化（例如“不要更改 logo”“保持姿态与光照”等不变量的保留）。提示工程模式（在每轮中显式重复不变量）可减少语义漂移。

基准表现

排行榜表现： 某整合报告称，GPT Image 1.5 在一项 Artificial Analysis 排行上以约 1264 分领先文本到图像赛道，较下一名有可衡量的优势。
任务级指标（编辑与保留）： Microsoft Foundry 的评估汇总显示，GPT-Image-1.5 在单轮 BinaryEval 上取得近乎满分的二元修改成功率（100%），在 AuraFace 的人脸保留指标上也有较强表现（约 90%）。这些对比指标显示，相较部分竞品与早期 OpenAI 模型，其在保留与编辑保真方面占优。

GPT Image 1.5

GPT-Image-1.5 与同类对比

对比 GPT Image 1（上一代 OpenAI 模型）： 更快（最高 4×）、更便宜（图像 IO 成本约低 20%）、更强的编辑保真度——从“原型/演示”迈向“更适配生产”的图像工作流。
对比 Google 的 Nano Banana Pro / Gemini 图像模型： GPT-Image-1.5 与 Google 的 Nano Banana Pro / Gemini 3 系列互为劲敌——各自在不同提示类型上具备优势。OpenAI 的信息强调编辑保真与迭代速度；Google 的方案在部分示例中被赞为具备影棚级写实度。
对比 Qwen Image 及其他开源/闭源模型： 在单轮编辑与保留指标上，GPT-Image-1.5 优于 Qwen Image 的若干项，但在多轮或其他特定领域测试中差距收窄。

GPT-Image-1.5 的强项

电商商品成像： 批量变体、背景替换、从单张照片构建一致的商品目录（品牌/Logo 保留）。
创意与营销素材制作： 快速概念迭代、照片级拟真效果图、可控的风格迁移。
照片润饰与编辑工作流： 真实的服饰/发型试穿、选择性润饰，同时保持身份与光照一致性。
设计工具集成： 接入设计平台或 CMS，按需生成图像变体（保真度旋钮有助于成本控制）。
多步合成管线： 多图输入支持复杂场景的合成与基于参照的生成。

如何访问 GPT Image 1.5 API

第一步：注册获取 API Key

第二步：向 GPT Image 1.5 API 发送请求

选择 “gpt-image-1.5” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获得。我们的网站也提供 Apifox 测试以便于使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI key。base url 为 Images（https://api.cometapi.com/v1/images/generations）以及 [Image Editing]。

将你的问题或请求插入到 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。

第三步：检索并验证结果

处理 API 响应以获取生成的答案。处理完成后，API 会返回任务状态与输出数据。

另见 Gemini 3 Pro Preview API

什么是 GPT-Image-1.5 API？

文生图（从提示创建），
图像编辑 / 局部重绘（in-painting）/ 合成（对现有图像应用指令，支持多图输入），以及
通过 Responses API 的迭代式、多轮编辑工作流（支持“微调与迭代”的界面）。

主要特性（实用向）

更强的可编辑性 / 多轮一致性： 在迭代编辑中保留角色外观、光照与关键视觉属性。这使“同一模型、重复编辑”在商品目录或品牌素材等工作流中更可靠。
更高吞吐 — 相较 GPT Image 1 实现 4× 速度提升，旨在降低迭代创作的延迟。
成本优化 — 相比 GPT Image 1，图像输入/输出成本降低约 20%，为高频次用户降低单次迭代成本。
多图合成与风格参照 — 接受多张参考图以进行场景合成或风格/光照迁移。
质量/保真度调节 — 通过 API 参数在速度与保真度间取舍（批量生成用较低质量；生产资产用更高质量）。
多轮编辑 / 集成 Responses API — 支持逐步工作流（提出更改，再“微调”，同时保留状态）。

技术能力

文本提示上限（图像模型）： 最多 32,000 个字符（注：OpenAI 将其记为 GPT 图像模型的文本长度允许值）。适用于长篇、约束密集的提示。
图像输入： 接受文件 ID（多轮流程优先）或原始字节；可提供多张图用于合成与参照。
输出： 由 API 返回 PNG/JPEG 或平台默认的图像制品（或作为 ChatGPT 内的附件）。输出可包含多张候选图，并支持通过迭代请求进行细化。
生成模式： 文生图、图像编辑（按指令重绘/扩展），以及变体。多轮编辑支持“添加/删除/组合”式指令。
指令感知的编辑： 模型针对指令服从性进行了优化（例如“不要更改 logo”“保持姿态与光照”等不变量的保留）。提示工程模式（在每轮中显式重复不变量）可减少语义漂移。

基准表现

排行榜表现： 某整合报告称，GPT Image 1.5 在一项 Artificial Analysis 排行上以约 1264 分领先文本到图像赛道，较下一名有可衡量的优势。
任务级指标（编辑与保留）： Microsoft Foundry 的评估汇总显示，GPT-Image-1.5 在单轮 BinaryEval 上取得近乎满分的二元修改成功率（100%），在 AuraFace 的人脸保留指标上也有较强表现（约 90%）。这些对比指标显示，相较部分竞品与早期 OpenAI 模型，其在保留与编辑保真方面占优。

GPT Image 1.5

GPT-Image-1.5 与同类对比

对比 GPT Image 1（上一代 OpenAI 模型）： 更快（最高 4×）、更便宜（图像 IO 成本约低 20%）、更强的编辑保真度——从“原型/演示”迈向“更适配生产”的图像工作流。
对比 Google 的 Nano Banana Pro / Gemini 图像模型： GPT-Image-1.5 与 Google 的 Nano Banana Pro / Gemini 3 系列互为劲敌——各自在不同提示类型上具备优势。OpenAI 的信息强调编辑保真与迭代速度；Google 的方案在部分示例中被赞为具备影棚级写实度。
对比 Qwen Image 及其他开源/闭源模型： 在单轮编辑与保留指标上，GPT-Image-1.5 优于 Qwen Image 的若干项，但在多轮或其他特定领域测试中差距收窄。

GPT-Image-1.5 的强项

电商商品成像： 批量变体、背景替换、从单张照片构建一致的商品目录（品牌/Logo 保留）。
创意与营销素材制作： 快速概念迭代、照片级拟真效果图、可控的风格迁移。
照片润饰与编辑工作流： 真实的服饰/发型试穿、选择性润饰，同时保持身份与光照一致性。
设计工具集成： 接入设计平台或 CMS，按需生成图像变体（保真度旋钮有助于成本控制）。
多步合成管线： 多图输入支持复杂场景的合成与基于参照的生成。

如何访问 GPT Image 1.5 API

第一步：注册获取 API Key

第二步：向 GPT Image 1.5 API 发送请求

将你的问题或请求插入到 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。

第三步：检索并验证结果

处理 API 响应以获取生成的答案。处理完成后，API 会返回任务状态与输出数据。

另见 Gemini 3 Pro Preview API

version
gpt-image-1.5
gpt-image-1.5-2025-12-16

version
gpt-image-1.5
gpt-image-1.5-2025-12-16

GPT Image 1.5

更多模型

GPT Image 1.5

更多模型