X

GPT Image 1 mini

輸入:$6.4/M
輸出:$25.6/M
上下文:2M
最大输出:30K
Cost-optimized version of GPT Image 1. It is a native Multimodal language model that accepts both text and image input and generates image output.
商用

主要特性

  • 文本→图像生成: 将自然语言提示转换为图像,并具有较强的指令遵循能力。
  • 图像编辑 / 局部重绘: 接受参考图像和蒙版,以执行有针对性的编辑。
  • 成本优化(“mini”)设计: 体量更小,OpenAI 和观察者称其单张图像成本明显低于大模型(OpenAI/DevDay 的说法和早期报告称约便宜 ~80%)。
  • 灵活的输出控制: 支持尺寸、输出格式(JPEG/PNG/WEBP)、压缩,以及质量档位控制(cookbook 中为 low/medium/high/auto)。

技术细节(架构与能力)

  • 模型家族与输入/输出: 属于 gpt-image-1 家族;接受文本提示图像输入(用于编辑),并返回生成的图像输出。质量/尺寸参数控制分辨率(该家族的典型最大值约为 ~1536×1024——确切支持尺寸请参见文档)。
  • 运行权衡: 该模型以更小的体量进行设计——以部分顶级保真度为代价,换取吞吐量和成本方面的提升,同时保留稳健的提示词遵循与编辑能力。
  • 安全与元数据: 遵循 OpenAI 的图像安全防护规范,并在可用时嵌入用于溯源的 C2PA 元数据选项。

输入与输出——规范用法支持:

  • 文本提示(string)用于生成新图像。
  • 图像 + 蒙版用于执行有针对性的编辑/局部重绘。
  • 参考图像用于控制风格或构图。
    这些能力通过 Images API 暴露(模型名为 gpt-image-1-mini)。

局限性

  • 峰值保真度较低: 与大型 gpt-image-1 模型相比,mini 可能会损失一些微观细节和顶级照片级真实感(这是成本优化的预期权衡)。
  • 文字渲染与微小细节: 与许多图像模型一样,它在小尺寸可读文本、复杂图表或极其细微的纹理方面可能表现不佳;对于这些需求,通常需要后处理或使用更高容量的模型。
  • 编辑范围: 提供图像编辑/局部重绘能力,但相较于交互式 ChatGPT 网页工具,可能存在一些编辑限制——对于许多任务依然有效,但可能需要迭代式微调。
  • 安全与策略限制: 输出受 OpenAI 审核/安全防护规范约束(露骨内容、受版权保护内容限制、禁止输出)。开发者可在 API 提供相关参数时控制审核敏感度。

推荐使用场景

  • 高吞吐内容生成(营销素材、缩略图、快速概念图)——适用于单图成本为首要因素的场景。
  • 程序化编辑 / 模板化处理——基于基础素材进行批量局部重绘或变体生成。
  • 有预算约束的交互式应用——如聊天界面或集成设计工具,在这些场景中,响应速度和成本比绝对最高保真度更重要。
  • 原型设计与 A/B 图像生成——快速生成大量候选图像,并对最终入选方案选择性放大清晰度或在更大模型上重新生成。
  • 如何访问 gpt-image-1-mini API

第 1 步:注册获取 API Key

登录 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI console。获取接口访问凭证 API key。在个人中心的 API token 中点击“Add Token”,获取 token key:sk-xxxxx 并提交。

第 2 步:向 gpt-image-1-mini API 发送请求

选择“\**gpt-image-1-mini \**”端点以发送 API 请求,并设置请求体。请求方法和请求体可从我们网站的 API 文档中获取。我们的网站还提供 Apifox 测试,方便您使用。请将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。

将您的问题或请求插入 content 字段中——模型将对该内容进行响应。处理 API 响应以获取生成的答案。

第 3 步:获取并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态和输出数据。

更多模型