OpenAI 的 GPT-Image-1 API 是一款最先进的多模态图像生成模型,使开发者和企业能够将高级图像创作能力集成到其应用中。该 API 可根据文本提示生成高质量图像,支持多样化风格和精确的内容呈现。
GPT-Image-1 的关键特性
GPT-Image-1 旨在根据文本提示生成高质量图像,为用户提供以多种风格与格式创作可视化内容的能力。其关键特性包括:
- 多模态集成:GPT-Image-1 能够无缝处理与生成文本和视觉数据。该多模态集成支持更为动态的交互,使用户可输入结合文本与图像的提示,生成连贯且语境相关的输出。
- 自定义提示遵循:准确理解并可视化用户定义的提示,确保与指定需求保持一致。
- 世界知识融入:利用广泛的训练数据,将语境理解与现实世界知识融入生成的图像。
- 文本渲染能力:高效地在图像中整合文本元素,保持可读性与风格一致性。
- 增强的视觉推理:在前代能力基础上,GPT-Image-1 提升了视觉推理表现。它能够解读复杂场景、理解空间关系,并生成与提供的文本描述高度吻合的图像。
- 高保真图像生成:该模型可生成高分辨率图像,具备出色的细节与准确性。此特性对需要照片级逼真效果或复杂设计元素的应用尤为有益。
这些特性综合赋能用户生成既具视觉吸引力又具有语境意义的图像,满足广泛的创意与专业需求。
技术架构
基于 GPT-4o 的基础
GPT-Image-1 构建在 GPT-4o 框架之上,该框架以在语言与视觉任务中的强劲表现著称。这一基础为 GPT-Image-1 处理复杂的多模态输入并生成高质量输出提供了坚实支撑。
自回归图像生成
与基于扩散的模型不同,GPT-Image-1 采用自回归的图像生成方法。该方法使模型能够按序生成图像,从而确保视觉输出的一致性与连贯性。
分词与数据处理
该模型采用先进的分词技术,高效处理与理解输入数据。这包括在图像中解读与生成文本的能力,提升其在文档分析与内容创作等应用场景中的实用性。
技术规格
输入与输出
- 输入:文本提示及可选的图像输入。
- 输出:基于所提供提示生成的图像。
分辨率支持
GPT-Image-1 支持高分辨率图像生成,包括 1024×1024、1024×1536、1536×1024 像素等尺寸。
安全与审核
该 API 集成了强大的安全措施,包括:
- 内容过滤:开发者可将
moderation参数设置为auto(默认)以进行标准过滤,或设置为low以采用较为宽松的过滤。 - C2PA 元数据:所有生成的图像均包含 C2PA 元数据,便于平台识别 AI 生成内容。
性能评估与基准测试
图像质量评估
在图像质量评估中,GPT-Image-1 的平均得分为 9.1 分(满分 10 分),显著优于其他主流模型。其在图像清晰度、色彩还原与细节表现方面具有出色表现。
生成速度与效率
在生成 256×256 分辨率图像时,GPT-Image-1 的平均生成时间为 6.1 秒,优于同类模型。此外,其在更高分辨率下的生成效率同样出色,能够满足实时生成需求。
性能指标
GPT-Image-1 在不同类别与条件的图像生成中取得了出色的准确率。例如,在生成猫的图像时准确率为 93%,风景为 91%,夜景为 94%。此外,该模型在风格迁移任务中表现优异,超越了 GAN 与 PixelCNN 等模型。
如何通过 CometAPI 调用 GPT-Image-1 API
CometAPI 中 GPT-Image-1 API 定价,较官方价格优惠 20%:
- 输入 Tokens:$8 / M tokens
- 输出 Tokens:$32/ M tokens
必要步骤
- 登录 cometapi.com。若尚未成为我们的用户,请先注册
- 获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。
- 获取本站的 url:https://api.cometapi.com/
使用方法
- 选择 “
GPT-Image-1” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站亦提供 Apifox 测试,方便您使用。 - 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI 密钥。
- 将您的问题或请求插入 content 字段——模型将基于该字段进行响应。
- 处理 API 响应以获取生成的答案。
有关在 Comet API 上模型上线的信息请见 API guide(模型名称:gpt-image-1)
有关 Comet API 中模型价格的信息请参见 https://api.cometapi.com/pricing。
API 用法
OpenAI 通过其 Images API 提供对 GPT-Image-1 的访问,使开发者能够将图像生成功能集成到应用中。
- 生成图像:该模型遵循 openai v1/images/generations 的调用格式,
详情见:https://apidoc.cometapi.com/images-api-13851474。
url:https://api.cometapi.com/v1/images/generations
使用该 API 的示例如下:
import requests
url = "https://api.cometapi.com/v1/images/generations"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "gpt-image-1",
"prompt": "A billboard in a city square that reads 'Welcome to the Future'",
"n": 1,
"size": "1024x1024"
}
response = requests.post(url, headers=headers, json=payload)
image_url = response.json()
print("Generated Image with Text URL:", image_url)
该脚本会创建一张在场景中包含指定文本的图像。
- 编辑图像:该模型遵循 openai v1/images/edits 的调用格式,
详情见:[图像编辑 (gpt-image-1)](https://apidoc.cometapi.com/images-api-13851474)。
url:https://api.cometapi.com/v1/images/edits
如对调用有任何疑问或对我们有任何建议,请通过社交媒体或邮箱 support@cometapi.com 与我们联系。
另请参阅 GPT-Image-1 的费用是多少?
