GPT-Image-1.5 API とは?
GPT-Image-1.5 は、OpenAI の GPT Image ファミリーの最新モデルで、ChatGPT の刷新された Images 体験を支えるモデルです。画像生成を単なる実験から本番レベルのクリエイティブツールへと進化させることを目的に設計されており、より高いフォトリアリズム、反復編集に対するきめ細かなコントロール、そしてインタラクティブおよびエンタープライズワークフローを支える高速推論を備えています。
gpt-image-1.5 API は、複数の画像入力(ファイル識別子またはバイト列)とテキストプロンプトを受け取り、生成画像または編集済み画像を返すマルチモーダル画像モデルのエンドポイントです。対応機能:
- テキストから画像の生成(プロンプトから作成),
- 画像編集/インペインティング/コンポジティング(既存画像に指示を適用、複数画像の入力に対応), and
- Responses API による反復的なマルチターン編集ワークフロー(“微調整して反復”できる UI を実現)。
この API は旧来の DALL·E の制約とは異なるプロンプト処理を行います。GPT 画像モデルは大幅に長いテキストプロンプト(目安として 32,000 文字)を受け付けるため、複雑で制約の多い指示も実現可能です。
主な特長(実用面)
- 編集容易性/マルチターンでの一貫性の向上:反復編集においてキャラクターの外見、ライティング、主要な視覚属性を保持します。これにより、同一モデルでの繰り返し編集が、商品カタログやブランドアセットといったワークフローでより信頼できるものになります。
- スループットの向上 — GPT Image 1 比で最大 4× の高速化。反復的なクリエイティブワークフローのレイテンシ低減を狙っています。
- コスト最適化 — 画像の入出力コストを GPT Image 1 比で約 20% 削減し、大量反復利用時の 1 画像あたりコストを低減。
- マルチ画像コンポジット&スタイル参照 — 複数の参照画像を受け付け、シーンの合成やスタイル/ライティングの転移に対応。
- 品質/忠実度の調整ノブ — 速度と忠実度のトレードオフを制御する API パラメータ(大量生成時は低品質、本番アセットには高品質を設定)。
- マルチターン編集/Responses API 連携 — 段階的なワークフローを実現(変更点を指示し、“微調整”して状態を保持したまま反復)。
技術的な機能
- テキストプロンプト上限(画像モデル):最大 32,000 文字(OpenAI は GPT 画像モデルのテキスト長許容量として記載)。長文で制約の多いプロンプトに利用可能。
- 画像入力:ファイル ID(マルチターンフローでは推奨)または生バイトを受け付け、合成や参照のために複数画像の提供が可能。
- 出力:PNG/JPEG などのプラットフォーム既定の画像アーティファクトを返します(または ChatGPT 内では添付として)。複数候補の生成や、反復リクエストによる品質の洗練に対応。
- 生成モード:テキストから画像、画像編集(インペイント/指示による拡張)、およびバリアント。マルチターン編集では「追加/削除/結合」形式の指示をサポート。
- 指示順守に最適化された編集:指定した不変条件(例:「ロゴは変更しない」「ポーズとライティングを保持」)の保持に最適化。プロンプト設計のパターン(各反復で不変条件を明示的に繰り返す)が意味のドリフトを抑制。
ベンチマーク性能
- リーダーボードでの位置づけ:ある集計レポートでは、Artificial Analysis のリーダーボードにおけるテキストから画像のランキングで GPT Image 1.5 が約 ~1264 points を記録し、次点モデルを有意に上回ったとされています。
- タスク別指標(編集&保持):Microsoft Foundry の評価要約では、単一ターンの BinaryEval において二値的な変更成功率が 100% に近く、顔保持スコアも AuraFace 指標で約 90% とされ、競合や従来の OpenAI モデルと比較した表でも優位性が示されています。これらの比較指標は、保持と編集の忠実度において GPT-Image-1.5 が一部の競合を上回ることを示しています。

同種モデルとの比較
- GPT Image 1(従来世代)との比較:最大 4× 高速、約 20% の画像 IO コスト削減、編集の忠実度向上 — “プロトタイプ/デモ” 段階から “本番フレンドリー” な画像ワークフローへの移行を狙った改善。
- Google の Nano Banana Pro/Gemini 画像モデルとの比較:GPT-Image-1.5 と Google の Nano Banana Pro/Gemini 3 ファミリーは拮抗する競合関係で、プロンプトの種類によって強みが異なります。OpenAI は編集の忠実度と反復速度を強調しており、Google の提供物は一部の例でスタジオ級のリアリズムが評価されています。
- Qwen Image およびその他のオープン/クローズドモデルとの比較:単一ターンの評価では編集と保持の複数指標で GPT-Image-1.5 が Qwen Image を上回る傾向が見られる一方で、マルチターンや特定ドメインのテストでは差が縮まるケースがあります。
GPT-Image-1.5 が得意とする領域
- E コマースの商品撮影:一括バリアント生成、背景差し替え、単一写真からの一貫した商品カタログ作成(ブランド/ロゴの保持)。
- クリエイティブ/マーケティングアセット制作:迅速なコンセプト反復、フォトリアリスティックなモックアップ、制御されたスタイル転移。
- 写真レタッチ/編集ワークフロー:リアルな衣服/ヘアスタイルの試着、人物性を保つ選択的レタッチ、ライティングの保持。
- デザインツール連携:デザインプラットフォームや CMS に接続してオンデマンドで画像バリアントを生成(忠実度ノブでコスト制御)。
- 多段コンポジットのパイプライン:複数画像入力により、複雑なシーンの合成や参照ベース生成が可能。
GPT Image 1.5 API へのアクセス方法
ステップ 1: API キーにサインアップ
cometapi.com にログインしてください。まだユーザーでない場合は、まず登録してください。CometAPI console にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API token で “Add Token” をクリックし、トークンキー: sk-xxxxx を取得して送信します。
ステップ 2: GPT Image 1.5 API にリクエストを送信
“gpt-image-1.5” エンドポイントを選択し、API リクエストを送信してリクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントから取得できます。当社サイトでは利便性のため Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。base url は Images(https://api.cometapi.com/v1/images/generations)および [Image Editing] です
content フィールドに質問またはリクエストを入力します—これはモデルが応答する対象です。API レスポンスを処理して生成された回答を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。