GPT-Image-1.5 APIとは?
GPT-Image-1.5は、OpenAIのGPT Imageファミリーの最新モデルであり、ChatGPTで刷新されたImages体験を支えるモデルです。画像生成を単なる実験的用途から、本番品質のクリエイティブツールへと進化させることを目的として設計されており、より高い写真らしさ、反復編集におけるより細かな制御、そしてインタラクティブおよびエンタープライズ向けワークフローを支える高速な推論を実現します。
gpt-image-1.5 APIは、1つ以上の画像入力(ファイル識別子またはバイト列)とテキストプロンプトを受け取り、生成画像または編集済み画像を返すマルチモーダル画像モデルのエンドポイントです。以下をサポートしています。
- テキストから画像を生成(プロンプトから作成)
- 画像編集 / インペインティング / コンポジット(既存画像に指示を適用、複数画像入力を許可)
- Responses APIによる反復的なマルチターン編集ワークフロー(「調整して繰り返す」UIを実現)
このAPIは、旧来のDALL·Eの制限とは異なる形で画像プロンプトを扱います。GPT画像モデルは、はるかに長いテキストプロンプト(32,000文字のガイドライン)を受け付けるため、複雑で制約の多い指示にも対応可能です。
主な機能(実用面)
- 編集性の向上 / マルチターンでの一貫性向上: 反復編集をまたいでも、キャラクターの見た目、ライティング、主要な視覚属性を維持します。これにより、「同じモデルに対する繰り返し編集」が、商品カタログやブランドアセットのようなワークフローでより信頼できるものになります。
- スループットの高速化 — GPT Image 1と比べて4倍の速度向上を実現し、反復的なクリエイティブワークフローのレイテンシ低減を目指しています。
- コスト最適化 — 画像入力/出力コストがGPT Image 1比で約**20%**削減され、大量利用時の画像ごとの反復コストを抑えます。
- 複数画像のコンポジットとスタイル参照 — 複数の参照画像を受け取り、シーンの合成やスタイル/ライティングの転送が可能です。
- 品質/忠実度の調整ノブ — 速度と忠実度をトレードオフするAPIパラメータを提供します(大量生成では低品質、本番用アセットでは高品質を使用)。
- マルチターン編集 / Responses API統合 — 段階的なワークフローを可能にします(変更を依頼し、その後状態を維持したまま「微調整」する)。
技術的な機能
- テキストプロンプト上限(画像モデル): 最大32,000文字(注:OpenAIはこれをGPT画像モデル向けのテキスト長の許容値として文書化しています)。長く制約の多いプロンプトに活用できます。
- 画像入力: File ID(マルチターンフローで推奨)または生バイト列を受け付けます。コンポジットや参照用として複数画像を指定できます。
- 出力: APIからPNG/JPEG、またはプラットフォーム既定の画像アーティファクトとして返されます(ChatGPT内では添付ファイルとして返される場合もあります)。出力には複数の候補画像を含めることができ、反復リクエストによる絞り込みにも対応します。
- 生成モード: テキストから画像生成、画像編集(指示によるインペイント/拡張)、およびバリエーション生成。マルチターン編集では「追加/削除/結合」型の指示をサポートします。
- 指示理解型編集: モデルは指示への忠実性に最適化されており、「ロゴを変更しない」「ポーズとライティングを維持する」といった指定不変条件を保持します。プロンプトエンジニアリングのパターンとして、各反復で不変条件を明示的に繰り返すと、意味的ドリフトを減らせます。
ベンチマーク性能
- リーダーボード順位: ある総合レポートでは、GPT Image 1.5がArtificial Analysisのリーダーボードにおいて、約1264ポイントでテキストから画像生成ランキングの首位に立ち、次点モデルを明確な差で上回ったとされています。
- タスク別指標(編集と保持): Microsoft Foundryによる評価指標の概要では、GPT-Image-1.5は単一ターンのBinaryEvalでバイナリ修正成功率ほぼ完璧(100%)を達成し、比較表では顔保持スコア(AuraFace指標で約90%)も高水準でした。これらの比較指標は、GPT-Image-1.5が保持性能と編集忠実度において一部競合や従来のOpenAIモデルを上回ることを示しています。

GPT-Image-1.5と他モデルの比較
- GPT Image 1(従来のOpenAI世代)との比較: より高速(最大4倍)、より低コスト(画像I/Oコストが約20%低下)、そしてより高い編集忠実度を実現しており、「プロトタイプ/デモ」から「本番向けフレンドリー」な画像ワークフローへの移行を狙っています。
- GoogleのNano Banana Pro / Gemini画像モデルとの比較: GPT-Image-1.5とGoogleのNano Banana Pro / Gemini 3ファミリーは近い競合関係にあり、それぞれ異なるプロンプト分類で強みを持ちます。OpenAIは編集忠実度と反復速度を強調しており、Googleの提供物は一部の例でスタジオレベルのリアリズムが高く評価されています。
- Qwen Imageやその他のオープン/クローズドモデルとの比較: GPT-Image-1.5は、単一ターン評価においてQwen Imageを複数の編集・保持指標で上回っていますが、マルチターンやその他のドメイン特化テストでは差が縮まります。
GPT-Image-1.5が強い分野
- Eコマースの商品画像制作: 大量バリエーション、背景差し替え、単一写真からの一貫した商品カタログ作成(ブランド/ロゴ保持)。
- クリエイティブおよびマーケティング素材制作: 素早いコンセプト反復、写真品質のモックアップ、制御されたスタイル変換。
- 写真レタッチおよび編集ワークフロー: アイデンティティとライティングを維持したまま、リアルな服装/ヘアスタイルの試着や選択的レタッチを実現。
- デザインツール統合: デザインプラットフォームやCMSに組み込み、オンデマンドで画像バリエーションを生成(忠実度調整ノブがコスト管理に役立ちます)。
- 多段階コンポジットパイプライン: 複数画像入力により、複雑なシーン向けの合成や参照ベース生成が可能です。
GPT Image 1.5 APIへのアクセス方法
ステップ1:APIキーを登録する
cometapi.comにログインします。まだユーザーでない場合は、先に登録してください。CometAPIコンソールにサインインし、インターフェースのアクセス認証情報であるAPIキーを取得します。個人センターのAPI tokenで「Add Token」をクリックし、トークンキー sk-xxxxx を取得して送信します。
ステップ2:GPT Image 1.5 APIにリクエストを送信する
APIリクエストを送信し、リクエストボディを設定するには、「gpt-image-1.5」エンドポイントを選択します。リクエストメソッドとリクエストボディは、当社WebサイトのAPIドキュメントに記載されています。当社Webサイトでは、利便性のためにApifoxテストも提供しています。<YOUR_API_KEY> を、アカウントの実際のCometAPIキーに置き換えてください。base url はImages(https://api.cometapi.com/v1/images/generations)および [Image Editing] です。
contentフィールドに質問やリクエストを入力してください。これはモデルが応答する内容です。APIレスポンスを処理して、生成された回答を取得します。
ステップ3:結果を取得して検証する
APIレスポンスを処理して、生成された回答を取得します。処理後、APIはタスクのステータスと出力データを返します。