什麼是 GPT-Image-1.5 API?
GPT-Image-1.5 是 OpenAI GPT Image 系列的最新成員,也是 ChatGPT 全新 Images 體驗背後的模型。它旨在將影像生成從新奇的實驗推進到可投入生產的創意工具:更高的照片寫實度、更細緻的迭代編輯控制,以及更快的推理速度,以支援互動式與企業級工作流程。
gpt-image-1.5 API 是一個多模態影像模型端點,可接受一張或多張影像輸入(檔案識別碼或位元組)以及文字提示,並回傳生成的影像或編輯後的影像。它支援:
- 文字生成圖片(根據提示建立),
- 影像編輯/局部重繪/合成(對現有影像套用指令,允許多張影像輸入),以及
- 透過 Responses API 進行迭代式、多輪編輯工作流程(可支援「微調並反覆修改」的 UI)。
API 對影像提示的處理方式不同於舊版 DALL·E 的限制:GPT 影像模型可接受明顯更長的文字提示(32k 字元指引),使複雜且帶有大量約束條件的指令成為可能。
主要功能(實務面)
- 更好的可編輯性/多輪一致性: 在迭代編輯過程中保留角色外觀、光線與關鍵視覺屬性。這讓「相同模型、重複編輯」在產品型錄或品牌素材等工作流程中更可靠。
- 更快的吞吐量 — 相較於 GPT Image 1,速度提升 4×,旨在降低迭代式創意工作流程的延遲。
- 成本最佳化 — 影像輸入/輸出成本較 GPT Image 1 降低約 20%,可為高用量使用者降低單張影像的迭代成本。
- 多影像合成與風格參考 — 可接受多張參考影像來進行場景合成或風格/光線轉移。
- 品質/擬真度控制 — API 參數可在速度與擬真度之間進行取捨(大量生成時可使用較低品質;正式產出素材時可使用較高品質)。
- 多輪編輯/Responses API 整合 — 可啟用逐步式工作流程(先提出修改要求,再「微調」並保留狀態)。
技術能力
- 文字提示上限(影像模型): 最多 32,000 個字元(請注意:OpenAI 文件將此記載為 GPT 影像模型可接受的文字長度)。可用於冗長、約束條件多的提示。
- 影像輸入: 接受 File IDs(多輪流程中為首選)或原始位元組;可提供多張影像用於合成與參考。
- 輸出: PNG/JPEG 或平台預設的影像產物,由 API 回傳(或作為 ChatGPT 內的附件)。輸出可包含多個候選影像,並支援透過迭代請求來細化結果。
- 生成模式: 文字生成圖片、影像編輯(依指示進行局部重繪/延展)以及變體。多輪編輯支援「新增/刪除/組合」風格的指令。
- 指令感知編輯: 模型已針對指令忠實度進行最佳化(保留指定的不變條件,例如「不要變更 logo」、「保持姿勢與光線」)。提示工程模式(每次迭代都明確重複不變條件)可降低語意漂移。
基準效能
- 排行榜表現: 某份綜合報告指出,GPT Image 1.5 在 Artificial Analysis 排行榜的文字生成圖片項目中以 ~1264 分 領先,並以可衡量的差距超越下一個模型。
- 任務層級指標(編輯與保留): Microsoft Foundry 的評估指標摘要顯示,在其比較表中,GPT-Image-1.5 在單輪 BinaryEval 上達到接近完美的二元修改成功率(100%),並在 AuraFace 指標上取得強勁的人臉保留分數(約 90%),相較競品與先前的 OpenAI 模型表現突出。這些比較指標顯示,GPT-Image-1.5 在保留性與編輯忠實度方面領先部分競爭對手。

GPT-Image-1.5 與同類模型的比較
- 對比 GPT Image 1(OpenAI 上一代): 更快(最高可達 4×)、更便宜(影像 IO 成本降低約 ~20%),且編輯忠實度更強——目標是將影像工作流程從「原型/展示」推進到「對生產更友善」。
- 對比 Google 的 Nano Banana Pro/Gemini 影像模型: GPT-Image-1.5 與 Google 的 Nano Banana Pro/Gemini 3 系列被視為接近的競爭對手——各自在不同類型的提示中各有優勢。OpenAI 的訊息強調編輯忠實度與迭代速度;Google 的方案則在部分案例中因具備工作室級寫實感而受到好評。
- 對比 Qwen Image 與其他開源/閉源模型: GPT-Image-1.5 在單輪評估中於多項編輯與保留指標上優於 Qwen Image,但在多輪或其他特定領域測試中的差距會縮小。
GPT-Image-1.5 的優勢場景
- 電商產品影像: 大量變體、背景替換、從單張照片生成一致的產品型錄(保留品牌/logo)。
- 創意與行銷素材製作: 快速概念迭代、照片級寫實 mockup、可控的風格轉換。
- 照片修圖與編務工作流程: 真實的服裝/髮型試穿試換、在保留人物身分與光線的前提下進行選擇性修飾。
- 設計工具整合: 可接入設計平台或 CMS,按需生成影像變體(品質控制參數有助於控制成本)。
- 多步驟合成流程: 多影像輸入可支援複雜場景的合成與基於參考的生成。
如何存取 GPT Image 1.5 API
步驟 1:註冊 API Key
登入 cometapi.com。如果你還不是我們的使用者,請先註冊。登入你的 CometAPI console。取得介面的存取憑證 API key。點擊個人中心中 API token 的「Add Token」,取得 token key:sk-xxxxx,並提交。
步驟 2:向 GPT Image 1.5 API 發送請求
選擇「gpt-image-1.5」端點以發送 API 請求並設定 request body。請求方法與 request body 可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試,方便你使用。將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI key。base url 為 Images (https://api.cometapi.com/v1/images/generations) and [Image Editing]
將你的問題或請求插入 content 欄位中——這就是模型將會回應的內容。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。