什麼是 GPT-Image-1.5 API？

GPT-Image-1.5 是 OpenAI 的 GPT Image 系列中最新的成員，也是 ChatGPT 全新 Images 體驗背後所使用的模型。它旨在將圖像生成從新奇實驗推進到可用於生產的創意工具：更高的擬真度、更細緻的迭代編輯控制，以及更快的推論速度，以支援互動式與企業級工作流程。

gpt-image-1.5 API 是一個多模態圖像模型端點，可接受一個或多個圖像輸入（檔案識別碼或位元組）加上文字提示，並回傳生成圖像或編輯後的圖像。它支援：

文字轉圖像生成（根據提示創建），
圖像編輯 / 補畫（in-painting）/ 合成（對現有圖像套用指令，允許多張圖像輸入），以及
透過 Responses API 進行的 迭代、多輪編輯工作流程（可打造「微調與反覆迭代」的 UI）。

該 API 對圖像提示的處理方式不同於舊版 DALL·E 的限制：GPT 圖像模型可接受顯著更長的文字提示（32k 字元指引），使複雜且約束繁多的指令成為可能。

主要特性（實用）

更佳的可編輯性 / 多輪一致性： 在反覆編輯中能保留角色外觀、光線與關鍵視覺屬性。這讓「同一模型、重複編輯」在產品目錄或品牌素材等工作流程中更可靠。
更高吞吐量 — 相較 GPT Image 1 有 4× 速度提升，旨在降低迭代創作流程的延遲。
成本優化 — 圖像輸入/輸出成本較 GPT Image 1 降低約 20%，為高量用戶降低每次圖像迭代的成本。
多圖合成與風格參照 — 接受多張參考圖像以合成場景或轉移風格/光線。
品質/保真度調節 — 透過 API 參數在速度與保真度間取捨（批量生成可用較低品質；正式資產使用較高品質）。
多輪編輯 / 與 Responses API 整合 — 支援逐步流程（提出修改，再在保留狀態下「微調」）。

技術能力

文字提示上限（圖像模型）： 最多 32,000 個字元（注意：OpenAI 將其記錄為 GPT 圖像模型的文字長度許可）。可用於冗長且具多重約束的提示。
圖像輸入： 接受檔案 ID（多輪流程建議）或原始位元組；可提供多張圖像以進行合成與參照。
輸出： 透過 API 回傳 PNG/JPEG 或平台預設的圖像產物（或於 ChatGPT 中作為附件）。輸出可包含多張候選圖像，並支援反覆請求以持續精修結果。
生成模式： 文字轉圖像、圖像編輯（補畫/依指令擴延）與變體。多輪編輯支援「新增/移除/組合」類型的指令。
指令感知的編輯： 模型針對指令的忠實度進行最佳化（可保留「不要更動 Logo」「保持姿勢與光線」等不變條件）。提示工程做法（在每次迭代中重複明確的不變條件）可降低語義漂移。

基準表現

排行榜位置： 一份彙整報告指出，GPT Image 1.5 以約 1264 分位居某人工分析排行榜的文字轉圖像排名前列，且明顯領先下一名。
任務層級指標（編輯與保留）： Microsoft Foundry 的評估摘要顯示，GPT-Image-1.5 在單輪 BinaryEval 的二元修改成功率接近滿分（100%），且在人臉保留分數（AuraFace 指標）約 90%。在其與競品及先前 OpenAI 模型的比較表中，這些指標使 GPT-Image-1.5 在保留與編輯忠實度上領先部分對手。

GPT Image 1.5

與同類模型的比較

對比 GPT Image 1（OpenAI 前一代）： 更快（最高 4×）、更便宜（圖像 I/O 成本約低 20%），且編輯忠實度更強——聚焦把工作負載從「原型/展示」推進到「面向生產」的圖像工作流程。
對比 Google 的 Nano Banana Pro / Gemini 圖像模型： GPT-Image-1.5 與 Google 的 Nano Banana Pro / Gemini 3 系列勢均力敵——各自在不同提示類型上具優勢。OpenAI 著重編輯忠實度與迭代速度；Google 在部分案例中因具備工作室級寫實感而受到稱讚。
對比 Qwen Image 與其他開源/閉源模型： 在單輪的編輯與保留評測中，GPT-Image-1.5 優於 Qwen Image 的多項指標，但在多輪或其他領域專項測試中差異縮小。

GPT-Image-1.5 的強項

電商產品影像： 批量變體、背景替換、由單張照片建立一致的產品型錄（品牌/Logo 保留）。
創意與行銷素材製作： 快速概念迭代、擬真模型稿、可控的風格轉換。
照片修飾與編輯流程： 逼真的服飾/髮型試穿、選擇性修飾且保留身分與光線。
設計工具整合： 接入設計平台或 CMS 以隨需生產圖像變體（藉由保真度調節控管成本）。
多步合成流程： 多圖輸入允許合成與參照式生成複雜場景。

如何存取 GPT Image 1.5 API

步驟 1：申請 API Key

登入 cometapi.com。若您尚未成為用戶，請先註冊。登入您的 CometAPI 控制台。取得該介面的存取認證 API key。在個人中心的 API token 處點選「Add Token」，取得 token 金鑰：sk-xxxxx 並提交。

步驟 2：向 GPT Image 1.5 API 發送請求

選擇 “gpt-image-1.5” 端點來發送 API 請求並設定請求主體。請求方法與請求主體可從我們的網站 API 文件獲取。我們的網站也提供 Apifox 測試以供便利。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url 是 Images（https://api.cometapi.com/v1/images/generations）與 [Image Editing]

將您的問題或請求插入 content 欄位——模型將回應此內容。處理 API 回應以取得生成的答案。

步驟 3：擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後，API 會回傳任務狀態與輸出資料。

另見 Gemini 3 Pro Preview API

什麼是 GPT-Image-1.5 API？

文字轉圖像生成（根據提示創建），
圖像編輯 / 補畫（in-painting）/ 合成（對現有圖像套用指令，允許多張圖像輸入），以及
透過 Responses API 進行的 迭代、多輪編輯工作流程（可打造「微調與反覆迭代」的 UI）。

該 API 對圖像提示的處理方式不同於舊版 DALL·E 的限制：GPT 圖像模型可接受顯著更長的文字提示（32k 字元指引），使複雜且約束繁多的指令成為可能。

主要特性（實用）

更佳的可編輯性 / 多輪一致性： 在反覆編輯中能保留角色外觀、光線與關鍵視覺屬性。這讓「同一模型、重複編輯」在產品目錄或品牌素材等工作流程中更可靠。
更高吞吐量 — 相較 GPT Image 1 有 4× 速度提升，旨在降低迭代創作流程的延遲。
成本優化 — 圖像輸入/輸出成本較 GPT Image 1 降低約 20%，為高量用戶降低每次圖像迭代的成本。
多圖合成與風格參照 — 接受多張參考圖像以合成場景或轉移風格/光線。
品質/保真度調節 — 透過 API 參數在速度與保真度間取捨（批量生成可用較低品質；正式資產使用較高品質）。
多輪編輯 / 與 Responses API 整合 — 支援逐步流程（提出修改，再在保留狀態下「微調」）。

技術能力

文字提示上限（圖像模型）： 最多 32,000 個字元（注意：OpenAI 將其記錄為 GPT 圖像模型的文字長度許可）。可用於冗長且具多重約束的提示。
圖像輸入： 接受檔案 ID（多輪流程建議）或原始位元組；可提供多張圖像以進行合成與參照。
輸出： 透過 API 回傳 PNG/JPEG 或平台預設的圖像產物（或於 ChatGPT 中作為附件）。輸出可包含多張候選圖像，並支援反覆請求以持續精修結果。
生成模式： 文字轉圖像、圖像編輯（補畫/依指令擴延）與變體。多輪編輯支援「新增/移除/組合」類型的指令。
指令感知的編輯： 模型針對指令的忠實度進行最佳化（可保留「不要更動 Logo」「保持姿勢與光線」等不變條件）。提示工程做法（在每次迭代中重複明確的不變條件）可降低語義漂移。

基準表現

排行榜位置： 一份彙整報告指出，GPT Image 1.5 以約 1264 分位居某人工分析排行榜的文字轉圖像排名前列，且明顯領先下一名。
任務層級指標（編輯與保留）： Microsoft Foundry 的評估摘要顯示，GPT-Image-1.5 在單輪 BinaryEval 的二元修改成功率接近滿分（100%），且在人臉保留分數（AuraFace 指標）約 90%。在其與競品及先前 OpenAI 模型的比較表中，這些指標使 GPT-Image-1.5 在保留與編輯忠實度上領先部分對手。

GPT Image 1.5

與同類模型的比較

對比 GPT Image 1（OpenAI 前一代）： 更快（最高 4×）、更便宜（圖像 I/O 成本約低 20%），且編輯忠實度更強——聚焦把工作負載從「原型/展示」推進到「面向生產」的圖像工作流程。
對比 Google 的 Nano Banana Pro / Gemini 圖像模型： GPT-Image-1.5 與 Google 的 Nano Banana Pro / Gemini 3 系列勢均力敵——各自在不同提示類型上具優勢。OpenAI 著重編輯忠實度與迭代速度；Google 在部分案例中因具備工作室級寫實感而受到稱讚。
對比 Qwen Image 與其他開源/閉源模型： 在單輪的編輯與保留評測中，GPT-Image-1.5 優於 Qwen Image 的多項指標，但在多輪或其他領域專項測試中差異縮小。

GPT-Image-1.5 的強項

電商產品影像： 批量變體、背景替換、由單張照片建立一致的產品型錄（品牌/Logo 保留）。
創意與行銷素材製作： 快速概念迭代、擬真模型稿、可控的風格轉換。
照片修飾與編輯流程： 逼真的服飾/髮型試穿、選擇性修飾且保留身分與光線。
設計工具整合： 接入設計平台或 CMS 以隨需生產圖像變體（藉由保真度調節控管成本）。
多步合成流程： 多圖輸入允許合成與參照式生成複雜場景。

如何存取 GPT Image 1.5 API

步驟 1：申請 API Key

步驟 2：向 GPT Image 1.5 API 發送請求

將您的問題或請求插入 content 欄位——模型將回應此內容。處理 API 回應以取得生成的答案。

步驟 3：擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後，API 會回傳任務狀態與輸出資料。

另見 Gemini 3 Pro Preview API

version
gpt-image-1.5
gpt-image-1.5-2025-12-16

version
gpt-image-1.5
gpt-image-1.5-2025-12-16

GPT Image 1.5

更多模型

GPT Image 1.5

更多模型