如何使用 GPT Image 2:提示詞指南、參數與工作流程

CometAPI
AnnaApr 23, 2026
如何使用 GPT Image 2:提示詞指南、參數與工作流程

OpenAI 於 2026 年 4 月 21 日發佈了 GPT Image 2(同時驅動 ChatGPT Images 2.0),標誌著 AI 圖像生成的一次重大躍升。這一原生多模態模型提供更優異的文字渲染(多種文字系統下接近 99% 的準確度)、靈活的最高 2K 解析度(4K 測試版)、更強的指令遵循能力、多語言支援,以及可進行網路搜尋、多圖一致性與自我校驗的「思考」功能。

CometAPI 提供一種與 OpenAI 相容的方式,透過統一的 API 層存取 GPT Image 2,同時在價格上也非常具成本效益。

什麼是 GPT Image 2?

GPT Image 2(模型 ID:gpt-image-2)是 OpenAI 最先進的圖像生成與編輯模型。它為 ChatGPT Images 2.0 提供支持,作為統一的「圖像版 GPT」——以推理、編輯與精確輸出處理複雜的視覺任務。

相較於前代(GPT Image 1 / 1.5 與 DALL-E 3)的關鍵進步:

  • 文字渲染:英語達到約 99% 準確率,並在日語、韓語、中文、印地語、孟加拉語等方面大幅提升。可穩定處理標題、正文、標籤與圖示等高密度文字,避免常見錯字或扭曲。
  • 解析度與長寬比:原生支援最高至 2K(2560x1440 或相近;為保持一致性,建議最大約 3.6M 像素;在限制下可至約 8.29M 像素或最長邊 3840px)。長寬比支援從 3:1 橫幅到 1:3 縱向;邊長需為 16 的倍數。4K 仍為實驗性/測試版。
  • 指令遵循與「思考」模式:模型可以「思考」(搜尋網路、規劃、產出多個變體並自檢),用於一致角色集、故事板或資料驅動資訊圖等高階輸出。在付費 ChatGPT 用戶可用;強化多圖生成(單次最多 8 張一致圖像)。
  • 編輯與保真度:在圖像到圖像的編輯中更好地保留細節;高保真處理輸入。
  • 知識截止:2025 年 12 月,可引用較新的風格、品牌與產品。
  • 多模態整合:在對話中無縫工作,便於反覆微調。

它擅長生成「可用」圖像——不僅藝術性強,且足以投入廣告、簡報、UI/UX、文件等實際生產。早期基準測試顯示其名列前茅,在文生圖與編輯任務上取得顯著 Elo 提升。

GPT Image 2 模型參數與技術規格

開發者主要透過 OpenAI API(或相容閘道)使用 gpt-image-2(快照:gpt-image-2-2026-04-21)。如果你只記住一件事,請記住這點:當你有意識地控制生成空間時,GPT Image 2 的回應會更好。

你實際會用到的核心參數

參數功能說明實務指引
size設定圖像尺寸。GPT Image 2 接受多種解析度,只要符合模型限制。常見例子包含 1024x1024、1536x1024、1024x1536、2048x2048、2048x1152、3840x2160、2160x3840,以及 auto。通用快速任務用 1024x1024,直幅內容用 1024x1536,最終素材用更大尺寸。
quality控制渲染品質:low、medium、high 或 auto。草稿與快速迭代選 low;最終交付與小字體請使用 medium 或 high。
background控制背景處理。支援 auto,但目前 GPT Image 2 不支援透明背景。避免以透明背景為核心的工作流程;請圍繞不透明或自動背景進行設計。
format輸出格式可為 png、jpeg 或 webp;API 回傳 base64 編碼資料。當延遲很重要時選用 jpeg,因為 OpenAI 表示 JPEG 比 PNG 更快。
output_compression控制 JPEG 與 WebP 輸出的壓縮(0–100%)。在需要為網頁投放壓縮更小檔案時很有用。
moderation安全設定,支援 auto 與 low。建議維持 auto,除非你有明確理由放寬過濾。

限制摘要:

  • 總像素不得超出上限,以免報錯。
  • 上線前:測試階段先用 quality=low/medium,再升級到 high。
  • 延遲:整體為中等速度;思考模式會增加推理時間,但能提升複雜提示的品質。
  • 所有提示與輸出均受政策過濾;GPT Image 模型支援 moderation: "auto"moderation: "low"。OpenAI 將 auto 描述為標準過濾,low 為限制較少。

該模型將圖像生成納入統一架構的一部分,較純擴散模型具備更好的空間推理、視角與版面控制能力。

編輯專用注意事項

進行編輯時,GPT Image 2 會以高保真接收圖像輸入。來源圖像與遮罩需在格式與尺寸上完全一致,且遮罩必須包含 alpha 通道。這對建立修補(inpainting)流程、產品修圖,或僅希望變更單一區域並保留其餘內容的編輯特徵尤為重要。

GPT-Image-2 使用技巧與提示詞指南

GPT-Image-2 支援自然語言;只需描述你想要的內容即可生成對應圖像,無需複雜結構。模型支援多輪迭代。

複雜結構的價值在於精準控制,而非必要性。它只適用於兩種情境:商業交付物(重複重生會浪費時間與成本),以及編輯既有圖像、需要精確指定保留與修改內容時。

以下為可採用的進階教學。

基本提示詞結構

強健的 GPT Image 2 提示詞應像一則精簡的創意簡報,而不是模糊想法。建議按此順序組織:先描述場景/背景,再到主體,接著關鍵細節,最後約束條件。對於複雜輸出,相較於一個密集段落,分行或帶標籤的段落更容易讓模型遵循。

可靠的結構如下:

Goal: [what the image is for]Scene: [where it happens, time, environment]Subject: [main person/object/product]Style: [photo, editorial, illustration, UI, infographic]Details: [lighting, composition, lens, color, material, typography]Constraints: [no watermark, no extra text, preserve identity, keep background unchanged]

例如,若目標是部落格首圖,不要僅說「讓它看起來很未來感」。請具體指定構圖、氛圍、視覺層級,以及標題所需的留白。

核心原則

要具體。 指出材質、紋理、形狀、鏡頭語言與媒介。若需寫實風格,OpenAI 建議直接使用「photorealistic」一詞,並加入真實世界的紋理線索,如毛孔、皺紋、布料磨損或細微瑕疵。

在提示中設置護欄。 針對編輯任務,請說明「只改變 X」與「其餘保持不變」。OpenAI 尤其建議列出不變項,如身份、幾何結構、版面配置、標籤、鏡頭角度與環境物件。

小步迭代。 先從乾淨的基礎提示開始,再用極小的跟進,如「加暖光」、「移除多餘的樹」、「恢復原本背景」。這是指南中的主要控制策略之一。

讓品質匹配任務。 OpenAI 表示 gpt-image-2 支援 lowmediumhigh 輸出品質;low 有助於速度,而 medium/high 適合追求最高保真。對於高密度文字、圖表與多字體版式,建議使用 mediumhigh

圖像編輯:修改既有圖像

進行編輯時,請說明哪些內容必須保持不變,哪些可以變更。OpenAI 的範例經常鎖定身份、姿態、取景、鏡頭角度或背景(當這些應保持穩定),然後精確描述要改動的部分。對於 gpt-image-2,編輯工作流程也支援背景控制 background="transparent"opaqueauto,且在支援的 GPT 圖像編輯流程中,你最多可提供 16 張輸入圖像。

編輯提示詞範式

Preserve: face, pose, framing, background.Change only: clothing / object / lighting / season / material.Do not add: text, logos, watermarks, extra objects.

多圖參考合成

使用多於一張參考圖時,請用索引標記,並明確描述交互,例如「Image 1: product photo」與「Image 2: style reference」。要精準說明什麼該移到哪裡,以及哪些場景元素不得變動。這是插入、替換、風格轉換與合成的最乾淨方式。

範例

Image 1: person in a room.Image 2: dog reference.Place the dog from Image 2 next to the person in Image 1.Keep the room, camera angle, and lighting unchanged.Match scale, perspective, and shadow.

文字渲染技巧

為獲得可讀文字,請把完整文案置於引號中、要求逐字呈現,並指定位置、字體風格與對比度。圖中加字在提示越嚴謹、透過小幅版面與措辭迭代時表現最佳。適用於看板、模型圖、海報、投影片與包裝。

範例

Add this exact text, verbatim:"Fresh and clean"Typography: bold sans-serif, centered, high contrast, clean kerning.No extra characters, no second instance of the text.

如何在 CometAPI 上開始使用 GPT Image 2:

  • 前往 CometAPI 註冊並取得 API 金鑰。
  • 搭配標準 OpenAI Python SDK(或任何相容用戶端)並設定自訂 base URL:
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_COMETAPI_KEY",
    base_url="https://api.cometapi.com/v1"
)

response = client.images.generate(
    model="gpt-image-2",  # or specific snapshot
    prompt="Your detailed prompt here",
    size="1792x1024",     # flexible resolution
    quality="high",
    n=1                   # number of images
)

print(response.data[0].url)  # or b64_json for direct data

若需在聊天中整合生成(帶有類似 Thinking 的行為),請使用 chat completions 端點,並在訊息中引用影像生成。

在 CometAPI 的優勢

  • 成本節省:具競爭力的價格(例如較低層級的優化圖像生成功能如 Nano Banana 2;高效路由至 GPT Image 2)。避免管理多把金鑰。
  • 高併發與低延遲:企業級基礎設施。
  • 統一生態:可在同一管線中組合文字模型(GPT-5 系列、Claude 等)、影片或其他圖像生成器。
  • 可靠性:對重複輸入提供快取以降低成本;必要時可回退路由。
  • 可擴充性:非常適合在生產環境中大量生成行銷視覺、產品模型圖或自動化內容。

建議:針對高容量使用場景(如電商產品圖或社群批量素材),先在 CometAPI 上測試各品質等級。透過其儀表板監控用量,並對提示詞變體啟用快取。許多開發者回報相較直接使用 OpenAI 計費,更順暢、節省,尤其在混用多模型時。

如果你在 CometAPI 構建 AI 應用或自動化視覺內容,請從 gpt-image-2 著手處理精準任務,並對其他模型嘗試更具藝術風格的輸出。

GPT Image 2 使用案例與提示詞範例

GPT Image 2 在實用場景中表現出色。以下為詳細用例與可即用的提示(可用於 CometAPI 或 OpenAI API)。

實用應用場景

GPT Image 2 擅長:

  • 行銷與設計:專業海報、社群素材、產品模型與品牌資訊圖,且文字準確。
  • 商務與教育:投影片、圖解、資料視覺化與訓練教材。
  • 產品開發:UI/UX 模型圖、App 螢幕畫面與迭代原型。
  • 內容創作:漫畫、分鏡、角色設定表與多媒體素材。
  • 編輯流程:優化照片或在保留身份與細節下生成變體。

早期使用者表示它「有生產就緒感」,可大幅減少後期處理時間。

1. 行銷與社群素材

用例:吸睛廣告,準確呈現品牌與行動號召。

示例提示

Scene: Clean white studio background with subtle gradient. Subject: Modern wireless earbuds in matte black and silver, floating dynamically. Details: High-end product photography, reflective surfaces, precise shadows. Text: Headline "Experience Crystal Clear Sound" in bold sans-serif, subhead "$129 - Limited Offer" in smaller font. Style: Photorealistic, commercial product shot, 16:9 aspect ratio. Constraints: No people, exact text only, high resolution for web use.

2. UI/UX 模型與 App 螢幕畫面

用例:快速製作行動/網頁介面原型。

示例提示

Create a high-fidelity iOS app screenshot for a fitness tracking app. Screen: Dark mode dashboard showing steps: 12,458, heart rate 72 bpm, calories 487. UI Elements: Bottom navigation bar with icons labeled "Home", "Stats", "Profile". Text: All labels in SF Pro font, exact numbers as specified. Style: Realistic smartphone frame, subtle bevel, clean modern design. Resolution: 1170x2532 (iPhone-like).

3. 資訊圖與資料視覺化

用例:專業報告或簡報,數據標示準確。

示例提示(使用 Thinking 以驗證資料):

Thinking: Plan a clean infographic on AI adoption rates 2025-2026. Generate an infographic: Title "AI Growth Statistics 2026". Sections with icons and bars: "Enterprises using AI: 78%", source labels. Color palette: Blues and greens, modern flat design with subtle gradients. Exact text and numbers only. High readability at 2K resolution.

4. 漫畫/分鏡頁面

用例:跨分鏡維持角色一致。

示例提示

Generate a 4-panel manga page in black-and-white ink style. Consistent character: Young female detective with short black hair, trench coat. Panel 1: Close-up surprised expression, speech bubble "The clue was right here!". Panel 2-4: [describe actions sequentially]. Maintain exact character design across all panels, Japanese manga style, speech bubbles with exact text.

5. 圖像編輯/變體

上傳基底圖與提示:「保留該女性的姿勢與服裝,將背景改為夜晚的未來城市,加入發光的全息文字『Innovation 2026』。」

在對話中迭代:先生成,再用「讓文字更粗、將構圖左移」進行細化。

結語

GPT Image 2 代表 AI 視覺走向真正「可用」的轉變——精準、多語言、並具備推理增強能力。掌握其提示框架並透過 CometAPI 高效運行,你可節省成本、擴展生產,並更快地創作專業級圖像。

對開發者與團隊而言:立即透過 CometAPI 整合,以具成本效益的方式存取 gpt-image-2 與數百款其他模型。嘗試上述範例、在 ChatGPT 中迭代,見證你的視覺工作流程煥然一新。

準備開始了嗎?前往 CometAPI,取得金鑰,使用 GPT Image 2 生成你的第一批高保真素材。在 slack 分享你的作品與提示詞技巧——讓我們一起創作更出色的視覺內容。

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多