O

GPT Image 1.5

อินพุต:$6.4/M
เอาต์พุต:$25.6/M
GPT-Image-1.5 เป็นโมเดลภาพของ OpenAI ใน GPT Image family . เป็นโมเดล GPT แบบมัลติโหมดโดยเนื้อแท้ ออกแบบมาเพื่อสร้างภาพจากพรอมต์ข้อความ และแก้ไขภาพที่ป้อนเข้าด้วยความเที่ยงตรงสูง ขณะเดียวกันก็ปฏิบัติตามคำสั่งของผู้ใช้อย่างเคร่งครัด.
ใหม่
ใช้งานเชิงพาณิชย์

GPT-Image-1.5 API คืออะไร?

GPT-Image-1.5 เป็นสมาชิกใหม่ล่าสุดของตระกูล GPT Image ของ OpenAI และเป็นโมเดลที่อยู่เบื้องหลังประสบการณ์ Images โฉมใหม่ของ ChatGPT ได้รับการออกแบบเพื่อยกระดับการสร้างภาพจากการทดลองเชิงแปลกใหม่ไปสู่เครื่องมือสร้างสรรค์ระดับพร้อมใช้งานจริง: มีความสมจริงของภาพสูงขึ้น ควบคุมการแก้ไขแบบทำซ้ำได้ละเอียดขึ้น และอินเฟอเรนซ์ที่เร็วขึ้นเพื่อรองรับเวิร์กโฟลว์แบบโต้ตอบและระดับองค์กร

gpt-image-1.5 API เป็นเอ็นด์พอยต์โมเดลภาพแบบมัลติโหมดที่รับอินพุตภาพหนึ่งภาพหรือหลายภาพ (ตัวระบุไฟล์หรือไบต์) พร้อมพรอมป์ข้อความ และส่งคืนภาพที่สร้างขึ้นหรือภาพที่แก้ไขแล้ว รองรับ:

  • การสร้างภาพจากข้อความ (สร้างจากพรอมป์),
  • การแก้ไขภาพ / การเติมส่วนที่ขาด (in‑painting) / การคอมโพสิต (ใช้คำสั่งกับภาพที่มีอยู่ รองรับอินพุตหลายภาพ), และ
  • เวิร์กโฟลว์การแก้ไขแบบทำซ้ำหลายเทิร์น ผ่าน Responses API (รองรับ UI แบบ “ปรับแต่ง & ทำซ้ำ”).

API ปฏิบัติต่อพรอมป์ภาพต่างจากข้อจำกัดเดิมของ DALL·E: โมเดลภาพ GPT ยอมรับพรอมป์ข้อความที่ยาวกว่ามาก (แนวทางที่ 32k อักขระ) ทำให้คำสั่งที่ซับซ้อนและมีข้อจำกัดมากเป็นไปได้

คุณสมบัติหลัก (เชิงปฏิบัติ)

  • การแก้ไขได้ดีขึ้น / ความสม่ำเสมอหลายเทิร์น: รักษาลักษณะตัวละคร แสง และคุณลักษณะภาพสำคัญให้คงที่ตลอดการแก้ไขแบบทำซ้ำ ช่วยให้รูปแบบ “ใช้โมเดลเดิม แก้ไขซ้ำๆ” เชื่อถือได้มากขึ้นสำหรับเวิร์กโฟลว์อย่างแค็ตตาล็อกสินค้า หรือสินทรัพย์แบรนด์ต่างๆ
  • ปริมาณงานที่เร็วขึ้นเร็วกว่าเดิม 4× เมื่อเทียบกับ GPT Image 1 มุ่งลดเวลาแฝงสำหรับเวิร์กโฟลว์สร้างสรรค์แบบทำซ้ำ
  • ปรับต้นทุนให้เหมาะสม — ลดต้นทุนอินพุต/เอาต์พุตของภาพลงประมาณ 20% เมื่อเทียบกับ GPT Image 1 ลดค่าใช้จ่ายต่อรอบสำหรับผู้ใช้ปริมาณมาก
  • การคอมโพสิตหลายภาพและการอ้างอิงสไตล์ — รองรับภาพอ้างอิงหลายภาพเพื่อคอมโพสิตฉากหรือถ่ายทอดสไตล์/แสง
  • ตัวปรับคุณภาพ/ความเที่ยงตรง — พารามิเตอร์ของ API สำหรับแลกเปลี่ยนระหว่างความเร็วกับความเที่ยงตรง (ใช้คุณภาพต่ำสำหรับการสร้างจำนวนมาก; ใช้คุณภาพสูงสำหรับสินทรัพย์ที่ใช้จริงในการผลิต).
  • การแก้ไขหลายเทิร์น / ผสานกับ Responses API — รองรับเวิร์กโฟลว์แบบเป็นขั้นตอน (ขอให้เปลี่ยนแปลง แล้ว “ทำการปรับแต่ง” โดยรักษาสถานะไว้)

ความสามารถทางเทคนิค

  • ขีดจำกัดพรอมป์ข้อความ (สำหรับโมเดลภาพ): สูงสุด 32,000 อักขระ (หมายเหตุ: OpenAI ระบุว่านี่คือขีดจำกัดความยาวข้อความสำหรับโมเดลภาพ GPT) ใช้สำหรับพรอมป์ยาวที่มีข้อกำหนดมาก
  • อินพุตภาพ: รองรับ File ID (แนะนำสำหรับโฟลว์หลายเทิร์น) หรือไบต์ดิบ; สามารถส่งภาพหลายภาพเพื่อคอมโพสิตและใช้อ้างอิงได้
  • เอาต์พุต: PNG/JPEG หรืออาร์ติแฟกต์ภาพตามค่าเริ่มต้นของแพลตฟอร์มที่ API ส่งกลับ (หรือเป็นไฟล์แนบภายใน ChatGPT) เอาต์พุตอาจมีภาพตัวเลือกหลายภาพและรองรับคำขอแบบทำซ้ำเพื่อปรับแต่งผลลัพธ์
  • โหมดการสร้าง: สร้างจากข้อความเป็นภาพ, การแก้ไขภาพ (เติม/ขยายตามคำสั่ง), และเวอร์ชันแปรผัน การแก้ไขหลายเทิร์นรองรับคำสั่งสไตล์ “เพิ่ม/ลบ/ผสาน”.
  • การแก้ไขที่ตระหนักถึงคำสั่ง: โมเดลถูกปรับให้คงความตรงตามคำสั่ง (รักษาเงื่อนไขคงที่ เช่น “ห้ามเปลี่ยนโลโก้”, “คงท่าโพสและแสงไว้”) รูปแบบการออกแบบพรอมป์ (ย้ำเงื่อนไขคงที่ทุกครั้ง) ช่วยลดการเบี่ยงเบนของความหมาย.

ผลการทดสอบตามเกณฑ์มาตรฐาน

  • อันดับบนกระดานผู้นำ: รายงานสรุปฉบับหนึ่งระบุว่า GPT Image 1.5 นำในการจัดอันดับ text-to-image ด้วยคะแนนประมาณ ~1264 คะแนน บนกระดานผู้นำของ Artificial Analysis นำหน้ารุ่นถัดไปด้วยระยะห่างที่วัดได้.
  • ตัวชี้วัดระดับงาน (การแก้ไขและการคงสภาพ): สรุปตัวชี้วัดการประเมินของ Microsoft Foundry แสดงว่า GPT-Image-1.5 ทำได้เกือบสมบูรณ์แบบในความสำเร็จการแก้ไขแบบไบนารี (100% บน BinaryEval แบบเทิร์นเดียว) และได้คะแนนการคงใบหน้าที่แข็งแกร่ง (ราว 90% บนมาตรวัด AuraFace) ในตารางเปรียบเทียบกับคู่แข่งและโมเดลเดิมของ OpenAI ตัวชี้วัดดังกล่าวจัดให้ GPT-Image-1.5 เหนือกว่าบางคู่แข่งในด้านการคงสภาพและความเที่ยงตรงของการแก้ไข.

GPT Image 1.5

GPT-Image-1.5 เปรียบเทียบกับรุ่นคู่แข่งอย่างไร

  • เทียบกับ GPT Image 1 (รุ่นก่อนของ OpenAI): เร็วกว่า (สูงสุด 4×), ถูกกว่า (ต้นทุน IO ของภาพต่ำกว่าประมาณ ~20%), และความเที่ยงตรงของการแก้ไขดีกว่า — มุ่งย้ายจาก “ต้นแบบ/เดโม” ไปสู่เวิร์กโฟลว์ภาพที่ “พร้อมใช้งานจริง”.
  • เทียบกับ Google’s Nano Banana Pro / โมเดลภาพ Gemini: GPT-Image-1.5 และตระกูล Nano Banana Pro / Gemini 3 ของ Google เป็นคู่แข่งที่สูสี — แต่ละฝ่ายเด่นในคลาสพรอมป์ที่ต่างกัน ข้อความสื่อสารของ OpenAI เน้นความเที่ยงตรงในการแก้ไขและความเร็วในการทำซ้ำ; ข้อเสนอของ Google ได้รับคำชมเรื่องความสมจริงระดับสตูดิโอในบางตัวอย่าง
  • เทียบกับ Qwen Image และโมเดลแบบเปิด/ปิดอื่นๆ: GPT-Image-1.5 เหนือกว่า Qwen Image ในตัวชี้วัดด้านการแก้ไขและการคงสภาพหลายรายการในการประเมินแบบเทิร์นเดียว แต่ความแตกต่างจะแคบลงในการทดสอบแบบหลายเทิร์นหรือเฉพาะโดเมน

จุดที่ GPT-Image-1.5 โดดเด่น

  • การทำภาพสินค้าอีคอมเมิร์ซ: สร้างหลายเวอร์ชันจำนวนมาก, เปลี่ยนฉากหลัง, แค็ตตาล็อกสินค้าที่มีความสม่ำเสมอจากภาพเดียว (คงแบรนด์/โลโก้).
  • การผลิตสินทรัพย์งานครีเอทีฟและมาร์เก็ตติ้ง: ทำซ้ำไอเดียได้รวดเร็ว, ม็อกอัปสมจริง, โอนย้ายสไตล์แบบควบคุมได้.
  • เวิร์กโฟลว์รีทัชภาพและงานบรรณาธิการ: ลองเสื้อผ้า/ทรงผมอย่างสมจริง, รีทัชแบบเลือกจุดโดยยังคงเอกลักษณ์และแสง.
  • การผสานกับเครื่องมือออกแบบ: เชื่อมต่อแพลตฟอร์มออกแบบหรือ CMS เพื่อสร้างภาพเวอร์ชันต่างๆ ตามต้องการ (ตัวปรับความเที่ยงตรงช่วยควบคุมต้นทุน).
  • ไปป์ไลน์คอมโพสิตหลายขั้น: อินพุตหลายภาพช่วยให้คอมโพสิตและสร้างแบบอ้างอิงสำหรับฉากซับซ้อนได้

วิธีเข้าถึง GPT Image 1.5 API

ขั้นตอนที่ 1: ลงทะเบียนเพื่อขอรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา โปรดสมัครสมาชิกก่อน ลงชื่อเข้าใช้ คอนโซล CometAPI รับ API key สำหรับการเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Image 1.5 API

เลือกเอ็นด์พอยต์ “gpt-image-1.5” เพื่อส่งคำขอ API และกำหนด request body วิธีการเรียกและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ base url คือ Images (https://api.cometapi.com/v1/images/generations) และ [Image Editing]

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ . ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง

ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์

ดูเพิ่มเติม Gemini 3 Pro Preview API

คำถามที่พบบ่อย

โมเดลเพิ่มเติม