GPT-Image-1.5 API คืออะไร?
GPT-Image-1.5 เป็นสมาชิกใหม่ล่าสุดของตระกูล GPT Image ของ OpenAI และเป็นโมเดลที่อยู่เบื้องหลังประสบการณ์ Images แบบปรับโฉมใหม่ของ ChatGPT โดยถูกออกแบบมาเพื่อยกระดับการสร้างภาพจากการทดลองเล่นใหม่ ๆ ไปสู่เครื่องมือสร้างสรรค์ระดับพร้อมใช้งานจริงในการผลิต: ความสมจริงของภาพถ่ายที่สูงขึ้น การควบคุมที่ละเอียดขึ้นสำหรับการแก้ไขแบบวนซ้ำ และการอนุมานที่รวดเร็วขึ้นเพื่อรองรับเวิร์กโฟลว์แบบโต้ตอบและระดับองค์กร
gpt-image-1.5 API คือเอนด์พอยต์ของโมเดลภาพแบบมัลติโหมดที่รับอินพุตภาพหนึ่งภาพหรือมากกว่า (ตัวระบุไฟล์หรือไบต์) พร้อมกับพรอมต์ข้อความ และส่งคืนภาพที่สร้างขึ้นหรือภาพที่แก้ไขแล้ว โดยรองรับ:
- การสร้างภาพจากข้อความ (สร้างจากพรอมต์),
- การแก้ไขภาพ / in-painting / compositing (ใช้คำสั่งกับภาพที่มีอยู่ โดยอนุญาตให้อินพุตเป็นหลายภาพได้), และ
- เวิร์กโฟลว์การแก้ไขแบบวนซ้ำหลายรอบ ผ่าน Responses API (รองรับ UI แบบ “ปรับแต่ง & ทำซ้ำ”)
API นี้จัดการพรอมต์ภาพแตกต่างจากข้อจำกัดแบบเก่าของ DALL·E: โมเดลภาพตระกูล GPT รองรับพรอมต์ข้อความที่ยาวกว่ามากอย่างมีนัยสำคัญ (แนวทาง 32k อักขระ) ทำให้คำสั่งที่ซับซ้อนและมีข้อกำหนดจำนวนมากสามารถทำได้จริง
ฟีเจอร์หลัก (เชิงปฏิบัติ)
- ความสามารถในการแก้ไขที่ดีขึ้น / ความสม่ำเสมอแบบหลายรอบ: คงรูปลักษณ์ของตัวละคร แสง และคุณลักษณะสำคัญของภาพไว้ได้ตลอดการแก้ไขแบบวนซ้ำ ทำให้การทำ “โมเดลเดิม แก้ไขซ้ำหลายครั้ง” มีความน่าเชื่อถือมากขึ้นสำหรับเวิร์กโฟลว์อย่างแคตตาล็อกสินค้า หรือแอสเซ็ตของแบรนด์
- ประมวลผลได้เร็วขึ้น — เร็วขึ้น 4× เมื่อเทียบกับ GPT Image 1 โดยมุ่งลดเวลาแฝงสำหรับเวิร์กโฟลว์สร้างสรรค์แบบวนซ้ำ
- การปรับต้นทุนให้เหมาะสม — ต้นทุนอินพุต/เอาต์พุตของภาพลดลงประมาณ 20% เมื่อเทียบกับ GPT Image 1 ช่วยลดต้นทุนต่อภาพในการทำซ้ำสำหรับผู้ใช้ปริมาณมาก
- การคอมโพสิตหลายภาพและการอ้างอิงสไตล์ — รองรับภาพอ้างอิงหลายภาพเพื่อคอมโพสิตฉากหรือถ่ายโอนสไตล์/แสง
- ตัวเลือกคุณภาพ/ความเที่ยงตรง — พารามิเตอร์ API ที่ใช้แลกเปลี่ยนระหว่างความเร็วกับความเที่ยงตรง (ใช้คุณภาพต่ำสำหรับการสร้างจำนวนมาก; ใช้คุณภาพสูงสำหรับแอสเซ็ตที่ใช้จริงในการผลิต)
- การแก้ไขหลายรอบ / การผสานรวม Responses API — รองรับเวิร์กโฟลว์แบบเป็นขั้นตอน (ขอให้แก้ไข แล้ว “ปรับเพิ่มเล็กน้อย” โดยคงสถานะไว้)
ความสามารถทางเทคนิค
- ขีดจำกัดพรอมต์ข้อความ (โมเดลภาพ): สูงสุด 32,000 อักขระ (หมายเหตุ: OpenAI ระบุสิ่งนี้เป็นขีดจำกัดความยาวข้อความสำหรับโมเดลภาพ GPT) ใช้สำหรับพรอมต์ยาว ๆ ที่มีข้อกำหนดจำนวนมาก
- อินพุตภาพ: รองรับ File ID (แนะนำสำหรับโฟลว์หลายรอบ) หรือไบต์ดิบ; สามารถส่งหลายภาพเพื่อใช้ในการคอมโพสิตและการอ้างอิงได้
- เอาต์พุต: PNG/JPEG หรืออาร์ติแฟกต์ภาพค่าเริ่มต้นของแพลตฟอร์มที่ API ส่งคืน (หรือเป็นไฟล์แนบภายใน ChatGPT) เอาต์พุตอาจมีภาพตัวเลือกหลายภาพ และรองรับคำขอแบบวนซ้ำเพื่อปรับผลลัพธ์ให้ละเอียดขึ้น
- โหมดการสร้าง: สร้างภาพจากข้อความ, แก้ไขภาพ (inpaint/ขยายภาพพร้อมคำสั่ง) และ variants การแก้ไขหลายรอบรองรับคำสั่งลักษณะ “เพิ่ม/ลบ/รวม”
- การแก้ไขที่เข้าใจคำสั่ง: โมเดลได้รับการปรับให้เหมาะกับความเที่ยงตรงตามคำสั่ง (คงค่าคงที่ที่ระบุไว้ เช่น “อย่าเปลี่ยนโลโก้”, “คงท่าโพสและแสงไว้”) รูปแบบการทำ prompt engineering (ย้ำค่าคงที่ที่ชัดเจนในแต่ละรอบ) ช่วยลดการเบี่ยงเบนทางความหมายได้
ประสิทธิภาพตามการประเมิน
- อันดับบนลีดเดอร์บอร์ด: รายงานแบบรวมฉบับหนึ่งระบุว่า GPT Image 1.5 เป็นผู้นำในการจัดอันดับ text-to-image ด้วย ~1264 คะแนน บนลีดเดอร์บอร์ดของ Artificial Analysis นำหน้าโมเดลถัดไปด้วยระยะห่างที่วัดได้
- เมตริกระดับงาน (การแก้ไขและการคงสภาพเดิม): สรุปเมตริกการประเมินของ Microsoft Foundry แสดงให้เห็นว่า GPT-Image-1.5 ทำได้เกือบสมบูรณ์แบบในความสำเร็จของการแก้ไขแบบทวิภาคี (100% บน BinaryEval แบบรอบเดียว) และได้คะแนนการคงใบหน้าที่แข็งแกร่ง (ประมาณ 90% บนเกณฑ์ AuraFace) ในตารางเปรียบเทียบของพวกเขาเมื่อเทียบกับคู่แข่งและโมเดล OpenAI รุ่นก่อนหน้า เมตริกเปรียบเทียบเหล่านั้นจัดให้ GPT-Image-1.5 เหนือกว่าคู่แข่งบางรายในด้านการคงสภาพเดิมและความเที่ยงตรงของการแก้ไข

GPT-Image-1.5 เปรียบเทียบกับคู่แข่งอย่างไร
- เทียบกับ GPT Image 1 (รุ่นก่อนหน้าของ OpenAI): เร็วกว่า (สูงสุด 4×), ถูกกว่า (ต้นทุน image IO ต่ำลง ~20%) และมีความเที่ยงตรงในการแก้ไขที่ดีกว่า — มุ่งเปลี่ยนเวิร์กโฟลว์ภาพจาก “ต้นแบบ/เดโม” ไปสู่ “พร้อมใช้งานจริงในการผลิต”
- เทียบกับ Nano Banana Pro / โมเดลภาพ Gemini ของ Google: GPT-Image-1.5 และ Nano Banana Pro / ตระกูล Gemini 3 ของ Google เป็นคู่แข่งที่สูสีกัน โดยแต่ละฝ่ายมีจุดแข็งในพรอมต์คนละประเภท ข้อความสื่อสารของ OpenAI เน้นความเที่ยงตรงในการแก้ไขและความเร็วในการทำซ้ำ; ส่วนข้อเสนอของ Google ได้รับคำชื่นชมเรื่องความสมจริงระดับสตูดิโอในบางตัวอย่าง
- เทียบกับ Qwen Image และโมเดลเปิด/ปิดอื่น ๆ: GPT-Image-1.5 มีประสิทธิภาพเหนือกว่า Qwen Image ในหลายเมตริกด้านการแก้ไขและการคงสภาพเดิมในการประเมินแบบรอบเดียว แต่ความแตกต่างจะแคบลงในการทดสอบหลายรอบหรือการทดสอบเฉพาะโดเมนอื่น ๆ
จุดแข็งของ GPT-Image-1.5
- งานภาพสินค้าอีคอมเมิร์ซ: สร้างตัวแปรจำนวนมาก, เปลี่ยนฉากหลัง, ทำแคตตาล็อกสินค้าให้สม่ำเสมอจากภาพถ่ายเพียงภาพเดียว (คงแบรนด์/โลโก้ไว้)
- การผลิตแอสเซ็ตสำหรับงานครีเอทีฟและการตลาด: วนไอเดียคอนเซปต์ได้รวดเร็ว, ม็อกอัปสมจริงแบบภาพถ่าย, การถ่ายโอนสไตล์ที่ควบคุมได้
- การรีทัชภาพและเวิร์กโฟลว์งานบรรณาธิการ: ลองเสื้อผ้า/ทรงผมแบบสมจริง, รีทัชเฉพาะจุดโดยยังคงตัวตนและแสงไว้
- การผสานเข้ากับเครื่องมือออกแบบ: เชื่อมต่อกับแพลตฟอร์มออกแบบหรือ CMS เพื่อสร้างตัวแปรภาพตามต้องการ (ตัวเลือกความเที่ยงตรงช่วยควบคุมต้นทุน)
- ไปป์ไลน์คอมโพสิตหลายขั้นตอน: อินพุตหลายภาพช่วยให้คอมโพสิตและสร้างภาพโดยอิงจากภาพอ้างอิงสำหรับฉากที่ซับซ้อนได้
วิธีเข้าถึง GPT Image 1.5 API
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ได้เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน จากนั้นลงชื่อเข้าใช้ CometAPI console ของคุณ รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนตัว รับ token key: sk-xxxxx แล้วส่งคำขอ
ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Image 1.5 API
เลือกเอนด์พอยต์ “gpt-image-1.5” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณด้วย แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Images (https://api.cometapi.com/v1/images/generations) และ [Image Editing]
ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content — นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต
ดูเพิ่มเติม Gemini 3 Pro Preview API