คุณสมบัติหลัก
- การสร้างภาพจากข้อความ: แปลงพรอมป์ต์ภาษาธรรมชาติเป็นภาพ พร้อมความสามารถในการทำตามคำสั่งได้ดี
- การแก้ไขภาพ/อินเพนต์ (inpainting): รองรับภาพอ้างอิงและมาสก์เพื่อทำการแก้ไขแบบเจาะจง
- การออกแบบที่ปรับให้คุ้มค่า (“mini”): ขนาดและการใช้ทรัพยากรเล็กลงที่ OpenAI และผู้สังเกตการณ์ระบุว่ามีต้นทุนต่อภาพถูกกว่ารุ่นใหญ่ (ข้อความจาก OpenAI/DevDay และรายงานช่วงแรกระบุว่าถูกกว่าประมาณ ~80%)
- การควบคุมผลลัพธ์ที่ยืดหยุ่น: รองรับการกำหนดขนาด รูปแบบเอาต์พุต (JPEG/PNG/WEBP) การบีบอัด และตัวปรับคุณภาพ (low/medium/high/auto ใน cookbook)
รายละเอียดทางเทคนิค (สถาปัตยกรรมและความสามารถ)
- ตระกูลโมเดลและอินพุต/เอาต์พุต: เป็นสมาชิกของตระกูล gpt-image-1; รับทั้ง พรอมป์ต์ข้อความ และ อินพุตภาพ (สำหรับการแก้ไข) และส่งคืนผลลัพธ์เป็นภาพที่สร้างขึ้น พารามิเตอร์ คุณภาพ/ขนาด ควบคุมความละเอียด (ค่าสูงสุดทั่วไปประมาณ ~1536×1024 ในตระกูลนี้—ดูเอกสารเพื่อขนาดที่รองรับจริง)
- การแลกเปลี่ยนเชิงปฏิบัติการ: ออกแบบให้มีขนาดเล็กลง—แลกความสามารถด้านความสมจริงระดับบนสุดบางส่วนเพื่อแลกกับ อัตราการประมวลผลและต้นทุน ที่ดีกว่า โดยยังคงความสามารถในการตามพรอมป์ต์และการแก้ไขที่แข็งแกร่ง
- ความปลอดภัยและเมตาดาตา: ปฏิบัติตามมาตรการความปลอดภัยด้านภาพของ OpenAI และฝังตัวเลือกเมตาดาตา C2PA สำหรับการระบุที่มาเมื่อมีให้ใช้
อินพุตและเอาต์พุต — รูปแบบการใช้งานโดยหลักรองรับ:
- พรอมป์ต์ข้อความ (string) เพื่อสร้างภาพใหม่
- ภาพ + มาสก์ เพื่อทำการแก้ไข/อินเพนต์แบบเจาะจง
- ภาพอ้างอิง เพื่อควบคุมสไตล์หรือคอมโพสิชัน
สิ่งเหล่านี้ถูกใช้งานผ่าน Images API (ชื่อโมเดลgpt-image-1-mini).
ข้อจำกัด
- ความสมจริงระดับบนสุดที่ด้อยลง: เมื่อเทียบกับรุ่น gpt-image-1 ขนาดใหญ่ รุ่น mini อาจ สูญเสียรายละเอียดจิ๋วและโทนโฟโตเรียลลิซึมระดับบน (เป็นการแลกที่คาดหมายเพื่อความคุ้มค่า)
- การเรนเดอร์ข้อความและรายละเอียดเล็กมาก: เช่นเดียวกับหลายโมเดลภาพ อาจ ลำบากกับข้อความขนาดเล็กที่อ่านได้ แผนภูมิหนาแน่น หรือเท็กซ์เจอร์ละเอียดมาก; ควรทำโพสต์โปรเซสหรือใช้โมเดลความจุสูงขึ้นสำหรับงานเหล่านั้น
- ขอบเขตการแก้ไข: ฟีเจอร์แก้ไข/อินเพนต์มีให้ใช้ แต่คาดว่า มีข้อจำกัดบางประการ เมื่อเทียบกับเครื่องมือโต้ตอบในเว็บ ChatGPT—การแก้ไขมีประสิทธิภาพกับงานจำนวนมาก แต่อาจต้องทำแบบวนซ้ำเพื่อปรับแต่ง
- ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตอยู่ภายใต้เกณฑ์คัดกรอง/ความปลอดภัยของ OpenAI (เนื้อหาไม่เหมาะสม ข้อจำกัดลิขสิทธิ์ เอาต์พุตที่ไม่อนุญาต) นักพัฒนาสามารถควบคุมความไวของการตรวจผ่านพารามิเตอร์ API ที่มีให้
กรณีการใช้งานที่แนะนำ
- การสร้างคอนเทนต์ปริมาณมาก (สื่อการตลาด ภาพขนาดย่อ แนวคิดงานศิลป์อย่างรวดเร็ว) — ในกรณีที่ ต้นทุนต่อภาพ เป็นปัจจัยหลัก
- การแก้ไขแบบโปรแกรม/การทำเทมเพลต — อินเพนต์แบบจำนวนมากหรือสร้างเวอร์ชันแปรผันจากแอสเซ็ตฐาน
- แอปพลิเคชันแบบโต้ตอบที่มีงบจำกัด — อินเทอร์เฟซแชตหรือเครื่องมือออกแบบแบบฝังที่ความเร็วในการตอบสนองและต้นทุนสำคัญกว่าความสมจริงระดับสูงสุด
- การสร้างต้นแบบและการสร้างภาพเพื่อทดสอบ A/B — สร้างตัวเลือกจำนวนมากอย่างรวดเร็ว แล้วเลือกอัปสเกลหรือรันด้วยโมเดลใหญ่สำหรับตัวเลือกสุดท้าย
- How to access gpt-image-1-mini API
ขั้นตอนที่ 1: ลงทะเบียนรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console รับ API key สำหรับสิทธิ์เข้าถึงของอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง
ขั้นตอนที่ 2: ส่งคำขอไปยัง gpt-image-1-mini API
เลือก “\**gpt-image-1-mini \**”endpoint เพื่อส่งคำขอ API และตั้งค่า request body วิธีคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวก แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ
ใส่คำถามหรือคำขอของคุณในช่อง content—นั่นคือสิ่งที่โมเดลจะตอบสนองต่อ จากนั้นประมวลผลการตอบกลับของ API เพื่อดึงคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อดึงคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์