ในช่วงไม่กี่เดือนที่ผ่านมา Google และ OpenAI ได้เปิดตัวระบบสร้างข้อความเป็นรูปภาพที่ล้ำสมัย ได้แก่ Imagen 3 และ GPT‑Image‑1 ตามลำดับ ซึ่งถือเป็นการเปิดศักราชใหม่แห่งศิลปะ AI ที่สมจริงและควบคุมได้สูง Imagen 3 เน้นที่ความเที่ยงตรงสูงเป็นพิเศษ การควบคุมแสงที่ละเอียด และการรวมเข้ากับแพลตฟอร์ม Gemini และ Vertex ของ Google ขณะที่ GPT‑Image‑1 ใช้พื้นฐานมัลติโหมดที่ทำงานอัตโนมัติซึ่งเชื่อมโยงกับ GPT‑4o โดยมอบทั้งการสร้างรูปภาพและการแก้ไขภายในด้วยรางป้องกันความปลอดภัยที่แข็งแกร่งและ API ที่พร้อมใช้งานอย่างแพร่หลาย บทความนี้จะตรวจสอบแหล่งที่มา สถาปัตยกรรม ความสามารถ กรอบความปลอดภัย โมเดลราคา และแอปพลิเคชันในโลกแห่งความเป็นจริง ก่อนจะปิดท้ายด้วยการมองไปข้างหน้าว่าทั้งสองระบบจะพัฒนาไปอย่างไร
Imagen 3 คืออะไร?
Imagen 3 คือโมเดลการแปลงข้อความเป็นรูปภาพความละเอียดสูงล่าสุดของ Google ซึ่งออกแบบมาเพื่อสร้างภาพที่มีรายละเอียดที่ยอดเยี่ยม แสงที่สว่างขึ้น และสิ่งแปลกปลอมน้อยที่สุดเมื่อเทียบกับรุ่นก่อนๆ โดยเข้าถึงได้ผ่าน Gemini API ของ Google และแพลตฟอร์ม Vertex AI ช่วยให้ผู้ใช้สร้างทุกอย่างตั้งแต่ฉากที่สมจริงไปจนถึงภาพประกอบที่มีสไตล์
GPT-Image-1 คืออะไร?
GPT-Image-1 คือโมเดลการสร้างรูปภาพเฉพาะรุ่นแรกของ OpenAI ซึ่งเปิดตัวผ่าน OpenAI Images API โดยในช่วงแรก GPT-Image-1 ขับเคลื่อนความสามารถด้านรูปภาพของ ChatGPT และเพิ่งเปิดให้นักพัฒนานำไปใช้งานจริงได้ ทำให้สามารถผสานรวมเข้ากับเครื่องมือออกแบบ เช่น Figma และ Adobe Firefly ได้ GPT-Image-XNUMX เน้นการแก้ไขแบบไร้รอยต่อ ไม่ว่าจะเป็นการเพิ่ม ลบ หรือขยายอ็อบเจ็กต์ภายในรูปภาพที่มีอยู่แล้ว ขณะเดียวกันก็รองรับเอาต์พุตทางสไตล์ที่หลากหลาย
สถาปัตยกรรมของพวกเขาแตกต่างกันอย่างไร?
เทคโนโลยีหลักใดที่เป็นพลังขับเคลื่อนให้กับ Imagen 3?
Imagen 3 สร้างขึ้นบนพื้นฐานโมเดลการแพร่กระจายแฝง (LDM) ที่บีบอัดภาพลงในพื้นที่แฝงที่เรียนรู้ผ่านตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ตามด้วยการลดเสียงรบกวนแบบวนซ้ำผ่าน U-Net ที่มีเงื่อนไขตามการฝังข้อความจากตัวเข้ารหัส T5-XXL ที่ได้รับการฝึกไว้ล่วงหน้า
Google ปรับขนาดกรอบงานนี้โดยรวมตัวเข้ารหัสการแปลงการมองเห็นข้อความขนาดใหญ่พิเศษเข้ากับชุดข้อมูลขนาดใหญ่ และคำแนะนำขั้นสูงที่ไม่ต้องใช้ตัวจำแนกประเภท เพื่อผลักดันการจัดตำแหน่งระหว่างความหมายของข้อความและความเที่ยงตรงของภาพ
นวัตกรรมที่สำคัญ ได้แก่ ตัวกำหนดตารางการแพร่กระจายความละเอียดหลายระดับสำหรับรายละเอียดที่แม่นยำ การควบคุมแสงที่ฝังไว้เป็นโทเค็นพร้อมท์ และ "เลเยอร์แนวทาง" ที่เป็นโทเค็นซึ่งลดสิ่งรบกวนในขณะที่ยังรักษาความยืดหยุ่นขององค์ประกอบไว้
GPT‑Image‑1 มีรากฐานมาจากอะไร?
ไม่เหมือนกับการแพร่กระจาย GPT-Image-1 ใช้ "ตัวถดถอยภาพอัตโนมัติ" ภายในกลุ่ม GPT-4o โดยสร้างภาพเป็นโทเค็นต่อโทเค็น ซึ่งคล้ายกับการสร้างข้อความ โดยที่โทเค็นแต่ละตัวจะแสดงถึงแพทช์เล็กๆ ของภาพสุดท้าย
แนวทางนี้ทำให้ GPT‑Image‑1 สามารถเชื่อมโยงความรู้เกี่ยวกับโลกและบริบทข้อความเข้าด้วยกันได้อย่างแน่นหนา ช่วยให้สามารถดำเนินการที่ซับซ้อน เช่น "แสดงฉากในตำนานในสไตล์เรอเนสซองส์ จากนั้นใส่คำอธิบายประกอบด้วยป้ายกำกับภาษาละติน" และยังอำนวยความสะดวกในการระบายสีใหม่และแก้ไขตามภูมิภาคในสถาปัตยกรรมแบบรวมศูนย์อีกด้วย
รายงานเบื้องต้นระบุว่าไปป์ไลน์การถดถอยอัตโนมัตินี้ช่วยให้แสดงผลข้อความภายในรูปภาพได้สอดคล้องกันมากขึ้นและปรับให้เข้ากับองค์ประกอบที่ไม่ธรรมดาได้รวดเร็วยิ่งขึ้น แต่ต้องแลกมากับเวลาในการสร้างภาพที่นานกว่าเล็กน้อยเมื่อเทียบกับกระบวนการกระจายภาพ
ข้อมูลการฝึกอบรมและพารามิเตอร์
Google ไม่ได้เปิดเผยจำนวนพารามิเตอร์ที่แน่นอนสำหรับ Imagen 3 ต่อสาธารณะ แต่เอกสารการวิจัยของพวกเขาบ่งชี้ถึงวิถีการปรับขนาดที่สอดคล้องกับ LLM พารามิเตอร์หลายพันล้านตัวและเครือข่ายการแพร่กระจาย โมเดลนี้ได้รับการฝึกอบรมบนคอร์ปัสของคู่ภาพ-คำบรรยายภาพที่เป็นกรรมสิทธิ์จำนวนมาก โดยเน้นความหลากหลายของรูปแบบและบริบท GPT-Image-1 ของ OpenAI สืบทอดพารามิเตอร์ประมาณ 4 พันล้านตัวของ GPT-900o ซึ่งปรับแต่งบนชุดข้อมูลภาพ-ข้อความเฉพาะที่เสริมด้วยการปรับแต่งคำสั่งตามการสาธิตสำหรับงานแก้ไข ทั้งสององค์กรใช้การดูแลข้อมูลอย่างกว้างขวางเพื่อสร้างสมดุลระหว่างความเที่ยงตรงของการแสดงภาพกับการลดอคติ
สถาปัตยกรรมและชุดข้อมูลการฝึกอบรมของพวกเขาเปรียบเทียบกันอย่างไร
สถาปัตยกรรมพื้นฐานใดบ้างที่ขับเคลื่อน Imagen 3?
Imagen 3 สร้างขึ้นบนกรอบงานที่ใช้การกระจายของ Google โดยใช้ประโยชน์จากขั้นตอนการลดเสียงรบกวนแบบต่อเนื่องและตัวเข้ารหัสข้อความขนาดใหญ่ที่ใช้ตัวแปลงสัญญาณเพื่อปรับแต่งรายละเอียดของภาพอย่างค่อยเป็นค่อยไป สถาปัตยกรรมนี้ช่วยให้สามารถตีความคำแนะนำที่ซับซ้อนและรักษาความสอดคล้องได้แม้ในฉากที่มีรายละเอียดหนาแน่น
สถาปัตยกรรมใดรองรับ GPT-Image-1?
GPT-Image-1 ใช้การออกแบบตัวแปลงหลายโหมดที่มาจากสายผลิตภัณฑ์ GPT ของ OpenAI โดยผสานข้อความและบริบทภาพไว้ในเลเยอร์ความสนใจ ซึ่งช่วยให้สามารถสังเคราะห์ข้อความเป็นรูปภาพและแก้ไขรูปภาพได้ในแบบจำลองรวม
ชุดข้อมูลการฝึกอบรมของพวกเขาแตกต่างกันอย่างไร?
Imagen 3 ได้รับการฝึกอบรมจากชุดข้อมูลที่เป็นกรรมสิทธิ์จำนวนมากซึ่งได้รับการคัดเลือกโดย Google ซึ่งครอบคลุมคู่ภาพและข้อความนับพันล้านคู่ที่ได้มาจากการรวบรวมบนเว็บและคอลเลกชันที่ได้รับอนุญาต ซึ่งปรับให้เหมาะสมสำหรับความหลากหลายในสไตล์และหัวข้อต่างๆ ในทางตรงกันข้าม ชุดข้อมูลของ GPT-Image-1 จะรวมภาพเว็บสาธารณะ ไลบรารีสต็อกที่ได้รับอนุญาต และตัวอย่างที่คัดเลือกภายในเพื่อสร้างสมดุลระหว่างการครอบคลุมในวงกว้างกับเนื้อหาที่มีคุณภาพสูงและมาจากแหล่งที่ถูกต้องตามจริยธรรม
ความสามารถและประสิทธิภาพมีอะไรบ้าง?
เปรียบเทียบคุณภาพของภาพ
ในเกณฑ์มาตรฐานการประเมินโดยมนุษย์ (DrawBench, T2I‑Eval) Imagen 3 เอาชนะโมเดลการแพร่กระจายรุ่นก่อนๆ ได้อย่างสม่ำเสมอ โดยทำคะแนนได้สูงขึ้นในด้านความสมจริงของภาพ ความแม่นยำขององค์ประกอบ และการจัดตำแหน่งความหมาย โดยเอาชนะ DALL·E 3 ไปด้วยคะแนนที่เหนือกว่าคู่แข่ง
GPT‑Image‑1 ถึงแม้จะเป็นของใหม่ แต่ก็ไต่อันดับขึ้นไปอยู่ในอันดับสูงสุดของกระดานผู้นำ Artificial Analysis Image Arena ได้อย่างรวดเร็ว โดยแสดงให้เห็นถึงประสิทธิภาพการถ่ายภาพแบบ zero‑shot ที่แข็งแกร่งในการถ่ายโอนสไตล์ การสร้างฉาก และคำแนะนำที่ซับซ้อน โดยมักจะตรงกับโมเดลการแพร่กระจายในด้านพื้นผิวและความถูกต้องของสี
สำหรับความชัดเจนของข้อความภายในภาพ (เช่น ป้ายหรือป้ายกำกับ) การสร้างโทเค็นอัตโนมัติถดถอยของ GPT-Image-1 แสดงให้เห็นถึงการปรับปรุงที่ชัดเจน โดยการแสดงคำที่อ่านออกและถูกต้องตามภาษา ในขณะที่ Imagen 3 บางครั้งยังคงประสบปัญหาในการจัดการกับรูปร่างอักขระที่แม่นยำในงานพิมพ์ที่หนาแน่น
รูปแบบศิลปะของพวกเขามีความหลากหลายขนาดไหน?
Imagen 3 โดดเด่นในด้านการเรนเดอร์ที่สมจริงยิ่งกว่าเดิม ไม่ว่าจะเป็นภาพทิวทัศน์ 8k ภาพบุคคลที่ใช้แสงธรรมชาติ และการจัดองค์ประกอบแบบภาพยนตร์ ขณะเดียวกันยังรองรับสไตล์การวาดภาพและการ์ตูนผ่านตัวปรับแต่งพร้อมท์อีกด้วย
GPT‑Image‑1 ยังนำเสนอการครอบคลุมรูปแบบที่กว้างขวางอีกด้วย ตั้งแต่ศิลปะที่เหมือนจริงไปจนถึงศิลปะแบบนามธรรมและแม้แต่ศิลปะแบบไอโซเมตริกสามมิติ รวมไปถึงการระบายสีทับที่แข็งแกร่งและการแก้ไขเฉพาะตำแหน่งที่ให้ผู้ใช้ "วาด" กรอบขอบเขตเพื่อระบุว่าการเปลี่ยนแปลงจะเกิดขึ้นที่ใด
ตัวอย่างชุมชนเน้นถึงความสามารถของ GPT-Image-1 ในการสร้างฉากอนิเมะและอินโฟกราฟิกที่ได้รับแรงบันดาลใจจาก Ghibli ที่ผสมผสานแผนภูมิและองค์ประกอบข้อความ ซึ่งเป็นกรณีการใช้งานที่ความรู้โลกที่บูรณาการช่วยเพิ่มความสอดคล้องของข้อเท็จจริง
ความเร็วและความหน่วง
การอนุมานของ Imagen 3 บน Gemini API เฉลี่ยแล้วใช้เวลา 3–5 วินาทีต่อภาพขนาด 512×512 โดยปรับขยายได้สูงสุด 8–10 วินาทีสำหรับความละเอียดสูงพิเศษ (2048×2048) ทั้งนี้ขึ้นอยู่กับการวนซ้ำที่ผู้ใช้ระบุและความแรงของการแนะนำ
GPT‑Image‑1 รายงานค่าความล่าช้าเฉลี่ย 6–8 วินาทีสำหรับขนาดที่ใกล้เคียงกันใน Images API โดยกรณีขอบอาจถึง 12 วินาทีสำหรับฉากที่มีรายละเอียดละเอียด ข้อเสียคืออินเทอร์เฟซสตรีมมิ่งต่อโทเค็นจะราบรื่นขึ้นสำหรับการดูตัวอย่างแบบก้าวหน้า
ความสามารถในการแสดงข้อความ
การเรนเดอร์ข้อความซึ่งเป็นจุดอ่อนของโมเดลการแพร่กระจายมาอย่างยาวนาน ได้รับการแก้ไขโดยแต่ละทีมต่างกัน Google ได้เพิ่มขั้นตอนถอดรหัสเฉพาะทางให้กับ Imagen 3 เพื่อปรับปรุงการอ่านข้อความให้ดีขึ้น แต่ยังคงมีปัญหาในการจัดวางที่ซับซ้อนและสคริปต์หลายภาษา GPT-Image-1 ใช้กลไกการโฟกัสของตัวแปลงสำหรับการเรนเดอร์ข้อความแบบ Zero Shot เพื่อสร้างบล็อกข้อความที่คมชัดและจัดตำแหน่งได้ดีซึ่งเหมาะสำหรับอินโฟกราฟิกและไดอะแกรม ซึ่งทำให้ GPT-Image-1 มีประโยชน์อย่างยิ่งสำหรับทรัพย์สินด้านการศึกษาและองค์กรที่ต้องมีป้ายกำกับหรือคำอธิบายประกอบแบบฝังอยู่
เปรียบเทียบกันในด้านความปลอดภัยและการพิจารณาด้านจริยธรรมเป็นอย่างไร?
มีราวกั้นความปลอดภัยอะไรบ้าง?
Google บังคับใช้ตัวกรองเนื้อหาบน Imagen 3 โดยใช้ตัวจัดหมวดหมู่อัตโนมัติและกระบวนการตรวจสอบโดยมนุษย์ร่วมกัน เพื่อบล็อกเนื้อหาที่มีความรุนแรง ทางเพศ และมีลิขสิทธิ์ นอกจากนี้ยังใช้วงจรข้อเสนอแนะแบบทีมสีแดงเพื่อแก้ไขช่องโหว่ที่อาจเกิดขึ้นในวิศวกรรมที่รวดเร็ว
GPT‑Image‑1 ของ OpenAI สืบทอดสแต็กความปลอดภัย GPT‑4o: การกลั่นกรองอัตโนมัติด้วยความไวที่ปรับได้ เมตาข้อมูล C2PA ที่รวมอยู่ในผลลัพธ์เพื่อส่งสัญญาณแหล่งที่มาของ AI และการปรับแต่งอย่างต่อเนื่องผ่านการเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) เพื่อหลีกเลี่ยงผลลัพธ์ที่เป็นอันตรายหรือลำเอียง
ทั้งสองระบบจะทำเครื่องหมายหมวดหมู่ที่ละเอียดอ่อน (เช่น รูปลักษณ์เหมือนคนดัง) และบังคับใช้การปฏิเสธตามนโยบาย แต่การตรวจสอบอิสระสังเกตว่าอคติที่อิงจากภาพ (เพศ ชาติพันธุ์) ยังคงต้องมีการบรรเทาเพิ่มเติม
เกิดข้อกังวลเกี่ยวกับความเป็นส่วนตัวอะไรบ้าง?
การนำ GPT-Image-1 มาใช้ในเครื่องมือของผู้บริโภคอย่างรวดเร็วทำให้เกิดคำเตือนเกี่ยวกับการเก็บข้อมูลเมตา: รูปภาพที่อัพโหลดเพื่อทำการระบายสีอาจมีข้อมูล EXIF (ตำแหน่ง อุปกรณ์) ที่สามารถจัดเก็บไว้เพื่อปรับปรุงโมเดล เว้นแต่ว่าผู้ใช้จะทำการปรับแต่ง
Imagen 3 ซึ่งขับเคลื่อนโดย API สำหรับองค์กรเป็นหลัก ปฏิบัติตามนโยบายการจัดการข้อมูลของ Google Cloud ซึ่งรับประกันว่าจะไม่มีการใช้คำเตือนหรือเอาท์พุตที่ลูกค้าอัปโหลดสำหรับการฝึกอบรมโมเดลโดยไม่มีการสมัครรับข้อมูลที่ชัดเจน ซึ่งสอดคล้องกับความต้องการปฏิบัติตามข้อกำหนดขององค์กร
ราคาและความพร้อมจำหน่ายเป็นอย่างไรบ้าง?
สามารถเข้าถึง Imagen 3 ได้ผ่าน Vertex AI Generative Models API ของ Google Cloud โดยมีจุดสิ้นสุดเช่น imagen-3.0-capability-001และผ่าน Gemini API สำหรับกรณีการใช้งานแบบสนทนา รองรับการสร้างตามคำสั่ง การตั้งค่าสไตล์ และเวิร์กโฟลว์แบบวนซ้ำจาก "การวาดเส้นเป็นผลงานชิ้นเอก"
GPT-Image-1 ถูกส่งผ่าน Images API ของ OpenAI และรวมเข้ากับ Responses API สำหรับการแจ้งเตือนแบบหลายโหมด นักพัฒนาสามารถเรียกใช้ gpt-image-1 โดยมีพารามิเตอร์สำหรับรูปแบบ อัตราส่วนภาพ และการตั้งค่าความพอเหมาะ รวมถึงจัดเตรียมภาพเริ่มต้นสำหรับการทาสีทับและทาสีทับ
นักพัฒนาสามารถเข้าถึงแต่ละโมเดลได้จากที่ไหน
Imagen 3 พร้อมใช้งานผ่าน:
- Google Gemini API ($0.03/ภาพ) สำหรับการสร้างข้อความเป็นรูปภาพและคุณลักษณะขั้นสูง (อัตราส่วนภาพ ชุดตัวเลือกหลายตัว)
- Vertex AI บน Google Cloud พร้อมตัวเลือกปลายทางแบบกำหนดเองและการรวม Google Slides สำหรับผู้ที่ไม่ใช่โปรแกรมเมอร์
สามารถเข้าถึง GPT‑Image‑1 ได้ผ่าน:
- OpenAI Images API (ทั่วโลก จ่ายตามการใช้งาน) พร้อมเครดิตทดลองใช้งานฟรีที่ใจดีสำหรับผู้ใช้ใหม่
- Microsoft Azure OpenAI Service (รูปภาพใน Foundry Playground) สำหรับการบูรณาการและการปฏิบัติตามข้อกำหนดขององค์กร
- API การตอบกลับของ ChatGPT (เร็วๆ นี้) สำหรับบอทและผู้ช่วยการสนทนาแบบหลายโหมด
แต่ละอันราคาเท่าไร?
Imagen 3 คิดค่าใช้จ่าย 0.03 ดอลลาร์ต่อการสร้างภาพขนาด 512×512 บน Gemini API โดยมีส่วนลดตามปริมาณสำหรับลูกค้าองค์กร ส่วนราคาแบบกำหนดเองจะใช้ได้สำหรับการใช้งาน Vertex AI
ราคา GPT‑Image‑1 ของ OpenAI แบ่งเป็นชั้นๆ ดังนี้: ประมาณ 0.02–0.04 ดอลลาร์สหรัฐฯ ต่อคำขอสร้างภาพหนึ่งภาพ (ขึ้นอยู่กับความละเอียดและขนาดชุด) บวกกับค่าธรรมเนียมเพิ่มเติมสำหรับการทาสีทับหรือการเปลี่ยนแปลงจุดปลายทาง อัตราที่แน่นอนจะแตกต่างกันไปในแต่ละภูมิภาค และ Azure เทียบกับการเรียกเก็บเงินโดยตรงของ OpenAI
อนาคตจะมีการพัฒนาอะไรเกิดขึ้นบ้าง?
Imagen 4 และรุ่นต่อๆ ไปจะมาถึงเร็วๆ นี้หรือไม่?
ข่าวลือและข้อมูลอ้างอิงโมเดลที่รั่วไหลชี้ไปที่การเปิดตัว Imagen 4 Ultra และ Veo 3 ที่ Google I/O 2025 (20 พฤษภาคม 2025) โดยสัญญาว่าจะสร้างโมเดล 16K แบบเรียลไทม์ แอนิเมชั่นแบบไดนามิก และการบูรณาการที่แน่นแฟ้นยิ่งขึ้นกับการใช้เหตุผลหลายโหมดของ Gemini
รายการรีจิสทรีในช่วงแรกๆ เช่น “imagen‑4.0‑ultra‑generate‑exp‑05‑20” แสดงให้เห็นว่า Google ตั้งเป้าที่จะผลักดันความละเอียด ความเร็ว และความสอดคล้องของฉากไปพร้อมๆ กัน ซึ่งอาจแซงหน้าเกณฑ์มาตรฐานของคู่แข่งได้
GPT‑Image‑1 อาจพัฒนาได้อย่างไร?
OpenAI วางแผนที่จะผสาน GPT‑Image‑1 เข้ากับ GPT‑4o ให้ลึกซึ้งยิ่งขึ้น ซึ่งจะทำให้สามารถเปลี่ยนข้อความเป็นวิดีโอได้อย่างราบรื่น ปรับปรุงการแก้ไขใบหน้าโดยไม่มีสิ่งแปลกปลอม และสร้างผืนผ้าใบขนาดใหญ่ขึ้นด้วยการสร้างแบบไทล์
แผนงานแสดงให้เห็นถึง UI แบบ "รูปภาพในแชท" ซึ่งผู้ใช้สามารถเขียนด้วยปากกา ปรับแต่ง GPT-Image-1 ได้แบบเรียลไทม์ จากนั้นจึงส่งออกไปยังเครื่องมือออกแบบ ช่วยให้การสร้างงานศิลปะขั้นสูงเป็นที่สนใจมากขึ้นสำหรับผู้ชมที่ไม่ใช่นักเทคนิค
สรุป
Imagen 3 และ GPT‑Image‑1 ถือเป็นสองเสาหลักของศิลปะ AI รุ่นต่อไป โดยโมเดลที่ใช้การกระจายของ Google โดดเด่นในด้านความเที่ยงตรงของภาพและแสงที่นุ่มนวล ในขณะที่แนวทางการทำงานอัตโนมัติของ OpenAI เน้นที่ความรู้เกี่ยวกับโลกที่ผสานเข้าด้วยกัน การลงสีทับ และการแสดงข้อความ ทั้งสองโมเดลนี้วางจำหน่ายในเชิงพาณิชย์ผ่าน API ที่แข็งแกร่ง ซึ่งรองรับด้วยมาตรการด้านความปลอดภัยที่ครอบคลุมและความร่วมมือในระบบนิเวศที่ขยายตัวอย่างต่อเนื่อง ในขณะที่ Google กำลังเตรียมการสำหรับ Imagen 4 และ OpenAI จะทำให้ GPT‑Image‑1 ลึกซึ้งยิ่งขึ้นใน GPT‑4o นักพัฒนาและผู้สร้างสามารถคาดหวังเครื่องมือสร้างภาพที่สมบูรณ์ยิ่งขึ้น ควบคุมได้มากขึ้น และมีจริยธรรมมากขึ้น
เริ่มต้นใช้งาน
นักพัฒนาสามารถเข้าถึงได้ API ของ GPT-image-1 และ Grok3 API ภาษาไทย ตลอด โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API (ชื่อรุ่น: gpt-image-1) สำหรับคำแนะนำโดยละเอียด โปรดทราบว่านักพัฒนาบางคนอาจจำเป็นต้องตรวจสอบองค์กรของตนก่อนใช้โมเดลนี้
GPT-Image-1 ราคา API ใน CometAPI ลด 20% จากราคาอย่างเป็นทางการ:
โทเค็นเอาต์พุต: $32/ M โทเค็น
อินพุตโทเค็น: $8 / M โทเค็น
