ฟีเจอร์พื้นฐาน
- ข้อความ → รูปภาพ: สร้างภาพแบบขับเคลื่อนด้วยพรอมป์ต์เต็มรูปแบบ พร้อมการยึดตามพรอมป์ต์อย่างแม่นยำสูง
- รูปภาพ → รูปภาพ (แก้ไข): แก้ไขแบบละเอียดและเฉพาะจุด โดยคงความสอดคล้องของวัตถุ/ตัวละครเดิมตลอดการแก้ไขหลายครั้ง
- ความละเอียดเอาต์พุตสูงสุด: สูงสุดถึง 4K (ตัวอย่างและขนาดพิกเซลที่รองรับจริงขึ้นอยู่กับอัตราส่วนภาพ; API มีพรีเซ็ต 1K/2K/4K)
- การวางแผนแบบวนซ้ำและการแก้ไขตนเอง: ไปป์ไลน์ภายในแบบ “หลายขั้นตอน” ที่ตรวจจับและแก้ไขข้อผิดพลาดด้านภาพที่พบบ่อย (มุมมองภาพ, ข้อความ, เรขาคณิตละเอียด)
- การเรนเดอร์ข้อความในภาพขั้นสูง: ข้อความหลายภาษาที่ชัดเจน อ่านง่าย (ตั้งแต่คำบรรยายสั้น ๆ ถึงย่อหน้ายาว) เหมาะสำหรับโปสเตอร์ ม็อกอัป และอินโฟกราฟิก
- รองรับ 5 ตัวละคร และคงความเที่ยงตรงได้สูงสุดถึง 14 วัตถุ/ภาพอ้างอิง ในเวิร์กโฟลว์เดียว
- ลายน้ำ / ที่มา: ภาพที่สร้างทั้งหมดมีลายน้ำ SynthID; โมเดลฝังเมทาดาทา C2PA สำหรับการระบุที่มาในบางการผสานรวมของผลิตภัณฑ์
เวอร์ชันและชื่อเรียกของ Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
รายละเอียดทางเทคนิค
สถาปัตยกรรม
- ลำดับสายพันธุ์ / แบ็กโบน: Nano Banana Pro สร้างขึ้นบนสแตกภาพ Gemini ที่กำลังพัฒนาของ Google — โดยเฉพาะสถาปัตยกรรมใหม่ Gemini 3 Pro Image / GEMPIX 2 (เฟรมเวิร์กภาพ+ข้อความแบบมัลติโหมดที่มีความจุสูงกว่า) ซึ่งเป็นวิวัฒนาการจาก Gemini 2.5 Flash Image (ต้นฉบับ “nano-banana”) ไปสู่โมเดลภาพที่เป็นมัลติโหมดโดยกำเนิด พร้อมความสามารถในการให้เหตุผลด้านภาพ-ภาษาที่ขยายมากขึ้น
- พฤติกรรมของโมเดล: มัลติโหมดโดยกำเนิด (ภาพ + ข้อความ + ความรู้เกี่ยวกับโลก), ไปป์ไลน์แบบชัดเจนสำหรับการหลอมรวมหลายภาพ, และตัววางแผนภายในแบบหลายช่วงที่ปรับผลลัพธ์ให้ดีขึ้นผ่านหลายรอบ แทนที่จะสร้างตัวอย่างคงที่เพียงครั้งเดียว รายงานเบื้องต้นชี้ว่ามีการให้เหตุผลด้านเรขาคณิต/ทัศนศาสตร์ (กระจก, การหักเห) ที่แข็งแกร่งกว่ารุ่นก่อน
- การคิด / การปรับแต่งภายใน: โมเดลใช้กระบวนการ “คิด” ที่มองเห็นได้ภายในเพื่อปรับแต่งองค์ประกอบภาพ (เอกสาร API ระบุพฤติกรรมนี้และระบุว่าขั้นตอนภายในเหล่านั้นจะไม่ถูกคิดค่าบริการเป็นโทเค็นภาพสุดท้าย)
- การยึดโยงข้อมูล & เครื่องมือ: รองรับ Search grounding (สามารถนำข้อเท็จจริงจากเว็บมาใช้ในการสร้างไดอะแกรม/อินโฟกราฟิก) และยังรองรับ system instructions เพื่อการควบคุมที่กำหนดแนวทางได้มากขึ้น
พารามิเตอร์ API สำคัญ:
thinking_level(low / high) เพื่อแลกเปลี่ยนระหว่างเวลาแฝงกับความลึกในการให้เหตุผล;media_resolution(low/medium/high) เพื่อควบคุมโทเค็นสำหรับการอ่าน OCR/รายละเอียดของภาพ;generationConfig.imageConfigเพื่อควบคุมอัตราส่วนภาพ/ความละเอียดของเอาต์พุตภาพ
ขีดจำกัดของภาพ:
- รูปแบบอินพุตที่รองรับ: ข้อความและรูปภาพ (โมเดลไม่รองรับเสียงหรือวิดีโอเป็นอินพุตสำหรับการสร้างภาพ)
- จำนวนภาพสูงสุดต่อพรอมป์ต์: 14 (สำหรับ Gemini 3 Pro Image preview)
- ขนาดภาพสูงสุด (อัปโหลด): 7 MB ต่อภาพอินพุต
- อัตราส่วนภาพที่รองรับ: 1:1, 3:2, 16:9, 9:16, 21:9 เป็นต้น
ภาพเอาต์พุต / โทเค็น: รองรับขีดจำกัดสูง พร้อมรองรับ 4K/4096px
ประสิทธิภาพในการทดสอบเปรียบเทียบ
สรุปสั้น ๆ: เกณฑ์ทดสอบสาธารณะ/ช่วงต้นในตอนนี้ส่วนใหญ่ยังเป็นเชิงคุณภาพและขับเคลื่อนโดยชุมชน แต่รายงานอย่างสม่ำเสมอถึงการปรับปรุงอย่างมากในด้านความละเอียด การลดอาร์ติแฟกต์ และความสมจริงทางกายภาพเมื่อเทียบกับ nano-banana รุ่นดั้งเดิม (Gemini 2.5 Flash Image) “ความท้าทาย” ที่มีการเรียกชื่อเฉพาะหลายรายการแสดงให้เห็นถึงการพัฒนาด้านภาพอย่างชัดเจน แต่ยังไม่มีตารางเบนช์มาร์กเชิงตัวเลขมาตรฐานที่เปิดเผยต่อสาธารณะจาก Google เพื่อเปรียบเทียบ v1 → v2 ตามเมตริกมาตรฐานของการสร้างภาพ
- การทดสอบเชิงคุณภาพโดยชุมชน: ขอบภาพสะอาดขึ้น รายละเอียดระดับจุลภาคคมชัดขึ้น สีตรงขึ้น และยึดตามพรอมป์ต์ได้ซื่อสัตย์มากขึ้น (มีอุปกรณ์ประกอบฉากที่หลอนขึ้นมาน้อยลง ตัวละครสม่ำเสมอมากขึ้น) การทดสอบไม่เป็นทางการที่ได้รับความนิยมรวมถึง “Wine Glass Test” และ “Glass Burger Challenge” ซึ่ง GEMPIX2 (Nano Banana Pro) จัดการความโปร่งใสและการหักเหได้ดีกว่ารุ่นก่อนอย่างเห็นได้ชัด
- การจัดการข้อความ: Nano Banana Pro แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนในด้านตัวอักษรและการจัดวางข้อความภายในภาพ (ซึ่งเป็นจุดอ่อนเรื้อรังของโมเดลภาพจำนวนมาก) การเปรียบเทียบโดยชุมชนบ่งชี้ว่ามีอักขระเพี้ยนที่เรนเดอร์ออกมาน้อยลง
- อัตราการประมวลผล / UX: ความเร็วในการทำซ้ำเร็วขึ้น และ UX ที่ทำการปรับแต่งหลายขั้นตอนในฝั่งแบ็กเอนด์ ทำให้ผู้ใช้เห็นผลลัพธ์รอบแรกที่เชื่อถือได้มากขึ้น (ลดความจำเป็นในการกดสุ่มใหม่ด้วยตนเอง)
ข้อจำกัดและความเสี่ยง
- ตัวกรองเนื้อหาและการตรวจจับ: แพลตฟอร์มที่ผสานรวมโมเดลนี้ (เช่น Whisk/แอปของบุคคลที่สาม) อาจเปิดใช้การตรวจจับคนดังหรือความเหมือนจริงอย่างเข้มงวด และบล็อกเอาต์พุตบางประเภท ซึ่งส่งผลต่อเวิร์กโฟลว์สร้างสรรค์ที่พึ่งพาความเหมือนจริงของบุคคลสาธารณะ
- กรณีขอบของอาการหลอน / การให้เหตุผล: แม้จะดีขึ้น แต่โมเดลยังคงอาจสร้างอาร์ติแฟกต์ที่ไม่สมจริงทางกายภาพได้ โดยเฉพาะกับข้อความเชิงสัญลักษณ์จำนวนมากภายในภาพ หรือไดอะแกรมทางเทคนิคที่ซับซ้อนมาก — แม้ว่า NB2 ดูเหมือนจะลดข้อผิดพลาดเหล่านี้ลงเมื่อเทียบกับรุ่นก่อน
- ความปลอดภัยและการใช้ในทางที่ผิด: โมเดลสร้างภาพสามารถถูกใช้เพื่อสร้างเนื้อหาที่มีปัญหาหรือเป็นอันตรายได้ Google ใช้ข้อจำกัด ตัวกรองเนื้อหา และลายน้ำ SynthID เพื่อช่วยเรื่องการระบุที่มา; อย่างไรก็ตาม การใช้งานในทางที่ผิดก็ยังเกิดขึ้นแล้ว (รวมถึงกรณีอื้อฉาวที่เป็นที่สนใจสูงซึ่งเกี่ยวข้องกับภาพที่สร้างโดย Nano Banana ในบริบทที่อ่อนไหวทางการเมือง)
Nano Banana Pro เปรียบเทียบกับโมเดลอื่นอย่างไร
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — เด่นด้านการผสานรวมบนมือถือ การหลอมรวมหลายภาพ การแก้ไขตนเองแบบวนซ้ำ เอาต์พุต 2K แบบเนทีฟ/อัปสเกล 4K และการผสานรวมแน่นแฟ้นกับแอปของ Google (Search, Photos, Workspace/Gemini) เหมาะที่สุดสำหรับเวิร์กโฟลว์ที่ต้องการการแก้ไขที่เชื่อถือได้ ความต่อเนื่อง และการผสานรวมกับบริการของ Google
- Midjourney — โดดเด่นด้านเอาต์พุตเชิงศิลป์แบบมีสไตล์และการวิศวกรรมพรอมป์ต์ที่ขับเคลื่อนโดยชุมชน; โดยทั่วไปไม่ได้มุ่งเน้นไปที่การหลอมรวมหลายภาพแบบสมจริงระดับภาพถ่ายหรือไปป์ไลน์การแก้ไขมัลติโหมดเชิงลึก
- Stable Diffusion / open weights — เปิดเต็มรูปแบบ ปรับแต่งได้สูง และโฮสต์ในเครื่องได้; ระบบนิเวศของเช็กพอยต์และการไฟน์จูนเป็นข้อได้เปรียบสำคัญสำหรับงานวิจัยและการใช้งานออฟไลน์ มีการผสานรวมบนมือถือแบบ “คลิกเดียว” น้อยกว่า และความสอดคล้องของการแก้ไขหลายภาพแบบพร้อมใช้ก็มักน้อยกว่า Nano Banana Pro
- Seedream 4.0 (ByteDance) — เพิ่งถูกวางตำแหน่งอย่างชัดเจนว่าเป็นคู่แข่งของ Nano Banana โดยเน้นการเรนเดอร์ที่รวดเร็วมาก เอาต์พุต 2K และรองรับภาพอ้างอิงจำนวนมาก (สูงสุดหกภาพ) วางตำแหน่งเป็นทางเลือกสำหรับมืออาชีพ/ครีเอเตอร์
(การเปรียบเทียบเหล่านี้เป็นภาพรวมระดับสูง; ควรเลือกเครื่องมือที่เหมาะกับเวิร์กโฟลว์ของคุณ: ความเปิดกว้าง/การปรับแต่งได้ → Stable Diffusion; ศิลปะแบบมีสไตล์ → Midjourney; การแก้ไขบนมือถือที่ผสานรวมและสม่ำเสมอพร้อมการทำซ้ำเชิงรุก → Nano Banana Pro/ตระกูล Gemini 3 Pro image)
กรณีใช้งานจริง
- การแก้ไขภาพบนมือถือและฟิลเตอร์สร้างสรรค์ (การผสานรวมกับ Google Photos — การปรับสไตล์ใหม่ การรวมฉากหลัง การจัดองค์ประกอบภาพบุคคลใหม่)
- แอสเซ็ตด้านการตลาดและโฆษณา — สร้างคอนเซปต์ได้รวดเร็ว คงตัวละครแบรนด์ให้สม่ำเสมอข้ามหลายเฟรม/หลายมุม
- คอนเซปต์อาร์ตและสตอรีบอร์ด — การหลอมรวมหลายภาพช่วยรักษาความต่อเนื่องของตัวละครข้ามแต่ละช่อง
- อีคอมเมิร์ซ / ม็อกอัปสินค้า — สร้างภาพสินค้าที่สม่ำเสมอในบริบท/สภาพแสงที่ต่างกัน
- การสร้างต้นแบบอย่างรวดเร็วสำหรับแอสเซ็ต AR/VR — เอาต์พุตคุณภาพสูง 2K/4K ที่สามารถอัปสเกลเพื่อการใช้งานแบบสมจริง
- วิธีเข้าถึง API gemini-3-pro-image(Nano Banana Pro)
ขั้นตอนที่จำเป็น
- เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ใช่ผู้ใช้ของเรา โปรดลงทะเบียนก่อน
- รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ
- รับ url ของเว็บไซต์นี้: https://api.cometapi.com/
วิธีใช้งาน
- เลือก endpoint “
gemini-3-pro-image” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ - แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ
- ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ
- ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI มี REST API ที่เข้ากันได้อย่างสมบูรณ์—เพื่อการย้ายระบบอย่างราบรื่น รายละเอียดสำคัญ :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json