คุณสมบัติพื้นฐาน
- ข้อความ → ภาพ: การสร้างภาพด้วยพรอมต์แบบเต็มรูปแบบที่ยึดตามพรอมต์อย่างเคร่งครัด
- ภาพ → ภาพ (แก้ไข): การแก้ไขที่ละเอียดและตรงจุด พร้อมคงความสม่ำเสมอของบุคคล/ตัวละครตลอดหลายรอบการแก้ไข
- ความละเอียดผลลัพธ์สูงสุด: สูงสุดถึง 4K (ตัวอย่างและขนาดพิกเซลที่รองรับขึ้นกับอัตราส่วนภาพ; API มีพรีเซ็ต 1K/2K/4K)
- การวางแผนเชิงวนซ้ำและการแก้ไขตนเอง: ไปป์ไลน์ภายในแบบ “หลายสเตจ” ที่ตรวจจับและแก้ไขข้อผิดพลาดเชิงภาพทั่วไป (มุมมอง ตัวอักษร รูปทรงละเอียด)
- การเรนเดอร์ข้อความในภาพขั้นสูง: ข้อความหลายภาษาคมชัด อ่านง่าย (ตั้งแต่แคปชันสั้นจนถึงย่อหน้ายาว) เหมาะสำหรับโปสเตอร์ ม็อกอัป และอินโฟกราฟิก
- 5 ตัวละคร และความเที่ยงตรงสำหรับวัตถุ/ภาพอ้างอิงได้สูงสุด 14 รายการ ในเวิร์กโฟลว์เดียว
- การทำลายน้ำ/การระบุที่มา: ภาพที่สร้างทั้งหมดมีลายน้ำ SynthID; โมเดลฝังเมทาดาทา C2PA เพื่อการระบุที่มาในบางการผสานผลิตภัณฑ์
รุ่นและการตั้งชื่อ Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
รายละเอียดทางเทคนิค
สถาปัตยกรรม
- สายตระกูล/แกนหลัก: Nano Banana Pro สร้างบนสแตกภาพ Gemini ที่พัฒนาอย่างต่อเนื่องของ Google — โดยเฉพาะสถาปัตยกรรม Gemini 3 Pro Image / GEMPIX 2 (กรอบงานภาพ+ข้อความแบบมัลติโหมดความจุสูง) ซึ่งพัฒนาจาก Gemini 2.5 Flash Image (ต้นฉบับ “nano-banana”) สู่โมเดลภาพแบบมัลติโหมดโดยกำเนิดที่มีความสามารถด้านการให้เหตุผลภาพ-ภาษาเพิ่มขึ้น
- พฤติกรรมของโมเดล: มัลติโหมดแบบเนทีฟ (ภาพ + ข้อความ + ความรู้เกี่ยวกับโลก), มีไปป์ไลน์เฉพาะสำหรับการผสานหลายภาพ, และตัววางแผนภายในแบบเป็นลำดับขั้นที่ปรับแต่งผลลัพธ์หลายรอบแทนการสุ่มครั้งเดียว รายงานเบื้องต้นชี้ว่าความสามารถในการให้เหตุผลเชิงเรขาคณิต/ออปติคัล (แก้ว การหักเห) แข็งแกร่งขึ้นเมื่อเทียบกับรุ่นก่อน
- กระบวนการคิด/การปรับแต่งภายใน: โมเดลใช้กระบวนการ “คิด” ภายในที่มองเห็นได้เพื่อปรับองค์ประกอบ (เอกสาร API ระบุพฤติกรรมนี้ และขั้นตอนภายในเหล่านี้จะไม่ถูกคิดเป็นโทเคนภาพสุดท้าย)
- การกราวด์ดิงและเครื่องมือ: รองรับ Search grounding (สามารถผสานข้อเท็จจริงจากเว็บในการสร้างไดอะแกรม/อินโฟกราฟิก) และยังรองรับคำสั่งระบบเพื่อควบคุมที่เป็นเชิงกำหนดมากขึ้น
พารามิเตอร์ API หลัก:
thinking_level(low / high) เพื่อแลกเปลี่ยนระหว่างเวลาแฝงกับความลึกของการให้เหตุผลmedia_resolution(low/medium/high) เพื่อควบคุมโทเคนการอ่านรายละเอียด/OCR ของภาพgenerationConfig.imageConfigเพื่อกำหนดอัตราส่วนภาพ/ความละเอียดของผลลัพธ์
ขีดจำกัดของภาพ:
- รูปแบบอินพุตที่รองรับ: ข้อความและภาพ (โมเดลไม่รับเสียงหรือวิดีโอเป็นอินพุตสำหรับการสร้างภาพ)
- จำนวนภาพสูงสุดต่อพรอมต์: 14 (สำหรับ Gemini 3 Pro Image preview)
- ขนาดไฟล์ภาพสูงสุด (อัปโหลด): 7 MB ต่อภาพอินพุต
- อัตราส่วนภาพที่รองรับ: 1:1, 3:2, 16:9, 9:16, 21:9, ฯลฯ
ภาพเอาต์พุต/โทเคน: ขีดจำกัดสูง รองรับ 4K/4096px
ประสิทธิภาพตามเกณฑ์ทดสอบ
สรุปสั้น: เกณฑ์ทดสอบสาธารณะ/ระยะแรกส่วนใหญ่เป็นเชิงคุณภาพโดยชุมชน แต่รายงานอย่างสม่ำเสมอว่าดีขึ้นอย่างชัดเจนทั้งความละเอียด การลดอาร์ติแฟกต์ และความสอดคล้องทางกายภาพเทียบกับ nano-banana รุ่นเดิม (Gemini 2.5 Flash Image) มี “ชาเลนจ์” แบบมีชื่อหลายรายการที่แสดงให้เห็นการพัฒนาเชิงภาพอย่างเด่นชัด แต่ยังไม่มีตารางตัวเลขมาตรฐานที่เผยแพร่โดย Google เพื่อเปรียบเทียบ v1 → v2 ตามเกณฑ์การสร้างภาพมาตรฐาน
- การทดสอบเชิงคุณภาพโดยชุมชน: ขอบภาพสะอาด รายละเอียดเล็กคมชัด สีตรงมากขึ้น และยึดตามพรอมต์ได้ซื่อตรงกว่า (อุปกรณ์ประกอบที่หลอนน้อยลง ตัวละครสม่ำเสมอมากขึ้น) การทดสอบที่นิยม เช่น “Wine Glass Test” และ “Glass Burger Challenge” ที่ GEMPIX2 (Nano Banana Pro) จัดการความโปร่งใสและการหักเหได้ดีกว่ารุ่นก่อนอย่างเห็นได้ชัด
- การจัดการข้อความ: Nano Banana Pro แสดงให้เห็นการจัดวางตัวอักษรและข้อความในภาพที่ดีขึ้นอย่างชัดเจน (ซึ่งเป็นจุดอ่อนถาวรของโมเดลภาพหลายตัว) การเปรียบเทียบโดยชุมชนชี้ว่ามีอักขระเรนเดอร์ผิดเพี้ยนลดลง
- ปริมาณงาน/ประสบการณ์ผู้ใช้: ความเร็วการวนซ้ำสูงขึ้น และ UX ที่ปรับแต่งหลายสเตจบนแบ็กเอนด์ ทำให้ผู้ใช้ได้ผลลัพธ์รอบแรกที่เชื่อถือได้มากขึ้น (ลดการสุ่มใหม่ด้วยตนเอง)
ข้อจำกัดและความเสี่ยง
- ตัวกรองเนื้อหาและการตรวจจับ: แพลตฟอร์มที่ผสานโมเดล (เช่น Whisk/แอปของบุคคลที่สาม) อาจเปิดใช้งานการตรวจจับคนดังหรือความเหมือนใบหน้าอย่างเข้มงวดและบล็อกเอาต์พุตบางรายการ ซึ่งกระทบเวิร์กโฟลว์สร้างสรรค์ที่ต้องพึ่งพาความเหมือนคนดังแบบสมจริง
- ฮัลลูซิเนชัน/กรณีขอบในการให้เหตุผล: แม้จะดีขึ้น แต่ยังอาจผลิตอาร์ติแฟกต์ที่ไม่สมจริงทางกายภาพ โดยเฉพาะเมื่อมีข้อความเชิงสัญลักษณ์หนาแน่นในภาพหรือแผนผังเชิงเทคนิคสูง — อย่างไรก็ดี NB2 ดูเหมือนลดข้อผิดพลาดเหล่านี้เมื่อเทียบกับรุ่นก่อน
- ความปลอดภัยและการใช้งานในทางที่ผิด: โมเดลสร้างภาพอาจถูกนำไปใช้ในทางที่เป็นปัญหาหรือเป็นอันตราย Google ใช้มาตรการจำกัด ตัวกรองเนื้อหา และลายน้ำ SynthID เพื่อช่วยเรื่องการระบุที่มา แต่ก็ยังมีกรณีการใช้งานในทางที่ผิดเกิดขึ้น (เคยมีประเด็นอื้อฉาวจากภาพที่สร้างโดย Nano Banana ในบริบทการเมืองที่อ่อนไหว)
Nano Banana Pro เปรียบเทียบกับโมเดลอื่นอย่างไร
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — การผสานบนมือถือแข็งแกร่ง ผสานหลายภาพได้ดี การแก้ไขตนเองแบบวนซ้ำ เอาต์พุตเนทีฟ 2K/อัปสเกล 4K ผสานแน่นกับแอป Google (Search, Photos, Workspace/Gemini) เหมาะกับเวิร์กโฟลว์ที่ต้องการการแก้ไขที่เชื่อถือได้ ความต่อเนื่อง และการผสานกับบริการของ Google
- Midjourney — เด่นด้านงานสไตล์อาร์ตและการวิศวกรรมพรอมต์โดยชุมชน; ไม่ได้โฟกัสที่การผสานหลายภาพแบบถ่ายจริงหรือไปป์ไลน์แก้ไขมัลติโหมดเชิงลึกเท่า Nano Banana Pro
- Stable Diffusion / แบบเปิดน้ำหนัก — เปิดทั้งหมด ปรับแต่งได้สูง และโฮสต์ได้ภายใน; ระบบนิเวศเช็กพอยต์และการปรับแต่งคือข้อได้เปรียบชัดเจนสำหรับงานวิจัยและการใช้งานออฟไลน์ มีการผสานบนมือถือ “คลิกเดียว” น้อยกว่าและความสม่ำเสมอของการแก้ไขหลายภาพนอกกล่องน้อยกว่า Nano Banana Pro
- Seedream 4.0 (ByteDance) — วางตำแหน่งเป็นคู่แข่งของ Nano Banana โดยเน้นเรนเดอร์เร็วมาก เอาต์พุต 2K และรองรับภาพอ้างอิงหลายภาพ (สูงสุดหก) วางตำแหน่งเป็นทางเลือกสำหรับสายโปร/ครีเอเตอร์
(การเปรียบเทียบเหล่านี้เป็นภาพรวมระดับสูง; เลือกเครื่องมือที่เหมาะกับเวิร์กโฟลว์ของคุณ: ต้องการความเปิด/ปรับแต่งได้ → Stable Diffusion; ศิลปะสไตล์จัด → Midjourney; การแก้ไขบนมือถือที่ผสานดีและวนซ้ำอย่างดุดัน → Nano Banana Pro/ตระกูล Gemini 3 Pro Image)
กรณีใช้งานจริง
- การแต่งภาพบนมือถือและฟิลเตอร์สร้างสรรค์ (การผสานกับ Google Photos — ปรับสไตล์ ผสานพื้นหลัง จัดองค์ประกอบพอร์ตเทรตใหม่)
- สื่อการตลาดและโฆษณา — สร้างคอนเซปต์รวดเร็ว ตัวละครแบรนด์ที่สม่ำเสมอข้ามหลายเฟรม/มุม
- คอนเซปต์อาร์ตและสตอรีบอร์ด — การผสานหลายภาพช่วยคงความต่อเนื่องของตัวละครระหว่างพาเนล
- อีคอมเมิร์ซ/ม็อกอัปสินค้า — สร้างภาพสินค้าที่สม่ำเสมอในบริบท/สภาพแสงต่างๆ
- การสร้างต้นแบบอย่างรวดเร็วสำหรับทรัพยากร AR/VR — เอาต์พุตคุณภาพสูง 2K/4K ที่สามารถอัปสเกลสำหรับงานเสมือนจริง
วิธีเข้าถึง API gemini-3-pro-image(Nano Banana Pro)
ขั้นตอนที่ต้องทำ
- เข้าสู่ระบบที่ cometapi.com หากยังไม่เป็นผู้ใช้ โปรดลงทะเบียนก่อน
- รับคีย์รับรองความถูกต้องของ API อินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับโทเคนคีย์: sk-xxxxx แล้วส่ง
- รับ url ของไซต์นี้:
https://api.cometapi.com/
วิธีใช้
- เลือกเอ็นด์พอยต์ “
gemini-3-pro-image” เพื่อส่งคำขอ API และตั้งค่าบอดีของคำขอ วิธีและบอดีคำขอดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ - แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ
- ใส่คำถามหรือคำขอของคุณในช่อง content — โมเดลจะตอบกลับสิ่งนี้
- . ประมวลผลการตอบกลับจาก API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI ให้ REST API ที่เข้ากันได้เต็มรูปแบบ—เพื่อการย้ายใช้งานอย่างไร้รอยต่อ รายละเอียดสำคัญ :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.