คุณสมบัติพื้นฐาน
- ข้อความ → ภาพ: การสร้างตามพรอมป์แบบเต็มรูปแบบโดยยึดตามพรอมป์อย่างเคร่งครัด
- ภาพ → ภาพ (แก้ไข): การแก้ไขแบบละเอียดและตรงจุด พร้อมรักษาความสม่ำเสมอของตัวแบบ/ตัวละครตลอดหลายครั้งของการแก้ไข
- ความละเอียดผลลัพธ์สูงสุด: สูงสุด 4K (ตัวอย่างและขนาดพิกเซลที่รองรับขึ้นกับอัตราส่วนภาพ; API มีพรีเซ็ต 1K/2K/4K)
- การวางแผนแบบวนซ้ำและการแก้ไขตนเอง: มี “หลายสเตจ” ภายในเพื่อค้นหาและแก้ข้อผิดพลาดทั่วไป (มุมมอง ข้อความ เรขาคณิตละเอียด)
- การเรนเดอร์ข้อความในภาพขั้นสูง: ข้อความหลายภาษาอ่านชัดเจน (ตั้งแต่แคปชันสั้นไปจนถึงย่อหน้าที่ยาว) เหมาะสำหรับโปสเตอร์ ม็อกอัป และอินโฟกราฟิก
- รองรับ 5 ตัวละคร และความซื่อตรงสำหรับสูงสุด 14 วัตถุ/ภาพอ้างอิง ในเวิร์กโฟลว์เดียว
- วอเตอร์มาร์ก / แหล่งที่มา: ภาพที่สร้างทั้งหมดมีวอเตอร์มาร์ก SynthID; โมเดลฝังเมตาดาตา C2PA เพื่อระบุแหล่งที่มาในบางการผสานผลิตภัณฑ์
เวอร์ชันและการตั้งชื่อ Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
รายละเอียดทางเทคนิค
สถาปัตยกรรม
- สายพันธุ์ / แบ็กโบน: Nano Banana Pro ถูกสร้างบนสแตกภาพ Gemini ของ Google ที่พัฒนาอย่างต่อเนื่อง — โดยเฉพาะสถาปัตยกรรม Gemini 3 Pro Image / GEMPIX 2 (กรอบงานภาพ+ข้อความแบบมัลติโหมดที่มีขีดความสามารถสูงกว่า) ซึ่งวิวัฒน์มาจาก Gemini 2.5 Flash Image (“nano-banana” ดั้งเดิม) สู่โมเดลภาพแบบมัลติโหมดโดยกำเนิดพร้อมความสามารถในการให้เหตุผลด้านภาพ-ภาษาแบบขยาย
- พฤติกรรมของโมเดล: มัลติโหมดโดยกำเนิด (ภาพ + ข้อความ + ความรู้โลก) มีไปป์ไลน์ชัดเจนสำหรับการผสานหลายภาพ และมีตัววางแผนแบบแบ่งสเตจภายในที่ปรับแต่งผลลัพธ์หลายรอบแทนการสร้างตัวอย่างเดียวแบบคงที่ รายงานเบื้องต้นชี้ว่าการให้เหตุผลเชิงเรขาคณิต/ออปติก (แก้ว การหักเห) แข็งแรงขึ้นเมื่อเทียบกับรุ่นก่อน
- การคิด / การปรับละเอียดภายใน: โมเดลใช้กระบวนการ “การคิด” ที่มองเห็นได้ภายในเพื่อปรับองค์ประกอบ (API ระบุพฤติกรรมนี้และระบุว่าขั้นตอนภายในเหล่านี้ไม่ถูกคิดเป็นโทเคนภาพผลลัพธ์)
- การกราวด์ดิ้ง & เครื่องมือ: รองรับ Search grounding (ผสานข้อเท็จจริงจากเว็บในงานสร้างไดอะแกรม/อินโฟกราฟิก) และรองรับ system instructions เพื่อการควบคุมที่มีความกำหนดแน่ชัดมากขึ้น
พารามิเตอร์ API หลัก:
thinking_level(ต่ำ / สูง) สำหรับปรับสมดุลระหว่างความหน่วงกับความลึกในการให้เหตุผลmedia_resolution(ต่ำ/กลาง/สูง) เพื่อควบคุมโทเคนการอ่านรายละเอียด/OCR ของภาพgenerationConfig.imageConfigเพื่อควบคุมอัตราส่วนภาพ/ความละเอียดของผลลัพธ์ภาพ
ข้อจำกัดของภาพ:
- รูปแบบอินพุตที่รองรับ: ข้อความและภาพ (โมเดลไม่รับเสียงหรือวิดีโอเป็นอินพุตการสร้างภาพ)
- จำนวนภาพสูงสุดต่อพรอมป์: 14 (สำหรับ Gemini 3 Pro Image preview)
- ขนาดภาพสูงสุด (อัปโหลด): 7 MB ต่อภาพอินพุต
- อัตราส่วนภาพที่รองรับ: 1:1, 3:2, 16:9, 9:16, 21:9 เป็นต้น
ภาพผลลัพธ์ / โทเคน: ขีดจำกัดสูง รองรับ 4K/4096px
ประสิทธิภาพตามการทดสอบ
สรุปสั้น: การทดสอบสาธารณะ/ในช่วงแรกส่วนใหญ่เป็นเชิงคุณภาพ/ขับเคลื่อนโดยชุมชน แต่รายงานอย่างสม่ำเสมอว่ามีการปรับปรุงที่ชัดเจนด้านความละเอียด การลดอาร์ติแฟกต์ และความถูกต้องทางกายภาพเมื่อเทียบกับ nano-banana รุ่นเดิม (Gemini 2.5 Flash Image) มี “ความท้าทาย” ที่ระบุชื่อซึ่งแสดงให้เห็นถึงความก้าวหน้าทางภาพอย่างชัดเจน แต่ยังไม่มีตารางเกณฑ์ชี้วัดเชิงตัวเลขมาตรฐานที่เผยแพร่โดย Google เพื่อเปรียบเทียบ v1 → v2 ตามเมตริกการสร้างภาพมาตรฐาน
- การทดสอบเชิงคุณภาพโดยชุมชน: ขอบคมขึ้น รายละเอียดระดับจิ๋วคมชัด สีเที่ยงตรงขึ้น และยึดตามพรอมป์ได้ซื่อสัตย์กว่า (ลดอุปกรณ์ประกอบฉากที่หลงสร้าง และตัวละครสม่ำเสมอกว่า) การทดสอบที่นิยม เช่น “Wine Glass Test” และ “Glass Burger Challenge” ที่ GEMPIX2 (Nano Banana Pro) จัดการความโปร่งใสและการหักเหได้ดีกว่าบิลด์ก่อนหน้าอย่างเห็นได้ชัด
- การจัดการข้อความ: Nano Banana Pro แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนด้านไทโปกราฟีและการวางข้อความในภาพ (เป็นจุดอ่อนถาวรของโมเดลภาพจำนวนมาก) การเปรียบเทียบโดยชุมชนชี้ว่ามีตัวอักษรที่เรนเดอร์ผิดรูปน้อยลง
- ปริมาณงาน / UX: ความเร็วในการวนรอบเร็วขึ้น และ UX ทำการปรับละเอียดแบบหลายสเตจที่ฝั่งแบ็กเอนด์ ทำให้ผู้ใช้เห็นผลลัพธ์รอบแรกที่เชื่อถือได้มากขึ้น (ลดการต้องสุ่มใหม่ด้วยตนเอง)
ข้อจำกัด & ความเสี่ยง
- ตัวกรองเนื้อหา & การตรวจจับ: แพลตฟอร์มที่ผสานโมเดล (เช่น Whisk/แอปบุคคลที่สาม) อาจเปิดใช้งานการตรวจจับบุคคลมีชื่อเสียงหรือใบหน้าที่เข้มงวดและบล็อกผลลัพธ์บางอย่าง ซึ่งส่งผลต่อเวิร์กโฟลว์สร้างสรรค์ที่พึ่งพาความเหมือนจริงของคนดัง
- การหลงสร้าง / กรณีขอบของการให้เหตุผล: แม้จะปรับปรุงขึ้น แต่ยังสามารถสร้างอาร์ติแฟกต์ที่ไม่สมจริงทางกายภาพได้ โดยเฉพาะกับข้อความเชิงสัญลักษณ์หนาแน่นในภาพหรือไดอะแกรมทางเทคนิคขั้นสูง — แม้ว่า NB2 จะดูเหมือนลดข้อผิดพลาดเหล่านี้เมื่อเทียบกับรุ่นก่อน
- ความปลอดภัย & การใช้ผิดวัตถุประสงค์: โมเดลสร้างภาพอาจถูกใช้สร้างเนื้อหาที่เป็นปัญหาหรือเป็นอันตราย Google ใช้ข้อจำกัด ตัวกรองเนื้อหา และวอเตอร์มาร์ก SynthID เพื่อช่วยเรื่องแหล่งที่มา; อย่างไรก็ตาม ยังมีการใช้ผิดวัตถุประสงค์เกิดขึ้น (กรณีถกเถียงโด่งดังที่เกี่ยวข้องกับภาพที่สร้างโดย Nano Banana ในบริบททางการเมืองอ่อนไหว)
การเปรียบเทียบ Nano Banana Pro กับโมเดลอื่น
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — การผสานใช้งานบนมือถือที่แข็งแกร่ง การผสานหลายภาพ การแก้ไขตนเองแบบวนรอบ เนทีฟ 2K/อัปสเกล 4K และผสานแน่นกับแอป Google (Search, Photos, Workspace/Gemini) เหมาะกับเวิร์กโฟลว์ที่ต้องการการแก้ไขที่เชื่อถือได้ ความต่อเนื่อง และการผสานกับบริการของ Google อย่างแน่นหนา
- Midjourney — เด่นด้านงานศิลป์เชิงสไตล์และการเขียนพรอมป์โดยชุมชน; โดยทั่วไปไม่เน้นการผสานหลายภาพที่แม่นยำระดับภาพถ่ายหรือไปป์ไลน์แก้ไขมัลติโหมดเชิงลึก
- Stable Diffusion / น้ำหนักแบบเปิด — เปิดเต็มที่ ปรับแต่งได้สูง และโฮสต์ได้ในเครื่อง; ระบบนิเวศของเช็กพอยต์และการปรับจูนเป็นข้อได้เปรียบชี้ขาดสำหรับงานวิจัยและการใช้งานออฟไลน์ มีการผสานมือถือแบบ “คลิกเดียว” น้อยกว่า และความสม่ำเสมอของการแก้ไขหลายภาพนอกกล่องน้อยกว่า Nano Banana Pro
- Seedream 4.0 (ByteDance) — วางตำแหน่งเป็นคู่แข่งของ Nano Banana โดยเน้นการเรนเดอร์เร็วมาก เอาต์พุต 2K และรองรับภาพอ้างอิงจำนวนมาก (สูงสุดหกภาพ) วางตำแหน่งเป็นทางเลือกสำหรับมือโปร/ครีเอเตอร์
(การเปรียบเทียบเหล่านี้อยู่ในระดับสูง; เลือกเครื่องมือให้ตรงกับเวิร์กโฟลว์ของคุณ: ความเปิดกว้าง/ปรับแต่งได้ → Stable Diffusion; งานศิลป์เชิงสไตล์ → Midjourney; การแก้ไขบนมือถือที่สอดคล้องและวนรอบเชิงรุก → ครอบครัว Nano Banana Pro/Gemini 3 Pro Image)
กรณีใช้งานจริง
-
การแก้ไขภาพบนมือถือ & ฟิลเตอร์สร้างสรรค์ (การผสาน Google Photos — ปรับสไตล์ ผสานฉากหลัง ปรับองค์ประกอบภาพพอร์ตเทรตใหม่)
-
สินทรัพย์การตลาด & โฆษณา — สร้างคอนเซ็ปต์รวดเร็ว ตัวละครแบรนด์ที่คงที่ในหลายเฟรม/มุม
-
คอนเซ็ปต์อาร์ต & สตอรีบอร์ด — การผสานหลายภาพช่วยรักษาความต่อเนื่องของตัวละครระหว่างแต่ละพาเนล
-
อีคอมเมิร์ซ / ม็อกอัปสินค้า — สร้างภาพสินค้าที่สม่ำเสมอในบริบท/สภาพแสงต่าง ๆ
-
การสร้างต้นแบบอย่างรวดเร็วสำหรับทรัพย์สิน AR/VR — เอาต์พุตคุณภาพสูง 2K/4K ที่สามารถอัปสเกลสำหรับงานดื่มด่ำ
-
วิธีเข้าถึง API ของ gemini-3-pro-image(Nano Banana Pro)
ขั้นตอนที่จำเป็น
- เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน
- รับคีย์รับรองสิทธิ์การเข้าถึง API ของอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับคีย์โทเคน: sk-xxxxx แล้วส่ง
- รับ URL ของไซต์นี้: https://api.cometapi.com/
วิธีใช้
- เลือกเอ็นด์พอยต์ “
gemini-3-pro-image” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมี Apifox สำหรับการทดสอบเพื่อความสะดวกของคุณ - แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ
- แทรกคำถามหรือคำขอของคุณลงในฟิลด์ content — โมเดลจะตอบกลับสิ่งนี้
- . ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI มี REST API ที่เข้ากันได้เต็มรูปแบบ — สำหรับการย้ายงานอย่างไร้รอยต่อ รายละเอียดสำคัญ :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json