ฟีเจอร์พื้นฐาน

ข้อความ → รูปภาพ: สร้างภาพแบบขับเคลื่อนด้วยพรอมป์ต์เต็มรูปแบบ พร้อมการยึดตามพรอมป์ต์อย่างแม่นยำสูง
รูปภาพ → รูปภาพ (แก้ไข): แก้ไขแบบละเอียดและเฉพาะจุด โดยคงความสอดคล้องของวัตถุ/ตัวละครเดิมตลอดการแก้ไขหลายครั้ง
ความละเอียดเอาต์พุตสูงสุด: สูงสุดถึง 4K (ตัวอย่างและขนาดพิกเซลที่รองรับจริงขึ้นอยู่กับอัตราส่วนภาพ; API มีพรีเซ็ต 1K/2K/4K)
การวางแผนแบบวนซ้ำและการแก้ไขตนเอง: ไปป์ไลน์ภายในแบบ “หลายขั้นตอน” ที่ตรวจจับและแก้ไขข้อผิดพลาดด้านภาพที่พบบ่อย (มุมมองภาพ, ข้อความ, เรขาคณิตละเอียด)
การเรนเดอร์ข้อความในภาพขั้นสูง: ข้อความหลายภาษาที่ชัดเจน อ่านง่าย (ตั้งแต่คำบรรยายสั้น ๆ ถึงย่อหน้ายาว) เหมาะสำหรับโปสเตอร์ ม็อกอัป และอินโฟกราฟิก
รองรับ 5 ตัวละคร และคงความเที่ยงตรงได้สูงสุดถึง 14 วัตถุ/ภาพอ้างอิง ในเวิร์กโฟลว์เดียว
ลายน้ำ / ที่มา: ภาพที่สร้างทั้งหมดมีลายน้ำ SynthID; โมเดลฝังเมทาดาทา C2PA สำหรับการระบุที่มาในบางการผสานรวมของผลิตภัณฑ์

เวอร์ชันและชื่อเรียกของ Gemini 3 Pro Image

gemini-3-pro-image-preview
gemini-3-pro-image

รายละเอียดทางเทคนิค

สถาปัตยกรรม

ลำดับสายพันธุ์ / แบ็กโบน: Nano Banana Pro สร้างขึ้นบนสแตกภาพ Gemini ที่กำลังพัฒนาของ Google — โดยเฉพาะสถาปัตยกรรมใหม่ Gemini 3 Pro Image / GEMPIX 2 (เฟรมเวิร์กภาพ+ข้อความแบบมัลติโหมดที่มีความจุสูงกว่า) ซึ่งเป็นวิวัฒนาการจาก Gemini 2.5 Flash Image (ต้นฉบับ “nano-banana”) ไปสู่โมเดลภาพที่เป็นมัลติโหมดโดยกำเนิด พร้อมความสามารถในการให้เหตุผลด้านภาพ-ภาษาที่ขยายมากขึ้น
พฤติกรรมของโมเดล: มัลติโหมดโดยกำเนิด (ภาพ + ข้อความ + ความรู้เกี่ยวกับโลก), ไปป์ไลน์แบบชัดเจนสำหรับการหลอมรวมหลายภาพ, และตัววางแผนภายในแบบหลายช่วงที่ปรับผลลัพธ์ให้ดีขึ้นผ่านหลายรอบ แทนที่จะสร้างตัวอย่างคงที่เพียงครั้งเดียว รายงานเบื้องต้นชี้ว่ามีการให้เหตุผลด้านเรขาคณิต/ทัศนศาสตร์ (กระจก, การหักเห) ที่แข็งแกร่งกว่ารุ่นก่อน
การคิด / การปรับแต่งภายใน: โมเดลใช้กระบวนการ “คิด” ที่มองเห็นได้ภายในเพื่อปรับแต่งองค์ประกอบภาพ (เอกสาร API ระบุพฤติกรรมนี้และระบุว่าขั้นตอนภายในเหล่านั้นจะไม่ถูกคิดค่าบริการเป็นโทเค็นภาพสุดท้าย)
การยึดโยงข้อมูล & เครื่องมือ: รองรับ Search grounding (สามารถนำข้อเท็จจริงจากเว็บมาใช้ในการสร้างไดอะแกรม/อินโฟกราฟิก) และยังรองรับ system instructions เพื่อการควบคุมที่กำหนดแนวทางได้มากขึ้น

พารามิเตอร์ API สำคัญ:

thinking_level (low / high) เพื่อแลกเปลี่ยนระหว่างเวลาแฝงกับความลึกในการให้เหตุผล;
media_resolution (low/medium/high) เพื่อควบคุมโทเค็นสำหรับการอ่าน OCR/รายละเอียดของภาพ;
generationConfig.imageConfig เพื่อควบคุมอัตราส่วนภาพ/ความละเอียดของเอาต์พุตภาพ

ขีดจำกัดของภาพ:

รูปแบบอินพุตที่รองรับ: ข้อความและรูปภาพ (โมเดลไม่รองรับเสียงหรือวิดีโอเป็นอินพุตสำหรับการสร้างภาพ)
จำนวนภาพสูงสุดต่อพรอมป์ต์: 14 (สำหรับ Gemini 3 Pro Image preview)
ขนาดภาพสูงสุด (อัปโหลด): 7 MB ต่อภาพอินพุต
อัตราส่วนภาพที่รองรับ: 1:1, 3:2, 16:9, 9:16, 21:9 เป็นต้น

ภาพเอาต์พุต / โทเค็น: รองรับขีดจำกัดสูง พร้อมรองรับ 4K/4096px

ประสิทธิภาพในการทดสอบเปรียบเทียบ

สรุปสั้น ๆ: เกณฑ์ทดสอบสาธารณะ/ช่วงต้นในตอนนี้ส่วนใหญ่ยังเป็นเชิงคุณภาพและขับเคลื่อนโดยชุมชน แต่รายงานอย่างสม่ำเสมอถึงการปรับปรุงอย่างมากในด้านความละเอียด การลดอาร์ติแฟกต์ และความสมจริงทางกายภาพเมื่อเทียบกับ nano-banana รุ่นดั้งเดิม (Gemini 2.5 Flash Image) “ความท้าทาย” ที่มีการเรียกชื่อเฉพาะหลายรายการแสดงให้เห็นถึงการพัฒนาด้านภาพอย่างชัดเจน แต่ยังไม่มีตารางเบนช์มาร์กเชิงตัวเลขมาตรฐานที่เปิดเผยต่อสาธารณะจาก Google เพื่อเปรียบเทียบ v1 → v2 ตามเมตริกมาตรฐานของการสร้างภาพ

การทดสอบเชิงคุณภาพโดยชุมชน: ขอบภาพสะอาดขึ้น รายละเอียดระดับจุลภาคคมชัดขึ้น สีตรงขึ้น และยึดตามพรอมป์ต์ได้ซื่อสัตย์มากขึ้น (มีอุปกรณ์ประกอบฉากที่หลอนขึ้นมาน้อยลง ตัวละครสม่ำเสมอมากขึ้น) การทดสอบไม่เป็นทางการที่ได้รับความนิยมรวมถึง “Wine Glass Test” และ “Glass Burger Challenge” ซึ่ง GEMPIX2 (Nano Banana Pro) จัดการความโปร่งใสและการหักเหได้ดีกว่ารุ่นก่อนอย่างเห็นได้ชัด
การจัดการข้อความ: Nano Banana Pro แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนในด้านตัวอักษรและการจัดวางข้อความภายในภาพ (ซึ่งเป็นจุดอ่อนเรื้อรังของโมเดลภาพจำนวนมาก) การเปรียบเทียบโดยชุมชนบ่งชี้ว่ามีอักขระเพี้ยนที่เรนเดอร์ออกมาน้อยลง
อัตราการประมวลผล / UX: ความเร็วในการทำซ้ำเร็วขึ้น และ UX ที่ทำการปรับแต่งหลายขั้นตอนในฝั่งแบ็กเอนด์ ทำให้ผู้ใช้เห็นผลลัพธ์รอบแรกที่เชื่อถือได้มากขึ้น (ลดความจำเป็นในการกดสุ่มใหม่ด้วยตนเอง)

ข้อจำกัดและความเสี่ยง

ตัวกรองเนื้อหาและการตรวจจับ: แพลตฟอร์มที่ผสานรวมโมเดลนี้ (เช่น Whisk/แอปของบุคคลที่สาม) อาจเปิดใช้การตรวจจับคนดังหรือความเหมือนจริงอย่างเข้มงวด และบล็อกเอาต์พุตบางประเภท ซึ่งส่งผลต่อเวิร์กโฟลว์สร้างสรรค์ที่พึ่งพาความเหมือนจริงของบุคคลสาธารณะ
กรณีขอบของอาการหลอน / การให้เหตุผล: แม้จะดีขึ้น แต่โมเดลยังคงอาจสร้างอาร์ติแฟกต์ที่ไม่สมจริงทางกายภาพได้ โดยเฉพาะกับข้อความเชิงสัญลักษณ์จำนวนมากภายในภาพ หรือไดอะแกรมทางเทคนิคที่ซับซ้อนมาก — แม้ว่า NB2 ดูเหมือนจะลดข้อผิดพลาดเหล่านี้ลงเมื่อเทียบกับรุ่นก่อน
ความปลอดภัยและการใช้ในทางที่ผิด: โมเดลสร้างภาพสามารถถูกใช้เพื่อสร้างเนื้อหาที่มีปัญหาหรือเป็นอันตรายได้ Google ใช้ข้อจำกัด ตัวกรองเนื้อหา และลายน้ำ SynthID เพื่อช่วยเรื่องการระบุที่มา; อย่างไรก็ตาม การใช้งานในทางที่ผิดก็ยังเกิดขึ้นแล้ว (รวมถึงกรณีอื้อฉาวที่เป็นที่สนใจสูงซึ่งเกี่ยวข้องกับภาพที่สร้างโดย Nano Banana ในบริบทที่อ่อนไหวทางการเมือง)

Nano Banana Pro เปรียบเทียบกับโมเดลอื่นอย่างไร

Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — เด่นด้านการผสานรวมบนมือถือ การหลอมรวมหลายภาพ การแก้ไขตนเองแบบวนซ้ำ เอาต์พุต 2K แบบเนทีฟ/อัปสเกล 4K และการผสานรวมแน่นแฟ้นกับแอปของ Google (Search, Photos, Workspace/Gemini) เหมาะที่สุดสำหรับเวิร์กโฟลว์ที่ต้องการการแก้ไขที่เชื่อถือได้ ความต่อเนื่อง และการผสานรวมกับบริการของ Google
Midjourney — โดดเด่นด้านเอาต์พุตเชิงศิลป์แบบมีสไตล์และการวิศวกรรมพรอมป์ต์ที่ขับเคลื่อนโดยชุมชน; โดยทั่วไปไม่ได้มุ่งเน้นไปที่การหลอมรวมหลายภาพแบบสมจริงระดับภาพถ่ายหรือไปป์ไลน์การแก้ไขมัลติโหมดเชิงลึก
Stable Diffusion / open weights — เปิดเต็มรูปแบบ ปรับแต่งได้สูง และโฮสต์ในเครื่องได้; ระบบนิเวศของเช็กพอยต์และการไฟน์จูนเป็นข้อได้เปรียบสำคัญสำหรับงานวิจัยและการใช้งานออฟไลน์ มีการผสานรวมบนมือถือแบบ “คลิกเดียว” น้อยกว่า และความสอดคล้องของการแก้ไขหลายภาพแบบพร้อมใช้ก็มักน้อยกว่า Nano Banana Pro
Seedream 4.0 (ByteDance) — เพิ่งถูกวางตำแหน่งอย่างชัดเจนว่าเป็นคู่แข่งของ Nano Banana โดยเน้นการเรนเดอร์ที่รวดเร็วมาก เอาต์พุต 2K และรองรับภาพอ้างอิงจำนวนมาก (สูงสุดหกภาพ) วางตำแหน่งเป็นทางเลือกสำหรับมืออาชีพ/ครีเอเตอร์

(การเปรียบเทียบเหล่านี้เป็นภาพรวมระดับสูง; ควรเลือกเครื่องมือที่เหมาะกับเวิร์กโฟลว์ของคุณ: ความเปิดกว้าง/การปรับแต่งได้ → Stable Diffusion; ศิลปะแบบมีสไตล์ → Midjourney; การแก้ไขบนมือถือที่ผสานรวมและสม่ำเสมอพร้อมการทำซ้ำเชิงรุก → Nano Banana Pro/ตระกูล Gemini 3 Pro image)

กรณีใช้งานจริง

การแก้ไขภาพบนมือถือและฟิลเตอร์สร้างสรรค์ (การผสานรวมกับ Google Photos — การปรับสไตล์ใหม่ การรวมฉากหลัง การจัดองค์ประกอบภาพบุคคลใหม่)
แอสเซ็ตด้านการตลาดและโฆษณา — สร้างคอนเซปต์ได้รวดเร็ว คงตัวละครแบรนด์ให้สม่ำเสมอข้ามหลายเฟรม/หลายมุม
คอนเซปต์อาร์ตและสตอรีบอร์ด — การหลอมรวมหลายภาพช่วยรักษาความต่อเนื่องของตัวละครข้ามแต่ละช่อง
อีคอมเมิร์ซ / ม็อกอัปสินค้า — สร้างภาพสินค้าที่สม่ำเสมอในบริบท/สภาพแสงที่ต่างกัน
การสร้างต้นแบบอย่างรวดเร็วสำหรับแอสเซ็ต AR/VR — เอาต์พุตคุณภาพสูง 2K/4K ที่สามารถอัปสเกลเพื่อการใช้งานแบบสมจริง
วิธีเข้าถึง API gemini-3-pro-image(Nano Banana Pro)

ขั้นตอนที่จำเป็น

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ใช่ผู้ใช้ของเรา โปรดลงทะเบียนก่อน
รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งคำขอ
รับ url ของเว็บไซต์นี้: https://api.cometapi.com/

วิธีใช้งาน

เลือก endpoint “gemini-3-pro-image” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการส่งคำขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ
แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ
ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น

CometAPI มี REST API ที่เข้ากันได้อย่างสมบูรณ์—เพื่อการย้ายระบบอย่างราบรื่น รายละเอียดสำคัญ :

Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Model Names: gemini-3-pro-image
Authentication: Bearer YOUR_CometAPI_API_KEY header
Content-Type: application/json

variant / alias	Price
gemini-3-pro-image (1K/2K)	≈ $0.10720
gemini-3-pro-image (4K)	≈ $0.19200
gemini-3-pro-image-preview (1K/2K)	≈ $0.10720
gemini-3-pro-image-preview (4K)	≈ $0.19200
nano-banana-pro-all	$0.09600

รหัสโมเดล	คำอธิบาย	ความพร้อมใช้งาน	คำขอ
nano-banana-pro-all	เทคโนโลยีที่ใช้ไม่เป็นทางการ และการสร้างผลลัพธ์ไม่เสถียร ฯลฯ รูปแบบ แชท	✅	รูปแบบ แชท
gemini-3-pro-image	แนะนำ ชี้ไปยังโมเดลล่าสุด	✅	Gemini สร้างภาพ
gemini-3-pro-image-preview	พรีวิวอย่างเป็นทางการ	✅	Gemini สร้างภาพ

Nano Banana Pro

ฟีเจอร์พื้นฐาน

รายละเอียดทางเทคนิค

สถาปัตยกรรม

พารามิเตอร์ API สำคัญ:

ขีดจำกัดของภาพ:

ประสิทธิภาพในการทดสอบเปรียบเทียบ

ข้อจำกัดและความเสี่ยง

Nano Banana Pro เปรียบเทียบกับโมเดลอื่นอย่างไร

กรณีใช้งานจริง

ขั้นตอนที่จำเป็น

วิธีใช้งาน

คำถามที่พบบ่อย

Can Gemini 3 Pro Image generate 4K resolution images?

How does Nano Banana Pro handle text rendering inside images?

Can I edit images conversationally with Gemini 3 Pro Image?

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Does Nano Banana Pro use Google Search for grounded image generation?

How many reference images can Nano Banana Pro process in one request?

คุณสมบัติสำหรับ Nano Banana Pro

ราคาสำหรับ Nano Banana Pro

nano-banana-pro（image）

โค้ดตัวอย่างและ API สำหรับ Nano Banana Pro

รุ่นของ Nano Banana Pro

โมเดลเพิ่มเติม