ของ Google นาโน บานาน่า โปร (รหัสรุ่นอย่างเป็นทางการ gemini-3-pro-image-preview) คือโปรแกรมสร้าง/แก้ไขภาพเวอร์ชันของ Gemini 3 Pro ซึ่งเป็นโปรแกรมจำลองภาพระดับมืออาชีพที่เพิ่มเอาต์พุต 2K/4K และองค์ประกอบภาพหลายภาพที่มีความเที่ยงตรงสูง (สูงสุด รูปภาพอ้างอิง 14 รูปความสอดคล้องของตัวละครสำหรับ ถึงคน 5), การเรนเดอร์ข้อความในภาพที่แข็งแกร่งขึ้น และการค้นหาพื้นฐานสำหรับความเป็นจริงในโลกแห่งความเป็นจริง
คุณสมบัติพื้นฐาน
- ข้อความ → รูปภาพ: การผลิตที่ขับเคลื่อนด้วยความรวดเร็วเต็มรูปแบบพร้อมการยึดมั่นอย่างเข้มแข็ง
- รูปภาพ → รูปภาพ (แก้ไข): การแก้ไขที่ละเอียดและตรงจุดพร้อมรักษาความสอดคล้องระหว่างเรื่อง/ตัวละครในการแก้ไขหลายๆ ครั้ง
- ความละเอียดเอาท์พุตสูงสุด: รูปภาพ 4K (ตัวอย่างและขนาดพิกเซลที่แน่นอนที่รองรับขึ้นอยู่กับอัตราส่วนภาพ API เปิดเผยค่าที่ตั้งไว้ล่วงหน้า 1K/2K/4K)
- การวางแผนแบบวนซ้ำและการแก้ไขตนเอง:ไปป์ไลน์ภายในแบบ “หลายขั้นตอน” ที่ตรวจจับและแก้ไขข้อผิดพลาดทางภาพทั่วไป (มุมมอง ข้อความ เรขาคณิตละเอียด)
- การเรนเดอร์ข้อความในภาพขั้นสูง:ข้อความหลายภาษาที่ชัดเจน อ่านง่าย (ตั้งแต่คำบรรยายสั้นไปจนถึงย่อหน้ายาว) เหมาะสำหรับโปสเตอร์ โมเดลจำลอง และอินโฟกราฟิก
- อักขระ 5 และความซื่อสัตย์ถึง วัตถุ 14 ชิ้น/ภาพอ้างอิง ในเวิร์กโฟลว์เดียว
- ลายน้ำ / ที่มา: รูปภาพที่สร้างขึ้นทั้งหมดมีลายน้ำ SynthID และโมเดลฝังข้อมูลเมตา C2PA เพื่อระบุแหล่งที่มาในการผสานรวมผลิตภัณฑ์บางรายการ
เวอร์ชันและการตั้งชื่อภาพ Gemini 3 Pro
gemini-3-pro-image-previewgemini-3-pro-image
รายละเอียดทางเทคนิค
สถาปัตยกรรม
- สายพันธุ์ / กระดูกสันหลัง:Nano Banana Pro จะถูกสร้างบนสแต็กภาพ Gemini ที่กำลังพัฒนาของ Google โดยเฉพาะรุ่นใหม่ Gemini 3 Pro Image / GEMPIX 2 สถาปัตยกรรม (กรอบงานรูปภาพและข้อความแบบมัลติโหมดที่มีความจุสูงกว่า) นั่นคือวิวัฒนาการจาก ภาพแฟลช Gemini 2.5 (นาโนกล้วยต้นฉบับ) กลายเป็นโมเดลภาพแบบมัลติโมดัลดั้งเดิมที่มีความสามารถในการใช้เหตุผลด้านวิสัยทัศน์และภาษาที่ขยายเพิ่ม
- พฤติกรรมจำลอง: มัลติโมดัลแบบดั้งเดิม (ภาพ + ข้อความ + ความรู้เกี่ยวกับโลก) ไพพ์ไลน์ที่ชัดเจนสำหรับการผสานรวมภาพหลายภาพ และเครื่องมือวางแผนแบบขั้นตอนภายในที่ปรับแต่งผลลัพธ์ผ่านหลายรอบแทนที่จะสร้างตัวอย่างคงที่เพียงตัวอย่างเดียว รายงานเบื้องต้นบ่งชี้ว่าการใช้เหตุผลเชิงเรขาคณิต/เชิงแสง (แก้ว การหักเหของแสง) แข็งแกร่งกว่ารุ่นก่อนหน้า
- การคิด / การปรับปรุงภายใน:โมเดลนี้ใช้กระบวนการ "คิด" ที่มองเห็นได้ภายในเพื่อปรับปรุงองค์ประกอบ (API ระบุถึงพฤติกรรมนี้และระบุว่าขั้นตอนภายในเหล่านี้จะไม่เรียกเก็บเงินเป็นโทเค็นภาพขั้นสุดท้าย)
- การต่อสายดินและเครื่องมือ: รองรับ ค้นหาการต่อลงดิน (สามารถรวมข้อมูลบนเว็บเข้ากับการสร้างไดอะแกรม/อินโฟกราฟิกได้) นอกจากนี้ยังรองรับคำสั่งระบบเพื่อการควบคุมที่แม่นยำยิ่งขึ้น
พารามิเตอร์ API ที่สำคัญ:
thinking_level(ต่ำ / สูง) เพื่อแลกเปลี่ยนความล่าช้ากับความลึกซึ้งของเหตุผลmedia_resolution(ต่ำ/กลาง/สูง) เพื่อควบคุมโทเค็นการอ่าน OCR ของภาพ/รายละเอียดgenerationConfig.imageConfigเพื่อควบคุมอัตราส่วนภาพ/ความละเอียดในการแสดงผลภาพ
ข้อจำกัดของภาพ:
- โหมดอินพุตที่รองรับ: ข้อความและรูปภาพ (โมเดลไม่ยอมรับเสียงหรือวิดีโอเป็นอินพุตในการสร้างภาพ)
- จำนวนภาพสูงสุดต่อพรอมต์: 14 (สำหรับภาพตัวอย่าง Gemini 3 Pro)
- ขนาดภาพสูงสุด (อัพโหลด): 7 MB ต่อภาพอินพุต
- อัตราส่วนภาพที่รองรับ: 1:1, 3:2, 16:9, 9:16, 21:9 เป็นต้น
ภาพเอาท์พุต / โทเค็น: ขีดจำกัดสูง รองรับ 4K/4096 พิกเซล
ประสิทธิภาพมาตรฐาน
สรุปสั้น ๆ: เกณฑ์มาตรฐานสาธารณะ/เบื้องต้นจนถึงปัจจุบันส่วนใหญ่เน้นเชิงคุณภาพ/ขับเคลื่อนโดยชุมชน แต่รายงานอย่างต่อเนื่องถึงการปรับปรุงที่สำคัญในด้านความละเอียด การลดสิ่งรบกวน และความแม่นยำทางกายภาพ เมื่อเทียบกับภาพนาโนกล้วยดั้งเดิม (Gemini 2.5 Flash Image) "ความท้าทาย" ที่ระบุชื่อไว้ได้แสดงให้เห็นถึงการปรับปรุงภาพอย่างชัดเจน แต่ยังไม่มีตารางเกณฑ์มาตรฐานเชิงตัวเลข (สาธารณะ) จาก Google ที่เปรียบเทียบ v1 → v2 ในเมตริกการสร้างภาพมาตรฐาน
- การทดสอบเชิงคุณภาพชุมชน:ขอบภาพสะอาดขึ้น รายละเอียดเล็กๆ คมชัดขึ้น สีสมจริงขึ้น และการยึดเกาะที่ฉับไวขึ้น (มีอุปกรณ์ประกอบฉากหลอนน้อยลง ตัวละครมีความสม่ำเสมอมากขึ้น) การทดสอบแบบไม่เป็นทางการที่ได้รับความนิยม ได้แก่ “การทดสอบแก้วไวน์” และ “ความท้าทายเบอร์เกอร์แก้ว” ซึ่ง GEMPIX2 (Nano Banana Pro) จัดการกับความโปร่งใสและการหักเหแสงได้ดีกว่ารุ่นก่อนๆ อย่างเห็นได้ชัด
- การจัดการข้อความ:Nano Banana Pro แสดงให้เห็นถึงการปรับปรุงตัวอักษรและการจัดวางข้อความภายในภาพอย่างเห็นได้ชัด (ซึ่งเป็นจุดอ่อนที่ยังคงมีอยู่ในโมเดลภาพจำนวนมาก) การเปรียบเทียบจากชุมชนบ่งชี้ว่ามีภาพกราฟิกที่แสดงผลผิดเพี้ยนน้อยลง
- ปริมาณงาน / UX:ความเร็วในการวนซ้ำที่เร็วขึ้นและ UX ที่ทำการปรับปรุงหลายขั้นตอนที่แบ็กเอนด์เพื่อให้ผู้ใช้เห็นผลลัพธ์ในรอบแรกที่เชื่อถือได้มากขึ้น (ลดการทำงานซ้ำด้วยตนเอง)
ข้อจำกัดและความเสี่ยง
- ตัวกรองและการตรวจจับเนื้อหา:แพลตฟอร์มที่รวมโมเดล (เช่น Whisk หรือแอปของบริษัทอื่น) อาจเปิดใช้งานการตรวจจับคนดังหรือความเหมือนจริงอย่างเข้มงวด และบล็อกเอาท์พุตบางส่วน ซึ่งส่งผลต่อเวิร์กโฟลว์เชิงสร้างสรรค์ที่ต้องอาศัยความเหมือนจริงของคนดัง
- กรณีขอบของอาการประสาทหลอน/การใช้เหตุผลแม้ว่าจะมีการปรับปรุงแล้ว โมเดลก็ยังสามารถสร้างสิ่งประดิษฐ์ที่ไม่สมจริงในทางกายภาพได้ โดยเฉพาะกับข้อความสัญลักษณ์หนาแน่นภายในรูปภาพหรือไดอะแกรมเชิงเทคนิคขั้นสูง แม้ว่า NB2 จะดูเหมือนว่าจะลดข้อผิดพลาดเหล่านี้ลงเมื่อเทียบกับเวอร์ชันก่อนหน้าก็ตาม
- ความปลอดภัยและการใช้ในทางที่ผิด: โมเดลภาพเชิงกำเนิดสามารถนำมาใช้เพื่อสร้างเนื้อหาที่มีปัญหาหรือเป็นอันตรายได้ Google ได้ใช้ข้อจำกัด ตัวกรองเนื้อหา และลายน้ำ SynthID เพื่อช่วยระบุแหล่งที่มา อย่างไรก็ตาม ยังคงมีการใช้งานในทางที่ผิดเกิดขึ้น (ข้อถกเถียงที่โด่งดังซึ่งเชื่อมโยงกับรูปภาพที่สร้างโดย Nano Banana ในบริบทที่มีความอ่อนไหวทางการเมือง)
Nano Banana Pro เปรียบเทียบกับรุ่นอื่นอย่างไร
- Nano Banana Pro (ภาพ GEMPIX 2 / Gemini 3 Pro) — การผสานรวมอุปกรณ์เคลื่อนที่อย่างมีประสิทธิภาพ การรวมภาพหลายภาพ การแก้ไขภาพอัตโนมัติแบบวนซ้ำ การอัปสเกล 2K เนทีฟ/4K ผสานรวมเข้ากับแอป Google ได้อย่างแนบแน่น (ค้นหา รูปภาพ พื้นที่ทำงาน/Gemini) เหมาะที่สุดสำหรับเวิร์กโฟลว์ที่ต้องการการแก้ไขที่เชื่อถือได้ ความต่อเนื่อง และการผสานรวมกับบริการของ Google
- กลางการเดินทาง — โดดเด่นในด้านผลงานศิลปะที่มีสไตล์และวิศวกรรมที่พร้อมท์โดยชุมชน โดยทั่วไปไม่ได้มุ่งเป้าไปที่การผสมผสานภาพหลายภาพที่แม่นยำเหมือนภาพถ่ายหรือกระบวนการแก้ไขแบบหลายโหมดที่ล้ำลึก
- การกระจายตัวที่เสถียร / น้ำหนักเปิด — เปิดกว้าง ปรับแต่งได้สูง และโฮสต์ได้ภายในเครื่อง ระบบนิเวศของจุดตรวจสอบและการปรับแต่งละเอียดเป็นข้อได้เปรียบที่สำคัญสำหรับการวิจัยและการใช้งานแบบออฟไลน์ การรวมเข้ากับอุปกรณ์เคลื่อนที่แบบ "คลิกเดียว" น้อยลง และการแก้ไขภาพหลายภาพที่สอดคล้องกันน้อยลงตั้งแต่แกะกล่องเมื่อเทียบกับ Nano Banana Pro
- Seedream 4.0 (ไบต์แดนซ์) — เมื่อไม่นานมานี้ ได้วางตำแหน่งไว้อย่างชัดเจนว่าเป็นคู่แข่งของ Nano Banana โดยเน้นการเรนเดอร์ที่รวดเร็วเป็นพิเศษ เอาต์พุต 2K และรองรับภาพอ้างอิงจำนวนมาก (สูงสุด 6 ภาพ) วางตำแหน่งเป็นทางเลือกสำหรับโปร/ครีเอเตอร์
(การเปรียบเทียบเหล่านี้เป็นระดับสูง เลือกผู้ชนะโดยการจับคู่เครื่องมือกับเวิร์กโฟลว์ของคุณ: ความเปิดกว้าง/การปรับแต่งได้ → การแพร่กระจายที่เสถียร; ศิลปะที่มีสไตล์ → การเดินทางกลางคัน; การแก้ไขบนมือถือที่ผสานรวมและสอดคล้องกันด้วยการวนซ้ำที่เข้มข้น → กลุ่มภาพ Nano Banana Pro/ Gemini 3 Pro)
กรณีใช้งานจริง
- การแก้ไขภาพบนมือถือและฟิลเตอร์สร้างสรรค์ (การผสานรวมของ Google Photos — การจัดสไตล์ใหม่, การรวมพื้นหลัง, การจัดองค์ประกอบภาพแนวตั้งใหม่)
- การตลาดและสินทรัพย์โฆษณา — การสร้างแนวคิดอย่างรวดเร็ว ตัวละครแบรนด์ที่สอดคล้องกันในเฟรม/มุมต่างๆ
- คอนเซ็ปต์อาร์ตและสตอรี่บอร์ด การรวมภาพหลายภาพช่วยให้ตัวละครมีความต่อเนื่องกันในทุกแผง
- อีคอมเมิร์ซ / โมเดลผลิตภัณฑ์ — สร้างภาพผลิตภัณฑ์ที่สอดคล้องกันในบริบท/สภาพแสงที่แตกต่างกัน
- การสร้างต้นแบบอย่างรวดเร็วสำหรับสินทรัพย์ AR/VR — เอาท์พุต 2K/4K คุณภาพสูงที่สามารถอัปสเกลได้เพื่อการใช้งานที่สมจริง
วิธีการเรียก gemini-3-pro-image(นาโน บานาน่า โปร) API
ราคา Nano Banana API ใน CometAPI ลด 20% จากราคาอย่างเป็นทางการ:
| ราคา | $0.19200 |
ขั้นตอนที่ต้องดำเนินการ
- เข้าสู่ระบบเพื่อ โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน
- รับรหัส API ของข้อมูลรับรองการเข้าถึงของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับรหัสโทเค็น: sk-xxxxx และส่ง
- รับ url ของเว็บไซต์นี้: https://api.cometapi.com/
ใช้วิธีการ
- เลือก“
gemini-3-pro-image” จุดสิ้นสุดในการส่งคำขอ API และกำหนดเนื้อหาคำขอ วิธีการคำขอและเนื้อหาคำขอได้รับจากเอกสาร API ของเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย - แทนที่ ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ
- แทรกคำถามหรือคำขอของคุณลงในช่องเนื้อหา—นี่คือสิ่งที่โมเดลจะตอบสนอง
- ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น
CometAPI มอบ REST API ที่เข้ากันได้อย่างสมบูรณ์ เพื่อการย้ายข้อมูลอย่างราบรื่น รายละเอียดสำคัญ:
- URL ฐาน: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- ชื่อรุ่น:
gemini-3-pro-image - รับรองความถูกต้อง:
Bearer YOUR_CometAPI_API_KEYส่วนหัว - ชนิดของเนื้อหา:
application/json.
ดูสิ่งนี้ด้วย Gemini 2.5 Flash Image API (Nano-Banana)



