Nano Banana 2 — คำเรียกแบบย่อที่ชุมชนใช้สำหรับโมเดลสร้างภาพรุ่นใหม่ล่าสุดของ Google ในตระกูล Gemini — ได้เปลี่ยนความคาดหวังเกี่ยวกับการสร้างและแก้ไขภาพที่รวดเร็วและความเที่ยงตรงสูงอย่างรวดเร็ว เปิดตัวในปลายเดือนกุมภาพันธ์ 2026 รุ่น “Flash Image” นี้ (Gemini 3.1 Flash Image / Nano Banana 2) เจาะกลุ่มนักพัฒนาและทีมผลิตภัณฑ์ที่ต้องการผลลัพธ์ระดับมืออาชีพด้วยปริมาณงานสูงและความหน่วงต่ำ บทความนี้รวบรวมรายงานและเอกสารล่าสุดเพื่ออธิบายว่า Nano Banana 2 คืออะไร ผลการทำงานในชุดทดสอบ วิธีเข้าถึงและเรียกใช้งาน (รวมถึงผ่านเกตเวย์บุคคลที่สามอย่าง CometAPI) ตลอดจนรูปแบบพรอมป์ต์และการใช้งานเชิงปฏิบัติที่คุณนำไปใช้ในโปรดักชันได้
CometAPI มีอินเทอร์เฟซแบบ HTTP เดียวที่เปิดเผยหลายโมเดล (รวมถึงโมเดลภาพ) ภายใต้เอ็นด์พอยต์ที่สอดคล้องกัน ซึ่งช่วยให้สลับผู้ให้บริการหรือผสานผลลัพธ์จากหลายโมเดลง่ายขึ้น Nano Banana 2 (Gemini 3.1 Image) เปิดให้ใช้งานบน CometAPI แล้ว
Nano Banana 2 คืออะไร?
Nano Banana 2 (จัดแนวภายในกับ Gemini 3.1 Flash Image) เป็นโมเดลสร้างภาพที่มุ่งเน้นประสิทธิภาพสูงจาก Google เน้นความเร็ว ต้นทุนต่อภาพต่ำ และการปฏิบัติตามคำสั่งที่แข็งแรงขึ้นสำหรับงานสร้างสรรค์และงานแก้ไขภาพ ออกแบบมาให้ทำงานเคียงข้างรุ่นความเที่ยงตรงสูง “Pro”: Nano Banana 2 สำหรับการประมวลผลปริมาณมาก และ Nano Banana Pro (Gemini 3 Pro Image) สำหรับผลลัพธ์เกรดงานทรัพย์สินระดับพรีเมียม
ออกแบบมาเพื่อมอบ:
- การอนุมานที่รวดเร็ว (มุ่งความหน่วงต่ำมากเพื่อให้การสร้างและแก้ไขภาพรู้สึกแทบจะทันที)
- คุณภาพภาพสูง เข้าใกล้ตระกูล “Pro” แต่ใช้คอมพิวต์/ต้นทุนต่ำกว่า
- การปฏิบัติตามคำสั่งที่ดีขึ้น (แสดงผลหัวข้อที่ร้องขอได้แม่นยำขึ้น ข้อความในภาพ และฉากหลายตัวละคร)
- รองรับความละเอียดและอัตราส่วนภาพหลากหลาย ตั้งแต่พรีวิวขนาดเล็กเร็วๆ ไปจนถึงไปป์ไลน์เนทีฟ 2K/4K สำหรับสินทรัพย์สุดท้าย
Nano Banana 2 แตกต่างจาก Nano Banana / Pro รุ่นดั้งเดิมอย่างไร?
- สถาปัตยกรรม / เอนจิน: สร้างบนสแตกอนุมานแบบ Flash ของ Gemini (Gemini 3.1 Flash Image) จึงแลกการตั้งค่าความละเอียดสูงสุดบางส่วนเพื่อให้ได้ความเร็วและต้นทุนที่ดีขึ้นอย่างมาก
- กรณีใช้งาน: เหมาะสำหรับระบบอัตโนมัติขนาดใหญ่ (ทรัพย์สินการตลาด, รูปภาพหน้าปก, UI), การแก้ไขแบบใกล้เรียลไทม์ และเวิร์กโฟลว์ที่ความหน่วงและต้นทุนสำคัญแต่ยังต้องการความซื่อสัตย์ต่อหัวข้อระดับ Pro
ผลการทดสอบ Benchmark ของ Nano Banana 2

สม่ำเสมอในทุกหมวด
Gemini 3.1 Flash Image แสดงการปรับปรุงที่วัดผลได้ในทุกหมวดที่รายงาน เมื่อเทียบกับ Gemini 2.5 Flash
จุดเด่นที่สุด
- คุณภาพภาพ
- การแก้ไขเชิงองค์ประกอบแบบหลายอินพุต
- ความทนทานในการแก้ไขทั่วไป
ตำแหน่งทางการแข่งขัน
- นำหน้าค่าความชอบโดยรวมของ GenAI-Bench ภายใน
- ทำได้ดีกว่า GPT-Image 1.5 ในตัวชี้วัดโดยรวมและด้านภาพ
- การปรับปรุงแบบค่อยเป็นค่อยไปอย่างเฉียดฉิวชี้ถึงการปรับสถาปัตยกรรมแทนการเปลี่ยนแบบพลิกโฉม
จะเข้าถึง Nano Banana 2 ได้อย่างไร?
ที่พร้อมให้ใช้งาน
Nano Banana 2 เข้าถึงได้ผ่านเครื่องมือ Gemini ของ Google (แอป Gemini), Gemini API (มีเอกสารในคู่มือนักพัฒนา AI ของ Google) และถูกนำเสนอผ่านผลิตภัณฑ์คลาวด์ระดับองค์กรอย่าง Vertex AI สำหรับพรีวิว/อินทิกราชันในองค์กร CometAPI ก็ประกาศรองรับและมีตัวห่อเพื่อให้อินทิเกรตได้ง่ายเช่นกัน
วิธีใช้ Nano Banana 2 API (cometapi): มีตัวเลือกอะไรบ้าง?
คู่มือของ CometAPI ใช้โครง
generateContentแบบ Gemini และส่งคืนภาพเป็น Base64 ในcandidates[0].content.parts[].inline_data.dataคุณต้องถอดรหัส Base64 นั้นเพื่อบันทึกไฟล์ฝั่งไคลเอนต์ คุณเพียงต้องแทนที่https: //generativelanguage.googleapis.comด้วยhttps://api.cometapi.comภาพที่ส่งคืนมักให้เป็นinline_dataที่เข้ารหัสแบบ Base64 คุณจะต้องถอดรหัสฝั่งไคลเอนต์และบันทึกเป็นไฟล์ CometAPI มีส่วนลดเพื่อช่วยให้คุณใช้ Nano Banana 2 API
CometAPI มีตัวห่อ REST แบบรวมและเอ็นด์พอยต์ที่ชัดเจนสำหรับโมเดล Gemini — เหมาะหากคุณต้องการใช้เพียงหนึ่งข้อมูลรับรองและสลับผู้ให้บริการโดยไม่ต้องเปลี่ยนโค้ดแอปพลิเคชัน สำหรับ Nano Banana 2 หน้าของ CometAPI มีสไนเป็ต curl โดยตรงสำหรับเอ็นด์พอยต์ gemini-3.1-flash-image-preview:generateContent ด้านล่างเป็นตัวอย่าง curl ที่ปรับให้สะอาดตามเอกสาร CometAPI
ข้อกำหนดเบื้องต้นสำหรับการใช้ Nano Banana 2 ผ่าน CometAPI
CometAPI Account & API Key: สร้างบัญชีบน CometAPI และสร้างคีย์เข้าถึง API (sk-…) คีย์นี้ใช้สำหรับยืนยันตัวตนในทุกคำขอ API ที่ส่งไปยังเอ็นด์พอยต์ของ CometAPI
ภาษาและรันไทม์ที่รองรับ:
- Node.js 18+ (สำหรับ JavaScript/TypeScript)
- Python 3.10+
- (หรือภาษาที่สามารถส่งคำขอ HTTP ได้)
เครื่องมือ HTTP หรือ SDK:
- สำหรับ JavaScript:
fetch,axiosหรือไคลเอนต์ที่เข้ากันได้กับ OpenAI - สำหรับ Python:
requests,httpxหรือไคลเอนต์ OpenAI - เครื่องมือเหล่านี้ช่วยให้คุณส่งคำขอ API และจัดการการตอบกลับได้
ภาพรวมรูปแบบคำขออย่างรวดเร็ว
- Base URL:
https://api.cometapi.com(ฐานของ CometAPI) - ชื่อโมเดล:
gemini-3.1-flash-image-preview(Nano Banana 2 / gemini 3.1 Flash Image) หรือgemini-2.5-flash-imageขึ้นอยู่กับความพร้อม - การยืนยันตัวตน: เฮดเดอร์
Authorization: sk-xxxx— CometAPI มักใช้คีย์สไตล์sk- - การตอบกลับ: ภาพถูกส่งคืนเป็น Base64 ภายใต้
response.candidates[0].content.parts[].inline_data.dataให้ถอดรหัสและเขียนลงดิสก์
เวิร์กโฟลว์ตัวอย่าง (ระดับสูง)
- รับคีย์ API จาก CometAPI
- เลือกตัวระบุโมเดลของคุณ (เช่น
gemini-3.1-flash-imageหรือคล้ายกัน ขึ้นอยู่กับความพร้อม) - ส่ง คำขอ POST ไปยังเอ็นด์พอยต์ generate ของโมเดลพร้อมพรอมป์ต์ของคุณ
- จัดการข้อมูลภาพที่ส่งคืนในแอปของคุณ (ถอดรหัส base64, ให้บริการเป็น PNG เป็นต้น)
- สำหรับ การแก้ไขภาพ ให้ใส่ข้อมูลภาพที่มีอยู่และคำสั่งแก้ไขในคำขอของคุณ
ใช้ Gemini API อย่างเป็นทางการ (ข้อความ → ภาพ)
ด้านล่างเป็นตัวอย่าง Node.js สั้นๆ แสดงวิธีเรียกเอ็นด์พอยต์ generateContent สำหรับ gemini-3.1-flash-image-preview (สะท้อนสไนเป็ตทางการในเอกสาร) แทนที่ YOUR_API_KEY ด้วยข้อมูลรับรองของคุณและเพิ่มการจัดการข้อผิดพลาดสำหรับโปรดักชัน
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"
mkdir -p ./output
curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
-H "Authorization: $COMETAPI_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
}
]
}
],
"generationConfig": {
"responseModalities": ["IMAGE"],
"imageConfig": {
"aspectRatio": "9:16"
}
}
}' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
if 'text' in part:
print(part['text'])
elif 'inlineData' in part:
img = base64.b64decode(part['inlineData']['data'])
with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
f.write(img)
print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"
CometAPI มี SDK และตัวห่อไคลเอนต์ที่เข้ากันได้กับ OpenAI บางทีมจึงสลับผู้ให้บริการด้วยการเปลี่ยนโค้ดเพียงเล็กน้อย ให้คุณร้องขอผลลัพธ์ภาพแบบ Base64 หรือ URL ที่โฮสต์แล้วขึ้นอยู่กับการตั้งค่าของคุณ ตรวจสอบสคีมาของ generateContent ทางการเสมอเพื่อดูช่องเพย์โหลดที่แน่นอน
Image→Image (แก้ไข) โฟลว์
เพื่อแก้ไขภาพที่มีอยู่:
- แปลงภาพต้นทางของคุณเป็น Base64 (ไม่ใส่คำนำหน้า
data:image/...;base64,) - ส่ง POST พร้อมเพย์โหลดที่มี
inline_data.dataซึ่งบรรจุสตริง Base64 นั้นและพรอมป์ต์การแก้ไข (เช่น “เปลี่ยนพื้นหลังเป็นท้องฟ้ายามพลบค่ำ ลบลายน้ำ”) - การตอบกลับจะมีผลลัพธ์ Base64 ใหม่ให้ถอดรหัสและบันทึก
curl
--location
--request POST 'https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent' \
--header 'Authorization: ' \
--header 'Content-Type: application/json' \
--data-raw '{ "contents":
[ { "role": "user", "parts":
[ { "text": "Blend three images to output a high-resolution image" }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_first_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_second_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_third_image_base64_data_here>" } }
] }
], "generationConfig": { "responseModalities": [ "TEXT", "IMAGE"
] } }'
พารามิเตอร์ที่นิยมปรับแต่ง
model: เลือกgemini-3.1-flash-image-preview(Nano Banana 2) หรือgemini-3-pro-image-preview(Pro)imageConfig.aspect_ratioและimageConfig.image_size(512,1K,2K,4K) — ส่งผลต่อต้นทุนและความหน่วงresponseModalities:["Image"]หรือ["Text","Image"]สำหรับโฟลว์แบบมัลติโหมด
ควรเขียนพรอมป์ต์สำหรับ Nano Banana 2 อย่างไร?
การทำพรอมป์ต์สำหรับโมเดลภาพผสมผสานองค์ประกอบ การกำหนดสไตล์ คำใบ้ด้านกล้อง/แสง และข้อจำกัดต่างๆ Nano Banana 2 ถูกจูนให้ทำตามคำสั่งได้อย่างเชื่อถือ ดังนั้นให้สร้างสมดุลระหว่างความกระชับกับความชัดเจน
โครงสร้างพรอมป์ต์ (แนะนำ)
- หัวข้อหลัก: ใคร/อะไรอยู่ในภาพ
- การกระทำหรือสภาวะ: ตัวแบบกำลังทำอะไร
- สภาพแวดล้อมและบรรยากาศ: ฉาก แสง อารมณ์
- ข้อกำหนดเชิงเทคนิค: เลนส์กล้อง อัตราส่วนภาพ ความละเอียด องค์ประกอบ
- สไตล์และการอ้างอิง: สไตล์งาน ศิลปินอ้างอิง (ระวังประเด็นลิขสิทธิ์) ยุคสมัย
- ข้อจำกัด: จำนวนตัวละคร/วัตถุ หลีกเลี่ยงบางสี รวมข้อความที่อ่านได้
ตัวอย่างพรอมป์ต์:
“ภาพโฟโตเรียลิสติกของกล้วยสีเหลืองขนาดเล็กทรงเหมือนจรวดยุควินเทจ วางอยู่บนโต๊ะไม้สีน้ำตาลมันวาวในสตูดิโอที่มีแสงแดดส่อง เลนส์ 50 มม. ระยะชัดลึกตื้น แสงโกลเดนอะวร์โทนอบอุ่น รายละเอียดสูง ไม่มีโลโก้ที่มองเห็นได้ 2048×1152”
เคล็ดลับสำหรับพรอมป์ต์แก้ไข (inpainting / replace)
- ให้มาสก์อย่างชัดเจนและระบุพื้นที่ที่จะเปลี่ยน
- ใช้ถ้อยคำ “คงไว้” สำหรับบริเวณที่ต้องการรักษา (เช่น “คงไว้ซึ่งลักษณะใบหน้าของตัวแบบ เปลี่ยนเฉพาะพื้นหลัง”)
- สำหรับข้อความในภาพ ให้ระบุข้อความที่ต้องการและบอกฟอนต์/สไตล์ (เช่น “sans-serif ที่อ่านง่าย จัดกึ่งกลาง”) Nano Banana 2 เน้นการเรนเดอร์ข้อความให้ดีขึ้น แต่ควรระบุให้ชัด
เช็กลิสต์แก้ไขพรอมป์ต์
- หากผลลัพธ์ไม่ตรง ลองปรับให้ง่ายลง: ลดคำสั่งสไตล์สร้างสรรค์ก่อน แล้วค่อยเพิ่มรายละเอียดกลับเข้าไป
- หากข้อความอ่านไม่ออก: ระบุฟอนต์ ขนาด และคอนทราสต์ในพรอมป์ต์ และเพิ่มความละเอียด
- หากองค์ประกอบภาพผิด: ใช้ตัวระบุองศากล้องและสเปกเลนส์
ปัญหาที่พบบ่อยและหลีกเลี่ยงอย่างไร?
ปัญหา: พึ่งพาพรอมป์ต์แบบครั้งเดียวมากเกินไป
หลีกเลี่ยงการคาดหวังว่าพรอมป์ต์เดียวจะดูแลการครอป เลย์เอาต์ และการแก้ไขหลายขั้นตอน แยกงานเป็น: สร้างฐาน → แก้ไข/แทนที่ → เกลาไฟนอล ใช้ค่า seed และมาสก์เพื่อความแม่นยำ
ปัญหา: มองข้ามที่มาที่ไปและการตรวจลิขสิทธิ์
อย่านำไปใช้ในสเกลใหญ่โดยไม่มี SynthID/C2PA หรือกลไก provenance อื่น หลายองค์กรต้องการการติดตามตรวจสอบสำหรับคอนเทนต์ที่มาจาก AI
ปัญหา: งบประมาณบานปลาย
ติดตามการใช้งานในระดับโมเดลและเอ็นด์พอยต์ และตั้งเพดานใช้งานแบบแข็งผ่านผู้ให้บริการหรือพร็อกซี รุ่น Flash ราคาถูกกว่าแต่ยังอาจมีต้นทุนสูงได้หากเรนเดอร์ภาพ 4K จำนวนนับพันโดยไม่ตั้งใจ
แนวปฏิบัติที่แนะนำสำหรับ Nano Banana 2?
การนำการสร้างภาพไปสู่โปรดักชันต้องใส่ใจทั้งต้นทุน ความหน่วง การควบคุมคุณภาพ provenance และความปลอดภัย ด้านล่างคือแนวทางปฏิบัติที่ใช้งานได้จริงสรุปจากรายงานภาคสนาม เอกสารของ Google และการทดสอบจากชุมชน
การทำพรอมป์ต์และผลลัพธ์แบบกำหนดได้
- ทำเทมเพลตพรอมป์ต์ของคุณ: สำหรับผลลัพธ์ที่ทำซ้ำได้ (เช่น ภาพสินค้าตามแพทเทิร์น) ใช้พรอมป์ต์เชิงโครงสร้างที่มีส่วนคงที่ (ตัวแบบ กล้อง แสง พื้นผิว หลังการประมวลผล) ลดการเปลี่ยนแปลงระหว่างการเรียก
- ใช้ภาพอ้างอิงและคำสั่งมาสก์สำหรับงานแก้ไข แทนการพยายามแก้ไขเชิงเฉพาะจุดที่ซับซ้อนด้วยข้อความล้วน — ลดความคลาดเคลื่อนเชิงความหมายและอาร์ติแฟกต์
การปรับแต่งต้นทุนและประสิทธิภาพ
- เลือกโหมด Flash/“Nano Banana 2” สำหรับปริมาณสูง: หากต้องการทดลองเร็วหลายรอบ ใช้โมเดลระดับ Flash และขนาดภาพที่เล็กลง (2K แทน 4K) เพื่อลดต้นทุนและความหน่วง
- จัดแบตช์คำขอเมื่อทำได้: ผู้ให้บริการบางรายอนุญาตการทำแบตช์พรอมป์ต์หลายรายการ — ลดความหน่วงรวมต่อสินทรัพย์ที่สร้างในไปป์ไลน์ปริมาณสูง (ตรวจสอบเอกสารของผู้ให้บริการ)
ความปลอดภัย provenance และกฎหมาย
- เปิดใช้ SynthID และเมทาดาตา C2PA บนสินทรัพย์ที่สร้างเพื่อรองรับการตรวจสอบและการปฏิบัติตามข้อกำหนดปลายน้ำ (โดยเฉพาะเมื่อภาพถูกใช้ในการโฆษณา/ประชาสัมพันธ์) Google และพันธมิตรเน้น SynthID เป็นกลไก provenance
- มีมนุษย์ตรวจทานสำหรับคอนเทนต์อ่อนไหว: เลเยอร์นโยบายอัตโนมัติแข็งแรงแต่ไม่สมบูรณ์ — ใช้การตรวจด้วยคนสำหรับแคมเปญสาธารณะหรือคอนเทนต์ที่เกี่ยวข้องกับบุคคลสาธารณะ
การประกันคุณภาพ
- ทำ QA อัตโนมัติ: รันคลาสสิไฟเออร์หลังการสร้างแบบเร็วเพื่อหาอาร์ติแฟกต์ที่ไม่คาดคิด (ข้อความเพี้ยน ความเที่ยงตรงใบหน้าต่ำ การสร้างโลโก้โดยไม่ได้ตั้งใจ) เก็บระบบให้คะแนนและมีทางหนีไฟโดยเรนเดอร์ด้วยรุ่น Pro หากการตรวจอัตโนมัติไม่ผ่าน
- เก็บพรอมป์ต์และค่า seed: เพื่อการตรวจสอบย้อนหลังและการทำซ้ำได้ ให้บันทึกพรอมป์ต์ เวลา รุ่นโมเดล และค่า seed หรือพารามิเตอร์แบบกำหนดได้ที่ใช้
UX ที่ไวต่อความหน่วง
- UX แบบก้าวหน้า: ส่งคืนร่างความละเอียดต่ำ/เร็วก่อน แล้วแทนที่ด้วยเรนเดอร์ความละเอียดสูง/รุ่น Pro เมื่อพร้อม ทำให้แอปตอบสนองดี (ผู้ให้บริการจำนวนมากมี “draft” หรือรสชาติแบบ Flash)
บันทึกสุดท้ายและก้าวต่อไป
Nano Banana 2 ถูกสร้างมาเพื่อเปลี่ยนเศรษฐศาสตร์ของเวิร์กโฟลว์การผลิตที่เน้นภาพ: ความหน่วงต่ำและต้นทุนต่อการเรียกที่ต่ำลงเปิดกรณีใช้งานอย่างการสร้างทรัพย์สินโฆษณาแบบออนดีมานด์ การทดสอบครีเอทีฟแบบ A/B อย่างรวดเร็ว และเครื่องมือออกแบบร่วมกันแบบเรียลไทม์ โมเดลนี้ผสานรวมแล้วในผลิตภัณฑ์ผู้บริโภคและคลาวด์ของ Google สำหรับนักพัฒนาที่ต้องการไปไลฟ์อย่างรวดเร็ว CometAPI มีตัวห่อตลาดที่สะดวก รองรับเอ็นด์พอยต์ภาพของ Gemini พร้อมโมเดลอื่นๆ — เป็นทางเลือกที่ใช้งานจริงเมื่อคุณต้องการทดลองหลายเอนจินโดยไม่ต้องเปลี่ยนโค้ดแอป
นักพัฒนาสามารถเข้าถึง Nano Banana 2 ผ่าน CometAPI ได้แล้ว เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API เพื่อคำแนะนำโดยละเอียด ก่อนเข้าถึง โปรดแน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับคีย์ API แล้ว CometAPI เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการเพื่อช่วยให้คุณอินทิเกรตได้ง่ายขึ้น
Ready to Go?→ สมัครใช้งาน Nano Banana 2 วันนี้ !
หากต้องการเคล็ดลับ คู่มือ และข่าวสารด้าน AI เพิ่มเติม ติดตามเราได้บน VK, X และ Discord!
