Nano Banana Pro — secara rasmi Gemini 3 Pro Image — ialah model penjanaan dan penyuntingan imej baharu bertaraf studio daripada Google/DeepMind yang menggabungkan penaakulan multimodal lanjutan, pemaparan teks berkesetiaan tinggi, komposisi berbilang imej, dan kawalan kreatif setaraf studio.
Apakah itu Nano Banana Pro dan mengapa ia penting untuk anda?
Nano Banana Pro ialah model penjanaan dan penyuntingan imej terbaharu Google — keluaran “Gemini 3 Pro Image” — yang direka untuk menghasilkan imej peka konteks dan teks pada imej dengan kualiti setaraf studio sehingga 4K. Ia merupakan kesinambungan model Nano Banana terdahulu (Gemini 2.5 Flash Image / “Nano Banana”) dengan penaakulan yang dipertingkat, pembumian Carian (fakta dunia sebenar), pemaparan teks yang lebih kukuh, dan kawalan suntingan setempat yang lebih berkuasa. Model ini tersedia dalam aplikasi Gemini untuk pengguna interaktif dan boleh diakses melalui Gemini API standard; untuk akses secara pengaturcaraan, pilih pengecam model khusus (gemini-3-pro-image-preview atau pengganti stabilnya).
Mengapa ini penting: Nano Banana Pro dibina bukan sekadar untuk menghasilkan imej yang cantik tetapi untuk memvisualkan maklumat — infografik, petikan berasaskan data (cuaca, sukan), poster sarat teks, lakaran produk dan gabungan berbilang imej (sehingga 14 imej input serta mengekalkan konsistensi watak sehingga 5 orang). Bagi pereka bentuk, pasukan produk dan pembangun, gabungan ketepatan, teks pada imej dan akses secara program membuka aliran kerja produksi yang sebelum ini sukar diautomasi.
Fungsi apakah yang didedahkan melalui API?
Keupayaan API lazim yang didedahkan kepada pembangun termasuk:
- Penjanaan Teks → Imej (aliran komposisi selangkah atau berbilang langkah “Thinking”).
- Penyuntingan imej (topeng setempat, inpainting, pelarasan gaya).
- Gabungan berbilang imej (menggabungkan imej rujukan).
- Kawalan permintaan lanjutan: resolusi, nisbah bidang, langkah pascapemprosesan, dan jejak “composition thought” untuk penyahpepijatan/kebolehinspeksi dalam mod pratonton.
Inovasi Teras dan Fungsi Nano Banana Pro
Penaakulan kandungan yang lebih pintar
Menggunakan rangka penaakulan Gemini 3 Pro untuk mentafsir arahan visual yang kompleks dan berbilang langkah (cth., “cipta infografik 5 langkah daripada set data ini dan tambah kapsyen dwibahasa”). API mendedahkan mekanisme “Thinking” yang boleh menghasilkan ujian komposisi sementara untuk memperhalus output akhir.
Mengapa ini penting: Bukannya satu laluan tunggal yang memetakan prompt → piksel, model ini menjalankan proses “berfikir” dalaman yang memperhalus komposisi dan boleh memanggil alat luaran (cth., Google Search) untuk pembumian fakta (cth., label rajah yang tepat atau papan tanda yang betul mengikut lokal). Ini menghasilkan imej yang bukan sahaja lebih menarik malah lebih betul secara semantik untuk tugasan seperti infografik, rajah, atau lakaran produk.
Cara mencapainya: “Thinking” Nano Banana Pro ialah lintasan penaakulan/komposisi terkawal di mana model menjana visual perantaraan dan jejak penaakulan sebelum menghasilkan imej akhir. API mendedahkan bahawa model boleh mencipta sehingga dua bingkai sementara dan imej akhir ialah tahap terakhir dalam rantaian itu. Dalam produksi ini membantu komposisi, penempatan teks, dan keputusan tataletak.
Pemaparan teks yang lebih tepat
Teks dalam imej yang jauh lebih jelas, mudah dibaca dan dilokalkan (menu, poster, rajah). Nano Banana Pro mencapai tahap baharu dalam pemaparan teks dalam imej:
- Teks dalam imej jelas, mudah dibaca, dan dieja dengan tepat;
- Menyokong penjanaan berbilang bahasa (termasuk Cina, Jepun, Korea, Arab, dll.);
- Membolehkan pengguna menulis perenggan panjang atau teks deskriptif berbilang baris terus pada imej;
- Terjemahan dan penyetempatan automatik disediakan.
Mengapa ini penting: Secara tradisi model imej bergelut untuk merender teks yang boleh dibaca dan sejajar kemas. Nano Banana Pro dioptimumkan secara eksplisit untuk pemaparan teks dan penyetempatan yang boleh diharap (cth., menterjemah sambil mengekalkan tataletak), yang membuka kes penggunaan kreatif sebenar seperti poster, pembungkusan, atau iklan berbilang bahasa.
Cara mencapainya: Peningkatan pemaparan teks datang daripada seni bina multimodal asas dan latihan pada set data yang menekankan contoh teks-dalam-imej, digabungkan dengan set penilaian tersasar (penilaian manusia dan set regresi). Model mempelajari penjajaran bentuk glif, fon dan kekangan tataletak untuk menghasilkan teks dalam imej yang mudah dibaca dan dilokalkan — walaupun teks kecil dan perenggan yang sangat padat masih terdedah kepada ralat.
Konsistensi visual dan kesetiaan yang lebih kukuh
Kawalan bertaraf studio (pencahayaan, fokus, sudut kamera, gred warna) dan komposisi berbilang imej (sehingga 14 imej rujukan, dengan peruntukan khas untuk subjek manusia berbilang) membantu mengekalkan konsistensi watak (mengekalkan orang/watak yang sama merentas suntingan) dan identiti jenama merentas aset terjana. Model menyokong output asli 1K/2K/4K.
Mengapa ini penting: Aliran kerja pemasaran dan hiburan memerlukan watak yang konsisten merentas penggambaran dan suntingan. Model ini boleh mengekalkan rupa sehingga lima orang dan menggabungkan sehingga 14 imej rujukan ke dalam satu komposisi sambil menghasilkan Lakaran → Render 3D. Ini berguna untuk kreatif iklan, pembungkusan, atau penceritaan berbilang babak.
Cara mencapainya: Input model menerima berbilang imej dengan peruntukan peranan yang jelas (cth., “Imej A: pose”, “Imej B: rujukan wajah”, “Imej C: tekstur latar”). Seni bina mengkondisikan penjanaan pada imej-imej tersebut untuk mengekalkan identiti/pose/gaya sambil menerapkan transformasi (pencahayaan, kamera).
Penanda Aras Prestasi Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “cemerlang pada penanda aras AI Teks→Imej” dan menunjukkan penaakulan serta pembumian konteks yang dipertingkat berbanding model Nano Banana terdahulu. Ia menekankan kesetiaan lebih tinggi dan pemaparan teks yang ditambah baik berbanding keluaran sebelumnya.

Panduan prestasi praktikal
Jangkakan latensi dan kos yang lebih tinggi untuk render 2K/4K berkesetiaan tinggi berbanding 1K atau model “Flash” yang dioptimumkan untuk kelajuan. Jika kadar pemprosesan/latensi kritikal, gunakan varian flash (cth., Gemini 2.5 Flash / Nano Banana) untuk volum tinggi; gunakan Nano Banana Pro / gemini-3-pro-image untuk kualiti dan tugas penaakulan kompleks.
Bagaimanakah pembangun boleh mengakses Nano Banana Pro?
Titik akhir dan model yang patut dipilih
Pengecam model (preview / pro): gemini-3-pro-image-preview (preview) — gunakan ini apabila anda mahukan keupayaan Nano Banana Pro. Untuk kerja yang lebih pantas dan kos lebih rendah, gemini-2.5-flash-image (Nano Banana) masih tersedia.
Permukaan untuk digunakan
- Gemini API (titik akhir generativelanguage): Anda boleh menggunakan kunci CometAPI untuk mengakses xx. CometAPI menawarkan API yang sama pada harga yang lebih berpatutan berbanding laman rasmi. Panggilan HTTP langsung / SDK kepada
generateContentuntuk penjanaan imej (contoh di bawah). - Google AI Studio: Antara muka web untuk eksperimen pantas dan penggubahan semula aplikasi demo.
- Vertex AI (enterprise): Kadar hasil diperuntukkan, pilihan pengebilan (bayar mengikut guna / peringkat perusahaan), dan penapis keselamatan untuk produksi berskala besar. Gunakan Vertex apabila menyepadukan ke dalam saluran paip besar atau tugasan render kelompok.
Peringkat percuma mempunyai had penggunaan terhad; melebihi had akan kembali kepada Nano Banana. Peringkat Plus/Pro/Ultra menawarkan had lebih tinggi dan output tanpa tera air, tetapi Ultra boleh digunakan dalam alat video Flow dan Antigravity IDE dalam mod 4K.
Bagaimanakah saya menjana imej dengan Nano Banana Pro (langkah demi langkah)?
1) Resipi interaktif pantas untuk menggunakan aplikasi Gemini
- Buka Gemini → Tools → Create images.
- Pilih Thinking (Nano Banana Pro) sebagai model.
- Masukkan prompt: jelaskan subjek, aksi, suasana, pencahayaan, kamera, nisbah bidang, dan sebarang teks yang perlu muncul pada imej. Contoh:
“Cipta poster 4K untuk bengkel robotik: pasukan pelbagai latar di sekeliling meja, lapisan pelan biru, tajuk besar ‘Robot dalam Aksi’ dalam sans serif, cahaya tungsten hangat, kedalaman medan cetek, sinematik 16:9.” - (Pilihan) Muat naik sehingga 14 imej untuk digabung atau digunakan sebagai rujukan. Guna alat pemilihan/topeng untuk suntingan setempat.
- Jana, ulang suai dengan bahasa semula jadi (cth., “jadikan tajuk berwarna biru dan jajarkan di bahagian atas-tengah; tingkatkan kontras pada pelan biru”), kemudian eksport.
2) Guna HTTP untuk menghantar ke titik akhir imej Gemini
Anda perlu log masuk ke CometAPI untuk mendapatkan kunci.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Contoh ini menulis payload imej base64 ke fail PNG. Parameter generationConfig.imageConfig.resolution meminta output 4K (tersedia untuk model 3 Pro Image).
3) Panggilan SDK terus kepada generateContent untuk penjanaan imej
Memerlukan pemasangan Google SDK dan mendapatkan pengesahan Google. Contoh Python (teks + imej rujukan + pembumian):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Contoh ini menunjukkan pemuatan naik imej rujukan secara sebaris dan permintaan komposisi 4K sambil mendayakan google_search sebagai alat. SDK Python akan mengendalikan butiran REST aras rendah.
Gabungan berbilang imej & konsistensi watak
Untuk menghasilkan komposit yang mengekalkan orang yang sama merentas babak, hantarkan berbilang bahagian inline_data (dipilih daripada set foto anda), dan nyatakan arahan kreatif bahawa model harus “mengekalkan identiti merentas output.”
Contoh praktikal ringkas — prompt sebenar dan aliran yang dijangka
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Aliran yang dijangka: app → templat prompt + data CSV → gantikan placeholder dalam prompt → panggilan API dengan image_size=2048x1152 → terima PNG base64 → simpan aset + metadata asal-usul → opsyenal tindihkan fon tepat melalui kompositor jika diperlukan.
Bagaimanakah saya harus mereka bentuk saluran paip produksi dan mengendalikan keselamatan / asal-usul?
Seni bina produksi yang disyorkan
- Prompt + laluan draf (model pantas): Gunakan
gemini-2.5-flash-image(Nano Banana) untuk menghasilkan banyak variasi resolusi kecil dengan kos rendah. - Pemilihan & penapisan: pilih calon terbaik, perhalus prompt, gunakan suntingan inpainting/topeng untuk ketepatan.
- Render akhir berkesetiaan tinggi: panggil
gemini-3-pro-image-preview(Nano Banana Pro) untuk render akhir 2K/4K dan pascapemprosesan (naik skala, gred warna). - Asal-usul & metadata: simpan prompt, versi model, cap masa, dan maklumat SynthID dalam stor metadata aset anda — model melampirkan tera air SynthID dan output boleh dijejaki kembali untuk pematuhan dan audit kandungan.
Keselamatan, hak, dan moderasi
- Hak cipta & pelepasan hak: jangan memuat naik atau menjana kandungan yang melanggar hak. Gunakan pengesahan pengguna yang jelas untuk imej atau prompt yang dibekalkan pengguna yang boleh mencipta rupa wajah yang boleh dikenal pasti. Polisi Penggunaan Dilarang Google dan penapis keselamatan model mesti dipatuhi.
- Penapisan & semakan automatik: jalankan imej terjana melalui saluran paip moderasi kandungan dalaman (NSFW, simbol kebencian, kandungan politik/mengikat) sebelum penggunaan hiliran atau paparan awam.
Bagaimana saya melakukan penyuntingan imej (inpainting), komposisi berbilang imej dan pemaparan teks?
Nano Banana Pro menyokong aliran kerja penyuntingan multimodal: sediakan satu atau lebih imej input dan arahan teks yang menerangkan suntingan (buang objek, tukar langit, tambah teks). API menerima imej + teks dalam permintaan yang sama; model boleh menghasilkan tindak balas teks dan imej berselang-seli. Corak contoh termasuk suntingan bertopeng dan adunan berbilang imej (pemindahan gaya / komposisi). Lihat dokumentasi untuk tatasusunan contents yang menggabungkan blob teks dan imej binari.
Contoh: Sunting (aliran pseudo Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Aliran suntingan secara perbualan ini membolehkan anda melaraskan hasil secara berulang sehingga anda mencapai aset sedia produksi.
Contoh Node.js — sunting imej dengan topeng dan berbilang rujukan
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API kadangkala menerima URI Cloud Storage atau payload imej base64; semak dokumentasi Gemini API untuk format input tepat.)
Untuk maklumat tentang penjanaan dan penyuntingan imej menggunakan CometAPI, sila rujuk Panduan memanggil gemini-3-pro-image .
Kesimpulan
Nano Banana Pro (Gemini 3 Pro Image) ialah satu lonjakan bertaraf produksi dalam penjanaan imej: alat untuk memvisualkan data, menghasilkan suntingan yang dilokalkan, dan memperkasa aliran kerja pembangun. Gunakan aplikasi Gemini untuk prototaip pantas, API untuk penyepaduan produksi, dan ikuti saranan di atas untuk mengawal kos, memastikan keselamatan dan mengekalkan kualiti jenama. Sentiasa uji aliran kerja pengguna sebenar dan simpan metadata asal-usul untuk memenuhi keperluan ketelusan dan audit.
Gunakan Nano Banana Pro apabila anda memerlukan aset bertaraf studio, kawalan tepat ke atas komposisi, pemaparan teks dalam imej yang dipertingkat, dan keupayaan menggabungkan berbilang rujukan menjadi output yang koheren.
Pembangun boleh mengakses API Gemini 3 Pro Image (Nano Banana Pro) melalui CometAPI. Untuk bermula, terokai keupayaan model CometAPI dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga rasmi untuk membantu anda melakukan penyepaduan.
Sedia untuk bermula?→ Daftar CometAPI hari ini !
Jika anda mahu mengetahui lebih banyak tip, panduan dan berita tentang AI ikuti kami di VK, X dan Discord!
