Fitur dasar
- Teks → Gambar: pembuatan berbasis prompt penuh dengan kepatuhan kuat terhadap prompt.
- Gambar → Gambar (penyuntingan): edit yang halus dan terarah dengan konsistensi subjek/karakter yang terjaga di banyak penyuntingan.
- Resolusi keluaran maksimum: hingga 4K (contoh dan ukuran piksel tepat yang didukung bergantung pada rasio aspek; API menyediakan prasetel 1K/2K/4K)
- Perencanaan iteratif & koreksi mandiri: pipeline internal “multi-tahap” yang mendeteksi dan mengoreksi kesalahan visual umum (perspektif, teks, geometri halus).
- Perenderan teks canggih di dalam gambar: teks multi-bahasa yang jelas dan terbaca (dari caption pendek hingga paragraf panjang) cocok untuk poster, mockup, dan infografik.
- 5 karakter dan kesetiaan hingga 14 objek/gambar referensi dalam satu alur kerja.
- Tanda air / asal-usul: semua gambar yang dihasilkan menyertakan tanda air SynthID; model menyematkan metadata C2PA untuk asal-usul di beberapa integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detail teknis
Arsitektur
- Lini / backbone: Nano Banana Pro dibangun di atas tumpukan gambar Gemini yang terus berkembang milik Google — khususnya arsitektur baru Gemini 3 Pro Image / GEMPIX 2 (kerangka multimodal gambar+teks berkapasitas lebih tinggi). Itu adalah evolusi dari Gemini 2.5 Flash Image (asal “nano-banana”) menjadi model gambar yang secara native multimodal dengan kemampuan penalaran visi-bahasa yang diperluas.
- Perilaku model: multimodalitas bawaan (gambar + teks + pengetahuan dunia), pipeline eksplisit untuk penggabungan multi-gambar, dan perencana bertahap internal yang menyempurnakan keluaran melalui beberapa lintasan alih-alih menghasilkan sampel statis tunggal. Laporan awal menunjukkan penalaran geometrik/optik yang lebih kuat (kaca, pembiasan) dibanding versi sebelumnya.
- “Berpikir” / penyempurnaan internal: Model menggunakan proses “berpikir” yang terlihat secara internal untuk menyempurnakan komposisi (API mendokumentasikan perilaku ini dan mencatat langkah internal tersebut tidak ditagihkan sebagai token gambar final).
- Grounding & alat: Mendukung Search grounding (dapat menggabungkan fakta web ke pembuatan diagram/infografik). Juga mendukung instruksi sistem untuk kontrol yang lebih deterministik.
Parameter API kunci:
thinking_level(rendah / tinggi) untuk menyeimbangkan latensi vs kedalaman penalaran;media_resolution(rendah/sedang/tinggi) untuk mengontrol token pembacaan OCR/detail gambar;generationConfig.imageConfiguntuk mengontrol rasio aspek/resolusi pada keluaran gambar.
Batas gambar:
- Modalitas input yang didukung: Teks dan gambar (model tidak menerima audio atau video sebagai input pembuatan gambar).
- Maks gambar per prompt: 14 (untuk pratinjau Gemini 3 Pro Image).
- Ukuran gambar maksimum (unggah): 7 MB per gambar input.
- Rasio aspek yang didukung: 1:1, 3:2, 16:9, 9:16, 21:9, dll.
Gambar keluaran / token: batas tinggi, dengan dukungan 4K/4096px.
Performa benchmark
Ringkasan singkat: benchmark publik/awal sejauh ini sebagian besar bersifat kualitatif/berbasis komunitas, tetapi secara konsisten melaporkan peningkatan resolusi, pengurangan artefak, dan kesetiaan fisik dibandingkan nano-banana asli (Gemini 2.5 Flash Image). “Tantangan” bernama tertentu menunjukkan peningkatan visual yang jelas, namun saat ini belum ada tabel benchmark numerik terstandar (publik) dari Google yang membandingkan v1 → v2 di seluruh metrik pembuatan gambar standar.
- Uji komunitas kualitatif: Tepi lebih bersih, detail mikro lebih tajam, warna lebih akurat, dan kepatuhan terhadap prompt lebih setia (lebih sedikit properti terhalusinasi, karakter lebih konsisten). Perbandingan informal populer termasuk “Wine Glass Test” dan “Glass Burger Challenge”, di mana GEMPIX2 (Nano Banana Pro) menangani transparansi dan pembiasan secara signifikan lebih baik daripada build sebelumnya.
- Penanganan teks: Nano Banana Pro menunjukkan tipografi dan penempatan teks yang terlihat meningkat di dalam gambar (kelemahan yang persisten bagi banyak model gambar). Perbandingan komunitas menunjukkan lebih sedikit glyph yang dirender kacau.
- Laju pemrosesan / UX: kecepatan iterasi lebih cepat dan UX yang melakukan penyempurnaan multi-tahap di backend sehingga pengguna melihat hasil putaran pertama yang lebih andal (mengurangi pengulangan manual).
Keterbatasan & risiko
- Filter konten & deteksi: Platform yang mengintegrasikan model (misalnya, Whisk/aplikasi pihak ketiga) dapat mengaktifkan deteksi selebritas atau kemiripan yang ketat dan memblokir keluaran tertentu, yang mempengaruhi alur kerja kreatif yang bergantung pada kemiripan selebritas realistis.
- Halusinasi / kasus tepi penalaran: meski meningkat, model masih dapat menghasilkan artefak yang secara fisik tidak realistis, terutama dengan teks simbolik padat di dalam gambar atau diagram teknis tingkat tinggi — meskipun NB2 tampak mengurangi kesalahan ini dibandingkan versi sebelumnya.
- Keamanan & penyalahgunaan: model gambar generatif dapat digunakan untuk membuat konten bermasalah atau berbahaya. Google menerapkan pembatasan, filter konten, dan tanda air SynthID untuk membantu asal-usul; namun demikian, penyalahgunaan telah terjadi (kontroversi berprofil tinggi terkait gambar yang dihasilkan Nano Banana dalam konteks yang sensitif secara politik).
Perbandingan Nano Banana Pro dengan model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi seluler yang kuat, penggabungan multi-gambar, koreksi mandiri iteratif, 2K native/peningkatan ke 4K, terintegrasi erat ke aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk alur kerja yang membutuhkan edit andal, kontinuitas, dan integrasi dengan layanan Google.
- Midjourney — unggul dalam keluaran artistik bergaya dan rekayasa prompt berbasis komunitas; biasanya tidak ditargetkan pada penggabungan multi-gambar yang akurat secara foto atau pipeline penyuntingan multimodal mendalam.
- Stable Diffusion / bobot terbuka — sepenuhnya terbuka, sangat dapat disesuaikan, dan dapat di-host secara lokal; ekosistem checkpoint dan fine-tuning adalah keunggulan tegas untuk riset dan penggunaan luring. Lebih sedikit integrasi seluler sekali klik dan koherensi penyuntingan multi-gambar yang konsisten “siap pakai” dibanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara eksplisit sebagai pesaing Nano Banana, menekankan perenderan sangat cepat, keluaran 2K, dan dukungan banyak gambar referensi (hingga enam). Diposisikan sebagai alternatif untuk profesional/kreator.
(Perbandingan ini tingkat tinggi; pilih yang “terbaik” dengan mencocokkan alat ke alur kerja Anda: keterbukaan/dapat disesuaikan → Stable Diffusion; seni bergaya → Midjourney; penyuntingan seluler terintegrasi dan konsisten dengan iterasi agresif → keluarga Nano Banana Pro/Gemini 3 Pro Image.)
Kasus penggunaan dunia nyata
- Penyuntingan foto seluler & filter kreatif (integrasi Google Photos — restyling, penggabungan latar belakang, rekonstruksi potret).
- Aset pemasaran & iklan — pembuatan konsep cepat, karakter brand konsisten di banyak frame/sudut.
- Seni konsep & pembuatan papan cerita — penggabungan multi-gambar membantu menjaga kontinuitas karakter antar panel.
- E-commerce / mockup produk — menghasilkan foto produk konsisten dalam berbagai konteks/kondisi pencahayaan.
- Prototyping cepat untuk aset AR/VR — keluaran 2K/4K berkualitas tinggi yang dapat di-upscale untuk penggunaan imersif.
- Cara mengakses API gemini-3-pro-image(Nano Banana Pro)
Langkah yang diperlukan
- Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu
- Dapatkan kunci API kredensial akses untuk antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan kunci token: sk-xxxxx dan kirimkan.
- Dapatkan URL situs ini: https://api.cometapi.com/
Metode penggunaan
- Pilih endpoint “
gemini-3-pro-image” untuk mengirim permintaan API dan atur badan permintaan. Metode permintaan dan badan permintaan diperoleh dari dokumen API situs web kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. - Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
- Masukkan pertanyaan atau permintaan Anda ke bidang konten—ini yang akan direspons oleh model.
- . Proses respons API untuk mendapatkan jawaban yang dihasilkan.
CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi yang mulus. Rincian utama :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.