Fitur dasar
- Teks → Gambar: pembuatan penuh berbasis prompt dengan kepatuhan prompt yang kuat.
- Gambar → Gambar (edit): edit halus dan terarah dengan konsistensi subjek/karakter yang tetap terjaga di beberapa kali edit.
- Resolusi output maksimum: hingga 4K (contoh dan ukuran piksel pasti yang didukung bergantung pada rasio aspek; API menyediakan preset 1K/2K/4K)
- Perencanaan iteratif & koreksi mandiri: pipeline internal “multi-stage” yang mendeteksi dan memperbaiki kesalahan visual umum (perspektif, teks, geometri halus).
- Perenderan teks di dalam gambar tingkat lanjut: teks multibahasa yang jelas dan mudah dibaca (dari keterangan singkat hingga paragraf panjang) yang cocok untuk poster, mockup, dan infografik.
- 5 karakter dan fidelitas untuk hingga 14 objek/gambar referensi dalam satu alur kerja.
- Watermarking / provenance: semua gambar yang dihasilkan menyertakan watermark SynthID; model menyematkan metadata C2PA untuk provenance pada beberapa integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detail teknis
Arsitektur
- Lineage / backbone: Nano Banana Pro dibangun di atas stack gambar Gemini Google yang terus berkembang — khususnya arsitektur baru Gemini 3 Pro Image / GEMPIX 2 (kerangka gambar+teks multimodal berkapasitas lebih tinggi). Ini merupakan evolusi dari Gemini 2.5 Flash Image (“nano-banana” asli) menjadi model gambar multimodal native dengan kemampuan penalaran vision-language yang diperluas.
- Perilaku model: multimodal native (gambar + teks + pengetahuan dunia), pipeline eksplisit untuk fusi multi-gambar, dan perencana bertahap internal yang menyempurnakan output melalui beberapa tahap alih-alih menghasilkan satu sampel statis. Laporan awal menunjukkan penalaran geometris/optik yang lebih kuat (kaca, refraksi) dibanding versi sebelumnya.
- Thinking / penyempurnaan internal: Model menggunakan proses “thinking” yang terlihat secara internal untuk menyempurnakan komposisi (dokumentasi API menjelaskan perilaku ini dan mencatat bahwa langkah internal tersebut tidak dibebankan sebagai token gambar akhir).
- Grounding & tools: Mendukung Search grounding (dapat memasukkan fakta web ke dalam pembuatan diagram/infografik). Juga mendukung system instructions untuk kontrol yang lebih deterministik.
Parameter API utama:
thinking_level(low / high) untuk menukar latensi vs kedalaman penalaran;media_resolution(low/medium/high) untuk mengontrol token pembacaan OCR/detail gambar;generationConfig.imageConfiguntuk mengontrol rasio aspek/resolusi pada output gambar.
Batas gambar:
- Modalitas input yang didukung: Teks dan gambar (model tidak menerima audio atau video sebagai input pembuatan gambar).
- Maks gambar per prompt: 14 (untuk Gemini 3 Pro Image preview).
- Ukuran gambar maksimum (unggah): 7 MB per gambar input.
- Rasio aspek yang didukung: 1:1, 3:2, 16:9, 9:16, 21:9, dll.
Gambar output / token: batas tinggi, dengan dukungan 4K/4096px.
Performa benchmark
Ringkasan singkat: benchmark publik/awal sejauh ini sebagian besar masih bersifat kualitatif / berbasis komunitas, tetapi secara konsisten melaporkan peningkatan besar dalam resolusi, pengurangan artefak, dan fidelitas fisik dibanding nano-banana asli (Gemini 2.5 Flash Image). Beberapa “tantangan” yang disebutkan secara spesifik telah menunjukkan peningkatan visual yang jelas, tetapi belum ada tabel benchmark numerik standar (publik) dari Google yang membandingkan v1 → v2 pada metrik pembuatan gambar standar.
- Uji kualitatif komunitas: Tepi lebih bersih, mikro-detail lebih tajam, warna lebih akurat, dan kepatuhan prompt lebih setia (lebih sedikit properti yang berhalusinasi, karakter lebih konsisten). Uji informal populer mencakup apa yang disebut “Wine Glass Test” dan “Glass Burger Challenge”, di mana GEMPIX2 (Nano Banana Pro) menangani transparansi dan refraksi jauh lebih baik daripada build sebelumnya.
- Penanganan teks: Nano Banana Pro menunjukkan peningkatan yang terlihat dalam tipografi dan penempatan teks di dalam gambar (kelemahan yang terus ada pada banyak model gambar). Perbandingan komunitas menunjukkan lebih sedikit glyph hasil render yang kacau.
- Throughput / UX: kecepatan iterasi lebih cepat dan UX yang melakukan penyempurnaan multi-tahap di back end sehingga pengguna mendapatkan hasil first-pass yang lebih andal (mengurangi kebutuhan re-roll manual).
Keterbatasan & risiko
- Filter konten & deteksi: Platform yang mengintegrasikan model (misalnya, Whisk/aplikasi pihak ketiga) dapat mengaktifkan deteksi selebritas atau kemiripan yang ketat dan memblokir output tertentu, yang memengaruhi alur kerja kreatif yang bergantung pada kemiripan selebritas yang realistis.
- Halusinasi / edge case penalaran: meskipun meningkat, model masih dapat menghasilkan artefak yang tidak realistis secara fisik, terutama pada teks simbolik yang padat di dalam gambar atau diagram yang sangat teknis — meskipun NB2 tampaknya mengurangi kesalahan ini dibanding versi sebelumnya.
- Keamanan & penyalahgunaan: model gambar generatif dapat digunakan untuk membuat konten yang bermasalah atau berbahaya. Google menerapkan batasan, filter konten, dan watermark SynthID untuk membantu provenance; meskipun demikian, penyalahgunaan tetap terjadi (kontroversi besar yang terkait dengan gambar hasil Nano Banana dalam konteks yang sensitif secara politik).
Bagaimana Nano Banana Pro dibandingkan dengan model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi seluler yang kuat, fusi multi-gambar, koreksi mandiri iteratif, native 2K/peningkatan skala 4K, terintegrasi erat ke aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk alur kerja yang membutuhkan edit andal, kontinuitas, dan integrasi dengan layanan Google.
- Midjourney — unggul dalam output artistik bergaya dan prompt engineering berbasis komunitas; umumnya tidak ditujukan untuk fusi multi-gambar yang akurat secara foto atau pipeline pengeditan multimodal yang mendalam.
- Stable Diffusion / open weights — sepenuhnya terbuka, sangat dapat dikustomisasi, dan dapat di-host secara lokal; ekosistem checkpoint dan fine-tuning menjadi keunggulan yang menentukan untuk riset dan penggunaan offline. Integrasi seluler “sekali klik” lebih sedikit dan koherensi pengeditan multi-gambar out-of-the-box kurang konsisten dibanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara eksplisit sebagai pesaing Nano Banana, dengan penekanan pada render ultra-cepat, output 2K, dan dukungan untuk banyak gambar referensi (hingga enam). Diposisikan sebagai alternatif pro/kreator.
(Perbandingan ini bersifat tingkat tinggi; pilih pemenang dengan mencocokkan alat pada alur kerja Anda: keterbukaan/kustomisasi → Stable Diffusion; seni bergaya → Midjourney; pengeditan seluler terintegrasi dan konsisten dengan iterasi agresif → Nano Banana Pro/keluarga Gemini 3 Pro Image.)
Kasus penggunaan di dunia nyata
- Pengeditan foto seluler & filter kreatif (integrasi Google Photos — restyling, fusi latar belakang, rekomposisi potret).
- Aset pemasaran & iklan — pembuatan konsep cepat, karakter merek yang konsisten di beberapa frame/sudut.
- Concept art & storyboard — fusi multi-gambar membantu menjaga kontinuitas karakter antar panel.
- E-commerce / mockup produk — menghasilkan foto produk yang konsisten dalam berbagai konteks/kondisi pencahayaan.
- Prototyping cepat untuk aset AR/VR — output 2K/4K berkualitas tinggi yang dapat di-upscale untuk penggunaan imersif.
- Cara mengakses API gemini-3-pro-image(Nano Banana Pro)
Langkah yang diperlukan
- Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu
- Dapatkan kredensial akses API key untuk antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu kirimkan.
- Dapatkan URL situs ini: https://api.cometapi.com/
Metode penggunaan
- Pilih endpoint “
gemini-3-pro-image” untuk mengirim permintaan API dan atur request body. Metode request dan request body dapat diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. - Ganti <YOUR_API_KEY> dengan kunci CometAPI aktual dari akun Anda.
- Masukkan pertanyaan atau permintaan Anda ke dalam field content—ini adalah yang akan direspons oleh model.
- Proses respons API untuk mendapatkan jawaban yang dihasilkan.
CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi tanpa hambatan. Detail utama :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.