Fitur dasar
- Teks → Gambar: generasi sepenuhnya berbasis prompt dengan kepatuhan tinggi terhadap prompt.
- Gambar → Gambar (edit): pengeditan halus dan terarah dengan konsistensi subjek/karakter terjaga lintas beberapa edit.
- Resolusi keluaran maksimum: hingga 4K (contoh dan ukuran piksel tepat yang didukung bergantung pada rasio aspek; API menyediakan preset 1K/2K/4K)
- Perencanaan iteratif & koreksi mandiri: pipeline “multi-tahap” internal yang mendeteksi dan mengoreksi kesalahan visual umum (perspektif, teks, geometri halus).
- Perenderan teks di dalam gambar tingkat lanjut: teks multi-bahasa yang jelas dan terbaca (keterangan pendek hingga paragraf panjang) cocok untuk poster, mockup, dan infografik.
- 5 karakter dan fidelitas hingga 14 objek/gambar referensi dalam satu alur kerja.
- Watermarking / provenance: semua gambar yang dihasilkan menyertakan watermark SynthID; model menyematkan metadata C2PA untuk provenance dalam beberapa integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detail teknis
Arsitektur
- Lineage / backbone: Nano Banana Pro dibangun di atas tumpukan gambar Gemini yang terus berkembang dari Google — khususnya arsitektur Gemini 3 Pro Image / GEMPIX 2 (kerangka kerja multimodal gambar+teks berkapasitas lebih tinggi). Ini merupakan evolusi dari Gemini 2.5 Flash Image (aslinya “nano-banana”) menjadi model gambar yang secara native multimodal dengan kemampuan penalaran visi-bahasa yang diperluas.
- Perilaku model: multimodalitas native (gambar + teks + pengetahuan dunia), pipeline eksplisit untuk fusi multi-gambar, dan perencana bertahap internal yang menyempurnakan keluaran melalui beberapa pass alih-alih menghasilkan satu sampel statis. Laporan awal menunjukkan penalaran geometrik/optik yang lebih kuat (kaca, pembiasan) dibanding versi sebelumnya.
- Thinking / penyempurnaan internal: Model menggunakan proses “thinking” yang terlihat secara internal untuk menyempurnakan komposisi (API mendokumentasikan perilaku ini dan mencatat bahwa langkah internal tersebut tidak dikenai biaya sebagai token gambar final).
- Grounding & alat: Mendukung Search grounding (dapat menggabungkan fakta web ke dalam pembuatan diagram/infografik). Juga mendukung instruksi sistem untuk kontrol yang lebih deterministik.
Parameter API utama:
thinking_level(low / high) untuk menukar latensi vs kedalaman penalaran;media_resolution(low/medium/high) untuk mengontrol pembacaan OCR/detail gambar;generationConfig.imageConfiguntuk mengontrol rasio aspek/resolusi pada keluaran gambar.
Batasan gambar:
- Modality input yang didukung: Teks dan gambar (model tidak menerima audio atau video sebagai input pembuatan gambar).
- Jumlah gambar maksimum per prompt: 14 (untuk pratinjau Gemini 3 Pro Image).
- Ukuran gambar maksimum (unggah): 7 MB per gambar input.
- Rasio aspek yang didukung: 1:1, 3:2, 16:9, 9:16, 21:9, dll.
Gambar/tokens keluaran: batas tinggi, dengan dukungan 4K/4096px.
Performa benchmark
Ringkasan singkat: benchmark publik/awal sejauh ini sebagian besar bersifat kualitatif/berbasis komunitas, tetapi secara konsisten melaporkan peningkatan substansial dalam resolusi, pengurangan artefak, dan fidelitas fisik dibanding nano-banana asli (Gemini 2.5 Flash Image). “Tantangan” bernama tertentu menunjukkan peningkatan visual yang jelas, namun belum ada tabel benchmark numerik standar (publik) dari Google yang membandingkan v1 → v2 di metrik pembuatan gambar standar.
- Uji komunitas kualitatif: Tepi lebih bersih, detail mikro lebih tajam, warna lebih akurat, dan kepatuhan terhadap prompt lebih baik (lebih sedikit properti yang dihalusinasi, karakter lebih konsisten). Tes informal populer mencakup “Wine Glass Test” dan “Glass Burger Challenge”, di mana GEMPIX2 (Nano Banana Pro) menangani transparansi dan pembiasan jauh lebih baik daripada build sebelumnya.
- Penanganan teks: Nano Banana Pro menunjukkan peningkatan nyata pada tipografi dan penempatan teks di dalam gambar (kelemahan yang persisten bagi banyak model gambar). Perbandingan komunitas menunjukkan lebih sedikit glyph yang kacau.
- Throughput / UX: kecepatan iterasi lebih cepat dan UX yang melakukan penyempurnaan multi-tahap di backend sehingga pengguna melihat hasil pass pertama yang lebih andal (mengurangi kebutuhan re-roll manual).
Batasan & risiko
- Filter konten & deteksi: Platform yang mengintegrasikan model (misalnya Whisk/aplikasi pihak ketiga) dapat mengaktifkan deteksi selebritas atau kemiripan yang ketat dan memblokir keluaran tertentu, yang memengaruhi alur kerja kreatif yang mengandalkan kemiripan selebritas realistis.
- Halusinasi / kasus tepi penalaran: meski membaik, model masih dapat menghasilkan artefak yang tidak realistis secara fisik, terutama dengan teks simbolik yang padat di dalam gambar atau diagram yang sangat teknis — meskipun NB2 tampak mengurangi kesalahan ini dibanding versi sebelumnya.
- Keamanan & penyalahgunaan: model gambar generatif dapat digunakan untuk membuat konten bermasalah atau berbahaya. Google menerapkan batasan, filter konten, dan watermark SynthID untuk membantu provenance; namun demikian, penyalahgunaan tetap terjadi (kontroversi profil tinggi terkait gambar yang dihasilkan Nano Banana dalam konteks politik yang sensitif).
Bagaimana Nano Banana Pro dibandingkan dengan model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi seluler yang kuat, fusi multi-gambar, koreksi diri iteratif, native 2K/peningkatan ke 4K, terintegrasi erat ke aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk alur kerja yang membutuhkan pengeditan andal, kontinuitas, dan integrasi dengan layanan Google.
- Midjourney — unggul untuk keluaran artistik bergaya dan rekayasa prompt yang digerakkan komunitas; biasanya tidak ditujukan untuk fusi multi-gambar yang foto-akurat atau pipeline pengeditan multimodal yang dalam.
- Stable Diffusion / open weights — sepenuhnya terbuka, sangat dapat disesuaikan, dan dapat di-host lokal; ekosistem checkpoint dan fine-tuning adalah keunggulan penentu untuk riset dan penggunaan luring. Integrasi seluler “satu klik” lebih sedikit dan koherensi pengeditan multi-gambar di luar kotak kurang konsisten dibanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara eksplisit sebagai pesaing Nano Banana, menekankan rendering sangat cepat, keluaran 2K, dan dukungan banyak gambar referensi (hingga enam). Diposisikan sebagai alternatif pro/kreator.
(Perbandingan ini bersifat tingkat tinggi; pilih pemenang dengan mencocokkan alat ke alur kerja Anda: keterbukaan/kustomisasi → Stable Diffusion; seni bergaya → Midjourney; pengeditan seluler terintegrasi dan konsisten dengan iterasi agresif → keluarga gambar Nano Banana Pro/Gemini 3 Pro.)
Kasus penggunaan nyata
- Pengeditan foto seluler & filter kreatif (integrasi Google Photos — perubahan gaya, fusi latar belakang, rekombinasi potret).
- Aset pemasaran & iklan — pembuatan konsep cepat, karakter brand yang konsisten di berbagai frame/sudut.
- Seni konsep & papan cerita — fusi multi-gambar membantu menjaga kontinuitas karakter di lintas panel.
- E-commerce / mockup produk — menghasilkan jepretan produk yang konsisten dalam berbagai konteks/kondisi pencahayaan.
- Prototipe cepat untuk aset AR/VR — keluaran 2K/4K berkualitas tinggi yang dapat di-upscale untuk penggunaan imersif.
- Cara mengakses gemini-3-pro-image(Nano Banana Pro) API
Langkah yang diperlukan
- Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
- Dapatkan kredensial akses kunci API untuk antarmuka. Klik “Add Token” pada API token di pusat personal, dapatkan kunci token: sk-xxxxx lalu kirim.
- Dapatkan url situs ini:
https://api.cometapi.com/
Metode penggunaan
- Pilih endpoint “
gemini-3-pro-image” untuk mengirim permintaan API dan atur body permintaan. Metode permintaan dan body permintaan diperoleh dari dokumen API situs kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. - Ganti <YOUR_API_KEY> dengan CometAPI key Anda yang sebenarnya dari akun Anda.
- Masukkan pertanyaan atau permintaan Anda ke dalam field content—ini yang akan direspons oleh model.
- Proses respons API untuk mendapatkan jawaban yang dihasilkan.
CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi tanpa hambatan. Detail utama:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nama model:
gemini-3-pro-image - Autentikasi:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json