API Gambar Gemini 3 Pro (Nano Banana Pro)

CometAPI
AnnaDec 10, 2025
API Gambar Gemini 3 Pro (Nano Banana Pro)

Google Nano Banana Pro (id model resmi gemini-3-pro-image-preview) adalah varian pembuat/pengeditan gambar dari Gemini 3 Pro. Ini adalah model gambar tingkat profesional tahap pratinjau yang menambahkan output 2K/4K, komposisi multi-gambar fidelitas tinggi (hingga 14 gambar referensi, konsistensi karakter untuk hingga orang 5), rendering teks-dalam-gambar yang lebih kuat, dan pencarian landasan untuk faktualitas dunia nyata.

Fitur dasar

  • Teks → Gambar: pembangkitan perintah penuh yang digerakkan dengan kepatuhan perintah yang kuat.
  • Gambar → Gambar (suntingan):pengeditan yang baik dan terarah dengan tetap menjaga konsistensi subjek/karakter di beberapa pengeditan.
  • Resolusi keluaran maksimum: hingga 4K (contoh dan ukuran piksel yang didukung bergantung pada rasio aspek; API memaparkan preset 1K/2K/4K)
  • Perencanaan berulang dan koreksi diri: : jalur internal “multi-tahap” yang mendeteksi dan mengoreksi kesalahan visual umum (perspektif, teks, geometri halus).
  • Rendering teks dalam gambar tingkat lanjut: teks multibahasa yang jelas dan terbaca (keterangan pendek hingga paragraf panjang) cocok untuk poster, contoh, dan infografis.
  • 5 karakter dan kesetiaan hingga 14 objek/gambar referensi dalam satu alur kerja.
  • Tanda air / asal usul: semua gambar yang dihasilkan menyertakan tanda air SynthID; model menyematkan metadata C2PA untuk asal-usul dalam beberapa integrasi produk.

Versi dan penamaan gambar Gemini 3 Pro

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Detail teknis

Arsitektur

  • Garis keturunan / tulang punggung:Nano Banana Pro akan dibangun di atas tumpukan gambar Gemini Google yang terus berkembang — khususnya Gambar Gemini 3 Pro / GEMPIX 2 arsitektur (kerangka kerja gambar+teks multimoda berkapasitas lebih tinggi). Itu adalah evolusi dari Gambar Flash Gemini 2.5 (yang aslinya disebut “nano-banana”) menjadi model gambar multimoda asli dengan kemampuan penalaran bahasa-penglihatan yang diperluas.
  • Perilaku model: multimodalitas asli (gambar + teks + pengetahuan dunia), alur kerja eksplisit untuk fusi multi-gambar, dan perencana bertahap internal yang menyempurnakan keluaran melalui beberapa lintasan alih-alih menghasilkan satu sampel statis. Laporan awal menunjukkan penalaran geometris/optik yang lebih kuat (kaca, refraksi) dibandingkan versi sebelumnya.
  • Berpikir / penyempurnaan internal:Model ini menggunakan proses “berpikir” yang terlihat secara internal untuk menyempurnakan komposisi (API mendokumentasikan perilaku ini dan mencatat bahwa langkah-langkah internal tersebut tidak dibebankan sebagai token gambar akhir).
  • Pembumian & peralatan: Mendukung Pencarian landasan (dapat menggabungkan fakta web ke dalam pembuatan diagram/infografis). Aplikasi ini juga mendukung instruksi sistem untuk kontrol yang lebih deterministik.

Parameter API utama:

  • thinking_level (rendah / tinggi) untuk memperdagangkan latensi vs kedalaman penalaran;
  • media_resolution (rendah/sedang/tinggi) untuk mengontrol OCR gambar/token pembacaan detail;
  • generationConfig.imageConfig untuk mengontrol rasio aspek/resolusi pada keluaran gambar.

Batasan gambar:

  • Modalitas masukan yang didukung: Teks dan gambar (model tidak menerima audio atau video sebagai masukan pembuatan gambar).
  • Jumlah gambar maksimum per perintah: 14 (untuk pratinjau Gambar Gemini 3 Pro).
  • Ukuran gambar maksimum (unggah): 7 MB per gambar masukan.
  • Rasio aspek yang didukung: 1:1, 3:2, 16:9, 9:16, 21:9, dst.

Gambar/token keluaran: batas tinggi, dengan dukungan 4K/4096px.

Kinerja tolok ukur

Ringkasan singkat: Benchmark publik/awal sejauh ini sebagian besar bersifat kualitatif/didorong oleh komunitas, tetapi secara konsisten melaporkan peningkatan substansial dalam resolusi, reduksi artefak, dan fidelitas fisik dibandingkan nano-banana asli (Gemini 2.5 Flash Image). "Tantangan" spesifik yang diberi nama telah menunjukkan peningkatan visual yang jelas, tetapi belum ada tabel benchmark numerik standar (publik) dari Google yang membandingkan v1 → v2 di seluruh metrik pembuatan gambar standar.

  • Tes komunitas kualitatifTepi yang lebih bersih, detail mikro yang lebih tajam, warna yang lebih nyata, dan kepatuhan terhadap perintah yang lebih tepat (lebih sedikit properti yang berhalusinasi, karakter yang lebih konsisten). Tes informal yang populer termasuk yang disebut "Tes Gelas Anggur" dan "Tantangan Burger Kaca", di mana GEMPIX2 (Nano Banana Pro) menangani transparansi dan refraksi jauh lebih baik daripada versi sebelumnya.
  • Penanganan teksNano Banana Pro menunjukkan peningkatan tipografi dan penempatan teks yang nyata di dalam gambar (kelemahan yang terus-menerus terjadi pada banyak model gambar). Perbandingan komunitas menunjukkan lebih sedikit glif yang terurai.
  • Throughput / UX: kecepatan iterasi yang lebih cepat dan UX yang melakukan penyempurnaan multi-tahap di bagian belakang sehingga pengguna melihat hasil first-pass yang lebih andal (mengurangi pengulangan manual).

Keterbatasan & risiko

  • Filter & deteksi konten:Platform yang mengintegrasikan model (misalnya, Whisk/aplikasi pihak ketiga) dapat mengaktifkan deteksi selebriti atau rupa yang ketat dan memblokir keluaran tertentu, yang memengaruhi alur kerja kreatif yang mengandalkan rupa selebriti yang realistis.
  • Kasus tepi halusinasi/penalaran: meskipun ditingkatkan, model tersebut masih dapat menghasilkan artefak yang tidak realistis secara fisik, terutama dengan teks simbolis yang padat di dalam gambar atau diagram yang sangat teknis — meskipun NB2 tampaknya mengurangi kesalahan ini dibandingkan versi sebelumnya.
  • Keamanan & penyalahgunaan: Model gambar generatif dapat digunakan untuk membuat konten yang bermasalah atau berbahaya. Google menerapkan batasan, filter konten, dan tanda air SynthID untuk membantu menentukan asal-usulnya; namun demikian, penyalahgunaan telah terjadi (kontroversi besar terkait dengan gambar yang dihasilkan Nano Banana dalam konteks yang sensitif secara politik).

Bagaimana Nano Banana Pro dibandingkan dengan model lain

  • Nano Banana Pro (Gambar GEMPIX 2 / Gemini 3 Pro) — integrasi seluler yang kuat, fusi multi-gambar, koreksi otomatis berulang, peningkatan skala 2K asli/4K, terintegrasi erat dengan aplikasi Google (Penelusuran, Foto, Ruang Kerja/Gemini). Terbaik untuk alur kerja yang membutuhkan pengeditan yang andal, kontinuitas, dan integrasi dengan layanan Google.
  • tengah perjalanan — unggul dalam keluaran artistik bergaya dan rekayasa cepat yang digerakkan oleh komunitas; biasanya tidak ditargetkan pada penggabungan multi-gambar yang akurat-foto atau jalur penyuntingan multimoda yang mendalam.
  • Difusi Stabil / beban terbuka — sepenuhnya terbuka, sangat mudah dikustomisasi, dan dapat dihosting secara lokal; ekosistem titik pemeriksaan dan penyempurnaan merupakan keunggulan yang menentukan untuk penelitian dan penggunaan luring. Integrasi seluler "satu klik" yang lebih sedikit dan koherensi pengeditan multi-gambar yang kurang konsisten secara langsung dibandingkan Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara eksplisit sebagai pesaing Nano Banana, menekankan rendering ultra-cepat, output 2K, dan dukungan untuk banyak gambar referensi (hingga enam). Diposisikan sebagai alternatif pro/kreator.

(Perbandingan ini bersifat tingkat tinggi; pilih pemenang dengan mencocokkan alat dengan alur kerja Anda: keterbukaan/kustomisasi → Difusi Stabil; seni bergaya → Midjourney; pengeditan seluler terintegrasi dan konsisten dengan iterasi agresif → keluarga gambar Nano Banana Pro/Gemini 3 Pro.)


Kasus penggunaan dunia nyata

  • Pengeditan foto seluler & filter kreatif (Integrasi Google Foto — penataan ulang, penggabungan latar belakang, komposisi ulang potret).
  • Aset pemasaran & iklan — pembuatan konsep yang cepat, karakter merek yang konsisten di berbagai bingkai/sudut.
  • Seni konsep & papan cerita —penggabungan multi-gambar membantu menjaga kesinambungan karakter di seluruh panel.
  • Mockup e-commerce/produk — menghasilkan gambar produk yang konsisten dalam konteks/kondisi pencahayaan yang berbeda.
  • Pembuatan prototipe cepat untuk aset AR/VR — keluaran 2K/4K berkualitas tinggi yang dapat ditingkatkan untuk penggunaan yang mendalam.

Cara memanggil gemini-3-pro-image(Nano Banana Pro)  API

Harga Nano Banana API di CometAPI, diskon 20% dari harga resmi:

Harga$0.19200

Langkah-langkah yang Diperlukan

  • Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
  • Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.
  • Dapatkan url situs ini: https://api.cometapi.com/

Gunakan Metode

  1. Pilih "gemini-3-pro-image” untuk mengirim permintaan API dan mengatur isi permintaan. Metode permintaan dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan pengujian Apifox demi kenyamanan Anda.
  2. Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
  3. Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
  4. Memproses respons API untuk mendapatkan jawaban yang dihasilkan.

CometAPI menyediakan REST API yang sepenuhnya kompatibel—untuk migrasi yang lancar. Detail utama:

Lihat juga API Gambar Flash Gemini 2.5 (Nano-Banana)

SHARE THIS BLOG

500+ Model dalam Satu API

Diskon hingga 20%