Google Nano Banana Pro (id model rasmi gemini-3-pro-image-preview) ialah varian penjanaan imej / penyuntingan imej Gemini 3 Pro. Ia adalah model imej gred profesional peringkat pratonton yang menambah output 2K/4K, komposisi berbilang imej kesetiaan tinggi (sehingga 14 imej rujukan, konsistensi watak untuk sehingga orang 5), pemaparan teks dalam imej yang lebih kukuh dan asas carian untuk fakta dunia sebenar.
Ciri asas
- Teks → Imej: penjanaan didorong segera penuh dengan pematuhan segera yang kuat.
- Imej → Imej (suntingan): pengeditan yang baik dan disasarkan dengan ketekalan subjek/karakter yang dikekalkan merentas berbilang suntingan.
- Resolusi output maksimum: sehingga 4K (contoh dan saiz piksel tepat yang disokong bergantung pada nisbah bidang; API mendedahkan pratetap 1K/2K/4K)
- Perancangan berulang & pembetulan diri: saluran paip dalaman "berbilang peringkat" yang mengesan dan membetulkan kesilapan visual biasa (perspektif, teks, geometri halus).
- Penyampaian teks dalam imej lanjutan: teks berbilang bahasa yang jelas dan boleh dibaca (kapsyen pendek hingga perenggan panjang) sesuai untuk poster, mockup dan maklumat grafik.
- Aksara 5 dan kesetiaan sehingga 14 objek/imej rujukan dalam satu aliran kerja.
- Tera air / asal: semua imej yang dijana termasuk tera air SynthID; model membenamkan metadata C2PA untuk asal dalam beberapa penyepaduan produk.
Gemini 3 Pro Versi imej & penamaan
gemini-3-pro-image-previewgemini-3-pro-image
Maklumat teknikal
Seni bina
- Keturunan / tulang belakang: Nano Banana Pro dibina pada timbunan imej Gemini Google yang sedang berkembang — khususnya yang baharu Imej Gemini 3 Pro / GEMPIX 2 seni bina (rangka kerja imej+teks multimodal berkapasiti lebih tinggi). Itu adalah evolusi dari Imej Flash Gemini 2.5 ("banana-nano") yang asli ke dalam model imej multimodal asli dengan keupayaan penaakulan bahasa penglihatan yang diperluaskan.
- Tingkah laku model: multimodaliti asli (imej + teks + pengetahuan dunia), saluran paip eksplisit untuk gabungan berbilang imej dan perancang berperingkat dalaman yang memperhalusi output melalui berbilang pas daripada menghasilkan sampel statik tunggal. Laporan awal menunjukkan penaakulan geometri/optik yang lebih kukuh (kaca, pembiasan) berbanding versi terdahulu.
- Pemikiran / penghalusan dalaman: Model menggunakan proses "pemikiran" yang boleh dilihat secara dalaman untuk memperhalusi komposisi (API mendokumentasikan tingkah laku ini dan mencatatkan langkah dalaman tersebut tidak dicaj sebagai token imej akhir).
- Pembumian & alatan: Menyokong Asas carian (boleh memasukkan fakta web ke dalam penjanaan rajah/infografik). Ia juga menyokong arahan sistem untuk kawalan yang lebih deterministik.
Parameter API utama:
thinking_level(rendah / tinggi) untuk berdagang kependaman vs kedalaman penaakulan;media_resolution(rendah/sederhana/tinggi) untuk mengawal imej OCR/token bacaan terperinci;generationConfig.imageConfiguntuk mengawal nisbah aspek/resolusi dalam output imej.
Had imej:
- Modaliti input disokong: Teks dan imej (model tidak menerima audio atau video sebagai input penjanaan imej).
- Imej maksimum setiap gesaan: 14 (untuk pratonton Imej Gemini 3 Pro).
- Saiz imej maksimum (muat naik): 7 MB setiap imej input.
- Nisbah aspek yang disokong: 1:1, 3:2, 16:9, 9:16, 21:9, dsb.
Imej / token output: had tinggi, dengan 4K/4096px disokong.
Prestasi penanda aras
Ringkasan pendek: penanda aras awam/awal setakat ini kebanyakannya bersifat kualitatif/didorong oleh komuniti, tetapi secara konsisten melaporkan peningkatan yang ketara dalam resolusi, pengurangan artifak dan kesetiaan fizikal berbanding pisang nano asal (Gemini 2.5 Flash Image). “Cabaran” yang dinamakan khusus telah menunjukkan keuntungan visual yang jelas, tetapi belum ada jadual penanda aras berangka piawai (awam) daripada Google yang membandingkan v1 → v2 merentas metrik penjanaan imej standard.
- Ujian komuniti kualitatif: Tepi yang lebih bersih, butiran mikro yang lebih tajam, warna yang lebih benar dan pematuhan segera yang lebih setia (lebih sedikit prop halusinasi, aksara yang lebih konsisten). Ujian tidak formal yang popular termasuk apa yang dipanggil "Ujian Kaca Wain" dan "Cabaran Burger Kaca", di mana GEMPIX2 (Nano Banana Pro) mengendalikan ketelusan dan pembiasan dengan lebih baik daripada binaan terdahulu.
- Pengendalian teks: Nano Banana Pro menunjukkan tipografi dan peletakan teks yang dipertingkatkan dengan ketara dalam imej (kelemahan yang berterusan untuk banyak model imej). Perbandingan komuniti menunjukkan lebih sedikit glyph yang dibuat bercelaru.
- Throughput / UX: kelajuan lelaran yang lebih pantas dan UX yang melakukan penghalusan berbilang peringkat pada bahagian belakang supaya pengguna melihat hasil hantaran pertama yang lebih dipercayai (mengurangkan gulungan semula manual).
Had & risiko
- Penapis & pengesanan kandungan: Platform yang menyepadukan model (cth, Whisk/apl pihak ketiga) boleh mendayakan pengesanan selebriti atau keserupaan yang ketat dan menyekat output tertentu, yang mempengaruhi aliran kerja kreatif yang bergantung pada keserupaan selebriti yang realistik.
- Halusinasi / kes kelebihan penaakulan: sambil dipertingkatkan, model masih boleh menghasilkan artifak yang tidak realistik secara fizikal, terutamanya dengan teks simbolik padat di dalam imej atau gambar rajah yang sangat teknikal — walaupun NB2 nampaknya mengurangkan ralat ini berbanding versi terdahulu.
- Keselamatan & penyalahgunaan: model imej generatif boleh digunakan untuk mencipta kandungan yang bermasalah atau berbahaya. Google menggunakan kekangan, penapis kandungan dan tera air SynthID untuk membantu dengan asal; namun begitu, penyalahgunaan telah berlaku (kontroversi berprofil tinggi terikat pada imej yang dijana Nano Banana dalam suasana yang sensitif dari segi politik).
Bagaimana Nano Banana Pro menyusun berbanding model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Imej) — penyepaduan mudah alih yang kukuh, gabungan berbilang imej, pembetulan kendiri berulang, peningkatan asli 2K/4K, disepadukan rapat ke dalam apl Google (Search, Photos, Workspace/Gemini). Terbaik untuk aliran kerja yang memerlukan pengeditan, kesinambungan dan penyepaduan yang boleh dipercayai dengan perkhidmatan Google.
- Pertengahan perjalanan — cemerlang dalam output artistik yang digayakan dan kejuruteraan segera yang dipacu komuniti; tidak biasanya disasarkan pada gabungan berbilang imej tepat foto atau saluran paip pengeditan berbilang mod yang mendalam.
- Resapan Stabil / pemberat terbuka — terbuka sepenuhnya, sangat disesuaikan dan boleh dihoskan secara tempatan; ekosistem pusat pemeriksaan dan penalaan halus adalah kelebihan yang menentukan untuk penyelidikan dan penggunaan luar talian. Penyepaduan mudah alih yang kurang "satu klik" dan koheren pengeditan berbilang imej yang kurang konsisten daripada Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diletakkan secara eksplisit sebagai pesaing Nano Banana, menekankan pemaparan ultra pantas, output 2K dan sokongan untuk banyak imej rujukan (sehingga enam). Diposisikan sebagai alternatif pro/pencipta.
(Perbandingan ini adalah tahap tinggi; pilih pemenang dengan memadankan alat dengan aliran kerja anda: keterbukaan/kebolehsesuaian → Resapan Stabil; seni bergaya → Pertengahan; pengeditan mudah alih bersepadu dan konsisten dengan lelaran agresif → Keluarga imej Nano Banana Pro/ Gemini 3 Pro.)
Kes penggunaan dunia nyata
- Penyuntingan foto mudah alih & penapis kreatif (Penyepaduan Google Photos — penggayaan semula, gabungan latar belakang, gubahan semula potret).
- Pemasaran & aset iklan — penjanaan konsep pantas, watak jenama yang konsisten merentas berbilang bingkai/sudut.
- Seni konsep & papan cerita — gabungan berbilang imej membantu mengekalkan kesinambungan watak merentas panel.
- E-dagang / mockup produk — menjana tangkapan produk yang konsisten dalam konteks/keadaan pencahayaan yang berbeza.
- Prototaip pantas untuk aset AR/VR — output 2K/4K berkualiti tinggi yang boleh ditingkatkan untuk kegunaan yang mendalam.
Bagaimana untuk memanggil Gemini-3-pro-image(Nano Banana Pro) API
Harga Nano Banana API dalam CometAPI,diskaun 20% daripada harga rasmi:
| Harga | $0.19200 |
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Gunakan Kaedah
- Pilih "
gemini-3-pro-image” titik akhir untuk menghantar permintaan API dan menetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk penghijrahan yang lancar. Butiran utama:
- URL asas: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nama Model:
gemini-3-pro-image - Pengesahan:
Bearer YOUR_CometAPI_API_KEYheader - Jenis kandungan:
application/json.
Lihat juga API Imej Flash Gemini 2.5 (Nano-Banana)



