Ciri asas
- Text → Image: penjanaan sepenuhnya dipacu arahan dengan pematuhan arahan yang kuat.
- Image → Image (edits): suntingan halus dan terarah dengan mengekalkan konsistensi subjek/watak merentas berbilang suntingan.
- Resolusi keluaran maksimum: sehingga 4K (contoh dan saiz piksel tepat yang disokong bergantung pada nisbah bidang; API menyediakan pratetap 1K/2K/4K)
- Perancangan berulang & pembetulan kendiri: paip “berbilang peringkat” dalaman yang mengesan dan membetulkan kesilapan visual lazim (perspektif, teks, geometri halus).
- Pemaparan teks dalam imej lanjutan: teks pelbagai bahasa yang jelas dan mudah dibaca (dari kapsyen pendek hingga perenggan panjang) sesuai untuk poster, mockup, dan infografik.
- 5 watak dan kesetiaan sehingga 14 objek/imej rujukan dalam satu aliran kerja.
- Penandaan air / asal-usul: semua imej yang dijana termasuk tanda air SynthID; model menyematkan metadata C2PA bagi tujuan asal-usul dalam sesetengah integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Butiran teknikal
Senibina
- Lineage / backbone: Nano Banana Pro dibina di atas timbunan imej Gemini Google yang berkembang — khususnya senibina baharu Gemini 3 Pro Image / GEMPIX 2 (rangka kerja imej+teks multimodal berkapasiti lebih tinggi). Itu adalah evolusi daripada Gemini 2.5 Flash Image (asal “nano-banana”) kepada model imej multimodal asli dengan keupayaan penaakulan penglihatan-bahasa yang diperluas.
- Kelakuan model: multimodaliti asli (imej + teks + pengetahuan dunia), paip eksplisit untuk penggabungan berbilang imej, dan perancang berperingkat dalaman yang memperhalus keluaran melalui pelbagai lintasan berbanding menghasilkan sampel statik tunggal. Laporan awal menunjukkan penaakulan geometri/optik yang lebih kuat (kaca, pembiasan) berbanding versi terdahulu.
- Pemikiran / penapisan dalaman: Model menggunakan proses “berfikir” yang kelihatan secara dalaman untuk memperhalus komposisi (API mendokumenkan kelakuan ini dan menyatakan langkah dalaman tersebut tidak dikenakan sebagai token imej akhir).
- Grounding & alat: Menyokong Search grounding (boleh memasukkan fakta web ke dalam penjanaan rajah/infografik). Ia juga menyokong arahan sistem untuk kawalan yang lebih deterministik.
Parameter API utama:
thinking_level(low / high) untuk menukar antara kependaman dan kedalaman penaakulan;media_resolution(low/medium/high) untuk mengawal token pembacaan OCR/perincian imej;generationConfig.imageConfiguntuk mengawal nisbah bidang/resolusi dalam keluaran imej.
Had imej:
- Modaliti input yang disokong: Teks dan imej (model tidak menerima audio atau video sebagai input penjanaan imej).
- Imej maksimum bagi setiap arahan: 14 (untuk pratonton Gemini 3 Pro Image).
- Saiz imej maksimum (muat naik): 7 MB bagi setiap imej input.
- Nisbah bidang yang disokong: 1:1, 3:2, 16:9, 9:16, 21:9, dll.
Imej keluaran / token: had tinggi, dengan 4K/4096px disokong.
Prestasi penanda aras
Ringkasan pendek: penanda aras awam/awal setakat ini kebanyakannya bersifat kualitatif / dipacu komuniti, tetapi secara konsisten melaporkan peningkatan besar dalam resolusi, pengurangan artifak, dan kesetiaan fizikal berbanding nano-banana asal (Gemini 2.5 Flash Image). “Cabaran” bernama khusus menunjukkan peningkatan visual yang jelas, namun belum ada jadual penanda aras berangka berstandard (awam) daripada Google yang membandingkan v1 → v2 merentas metrik penjanaan imej standard.
- Ujian komuniti kualitatif: tepi lebih bersih, perincian mikro lebih tajam, warna lebih tepat, dan pematuhan arahan lebih setia (prop yang kurang dihalusinasi, watak lebih konsisten). Ujian tidak formal popular termasuk “Wine Glass Test” dan “Glass Burger Challenge”, di mana GEMPIX2 (Nano Banana Pro) mengendalikan ketelusan dan pembiasan dengan ketara lebih baik daripada binaan terdahulu.
- Pengendalian teks: Nano Banana Pro menunjukkan tipografi dan penempatan teks yang dipertingkat secara jelas di dalam imej (kelemahan berterusan bagi banyak model imej). Perbandingan komuniti menunjukkan glif yang dipaparkan secara cacat lebih sedikit.
- Kadar hasil / UX: kelajuan iterasi lebih pantas dan UX yang melakukan penapisan berbilang peringkat di bahagian belakang sehingga pengguna melihat hasil lintasan pertama yang lebih boleh dipercayai (mengurangkan pengulangan manual).
Batasan & risiko
- Penapis kandungan & pengesanan: Platform yang mengintegrasikan model (cth., Whisk/app pihak ketiga) mungkin mengaktifkan pengesanan selebriti atau rupa paras yang ketat dan menyekat keluaran tertentu, yang menjejaskan aliran kerja kreatif yang bergantung kepada rupa selebriti realistik.
- Halusinasi / kes tepi penaakulan: walaupun dipertingkat, model masih boleh menghasilkan artifak yang tidak realistik secara fizikal, terutamanya dengan teks simbolik yang padat di dalam imej atau rajah yang sangat teknikal — walaupun NB2 dilihat mengurangkan ralat ini berbanding versi lebih awal.
- Keselamatan & salah guna: model penjanaan imej boleh digunakan untuk mencipta kandungan bermasalah atau berbahaya. Google menggunakan kekangan, penapis kandungan, dan tanda air SynthID untuk membantu asal-usul; namun, salah guna telah berlaku (kontroversi berprofil tinggi yang berkait dengan imej yang dijana Nano Banana dalam konteks sensitif politik).
Perbandingan Nano Banana Pro berbanding model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi mudah alih yang kukuh, penggabungan berbilang imej, pembetulan kendiri berulang, 2K asli/penskalaan naik 4K, sangat terintegrasi dalam aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk aliran kerja yang memerlukan suntingan boleh dipercayai, kesinambungan, dan integrasi dengan perkhidmatan Google.
- Midjourney — cemerlang dalam keluaran artistik bergaya dan kejuruteraan arahan dipacu komuniti; lazimnya tidak disasarkan pada penggabungan berbilang imej yang tepat secara foto atau paip penyuntingan multimodal yang mendalam.
- Stable Diffusion / open weights — sepenuhnya terbuka, sangat boleh disesuaikan, dan boleh dihoskan secara lokal; ekosistem checkpoint dan penalaan halus merupakan kelebihan penentu untuk penyelidikan dan penggunaan luar talian. Kurang integrasi mudah alih “satu klik” dan koherensi penyuntingan berbilang imej yang kurang konsisten secara lalai berbanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara jelas sebagai pesaing Nano Banana, menekankan pemaparan yang sangat pantas, keluaran 2K, dan sokongan untuk banyak imej rujukan (sehingga enam). Diposisikan sebagai alternatif pro/pencipta.
(Perbandingan ini adalah peringkat tinggi; pilih pemenang dengan memadankan alat kepada aliran kerja anda: keterbukaan/keboleh suai → Stable Diffusion; seni bergaya → Midjourney; penyuntingan mudah alih yang terintegrasi dan konsisten dengan iterasi agresif → keluarga imej Nano Banana Pro/Gemini 3 Pro.)
Kes penggunaan dunia sebenar
- Penyuntingan foto mudah alih & penapis kreatif (integrasi Google Photos — restyling, penggabungan latar belakang, penggubahan semula potret).
- Aset pemasaran & iklan — penjanaan konsep pantas, watak jenama yang konsisten merentas berbilang bingkai/sudut.
- Seni konsep & papan cerita — penggabungan berbilang imej membantu mengekalkan kesinambungan watak merentas panel.
- E-dagang / mockup produk — hasilkan tangkapan produk yang konsisten dalam konteks/keadaan pencahayaan berbeza.
- Prototip pantas untuk aset AR/VR — keluaran 2K/4K berkualiti tinggi yang boleh diskalakan naik untuk kegunaan imersif.
- Cara mengakses API gemini-3-pro-image(Nano Banana Pro)
Langkah diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu
- Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url laman ini: https://api.cometapi.com/
Kaedah penggunaan
- Pilih titik hujung “
gemini-3-pro-image” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan — ini yang akan direspons oleh model.
- . Proses tindak balas API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk migrasi yang lancar. Butiran utama :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.