Ciri asas
- Teks → Imej: penjanaan sepenuhnya dipacu prompt dengan pematuhan yang kuat terhadap prompt.
- Imej → Imej (suntingan): suntingan halus dan tersasar dengan konsistensi subjek/watak dikekalkan merentas berbilang suntingan.
- Resolusi output maksimum: sehingga 4K (contoh dan saiz piksel tepat yang disokong bergantung pada nisbah aspek; API menyediakan pratetap 1K/2K/4K)
- Perancangan iteratif & pembetulan kendiri: saluran paip “berbilang peringkat” dalaman yang mengesan dan membetulkan kesilapan visual lazim (perspektif, teks, geometri halus).
- Pemaparan teks dalam imej lanjutan: teks pelbagai bahasa yang jelas dan mudah dibaca (dari kapsyen pendek hingga perenggan panjang) sesuai untuk poster, mockup dan infografik.
- 5 watak dan kesetiaan sehingga 14 objek/imej rujukan dalam satu aliran kerja.
- Tanda air / asal-usul: semua imej yang dijana mengandungi tanda air SynthID; model membenamkan metadata C2PA untuk asal-usul dalam sesetengah integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Butiran teknikal
Seni bina
- Keturunan / tulang belakang: Nano Banana Pro dibina berasaskan rangka imej Gemini Google yang terus berkembang — khususnya seni bina Gemini 3 Pro Image / GEMPIX 2 yang baharu (rangka kerja multimodal imej+teks berkapasiti lebih tinggi). Ini merupakan evolusi daripada Gemini 2.5 Flash Image (“nano-banana” asal) kepada model imej multimodal asli dengan keupayaan penaakulan penglihatan-bahasa yang dipertingkat.
- Tingkah laku model: multimodal asli (imej + teks + pengetahuan dunia), saluran paip eksplisit untuk penggabungan multi-imej, dan perancang berperingkat dalaman yang memperhalus output melalui berbilang laluan berbanding menghasilkan sampel statik tunggal. Laporan awal menunjukkan penaakulan geometri/optik yang lebih kukuh (kaca, pembiasan) berbanding versi terdahulu.
- Pemikiran / penambahbaikan dalaman: Model menggunakan proses “pemikiran” yang kelihatan secara dalaman untuk memperhalus komposisi (API mendokumenkan tingkah laku ini dan menyatakan langkah dalaman tersebut tidak dicaj sebagai token imej akhir).
- Pembumian & alat: Menyokong Search grounding (boleh menggabungkan fakta web ke dalam penjanaan diagram/infografik). Ia juga menyokong arahan sistem untuk kawalan yang lebih deterministik.
Parameter API utama:
thinking_level(rendah / tinggi) untuk mengimbangi kependaman berbanding kedalaman penaakulan;media_resolution(rendah/sederhana/tinggi) untuk mengawal token OCR/pembacaan butiran imej;generationConfig.imageConfiguntuk mengawal nisbah aspek/resolusi pada output imej.
Had imej:
- Modaliti input yang disokong: Teks dan imej (model tidak menerima audio atau video sebagai input penjanaan imej).
- Maksimum imej per prompt: 14 (untuk pratonton Gemini 3 Pro Image).
- Saiz imej maksimum (muat naik): 7 MB bagi setiap imej input.
- Nisbah aspek yang disokong: 1:1, 3:2, 16:9, 9:16, 21:9, dll.
Output imej / token: had tinggi, dengan 4K/4096px disokong.
Prestasi penanda aras
Ringkasan pendek: penanda aras awam/awal setakat ini kebanyakannya bersifat kualitatif/dipacu komuniti, tetapi secara konsisten melaporkan peningkatan ketara dalam resolusi, pengurangan artifak, dan kesetiaan fizikal berbanding nano-banana asal (Gemini 2.5 Flash Image). “Cabaran” bernama tertentu menunjukkan peningkatan visual yang jelas, namun belum ada jadual penanda aras berangka terpiawai (awam) daripada Google yang membandingkan v1 → v2 merentasi metrik penjanaan imej standard.
- Ujian komuniti kualitatif: Tepi yang lebih bersih, butiran mikro yang lebih tajam, warna yang lebih tepat, dan pematuhan prompt yang lebih setia (lebih sedikit prop terhalusinasi, watak lebih konsisten). Ujian tidak formal popular termasuk “Ujian Gelas Wain” dan “Cabaran Burger Kaca”, di mana GEMPIX2 (Nano Banana Pro) mengendalikan ketelusan dan pembiasan dengan jauh lebih baik berbanding binaan terdahulu.
- Pengendalian teks: Nano Banana Pro menunjukkan tipografi dan penempatan teks dalam imej yang nyata bertambah baik (kelemahan berterusan bagi banyak model imej). Perbandingan komuniti menunjukkan lebih sedikit glif terpapar yang kacau.
- Kadar pemprosesan / UX: kelajuan iterasi yang lebih pantas dan UX yang melakukan penambahbaikan berbilang peringkat di bahagian belakang supaya pengguna melihat hasil lulus pertama yang lebih boleh dipercayai (mengurangkan gulungan semula manual).
Had & risiko
- Penapis kandungan & pengesanan: Platform yang mengintegrasikan model (cth., Whisk/aplikasi pihak ketiga) mungkin mendayakan pengesanan selebriti atau rupa yang ketat dan menyekat keluaran tertentu, yang menjejaskan aliran kerja kreatif yang bergantung pada rupa selebriti yang realistik.
- Halusinasi / kes tepi penaakulan: walaupun bertambah baik, model masih boleh menghasilkan artifak yang tidak realistik secara fizikal, khususnya dengan teks simbolik padat dalam imej atau rajah yang sangat teknikal — walaupun NB2 kelihatan mengurangkan ralat ini berbanding versi terdahulu.
- Keselamatan & salah guna: model imej generatif boleh digunakan untuk mencipta kandungan bermasalah atau berbahaya. Google mengenakan kekangan, penapis kandungan, dan tanda air SynthID untuk membantu asal-usul; namun begitu, penyalahgunaan telah berlaku (kontroversi berprofil tinggi berkaitan imej yang dijana Nano Banana dalam konteks politik sensitif).
Perbandingan Nano Banana Pro dengan model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi mudah alih yang kukuh, penggabungan multi-imej, pembetulan kendiri iteratif, 2K asli/peningkatan skala 4K, berintegrasi rapat dengan aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk aliran kerja yang memerlukan suntingan boleh dipercayai, kesinambungan, dan integrasi dengan perkhidmatan Google.
- Midjourney — cemerlang dalam output artistik berstail dan kejuruteraan prompt dipacu komuniti; tidak lazim disasarkan untuk penggabungan multi-imej yang setepat foto atau saluran penyuntingan multimodal mendalam.
- Stable Diffusion / open weights — sepenuhnya terbuka, sangat boleh disesuaikan, dan boleh dihos secara setempat; ekosistem titik semak dan pelarasan halus merupakan kelebihan penentu untuk penyelidikan dan penggunaan luar talian. Kurang integrasi mudah alih “satu klik” dan koherens penyuntingan multi-imej yang kurang konsisten secara lalai berbanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini dinyatakan secara jelas sebagai pesaing Nano Banana, menekankan pemaparan yang sangat pantas, output 2K, dan sokongan untuk banyak imej rujukan (sehingga enam). Diposisikan sebagai alternatif untuk golongan pro/pencipta.
(Perbandingan ini pada aras tinggi; pilih yang sesuai dengan memadankan alat dengan aliran kerja anda: keterbukaan/kebolehsuaian → Stable Diffusion; seni berstail → Midjourney; penyuntingan mudah alih bersepadu dan konsisten dengan iterasi agresif → keluarga imej Nano Banana Pro/Gemini 3 Pro.)
Kes penggunaan dunia sebenar
- Penyuntingan foto mudah alih & penapis kreatif (integrasi Google Photos — penggayaan semula, penggabungan latar belakang, penggubahan semula potret).
- Aset pemasaran & iklan — penjanaan konsep pantas, watak jenama yang konsisten merentas berbilang bingkai/sudut.
- Seni konsep & papan cerita — penggabungan multi-imej membantu mengekalkan kesinambungan watak merentas panel.
- E-dagang / mockup produk — jana gambar produk yang konsisten dalam konteks/syarat pencahayaan berbeza.
- Prototip pantas untuk aset AR/VR — output 2K/4K berkualiti tinggi yang boleh ditingkat skala untuk kegunaan imersif.
- Cara mengakses API gemini-3-pro-image(Nano Banana Pro)
Langkah yang diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu
- Dapatkan kelayakan akses kunci API untuk antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan URL laman ini:
https://api.cometapi.com/
Kaedah penggunaan
- Pilih titik akhir “
gemini-3-pro-image” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan content—ini yang akan direspons oleh model.
- Proses respons API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk migrasi tanpa gangguan. Butiran utama:
- URL asas: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nama model:
gemini-3-pro-image - Pengesahan:
Bearer YOUR_CometAPI_API_KEYdalam pengepala - Jenis kandungan:
application/json