Ciri-ciri asas
- Teks → Imej: penjanaan berasaskan prompt sepenuhnya dengan pematuhan prompt yang kukuh.
- Imej → Imej (suntingan): suntingan halus dan terarah sambil mengekalkan konsistensi subjek/watak merentas pelbagai suntingan.
- Resolusi output maksimum: sehingga 4K (contoh dan saiz piksel tepat yang disokong bergantung pada nisbah aspek; API menyediakan pratetap 1K/2K/4K)
- Perancangan berulang & pembetulan kendiri: saluran “multi-stage” dalaman yang mengesan dan membetulkan kesilapan visual lazim (perspektif, teks, geometri halus).
- Penyampaian teks dalam imej termaju: teks berbilang bahasa yang jelas dan mudah dibaca (daripada kapsyen pendek hingga perenggan panjang) sesuai untuk poster, mockup dan infografik.
- 5 watak dan ketelitian untuk sehingga 14 objek/imej rujukan dalam satu aliran kerja.
- Tanda air / provenans: semua imej terjana merangkumi tanda air SynthID; model menyematkan metadata C2PA untuk provenans dalam sesetengah integrasi produk.
Versi & penamaan Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Butiran teknikal
Seni bina
- Salasilah / rangka tulang belakang: Nano Banana Pro dibina di atas rangka imej Gemini Google yang terus berkembang — khususnya seni bina Gemini 3 Pro Image / GEMPIX 2 baharu (rangka kerja imej+teks multimodal berkapasiti lebih tinggi). Ini ialah evolusi daripada Gemini 2.5 Flash Image (“nano-banana” asal) kepada model imej multimodal asli dengan keupayaan penaakulan penglihatan-bahasa yang diperluas.
- Tingkah laku model: multimodal asli (imej + teks + pengetahuan dunia), saluran eksplisit untuk gabungan berbilang imej, dan perancang berperingkat dalaman yang memperhalus output melalui beberapa lelaran berbanding menghasilkan sampel statik tunggal. Laporan awal menunjukkan penaakulan geometri/optik yang lebih kukuh (kaca, pembiasan) berbanding versi terdahulu.
- Thinking / penapisan dalaman: Model menggunakan proses “thinking” yang kelihatan secara dalaman untuk memperhalus komposisi (API mendokumenkan tingkah laku ini dan menyatakan langkah dalaman tersebut tidak dicaj sebagai token imej akhir).
- Grounding & alat: Menyokong Search grounding (boleh menggabungkan fakta web ke dalam penjanaan diagram/infografik). Ia juga menyokong arahan sistem untuk kawalan yang lebih deterministik.
Parameter API utama:
thinking_level(rendah / tinggi) untuk menukar antara kependaman dan kedalaman penaakulan;media_resolution(rendah/sederhana/tinggi) untuk mengawal token pembacaan OCR/perincian imej;generationConfig.imageConfiguntuk mengawal nisbah aspek/resolusi dalam output imej.
Had imej:
- Modaliti input yang disokong: Teks dan imej (model tidak menerima audio atau video sebagai input penjanaan imej).
- Imej maksimum per prompt: 14 (untuk pratonton Gemini 3 Pro Image).
- Saiz imej maksimum (muat naik): 7 MB setiap imej input.
- Nisbah aspek yang disokong: 1:1, 3:2, 16:9, 9:16, 21:9, dsb.
Imej keluaran / token: had yang tinggi, dengan 4K/4096px disokong.
Prestasi penanda aras
Ringkasan pendek: penanda aras awam/awal setakat ini kebanyakannya bersifat kualitatif / didorong komuniti, tetapi secara konsisten melaporkan peningkatan ketara dalam resolusi, pengurangan artifak, dan kesetiaan fizikal berbanding nano-banana asal (Gemini 2.5 Flash Image). “Cabaran” bernama tertentu menunjukkan peningkatan visual yang jelas, tetapi belum ada jadual penanda aras berangka terpiawai (awam) daripada Google yang membandingkan v1 → v2 merentasi metrik penjanaan imej standard.
- Ujian komuniti kualitatif: Tepi lebih bersih, perincian mikro lebih tajam, warna lebih setia, dan pematuhan prompt yang lebih baik (kurang prop terhalusinasi, watak lebih konsisten). Ujian tidak rasmi popular termasuk “Wine Glass Test” dan “Glass Burger Challenge”, di mana GEMPIX2 (Nano Banana Pro) mengendalikan ketelusan dan pembiasan dengan jauh lebih baik berbanding binaan terdahulu.
- Pengendalian teks: Nano Banana Pro menunjukkan tipografi dan penempatan teks dalam imej yang jelas dipertingkat (kelemahan berterusan untuk banyak model imej). Perbandingan komuniti menunjukkan lebih sedikit glif terjana yang tersasar/tergagal.
- Kadar pemprosesan / UX: kelajuan lelaran yang lebih pantas dan UX yang menjalankan penapisan berbilang peringkat di bahagian belakang agar pengguna melihat hasil hantaran pertama yang lebih boleh dipercayai (mengurangkan keperluan ulang jana manual).
Had & risiko
- Penapis kandungan & pengesanan: Platform yang mengintegrasikan model (cth., Whisk/aplikasi pihak ketiga) mungkin mengaktifkan pengesanan selebriti atau rupa paras yang ketat dan menyekat keluaran tertentu, yang menjejaskan aliran kerja kreatif yang bergantung pada rupa paras selebriti yang realistik.
- Halusinasi / kes pinggiran penaakulan: walaupun telah dipertingkat, model masih boleh menghasilkan artifak yang tidak realistik secara fizikal, terutamanya dengan teks simbolik yang padat dalam imej atau diagram yang sangat teknikal — walaupun NB2 kelihatan mengurangkan ralat ini berbanding versi terdahulu.
- Keselamatan & penyalahgunaan: model penjanaan imej boleh digunakan untuk mencipta kandungan bermasalah atau berbahaya. Google menerapkan kekangan, penapis kandungan, dan tanda air SynthID untuk membantu provenans; namun, penyalahgunaan masih berlaku (kontroversi berprofil tinggi berkaitan imej yang dijana Nano Banana dalam konteks politik sensitif).
Perbandingan Nano Banana Pro dengan model lain
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — integrasi mudah alih yang mantap, gabungan berbilang imej, pembetulan kendiri berlelaran, 2K native/4K upscaling, diintegrasi rapat ke aplikasi Google (Search, Photos, Workspace/Gemini). Terbaik untuk aliran kerja yang memerlukan suntingan boleh dipercayai, kesinambungan, dan integrasi dengan perkhidmatan Google.
- Midjourney — cemerlang dalam hasil seni bergaya dan kejuruteraan prompt yang didorong komuniti; biasanya tidak disasarkan untuk gabungan berbilang imej yang tepat seperti foto atau saluran suntingan multimodal yang mendalam.
- Stable Diffusion / open weights — sepenuhnya terbuka, sangat boleh disesuaikan, dan boleh dihoskan secara setempat; ekosistem checkpoint dan penalaan halus ialah kelebihan penentu untuk penyelidikan dan penggunaan luar talian. Kurang integrasi mudah alih “sekali klik” dan kurang koherens suntingan berbilang imej secara lalai berbanding Nano Banana Pro.
- Seedream 4.0 (ByteDance) — baru-baru ini diposisikan secara jelas sebagai pesaing Nano Banana, menekankan pemaparan ultra-pantas, output 2K, dan sokongan untuk banyak imej rujukan (sehingga enam). Diposisikan sebagai alternatif pro/pencipta.
(Perbandingan ini adalah peringkat tinggi; pilih pemenang dengan memadankan alat kepada aliran kerja anda: keterbukaan/kebolehsuaian → Stable Diffusion; seni bergaya → Midjourney; penyuntingan mudah alih bersepadu dan konsisten dengan lelaran agresif → keluarga Nano Banana Pro/Gemini 3 Pro Image.)
Kes penggunaan dunia sebenar
- Suntingan foto mudah alih & penapis kreatif (integrasi Google Photos — pengarangan semula gaya, gabungan latar belakang, penggubahan semula potret).
- Aset pemasaran & iklan — penjanaan konsep pantas, watak jenama yang konsisten merentas berbilang bingkai/sudut.
- Seni konsep & papan cerita — gabungan berbilang imej membantu mengekalkan kesinambungan watak merentas panel.
- E-dagang / mockup produk — jana foto produk yang konsisten dalam konteks/keadaan pencahayaan berbeza.
- Pembuatan prototaip pantas untuk aset AR/VR — output 2K/4K berkualiti tinggi yang boleh dinaikkan skala untuk kegunaan imersif.
- Cara mengakses gemini-3-pro-image(Nano Banana Pro) API
Langkah diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu
- Dapatkan kunci API kelayakan akses untuk antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan URL laman ini: https://api.cometapi.com/
Kaedah penggunaan
- Pilih “
gemini-3-pro-image” endpoint untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke medan content—ini yang akan dijawab oleh model.
- Proses respons API untuk mendapatkan jawapan yang dijana.
CometAPI menyediakan REST API yang serasi sepenuhnya—untuk migrasi tanpa halangan. Butiran utama :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.