Funzionalità di base
- Testo → Immagine: generazione completa guidata dal prompt con forte aderenza al prompt.
- Immagine → Immagine (modifiche): modifiche fini e mirate con mantenimento della coerenza del soggetto/personaggio su più iterazioni.
- Risoluzione massima in output: fino a 4K (gli esempi e le dimensioni esatte supportate dipendono dal rapporto d’aspetto; l’API espone preset 1K/2K/4K)
- Pianificazione iterativa e autocorrezione: pipeline interna “multi-stage” che rileva e corregge errori visivi comuni (prospettiva, testo, geometrie fini).
- Rendering del testo avanzato nell’immagine: testo chiaro e leggibile in più lingue (da brevi didascalie a lunghi paragrafi) adatto a poster, mockup e infografiche.
- 5 personaggi e fedeltà fino a 14 oggetti/immagini di riferimento in un singolo flusso di lavoro.
- Watermarking / provenienza: tutte le immagini generate includono una filigrana SynthID; il modello incorpora metadati C2PA per la provenienza in alcune integrazioni di prodotto.
Versioni e denominazioni di Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Dettagli tecnici
Architettura
- Lignaggio / backbone: Nano Banana Pro è costruito sull’evolutivo stack di immagini Gemini di Google — in particolare sulla nuova architettura Gemini 3 Pro Image / GEMPIX 2 (un framework multimodale immagine+testo ad alta capacità). È un’evoluzione di Gemini 2.5 Flash Image (l’originale “nano-banana”) verso un modello di immagini nativamente multimodale con capacità ampliate di ragionamento visivo-linguistico.
- Comportamento del modello: multimodalità nativa (immagine + testo + conoscenza del mondo), pipeline esplicite per fusione multi-immagine e un pianificatore interno a fasi che perfeziona gli output in più passaggi anziché produrre un singolo campione statico. Le prime segnalazioni indicano un ragionamento geometrico/ottico più solido (vetro, rifrazione) rispetto alle versioni precedenti.
- Pensiero / raffinamento interno: il modello utilizza internamente un processo visibile di “thinking” per perfezionare la composizione (la documentazione dell’API descrive questo comportamento e precisa che tali passaggi interni non vengono conteggiati come token immagine finali).
- Grounding & strumenti: supporta il Search grounding (può incorporare fatti dal web nella generazione di diagrammi/infografiche). Supporta anche istruzioni di sistema per un controllo più deterministico.
Parametri API chiave:
thinking_level(low / high) per bilanciare latenza e profondità di ragionamento;media_resolution(low/medium/high) per controllare i token di lettura OCR/dettaglio dell’immagine;generationConfig.imageConfigper controllare rapporto d’aspetto/risoluzione negli output immagine.
Limiti immagine:
- Modalità di input supportate: Testo e immagini (il modello non accetta audio o video come input per la generazione di immagini).
- Numero massimo di immagini per prompt: 14 (per la preview di Gemini 3 Pro Image).
- Dimensione massima immagine (upload): 7 MB per immagine in input.
- Rapporti d’aspetto supportati: 1:1, 3:2, 16:9, 9:16, 21:9, ecc.
Immagini di output / token: limiti elevati, con supporto fino a 4K/4096px.
Prestazioni nei benchmark
Breve sintesi: i benchmark pubblici/inziali sono per lo più qualitativi / guidati dalla community, ma riportano costantemente notevoli miglioramenti in risoluzione, riduzione degli artefatti e fedeltà fisica rispetto al nano-banana originale (Gemini 2.5 Flash Image). Alcune “challenge” note mostrano progressi visivi evidenti, ma non ci sono ancora tabelle di benchmark numerici standardizzate (pubbliche) di Google che confrontino v1 → v2 su metriche standard di generazione di immagini.
- Test qualitativi della community: bordi più puliti, micro-dettagli più nitidi, colori più fedeli e maggiore aderenza al prompt (meno oggetti allucinati, personaggi più coerenti). Test informali popolari includono il cosiddetto “Wine Glass Test” e la “Glass Burger Challenge”, dove GEMPIX2 (Nano Banana Pro) gestisce meglio trasparenze e rifrazioni rispetto alle build precedenti.
- Gestione del testo: Nano Banana Pro mostra tipografia e posizionamento del testo visibilmente migliorati all’interno delle immagini (storico punto debole di molti modelli di immagini). I confronti della community indicano meno glifi renderizzati illeggibili.
- Throughput / UX: velocità di iterazione più elevata e una UX che esegue raffinamenti multi-stadio nel back-end, in modo che gli utenti vedano risultati iniziali più affidabili (riducendo i riavvii manuali).
Limitazioni e rischi
- Filtri dei contenuti e rilevamento: le piattaforme che integrano il modello (ad es., Whisk/app di terze parti) possono abilitare un rigoroso rilevamento di celebrità o somiglianze e bloccare determinati output, influenzando i flussi creativi che si basano su somiglianze realistiche di celebrità.
- Allucinazioni / casi limite di ragionamento: sebbene migliorato, il modello può ancora produrre artefatti fisicamente irrealistici, soprattutto con testi simbolici densi all’interno delle immagini o diagrammi altamente tecnici — anche se NB2 sembra ridurre questi errori rispetto alle versioni precedenti.
- Sicurezza & uso improprio: i modelli di generazione di immagini possono essere usati per creare contenuti problematici o dannosi. Google applica vincoli, filtri dei contenuti e la filigrana SynthID per contribuire alla provenienza; ciononostante si sono verificati abusi (controversia di alto profilo legata a un’immagine generata da Nano Banana in un contesto politicamente sensibile).
Come si posiziona Nano Banana Pro rispetto ad altri modelli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integrazione mobile, fusione multi-immagine, autocorrezione iterativa, 2K nativo/upscaling 4K, integrazione stretta nelle app Google (Search, Photos, Workspace/Gemini). Ideale per flussi che richiedono modifiche affidabili, continuità e integrazione con i servizi Google.
- Midjourney — eccelle in output artistici stilizzati e nel prompt engineering guidato dalla community; non è tipicamente mirato a una fusione multi-immagine fotorealistica o a pipeline di editing multimodali profonde.
- Stable Diffusion / pesi open — completamente open, altamente personalizzabile e ospitabile in locale; l’ecosistema di checkpoint e fine-tuning è un vantaggio decisivo per ricerca e uso offline. Meno integrazione “one-click” su mobile e coerenza di editing multi-immagine meno costante out‑of‑the‑box rispetto a Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recentemente posizionato esplicitamente come concorrente di Nano Banana, enfatizza rendering ultra‑rapido, output 2K e supporto per molte immagini di riferimento (fino a sei). Pensato come alternativa per professionisti/creator.
(Questi confronti sono di alto livello; scegli un vincitore abbinando lo strumento al tuo flusso di lavoro: apertura/personalizzabilità → Stable Diffusion; arte stilizzata → Midjourney; editing mobile integrato e coerente con forte iterazione → famiglia Nano Banana Pro / Gemini 3 Pro Image.)
Casi d’uso reali
- Editing fotografico mobile e filtri creativi (integrazioni con Google Photos — restyling, fusione sfondi, ricomposizione ritratti).
- Asset di marketing e advertising — generazione rapida di concept, personaggi di brand coerenti su più frame/angolazioni.
- Concept art e storyboard — la fusione multi-immagine aiuta a mantenere la continuità dei personaggi tra i pannelli.
- E-commerce / mockup di prodotto — genera scatti prodotto coerenti in contesti/condizioni di illuminazione differenti.
- Prototipazione rapida per asset AR/VR — output 2K/4K di alta qualità che possono essere upscalati per usi immersivi.
- Come accedere all’API di
gemini-3-pro-image(Nano Banana Pro)
Passaggi necessari
- Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima.
- Ottieni la chiave API di credenziali di accesso dell’interfaccia. Clicca “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e invia.
- Ottieni l’URL di questo sito:
https://api.cometapi.com/
Metodo d’uso
- Seleziona l’endpoint “
gemini-3-pro-image” per inviare la richiesta API e imposta il body della richiesta. Il metodo e il body della richiesta sono riportati nella documentazione API del nostro sito. Il nostro sito fornisce anche un test Apifox per tua comodità. - Sostituisci <YOUR_API_KEY> con la tua CometAPI key effettiva dal tuo account.
- Inserisci la tua domanda o richiesta nel campo content — è a questo che il modello risponderà.
- Elabora la risposta dell’API per ottenere la risposta generata.
CometAPI fornisce una REST API pienamente compatibile — per una migrazione senza soluzione di continuità. Dettagli principali:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.