Google Nano Banana Pro (ID modello ufficiale gemini-3-pro-image-preview) è la variante di generazione/editing delle immagini di Gemini 3 Pro. È un modello di immagine di livello professionale per la fase di anteprima che aggiunge output 2K/4K, composizione multi-immagine ad alta fedeltà (fino a 14 immagini di riferimento, coerenza dei caratteri per fino a persone 5), una resa più efficace del testo nell'immagine e una ricerca basata su dati di fatto reali.
Caratteristiche di base
- Testo → Immagine: generazione completamente guidata dai prompt con forte aderenza ai prompt.
- Immagine → Immagine (modifiche): modifiche precise e mirate, mantenendo la coerenza tra soggetto e personaggio in più modifiche.
- Risoluzione massima di uscita: fino all 4K (esempi e dimensioni esatte dei pixel supportate dipendono dal rapporto di aspetto; l'API espone preimpostazioni 1K/2K/4K)
- Pianificazione iterativa e autocorrezione: una pipeline interna “multi-fase” che rileva e corregge gli errori visivi più comuni (prospettiva, testo, geometria fine).
- Rendering avanzato del testo nell'immagine: testo multilingue chiaro e leggibile (da brevi didascalie a lunghi paragrafi) adatto per poster, mockup e infografiche.
- 5 caratteri e fedeltà fino a 14 oggetti/immagini di riferimento in un unico flusso di lavoro.
- Filigrana / provenienza: tutte le immagini generate includono una filigrana SynthID; il modello incorpora metadati C2PA per la provenienza in alcune integrazioni di prodotto.
Versioni e denominazione delle immagini di Gemini 3 Pro
gemini-3-pro-image-previewgemini-3-pro-image
Dettagli tecnici
Architettura
- Lignaggio / spina dorsale: Nano Banana Pro sarà costruito sullo stack di immagini Gemini in evoluzione di Google, in particolare il nuovo Immagine Gemini 3 Pro / GEMPIX 2 architettura (un framework multimodale di immagini e testo ad alta capacità). Questa è un'evoluzione da Immagine Flash Gemini 2.5 (la “nano-banana” originale) in un modello di immagine multimodale nativo con capacità di ragionamento visivo-linguistico ampliate.
- Comportamento del modello: multimodalità nativa (immagine + testo + conoscenza del mondo), pipeline esplicite per la fusione multi-immagine e un pianificatore interno a fasi che perfeziona gli output su più passaggi anziché produrre un singolo campione statico. I primi report indicano un ragionamento geometrico/ottico più efficace (vetro, rifrazione) rispetto alle versioni precedenti.
- Pensiero / raffinamento interno: Il modello utilizza un processo di "pensiero" visibile internamente per perfezionare la composizione (l'API documenta questo comportamento e nota che tali passaggi interni non vengono addebitati come token di immagine finale).
- Messa a terra e strumenti: Supporta Cerca messa a terra (può incorporare i dati web nella generazione di diagrammi/infografiche). Supporta anche le istruzioni di sistema per un controllo più deterministico.
Parametri API chiave:
thinking_level(basso/alto) per scambiare latenza vs profondità di ragionamento;media_resolution(basso/medio/alto) per controllare i token di lettura dei dettagli/OCR delle immagini;generationConfig.imageConfigper controllare il rapporto d'aspetto/risoluzione nelle immagini in uscita.
Limiti delle immagini:
- Modalità di input supportate: Testo e immagini (il modello non accetta audio o video come input per la generazione di immagini).
- Numero massimo di immagini per prompt: 14 (per l'anteprima dell'immagine Gemini 3 Pro).
- Dimensione massima dell'immagine (caricamento): 7 MB per immagine di input.
- Proporzioni supportate: 1:1, 3:2, 16:9, 9:16, 21:9, ecc.
Immagini di output/token: limiti elevati, con supporto 4K/4096px.
Prestazioni di riferimento
Breve riassunto: I benchmark pubblici/precoci finora sono per lo più qualitativi/guidati dalla community, ma segnalano costantemente miglioramenti sostanziali in termini di risoluzione, riduzione degli artefatti e fedeltà fisica rispetto alla nano-banana originale (immagine Flash Gemini 2.5). Specifiche "sfide" denominate hanno mostrato chiari miglioramenti visivi, ma non esistono ancora tabelle di benchmark numerici (pubbliche) standardizzate da Google che confrontino v1 → v2 attraverso metriche standard di generazione di immagini.
- Test qualitativi della comunità: Bordi più netti, microdettagli più nitidi, colori più fedeli e una maggiore fedeltà ai prompt (meno oggetti di scena allucinati, personaggi più coerenti). Tra i test informali più popolari ci sono il cosiddetto "Wine Glass Test" e la "Glass Burger Challenge", in cui GEMPIX2 (Nano Banana Pro) gestisce la trasparenza e la rifrazione in modo notevolmente migliore rispetto alle versioni precedenti.
- Gestione del testo: Nano Banana Pro mostra una tipografia e un posizionamento del testo all'interno delle immagini visibilmente migliorati (un punto debole persistente per molti modelli di immagini). I confronti della community indicano un minor numero di glifi renderizzati in modo distorto.
- Capacità di elaborazione / UX: velocità di iterazione più rapida e un'esperienza utente che esegue un perfezionamento in più fasi sul back-end, in modo che gli utenti possano vedere risultati più affidabili al primo passaggio (riducendo le ripetizioni manuali).
Limitazioni e rischi
- Filtri e rilevamento dei contenuti: Le piattaforme che integrano il modello (ad esempio, Whisk/app di terze parti) potrebbero abilitare un rilevamento rigoroso di celebrità o somiglianze e bloccare determinati output, il che influisce sui flussi di lavoro creativi che si basano su somiglianze realistiche di celebrità.
- Casi limite di allucinazione/ragionamento: sebbene migliorato, il modello può ancora produrre artefatti fisicamente irrealistici, in particolare con testo simbolico denso all'interno di immagini o diagrammi altamente tecnici, anche se NB2 sembra ridurre questi errori rispetto alle versioni precedenti.
- Sicurezza e uso improprio: I modelli di immagini generative possono essere utilizzati per creare contenuti problematici o dannosi. Google applica vincoli, filtri sui contenuti e la filigrana SynthID per agevolare la provenienza; tuttavia, si sono verificati abusi (una controversia di alto profilo legata a un'immagine generata da Nano Banana in un contesto politicamente sensibile).
Come si confronta Nano Banana Pro con altri modelli
- Nano Banana Pro (immagine GEMPIX 2 / Gemini 3 Pro) — Forte integrazione con i dispositivi mobili, fusione multi-immagine, autocorrezione iterativa, upscaling 2K nativo/4K, strettamente integrato nelle app Google (Ricerca, Foto, Workspace/Gemini). Ideale per flussi di lavoro che richiedono modifiche affidabili, continuità e integrazione con i servizi Google.
- Metà viaggio — eccelle nelle produzioni artistiche stilizzate e nell'ingegneria immediata guidata dalla comunità; non è in genere mirato alla fusione multi-immagine con elevata accuratezza fotografica o a pipeline di editing multimodale approfondite.
- Diffusione stabile / pesi aperti — completamente aperto, altamente personalizzabile e ospitabile localmente; l'ecosistema di checkpoint e di ottimizzazione rappresenta un vantaggio decisivo per la ricerca e l'utilizzo offline. Minore integrazione mobile "one-click" e minore coerenza di editing multi-immagine rispetto a Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recentemente posizionato esplicitamente come concorrente di Nano Banana, enfatizzando il rendering ultraveloce, l'output 2K e il supporto per numerose immagini di riferimento (fino a sei). Posizionato come alternativa per professionisti/creatori.
(Questi confronti sono di alto livello; scegli un vincitore abbinando lo strumento al tuo flusso di lavoro: apertura/personalizzabilità → Diffusione stabile; arte stilizzata → Midjourney; editing mobile integrato e coerente con iterazione aggressiva → famiglia di immagini Nano Banana Pro/Gemini 3 Pro.)
Casi d'uso del mondo reale
- Modifica delle foto su dispositivi mobili e filtri creativi (Integrazioni Google Foto: restyling, fusione degli sfondi, ricomposizione dei ritratti).
- Risorse di marketing e pubblicitarie — rapida generazione di concetti, caratteri del marchio coerenti su più inquadrature/angolazioni.
- Concept art e storyboard — la fusione multi-immagine aiuta a mantenere la continuità dei personaggi nei riquadri.
- E-commerce / mockup di prodotti — generare scatti di prodotti coerenti in contesti/condizioni di illuminazione diversi.
- Prototipazione rapida per risorse AR/VR — uscite 2K/4K di alta qualità che possono essere ridimensionate per usi immersivi.
Come chiamare gemini-3-pro-image(Nano Banana Pro) API
Prezzi dell'API Nano Banana su CometAPI, sconto del 20% sul prezzo ufficiale:
| Prezzo | $0.19200 |
Passi richiesti
- Accedere cometapi.comSe non sei ancora un nostro utente, registrati prima
- Ottieni la chiave API delle credenziali di accesso dell'interfaccia. Fai clic su "Aggiungi token" nel token API nell'area personale, ottieni la chiave token: sk-xxxxx e invia.
- Ottieni l'URL di questo sito: https://api.cometapi.com/
Usa il metodo
- Selezionare l'opzione "
gemini-3-pro-image"endpoint" per inviare la richiesta API e impostarne il corpo. Il metodo e il corpo della richiesta sono reperibili nella documentazione API del nostro sito web. Il nostro sito web fornisce anche il test Apifox per vostra comodità. - Sostituire con la tua chiave CometAPI effettiva dal tuo account.
- Inserisci la tua domanda o richiesta nel campo contenuto: il modello risponderà a questa domanda.
- Elaborare la risposta API per ottenere la risposta generata.
CometAPI fornisce un'API REST completamente compatibile, per una migrazione senza interruzioni. Dettagli chiave:
- URL di base: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nomi dei modelli:
gemini-3-pro-image - Autenticazione:
Bearer YOUR_CometAPI_API_KEYtestata - Tipo di contenuto:
application/json.
Vedi anche API immagine Flash Gemini 2.5 (Nano-Banana)



