API Gemini 3 Pro Image (Nano Banana Pro)

CometAPI
AnnaDec 10, 2025
API Gemini 3 Pro Image (Nano Banana Pro)

Google Nano Banana Pro (ID modello ufficiale gemini-3-pro-image-preview) è la variante di generazione/editing delle immagini di Gemini 3 Pro. È un modello di immagine di livello professionale per la fase di anteprima che aggiunge output 2K/4K, composizione multi-immagine ad alta fedeltà (fino a 14 immagini di riferimento, coerenza dei caratteri per fino a persone 5), una resa più efficace del testo nell'immagine e una ricerca basata su dati di fatto reali.

Caratteristiche di base

  • Testo → Immagine: generazione completamente guidata dai prompt con forte aderenza ai prompt.
  • Immagine → Immagine (modifiche): modifiche precise e mirate, mantenendo la coerenza tra soggetto e personaggio in più modifiche.
  • Risoluzione massima di uscita: fino all 4K (esempi e dimensioni esatte dei pixel supportate dipendono dal rapporto di aspetto; l'API espone preimpostazioni 1K/2K/4K)
  • Pianificazione iterativa e autocorrezione: una pipeline interna “multi-fase” che rileva e corregge gli errori visivi più comuni (prospettiva, testo, geometria fine).
  • Rendering avanzato del testo nell'immagine: testo multilingue chiaro e leggibile (da brevi didascalie a lunghi paragrafi) adatto per poster, mockup e infografiche.
  • 5 caratteri e fedeltà fino a 14 oggetti/immagini di riferimento in un unico flusso di lavoro.
  • Filigrana / provenienza: tutte le immagini generate includono una filigrana SynthID; il modello incorpora metadati C2PA per la provenienza in alcune integrazioni di prodotto.

Versioni e denominazione delle immagini di Gemini 3 Pro

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Dettagli tecnici

Architettura

  • Lignaggio / spina dorsale: Nano Banana Pro sarà costruito sullo stack di immagini Gemini in evoluzione di Google, in particolare il nuovo Immagine Gemini 3 Pro / GEMPIX 2 architettura (un framework multimodale di immagini e testo ad alta capacità). Questa è un'evoluzione da Immagine Flash Gemini 2.5 (la “nano-banana” originale) in un modello di immagine multimodale nativo con capacità di ragionamento visivo-linguistico ampliate.
  • Comportamento del modello: multimodalità nativa (immagine + testo + conoscenza del mondo), pipeline esplicite per la fusione multi-immagine e un pianificatore interno a fasi che perfeziona gli output su più passaggi anziché produrre un singolo campione statico. I primi report indicano un ragionamento geometrico/ottico più efficace (vetro, rifrazione) rispetto alle versioni precedenti.
  • Pensiero / raffinamento interno: Il modello utilizza un processo di "pensiero" visibile internamente per perfezionare la composizione (l'API documenta questo comportamento e nota che tali passaggi interni non vengono addebitati come token di immagine finale).
  • Messa a terra e strumenti: Supporta Cerca messa a terra (può incorporare i dati web nella generazione di diagrammi/infografiche). Supporta anche le istruzioni di sistema per un controllo più deterministico.

Parametri API chiave:

  • thinking_level (basso/alto) per scambiare latenza vs profondità di ragionamento;
  • media_resolution (basso/medio/alto) per controllare i token di lettura dei dettagli/OCR delle immagini;
  • generationConfig.imageConfig per controllare il rapporto d'aspetto/risoluzione nelle immagini in uscita.

Limiti delle immagini:

  • Modalità di input supportate: Testo e immagini (il modello non accetta audio o video come input per la generazione di immagini).
  • Numero massimo di immagini per prompt: 14 (per l'anteprima dell'immagine Gemini 3 Pro).
  • Dimensione massima dell'immagine (caricamento): 7 MB per immagine di input.
  • Proporzioni supportate: 1:1, 3:2, 16:9, 9:16, 21:9, ecc.

Immagini di output/token: limiti elevati, con supporto 4K/4096px.

Prestazioni di riferimento

Breve riassunto: I benchmark pubblici/precoci finora sono per lo più qualitativi/guidati dalla community, ma segnalano costantemente miglioramenti sostanziali in termini di risoluzione, riduzione degli artefatti e fedeltà fisica rispetto alla nano-banana originale (immagine Flash Gemini 2.5). Specifiche "sfide" denominate hanno mostrato chiari miglioramenti visivi, ma non esistono ancora tabelle di benchmark numerici (pubbliche) standardizzate da Google che confrontino v1 → v2 attraverso metriche standard di generazione di immagini.

  • Test qualitativi della comunità: Bordi più netti, microdettagli più nitidi, colori più fedeli e una maggiore fedeltà ai prompt (meno oggetti di scena allucinati, personaggi più coerenti). Tra i test informali più popolari ci sono il cosiddetto "Wine Glass Test" e la "Glass Burger Challenge", in cui GEMPIX2 (Nano Banana Pro) gestisce la trasparenza e la rifrazione in modo notevolmente migliore rispetto alle versioni precedenti.
  • Gestione del testo: Nano Banana Pro mostra una tipografia e un posizionamento del testo all'interno delle immagini visibilmente migliorati (un punto debole persistente per molti modelli di immagini). I confronti della community indicano un minor numero di glifi renderizzati in modo distorto.
  • Capacità di elaborazione / UX: velocità di iterazione più rapida e un'esperienza utente che esegue un perfezionamento in più fasi sul back-end, in modo che gli utenti possano vedere risultati più affidabili al primo passaggio (riducendo le ripetizioni manuali).

Limitazioni e rischi

  • Filtri e rilevamento dei contenuti: Le piattaforme che integrano il modello (ad esempio, Whisk/app di terze parti) potrebbero abilitare un rilevamento rigoroso di celebrità o somiglianze e bloccare determinati output, il che influisce sui flussi di lavoro creativi che si basano su somiglianze realistiche di celebrità.
  • Casi limite di allucinazione/ragionamento: sebbene migliorato, il modello può ancora produrre artefatti fisicamente irrealistici, in particolare con testo simbolico denso all'interno di immagini o diagrammi altamente tecnici, anche se NB2 sembra ridurre questi errori rispetto alle versioni precedenti.
  • Sicurezza e uso improprio: I modelli di immagini generative possono essere utilizzati per creare contenuti problematici o dannosi. Google applica vincoli, filtri sui contenuti e la filigrana SynthID per agevolare la provenienza; tuttavia, si sono verificati abusi (una controversia di alto profilo legata a un'immagine generata da Nano Banana in un contesto politicamente sensibile).

Come si confronta Nano Banana Pro con altri modelli

  • Nano Banana Pro (immagine GEMPIX 2 / Gemini 3 Pro) — Forte integrazione con i dispositivi mobili, fusione multi-immagine, autocorrezione iterativa, upscaling 2K nativo/4K, strettamente integrato nelle app Google (Ricerca, Foto, Workspace/Gemini). Ideale per flussi di lavoro che richiedono modifiche affidabili, continuità e integrazione con i servizi Google.
  • Metà viaggio — eccelle nelle produzioni artistiche stilizzate e nell'ingegneria immediata guidata dalla comunità; non è in genere mirato alla fusione multi-immagine con elevata accuratezza fotografica o a pipeline di editing multimodale approfondite.
  • Diffusione stabile / pesi aperti — completamente aperto, altamente personalizzabile e ospitabile localmente; l'ecosistema di checkpoint e di ottimizzazione rappresenta un vantaggio decisivo per la ricerca e l'utilizzo offline. Minore integrazione mobile "one-click" e minore coerenza di editing multi-immagine rispetto a Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — recentemente posizionato esplicitamente come concorrente di Nano Banana, enfatizzando il rendering ultraveloce, l'output 2K e il supporto per numerose immagini di riferimento (fino a sei). Posizionato come alternativa per professionisti/creatori.

(Questi confronti sono di alto livello; scegli un vincitore abbinando lo strumento al tuo flusso di lavoro: apertura/personalizzabilità → Diffusione stabile; arte stilizzata → Midjourney; editing mobile integrato e coerente con iterazione aggressiva → famiglia di immagini Nano Banana Pro/Gemini 3 Pro.)


Casi d'uso del mondo reale

  • Modifica delle foto su dispositivi mobili e filtri creativi (Integrazioni Google Foto: restyling, fusione degli sfondi, ricomposizione dei ritratti).
  • Risorse di marketing e pubblicitarie — rapida generazione di concetti, caratteri del marchio coerenti su più inquadrature/angolazioni.
  • Concept art e storyboard — la fusione multi-immagine aiuta a mantenere la continuità dei personaggi nei riquadri.
  • E-commerce / mockup di prodotti — generare scatti di prodotti coerenti in contesti/condizioni di illuminazione diversi.
  • Prototipazione rapida per risorse AR/VR — uscite 2K/4K di alta qualità che possono essere ridimensionate per usi immersivi.

Come chiamare gemini-3-pro-image(Nano Banana Pro)  API

Prezzi dell'API Nano Banana su CometAPI, sconto del 20% sul prezzo ufficiale:

Prezzo$0.19200

Passi richiesti

  • Accedere cometapi.comSe non sei ancora un nostro utente, registrati prima
  • Ottieni la chiave API delle credenziali di accesso dell'interfaccia. Fai clic su "Aggiungi token" nel token API nell'area personale, ottieni la chiave token: sk-xxxxx e invia.
  • Ottieni l'URL di questo sito: https://api.cometapi.com/

Usa il metodo

  1. Selezionare l'opzione "gemini-3-pro-image"endpoint" per inviare la richiesta API e impostarne il corpo. Il metodo e il corpo della richiesta sono reperibili nella documentazione API del nostro sito web. Il nostro sito web fornisce anche il test Apifox per vostra comodità.
  2. Sostituire con la tua chiave CometAPI effettiva dal tuo account.
  3. Inserisci la tua domanda o richiesta nel campo contenuto: il modello risponderà a questa domanda.
  4. Elaborare la risposta API per ottenere la risposta generata.

CometAPI fornisce un'API REST completamente compatibile, per una migrazione senza interruzioni. Dettagli chiave:

Vedi anche API immagine Flash Gemini 2.5 (Nano-Banana)

SHARE THIS BLOG

500+ Modelli in Una API

Fino al 20% di sconto