Funzionalità di base
- Testo → Immagine: generazione completa guidata da prompt con forte aderenza al prompt.
- Immagine → Immagine (modifiche): modifiche fini e mirate con mantenimento della coerenza del soggetto/personaggio attraverso più modifiche.
- Risoluzione massima di output: fino a 4K (gli esempi e le dimensioni esatte dei pixel supportate dipendono dal rapporto d’aspetto; l’API espone preset 1K/2K/4K)
- Pianificazione iterativa e auto-correzione: una pipeline interna “multi-stage” che rileva e corregge i comuni errori visivi (prospettiva, testo, geometria fine).
- Rendering avanzato del testo nell’immagine: testo multilingue chiaro e leggibile (da brevi didascalie a lunghi paragrafi) adatto per poster, mockup e infografiche.
- 5 personaggi e fedeltà fino a 14 oggetti/immagini di riferimento in un singolo flusso di lavoro.
- Watermark / provenienza: tutte le immagini generate includono un watermark SynthID; il modello incorpora metadati C2PA per la provenienza in alcune integrazioni di prodotto.
Versioni e denominazione di Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Dettagli tecnici
Architettura
- Lineage / backbone: Nano Banana Pro è costruito sullo stack di immagini Gemini in evoluzione di Google — in particolare sulla nuova architettura Gemini 3 Pro Image / GEMPIX 2 (un framework multimodale immagine+testo a maggiore capacità). Si tratta di un’evoluzione di Gemini 2.5 Flash Image (l’originale “nano-banana”) verso un modello di immagini nativamente multimodale con capacità ampliate di ragionamento visione-linguaggio.
- Comportamento del modello: multimodalità nativa (immagine + testo + conoscenza del mondo), pipeline esplicite per la fusione di più immagini e un planner interno a fasi che rifinisce gli output in più passaggi invece di produrre un singolo campione statico. I primi report indicano un ragionamento geometrico/ottico più forte (vetro, rifrazione) rispetto alle versioni precedenti.
- Thinking / affinamento interno: il modello utilizza internamente un processo di “thinking” visibile per affinare la composizione (la documentazione API descrive questo comportamento e nota che questi passaggi interni non vengono addebitati come token immagine finali).
- Grounding e strumenti: supporta il Search grounding (può incorporare fatti dal web nella generazione di diagrammi/infografiche). Supporta inoltre istruzioni di sistema per un controllo più deterministico.
Parametri API principali:
thinking_level(low / high) per bilanciare latenza e profondità del ragionamento;media_resolution(low/medium/high) per controllare i token di lettura OCR/dettaglio delle immagini;generationConfig.imageConfigper controllare rapporto d’aspetto/risoluzione negli output immagine.
Limiti delle immagini:
- Modalità di input supportate: testo e immagini (il modello non accetta audio o video come input per la generazione di immagini).
- Numero massimo di immagini per prompt: 14 (per l’anteprima Gemini 3 Pro Image).
- Dimensione massima immagine (upload): 7 MB per immagine di input.
- Rapporti d’aspetto supportati: 1:1, 3:2, 16:9, 9:16, 21:9, ecc.
Immagini di output / token: limiti elevati, con supporto per 4K/4096px.
Prestazioni nei benchmark
Breve sintesi: i benchmark pubblici/inziali finora sono per lo più qualitativi o guidati dalla community, ma riportano costantemente miglioramenti sostanziali in risoluzione, riduzione degli artefatti e fedeltà fisica rispetto al nano-banana originale (Gemini 2.5 Flash Image). Sfide specifiche e note hanno mostrato chiari miglioramenti visivi, ma non esistono ancora tabelle di benchmark numeriche standardizzate (pubbliche) da parte di Google che confrontino v1 → v2 sulle metriche standard di generazione di immagini.
- Test qualitativi della community: bordi più puliti, micro-dettagli più nitidi, colori più fedeli e maggiore aderenza al prompt (meno oggetti allucinati, personaggi più coerenti). Tra i test informali più popolari ci sono il cosiddetto “Wine Glass Test” e la “Glass Burger Challenge”, in cui GEMPIX2 (Nano Banana Pro) gestisce trasparenza e rifrazione in modo nettamente migliore rispetto alle build precedenti.
- Gestione del testo: Nano Banana Pro mostra una tipografia e un posizionamento del testo all’interno delle immagini visibilmente migliorati (una debolezza persistente per molti modelli di immagini). I confronti della community indicano meno glifi renderizzati in modo errato.
- Throughput / UX: velocità di iterazione più rapida e una UX che esegue il raffinamento multi-stage sul back end, così gli utenti vedono risultati del primo passaggio più affidabili (riducendo i reroll manuali).
Limitazioni e rischi
- Filtri dei contenuti e rilevamento: le piattaforme che integrano il modello (ad es. Whisk/app di terze parti) possono abilitare un rigoroso rilevamento di celebrità o somiglianze e bloccare determinati output, il che influisce sui flussi creativi che si basano su somiglianze realistiche con celebrità.
- Allucinazioni / casi limite di ragionamento: sebbene migliorato, il modello può ancora produrre artefatti fisicamente irrealistici, soprattutto con testo simbolico denso all’interno delle immagini o diagrammi altamente tecnici — anche se NB2 sembra ridurre questi errori rispetto alle versioni precedenti.
- Sicurezza e uso improprio: i modelli generativi di immagini possono essere usati per creare contenuti problematici o dannosi. Google applica vincoli, filtri dei contenuti e il watermark SynthID per aiutare la provenienza; tuttavia, si sono comunque verificati abusi (controversia di alto profilo legata a un’immagine generata da Nano Banana in un contesto politicamente sensibile).
Come Nano Banana Pro si confronta con altri modelli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integrazione mobile, fusione multi-immagine, auto-correzione iterativa, 2K nativo/upsampling 4K, strettamente integrato nelle app Google (Search, Photos, Workspace/Gemini). Ideale per flussi di lavoro che richiedono modifiche affidabili, continuità e integrazione con i servizi Google.
- Midjourney — eccelle negli output artistici stilizzati e nel prompt engineering guidato dalla community; in genere non è orientato alla fusione multi-immagine foto-realistica o a pipeline profonde di editing multimodale.
- Stable Diffusion / open weights — completamente aperto, altamente personalizzabile e ospitabile localmente; l’ecosistema di checkpoint e fine-tuning rappresenta un vantaggio decisivo per ricerca e utilizzo offline. Meno integrazione mobile “one-click” e meno coerenza immediata nell’editing multi-immagine rispetto a Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recentemente posizionato esplicitamente come concorrente di Nano Banana, con enfasi su rendering ultra-rapido, output 2K e supporto per molte immagini di riferimento (fino a sei). Posizionato come alternativa professionale/per creator.
(Questi confronti sono di alto livello; scegli il vincitore in base al tuo flusso di lavoro: apertura/personalizzazione → Stable Diffusion; arte stilizzata → Midjourney; editing mobile integrato e coerente con iterazione aggressiva → Nano Banana Pro / famiglia Gemini 3 Pro Image.)
Casi d’uso reali
- Fotoritocco mobile e filtri creativi (integrazioni Google Photos — restyling, fusione dello sfondo, ricomposizione del ritratto).
- Asset di marketing e pubblicitari — rapida generazione di concetti, personaggi di brand coerenti in più fotogrammi/angolazioni.
- Concept art e storyboard — la fusione multi-immagine aiuta a mantenere la continuità dei personaggi tra i pannelli.
- E-commerce / mockup di prodotto — genera scatti di prodotto coerenti in diversi contesti/condizioni di illuminazione.
- Prototipazione rapida per asset AR/VR — output 2K/4K di alta qualità che possono essere upscalati per usi immersivi.
- Come accedere all’API gemini-3-pro-image(Nano Banana Pro)
Passaggi richiesti
- Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima.
- Ottieni la credenziale di accesso, ovvero la chiave API dell’interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e inviala.
- Ottieni l’URL di questo sito: https://api.cometapi.com/
Metodo d’uso
- Seleziona l’endpoint “
gemini-3-pro-image” per inviare la richiesta API e imposta il request body. Il metodo della richiesta e il request body si ottengono dalla documentazione API del nostro sito. Il nostro sito fornisce anche test Apifox per tua comodità. - Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI reale del tuo account.
- Inserisci la tua domanda o richiesta nel campo content: è ciò a cui il modello risponderà.
- Elabora la risposta API per ottenere la risposta generata.
CometAPI fornisce un’API REST completamente compatibile, per una migrazione senza interruzioni. Dettagli principali:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nomi del modello:
gemini-3-pro-image - Autenticazione: header
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.