Funzionalità di base
- Testo → Immagine: generazione completa guidata da prompt con forte aderenza al prompt.
- Immagine → Immagine (modifiche): modifiche fini e mirate con mantenimento della coerenza del soggetto/personaggio attraverso più interventi.
- Risoluzione massima in uscita: fino a 4K (gli esempi e le dimensioni esatte supportate dipendono dal rapporto d’aspetto; l’API espone preset 1K/2K/4K)
- Pianificazione iterativa e auto-correzione: pipeline interna “multi-stage” che rileva e corregge errori visivi comuni (prospettiva, testo, geometria fine).
- Rendering avanzato del testo in immagine: testo chiaro e leggibile in più lingue (da brevi didascalie a lunghi paragrafi) adatto a poster, mockup e infografiche.
- 5 personaggi e fedeltà fino a 14 oggetti/immagini di riferimento in un singolo flusso di lavoro.
- Filigrana/provenienza: tutte le immagini generate includono una filigrana SynthID; il modello incorpora metadati C2PA per la provenienza in alcune integrazioni di prodotto.
Versioni e denominazioni di Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Dettagli tecnici
Architettura
- Genealogia / backbone: Nano Banana Pro è basato sull’evolvente stack di immagini Gemini di Google — nello specifico la nuova architettura Gemini 3 Pro Image / GEMPIX 2 (un framework immagine+testo multimodale ad alta capacità). È un’evoluzione da Gemini 2.5 Flash Image (la “nano-banana” originale) verso un modello di immagini nativamente multimodale con capacità di ragionamento visivo-linguistico ampliate.
- Comportamento del modello: multimodalità nativa (immagine + testo + conoscenza del mondo), pipeline esplicite per la fusione multi-immagine e un planner interno a fasi che affina gli output su più passaggi invece di produrre un singolo campione statico. Le prime segnalazioni indicano un ragionamento geometrico/ottico più robusto (vetro, rifrazione) rispetto alle versioni precedenti.
- Thinking / refinement interno: il modello utilizza internamente un processo visibile di “thinking” per affinare la composizione (l’API documenta questo comportamento e indica che tali passaggi interni non vengono conteggiati come token di immagine finali).
- Grounding & strumenti: supporta Search grounding (può incorporare fatti dal web nella generazione di diagrammi/infografiche). Supporta anche istruzioni di sistema per un controllo più deterministico.
Parametri chiave dell’API:
thinking_level(basso / alto) per bilanciare latenza vs profondità di ragionamento;media_resolution(basso/medio/alto) per controllare i token di lettura OCR/dettaglio dell’immagine;generationConfig.imageConfigper controllare rapporto d’aspetto/risoluzione nelle uscite immagine.
Limiti immagine:
- Modalità di input supportate: Testo e immagini (il modello non accetta audio o video come input per la generazione di immagini).
- Numero massimo di immagini per prompt: 14 (per la preview di Gemini 3 Pro Image).
- Dimensione massima immagine (upload): 7 MB per immagine di input.
- Rapporti d’aspetto supportati: 1:1, 3:2, 16:9, 9:16, 21:9, ecc.
Immagini / token in output: limiti elevati, con supporto a 4K/4096px.
Prestazioni nei benchmark
Breve sintesi: i benchmark pubblici/preliminari finora sono per lo più qualitativi / guidati dalla community, ma riportano costantemente miglioramenti sostanziali in risoluzione, riduzione degli artefatti e fedeltà fisica rispetto alla nano-banana originale (Gemini 2.5 Flash Image). Sfide specifiche nominate hanno mostrato chiari progressi visivi, ma non ci sono ancora tabelle di benchmark numeriche standardizzate (pubbliche) da Google che confrontino v1 → v2 sulle metriche standard di generazione di immagini.
- Test qualitativi della community: bordi più puliti, micro-dettagli più nitidi, colori più fedeli e maggiore aderenza al prompt (meno oggetti allucinati, personaggi più coerenti). Test informali popolari includono il cosiddetto “Wine Glass Test” e “Glass Burger Challenge”, dove GEMPIX2 (Nano Banana Pro) gestisce trasparenza e rifrazione sensibilmente meglio rispetto a build precedenti.
- Gestione del testo: Nano Banana Pro mostra un miglioramento visibile nella tipografia e nel posizionamento del testo all’interno delle immagini (una debolezza persistente per molti modelli di immagini). I confronti della community indicano meno glifi resi in modo errato.
- Throughput / UX: velocità di iterazione più rapida e una UX che esegue il refinement multi-stage sul back-end, così gli utenti vedono risultati di prima passata più affidabili (riducendo i re-roll manuali).
Limitazioni e rischi
- Filtri dei contenuti & rilevamento: le piattaforme che integrano il modello (ad es. Whisk/app di terze parti) possono abilitare un rilevamento rigoroso di celebrità o somiglianze e bloccare alcuni output, influenzando i flussi creativi che si basano su somiglianze realistiche di celebrità.
- Allucinazioni / casi limite di ragionamento: sebbene migliorato, il modello può ancora produrre artefatti fisicamente irrealistici, specialmente con testo simbolico denso all’interno delle immagini o diagrammi altamente tecnici — NB2 sembra però ridurre tali errori rispetto alle versioni precedenti.
- Sicurezza & uso improprio: i modelli generativi di immagini possono essere usati per creare contenuti problematici o dannosi. Google applica vincoli, filtri dei contenuti e la filigrana SynthID per aiutare con la provenienza; ciononostante, si sono verificati abusi (controversia di alto profilo legata a un’immagine generata da Nano Banana in un contesto politicamente sensibile).
Confronto di Nano Banana Pro con altri modelli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integrazione mobile, fusione multi-immagine, auto-correzione iterativa, 2K nativo/4K upscaling, strettamente integrato nelle app Google (Search, Photos, Workspace/Gemini). Ideale per flussi che richiedono modifiche affidabili, continuità e integrazione con i servizi Google.
- Midjourney — eccelle in output artistici stilizzati e nel prompt engineering guidato dalla community; in genere non è mirato alla fusione multi-immagine foto-accurata o a pipeline di editing multimodali approfondite.
- Stable Diffusion / pesi open — completamente open, altamente personalizzabile e ospitabile in locale; l’ecosistema di checkpoint e fine-tuning è un vantaggio decisivo per ricerca e uso offline. Meno integrazione mobile “one-click” e coerenza di editing multi-immagine meno consistente out-of-the-box rispetto a Nano Banana Pro.
- Seedream 4.0 (ByteDance) — posizionato recentemente come concorrente di Nano Banana, enfatizza rendering ultra-rapido, output 2K e supporto per molte immagini di riferimento (fino a sei). Si propone come alternativa pro/creator.
(Questi confronti sono di alto livello; scegli uno strumento in base al tuo flusso di lavoro: apertura/personalizzabilità → Stable Diffusion; arte stilizzata → Midjourney; editing mobile integrato e coerente con iterazione aggressiva → Nano Banana Pro/famiglia Gemini 3 Pro Image.)
Casi d’uso reali
- Editing di foto su mobile & filtri creativi (integrazioni Google Photos — restyling, fusione di sfondi, ricomposizione di ritratti).
- Asset di marketing & pubblicità — generazione rapida di concept, personaggi di brand coerenti su più frame/angolazioni.
- Concept art & storyboard — la fusione multi-immagine aiuta a mantenere la continuità dei personaggi tra i pannelli.
- E-commerce / mockup di prodotto — genera scatti di prodotto coerenti in diversi contesti/condizioni di illuminazione.
- Prototipazione rapida per asset AR/VR — output 2K/4K di alta qualità che possono essere upscalati per usi immersivi.
- Come accedere all’API gemini-3-pro-image (Nano Banana Pro)
Passaggi richiesti
- Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima
- Ottieni la chiave API di credenziali di accesso dell’interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e invia.
- Ottieni l’URL di questo sito: https://api.cometapi.com/
Metodo d’uso
- Seleziona l’endpoint “
gemini-3-pro-image” per inviare la richiesta API e imposta il corpo della richiesta. Il metodo e il corpo della richiesta sono reperibili nella documentazione API del nostro sito. Il nostro sito fornisce anche il test Apifox per comodità. - Sostituisci <YOUR_API_KEY> con la tua effettiva chiave CometAPI dal tuo account.
- Inserisci la tua domanda o richiesta nel campo content — è il testo a cui il modello risponderà.
- Elabora la risposta dell’API per ottenere l’output generato.
CometAPI fornisce una REST API pienamente compatibile — per una migrazione senza attriti. Dettagli chiave :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.