Nano Banana Pro — ufficialmente Immagine Gemini 3 Pro — è il nuovo modello di generazione e modifica delle immagini di livello studio di Google/DeepMind che combina ragionamento multimodale avanzato, rendering di testo ad alta fedeltà, composizione multi-immagine e controlli creativi di livello studio.
Cos'è Nano Banana Pro e perché dovrebbe interessarti?
Nano Banana Pro è il nuovissimo modello di generazione e modifica delle immagini di Google, la versione "Gemini 3 Pro Image", progettato per produrre immagini ad alta fedeltà e contestuali, con testo integrato e qualità professionale fino a 4K. È il successore dei precedenti modelli Nano Banana (Gemini 2.5 Flash Image / "Nano Banana"), con ragionamento migliorato, radicamento nella Ricerca (fatti del mondo reale), rendering del testo più efficace e controlli di modifica locale più potenti. Il modello è disponibile all'interno dell'app Gemini per gli utenti interattivi e l'accesso a Nano Banana Pro avviene tramite l'API Gemini standard, ma è possibile selezionare l'identificativo specifico del modello (gemini-3-pro-image-preview o il suo successore stabile). per l'accesso programmatico.
Perché è importante: Nano Banana Pro è progettato non solo per creare belle immagini, ma anche per visualizzare le informazioni — infografiche, istantanee basate sui dati (meteo, sport), poster ricchi di testo, mockup di prodotto e fusioni multi-immagine (fino a 14 immagini di input e mantenimento della coerenza dei caratteri per un massimo di 5 persone). Per designer, team di prodotto e sviluppatori, questa combinazione di accuratezza, testo sull'immagine e accesso programmatico apre flussi di lavoro di produzione in precedenza difficili da automatizzare.
Quali funzioni sono esposte tramite l'API?
Le funzionalità API tipiche a disposizione degli sviluppatori includono:
- Generazione testo → immagine (flussi di composizione “pensanti” a fase singola o a più fasi).
- Modifica delle immagini (maschere locali, ritocchi pittorici, modifiche di stile).
- Fusione multi-immagine (combinare le immagini di riferimento).
- Controlli avanzati delle richieste: risoluzione, proporzioni, fasi di post-elaborazione e tracce di "pensiero compositivo" per debug/ispezionabilità nelle modalità di anteprima.
Innovazioni e funzioni principali di Nano Banana Pro
Ragionamento sui contenuti più intelligente
Utilizza lo stack di ragionamento di Gemini 3 Pro per interpretare istruzioni visive complesse e articolate in più fasi (ad esempio, "crea un'infografica in 5 fasi da questo set di dati e aggiungi una didascalia bilingue"). L'API espone un meccanismo di "pensiero" in grado di produrre test di composizione intermedi per perfezionare l'output finale.
Perché è importante: Invece di un singolo passaggio che mappa prompt → pixel, il modello esegue un processo di "pensiero" interno che affina la composizione e può richiamare strumenti esterni (ad esempio, la Ricerca Google) per un fondamento fattuale (ad esempio, etichette di diagrammi accurate o segnaletica locale corretta). Questo produce immagini non solo più belle, ma anche più semanticamente corrette per attività come infografiche, diagrammi o mockup di prodotto.
Come ottenere: La funzione "Thinking" di Nano Banana Pro è un passaggio di ragionamento/composizione interno controllato in cui il modello genera elementi visivi e tracce di ragionamento intermedi prima di produrre l'immagine finale. L'API indica che il modello può creare fino a due frame intermedi e che l'immagine finale è l'ultima fase di tale catena. In fase di produzione, questo facilita la composizione, il posizionamento del testo e le decisioni di layout.
Rendering del testo più accurato
Testo localizzato e leggibile notevolmente migliorato all'interno delle immagini (menu, poster, diagrammi). Nano Banana Pro raggiunge nuovi traguardi nella resa del testo delle immagini:
- Il testo nelle immagini è chiaro, leggibile e scritto correttamente;
- Supporta la generazione multilingue (inclusi cinese, giapponese, coreano, arabo, ecc.);
- Consente agli utenti di scrivere lunghi paragrafi o testi descrittivi su più righe direttamente nelle immagini;
- Sono disponibili la traduzione automatica e la localizzazione.
Perché è importante: Tradizionalmente, i modelli di immagine faticano a riprodurre testi leggibili e ben allineati. Nano Banana Pro è esplicitamente ottimizzato per un rendering e una localizzazione del testo affidabili (ad esempio, traducendo e preservando il layout), il che apre la strada a casi d'uso creativi concreti come poster, packaging o annunci multilingue.
Come ottenere: I miglioramenti nella resa del testo derivano dall'architettura multimodale sottostante e dall'addestramento su set di dati che enfatizzano esempi di testo nelle immagini, combinati con set di valutazione mirati (valutazioni umane e set di regressione). Il modello impara ad allineare forme di glifi, font e vincoli di layout per produrre testo leggibile e localizzato all'interno delle immagini, sebbene testi di piccole dimensioni e paragrafi estremamente densi possano comunque essere soggetti a errori.
Maggiore coerenza e fedeltà visiva
I controlli da studio (illuminazione, messa a fuoco, angolazione della telecamera, color grading) e la composizione multi-immagine (fino a 14 immagini di riferimento, con tolleranze specifiche per più soggetti umani) aiutano a preservare la coerenza dei personaggi (mantenendo la stessa persona/personaggio in tutte le modifiche) e l'identità del marchio tra le risorse generate. Il modello supporta output nativi 1K/2K/4K.
Perché è importante: I flussi di lavoro di marketing e intrattenimento richiedono personaggi coerenti in tutte le riprese e i montaggi. Il modello può mantenere la somiglianza fino a cinque persone e si fondono fino a 14 immagini di riferimento in un'unica composizione durante la creazione di Sketch → Render 3D. Questa funzionalità è utile per la creatività pubblicitaria, il packaging o la narrazione multi-scatto.
Come ottenere: Gli input del modello accettano più immagini con assegnazioni di ruolo esplicite (ad esempio, "Immagine A: posa", "Immagine B: riferimento volto", "Immagine C: texture di sfondo"). L'architettura condiziona la generazione di tali immagini per mantenere identità/posa/stile durante l'applicazione delle trasformazioni (illuminazione, telecamera).
Benchmark delle prestazioni di Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) "eccelle nei benchmark di intelligenza artificiale Testo→Immagine" e dimostra un ragionamento e un radicamento contestuale migliorati rispetto ai precedenti modelli Nano Banana. Si distingue per una maggiore fedeltà e un rendering del testo migliorato rispetto alle versioni precedenti.

Guida pratica alle prestazioni
Aspettare latenza più elevata e costi per rendering ad alta fedeltà 2K/4K rispetto a quelli 1K o ai modelli "Flash" ottimizzati per la velocità. Se throughput/latenza sono critici, utilizzare la variante Flash (ad esempio, Gemini 2.5 Flash / Nano Banana) per volumi elevati; utilizzare Nano Banana Pro / gemini-3-pro-image per attività di ragionamento complesse e di qualità.
Come possono gli sviluppatori accedere a Nano Banana Pro?
Quali endpoint e modelli scegliere
Identificatore del modello (anteprima / pro): gemini-3-pro-image-preview (anteprima) — usalo quando vuoi le funzionalità di Nano Banana Pro. Per un lavoro più veloce e a basso costo, gemini-2.5-flash-image (Nano Banana) rimane disponibile.
Superfici da utilizzare
- API Gemini (endpoint del linguaggio generativo): Puoi utilizzare una chiave CometAPI per accedere a xx. CometAPI offre la stessa API a un prezzo più conveniente rispetto al sito web ufficiale. Chiamate HTTP/SDK dirette a
generateContentper la generazione di immagini (esempi di seguito). - Studio AI di Google: Superficie web per la sperimentazione rapida e il remix di app demo.
- Vertex AI (aziendale): Throughput predefinito, opzioni di fatturazione (pagamento a consumo/livelli enterprise) e filtri di sicurezza per produzioni su larga scala. Utilizza Vertex per l'integrazione in pipeline di grandi dimensioni o per processi di rendering batch.
Il livello gratuito ha un limite di utilizzo limitato; superandolo, si tornerà a Nano Banana. I livelli Plus/Pro/Ultra offrono limiti più elevati e output senza filigrana, ma il livello Ultra può essere utilizzato con gli strumenti video Flow e Antigravity IDE in modalità 4K.
Come posso generare un'immagine con Nano Banana Pro (procedura passo dopo passo)?
1) Ricetta interattiva veloce per usare l'app Gemini
- Apri Gemini → Strumenti → Crea immagini.
- Seleziona Pensando (Nano Banana Pro) come modello.
- Inserisci un suggerimento: spiega il soggetto, l'azione, l'atmosfera, l'illuminazione, la fotocamera, le proporzioni e qualsiasi testo che apparirà sull'immagine. Esempio:
“Crea un poster in 4K di un laboratorio di robotica: un team eterogeneo attorno a un tavolo, sovrapposizione del progetto, titolo in grassetto 'Robot in azione' in sans serif, calda luce al tungsteno, ridotta profondità di campo, formato cinematografico 16:9.” - (Facoltativo) Carica fino a 14 immagini da fondere o utilizzare come riferimento. Utilizza lo strumento selezione/maschera per modificare localmente le aree.
- Generare, iterare con linguaggio naturale (ad esempio, "rendere il titolo blu e allineato in alto al centro; aumentare il contrasto sul progetto"), quindi esportare
2) Utilizzare HTTP per inviare all'endpoint dell'immagine Gemini
Per ottenere la chiave è necessario effettuare l'accesso a CometAPI.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Questo esempio scrive il payload dell'immagine base64 in un file PNG. generationConfig.imageConfig.resolution richieste di parametri output 4K (disponibile per il modello 3 Pro Image)
3) Chiamate SDK dirette a generateContent per la generazione di immagini
Richiede l'installazione del Google SDK e l'ottenimento dell'autenticazione Google. Esempio Python (testo + immagini di riferimento + grounding):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Questo esempio mostra il caricamento di un'immagine di riferimento in linea e la richiesta di una composizione 4K durante l'abilitazione google_search come strumento. L'SDK Python gestirà i dettagli REST di basso livello.
Fusione multi-immagine e coerenza dei caratteri
Per produrre un composito che preservi la stessa persona in tutte le scene, passare multiplo inline_data parti (selezionate dal tuo set di foto) e specifica l'istruzione creativa secondo cui il modello dovrebbe "preservare l'identità tra gli output".
Breve esempio pratico: un flusso reale e previsto
chiederà:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Pipeline prevista: app → modello di prompt + dati CSV → sostituisci i segnaposto nel prompt → chiamata API con image_size=2048x1152 → ricevi PNG base64 → salva i metadati della risorsa + provenienza → sovrapponi opzionalmente il font esatto tramite compositor, se necessario.
Come dovrei progettare una pipeline di produzione e gestire la sicurezza/provenienza?
Architettura di produzione consigliata
- Prompt + passaggio di bozza (modello veloce): Usa il
gemini-2.5-flash-image(Nano Banana) per produrre a basso costo numerose varianti a bassa risoluzione. - Selezione e perfezionamento: seleziona i candidati migliori, perfeziona i prompt, applica modifiche di inpainting/mascheratura per la precisione.
- Rendering finale ad alta fedeltà: chiamata
gemini-3-pro-image-preview(Nano Banana Pro) per rendering finali 2K/4K e post-elaborazione (upsampling, gradazione del colore). - Provenienza e metadati: memorizza prompt, versione del modello, timestamp e informazioni SynthID nel tuo archivio metadati delle risorse: il modello allega una filigrana SynthID e gli output possono essere rintracciati per conformità e controllo dei contenuti.
Sicurezza, diritti e moderazione
- Copyright e autorizzazione dei diritti: Non caricare o generare contenuti che violano i diritti. Utilizza conferme esplicite dell'utente per le immagini fornite dall'utente o richieste che potrebbero creare somiglianze riconoscibili. È necessario rispettare le Norme di utilizzo proibito di Google e i filtri di sicurezza del modello.
- Filtraggio e controlli automatici: eseguire le immagini generate attraverso un processo di moderazione dei contenuti interno (NSFW, simboli di odio, rilevamento di contenuti politici/vincolanti) prima del consumo a valle o della visualizzazione pubblica.
Come posso effettuare l'editing delle immagini (inpainting), la composizione di più immagini e il rendering del testo?
Nano Banana Pro supporta flussi di lavoro di modifica multimodali: fornisce una o più immagini di input e un'istruzione testuale che descriva le modifiche (rimozione di un oggetto, modifica del cielo, aggiunta di testo). L'API accetta immagine + testo nella stessa richiesta; il modello può produrre testo e immagini intervallati come risposte. Esempi di pattern includono modifiche mascherate e fusioni multi-immagine (trasferimento di stile/composizione). Consulta la documentazione per contents array che combinano blob di testo e immagini binarie.
Esempio: Modifica (pseudo-flusso Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Questa modifica conversazionale consente di modificare iterativamente i risultati fino a ottenere una risorsa pronta per la produzione.
Esempio di Node.js: modifica dell'immagine con maschera e riferimenti multipli
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(A volte le API accettano URI di Cloud Storage o payload di immagini base64; consultare la documentazione API di Gemini per i formati di input esatti.)
Per informazioni sulla generazione e la modifica delle immagini utilizzando CometAPI, fare riferimento a Guida per chiamare gemini-3-pro-image .
Conclusione
Nano Banana Pro (Gemini 3 Pro Image) rappresenta un salto di qualità nella generazione di immagini: uno strumento per visualizzare dati, apportare modifiche localizzate e potenziare i flussi di lavoro degli sviluppatori. Utilizza l'app Gemini per una prototipazione rapida, l'API per l'integrazione in produzione e segui le raccomandazioni sopra riportate per controllare i costi, garantire la sicurezza e mantenere la qualità del marchio. Testa sempre i flussi di lavoro degli utenti reali e memorizza i metadati di provenienza per soddisfare le esigenze di trasparenza e audit.
Usa Nano Banana Pro quando ne hai bisogno qualità da studio risorse, controllo preciso sulla composizione, rendering del testo migliorato all'interno delle immagini e capacità di fondere più riferimenti in un unico output coerente.
Gli sviluppatori possono accedere API Gemini 3 Pro Image (Nano Banana Pro) tramite CometAPI. Per iniziare, esplora le capacità del modello diCometaAPI nella Parco giochi e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. ConeAPI t offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.
Pronti a partire? → Iscriviti oggi a CometAPI !
Se vuoi conoscere altri suggerimenti, guide e novità sull'IA seguici su VK, X e al Discordia!



