Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

Nano Banana Pro — ufficialmente Immagine Gemini 3 Pro — è il nuovo modello di generazione e modifica delle immagini di livello studio di Google/DeepMind che combina ragionamento multimodale avanzato, rendering di testo ad alta fedeltà, composizione multi-immagine e controlli creativi di livello studio.

Cos'è Nano Banana Pro e perché dovrebbe interessarti?

Nano Banana Pro è il nuovissimo modello di generazione e modifica delle immagini di Google, la versione "Gemini 3 Pro Image", progettato per produrre immagini ad alta fedeltà e contestuali, con testo integrato e qualità professionale fino a 4K. È il successore dei precedenti modelli Nano Banana (Gemini 2.5 Flash Image / "Nano Banana"), con ragionamento migliorato, radicamento nella Ricerca (fatti del mondo reale), rendering del testo più efficace e controlli di modifica locale più potenti. Il modello è disponibile all'interno dell'app Gemini per gli utenti interattivi e l'accesso a Nano Banana Pro avviene tramite l'API Gemini standard, ma è possibile selezionare l'identificativo specifico del modello (gemini-3-pro-image-preview o il suo successore stabile). per l'accesso programmatico.

Perché è importante: Nano Banana Pro è progettato non solo per creare belle immagini, ma anche per visualizzare le informazioni — infografiche, istantanee basate sui dati (meteo, sport), poster ricchi di testo, mockup di prodotto e fusioni multi-immagine (fino a 14 immagini di input e mantenimento della coerenza dei caratteri per un massimo di 5 persone). Per designer, team di prodotto e sviluppatori, questa combinazione di accuratezza, testo sull'immagine e accesso programmatico apre flussi di lavoro di produzione in precedenza difficili da automatizzare.

Quali funzioni sono esposte tramite l'API?

Le funzionalità API tipiche a disposizione degli sviluppatori includono:

Generazione testo → immagine (flussi di composizione “pensanti” a fase singola o a più fasi).
Modifica delle immagini (maschere locali, ritocchi pittorici, modifiche di stile).
Fusione multi-immagine (combinare le immagini di riferimento).
Controlli avanzati delle richieste: risoluzione, proporzioni, fasi di post-elaborazione e tracce di "pensiero compositivo" per debug/ispezionabilità nelle modalità di anteprima.

Innovazioni e funzioni principali di Nano Banana Pro

Ragionamento sui contenuti più intelligente

Utilizza lo stack di ragionamento di Gemini 3 Pro per interpretare istruzioni visive complesse e articolate in più fasi (ad esempio, "crea un'infografica in 5 fasi da questo set di dati e aggiungi una didascalia bilingue"). L'API espone un meccanismo di "pensiero" in grado di produrre test di composizione intermedi per perfezionare l'output finale.

Perché è importante: Invece di un singolo passaggio che mappa prompt → pixel, il modello esegue un processo di "pensiero" interno che affina la composizione e può richiamare strumenti esterni (ad esempio, la Ricerca Google) per un fondamento fattuale (ad esempio, etichette di diagrammi accurate o segnaletica locale corretta). Questo produce immagini non solo più belle, ma anche più semanticamente corrette per attività come infografiche, diagrammi o mockup di prodotto.

Come ottenere: La funzione "Thinking" di Nano Banana Pro è un passaggio di ragionamento/composizione interno controllato in cui il modello genera elementi visivi e tracce di ragionamento intermedi prima di produrre l'immagine finale. L'API indica che il modello può creare fino a due frame intermedi e che l'immagine finale è l'ultima fase di tale catena. In fase di produzione, questo facilita la composizione, il posizionamento del testo e le decisioni di layout.

Rendering del testo più accurato

Testo localizzato e leggibile notevolmente migliorato all'interno delle immagini (menu, poster, diagrammi). Nano Banana Pro raggiunge nuovi traguardi nella resa del testo delle immagini:

Il testo nelle immagini è chiaro, leggibile e scritto correttamente;
Supporta la generazione multilingue (inclusi cinese, giapponese, coreano, arabo, ecc.);
Consente agli utenti di scrivere lunghi paragrafi o testi descrittivi su più righe direttamente nelle immagini;
Sono disponibili la traduzione automatica e la localizzazione.

Perché è importante: Tradizionalmente, i modelli di immagine faticano a riprodurre testi leggibili e ben allineati. Nano Banana Pro è esplicitamente ottimizzato per un rendering e una localizzazione del testo affidabili (ad esempio, traducendo e preservando il layout), il che apre la strada a casi d'uso creativi concreti come poster, packaging o annunci multilingue.

Come ottenere: I miglioramenti nella resa del testo derivano dall'architettura multimodale sottostante e dall'addestramento su set di dati che enfatizzano esempi di testo nelle immagini, combinati con set di valutazione mirati (valutazioni umane e set di regressione). Il modello impara ad allineare forme di glifi, font e vincoli di layout per produrre testo leggibile e localizzato all'interno delle immagini, sebbene testi di piccole dimensioni e paragrafi estremamente densi possano comunque essere soggetti a errori.

Maggiore coerenza e fedeltà visiva

I controlli da studio (illuminazione, messa a fuoco, angolazione della telecamera, color grading) e la composizione multi-immagine (fino a 14 immagini di riferimento, con tolleranze specifiche per più soggetti umani) aiutano a preservare la coerenza dei personaggi (mantenendo la stessa persona/personaggio in tutte le modifiche) e l'identità del marchio tra le risorse generate. Il modello supporta output nativi 1K/2K/4K.

Perché è importante: I flussi di lavoro di marketing e intrattenimento richiedono personaggi coerenti in tutte le riprese e i montaggi. Il modello può mantenere la somiglianza fino a cinque persone e si fondono fino a 14 immagini di riferimento in un'unica composizione durante la creazione di Sketch → Render 3D. Questa funzionalità è utile per la creatività pubblicitaria, il packaging o la narrazione multi-scatto.

Come ottenere: Gli input del modello accettano più immagini con assegnazioni di ruolo esplicite (ad esempio, "Immagine A: posa", "Immagine B: riferimento volto", "Immagine C: texture di sfondo"). L'architettura condiziona la generazione di tali immagini per mantenere identità/posa/stile durante l'applicazione delle trasformazioni (illuminazione, telecamera).

Benchmark delle prestazioni di Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) "eccelle nei benchmark di intelligenza artificiale Testo→Immagine" e dimostra un ragionamento e un radicamento contestuale migliorati rispetto ai precedenti modelli Nano Banana. Si distingue per una maggiore fedeltà e un rendering del testo migliorato rispetto alle versioni precedenti.

Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

Guida pratica alle prestazioni

Aspettare latenza più elevata e costi per rendering ad alta fedeltà 2K/4K rispetto a quelli 1K o ai modelli "Flash" ottimizzati per la velocità. Se throughput/latenza sono critici, utilizzare la variante Flash (ad esempio, Gemini 2.5 Flash / Nano Banana) per volumi elevati; utilizzare Nano Banana Pro / gemini-3-pro-image per attività di ragionamento complesse e di qualità.

Come possono gli sviluppatori accedere a Nano Banana Pro?

Quali endpoint e modelli scegliere

Identificatore del modello (anteprima / pro): gemini-3-pro-image-preview (anteprima) — usalo quando vuoi le funzionalità di Nano Banana Pro. Per un lavoro più veloce e a basso costo, gemini-2.5-flash-image (Nano Banana) rimane disponibile.

Superfici da utilizzare

API Gemini (endpoint del linguaggio generativo): Puoi utilizzare una chiave CometAPI per accedere a xx. CometAPI offre la stessa API a un prezzo più conveniente rispetto al sito web ufficiale. Chiamate HTTP/SDK dirette a generateContent per la generazione di immagini (esempi di seguito).
Studio AI di Google: Superficie web per la sperimentazione rapida e il remix di app demo.
Vertex AI (aziendale): Throughput predefinito, opzioni di fatturazione (pagamento a consumo/livelli enterprise) e filtri di sicurezza per produzioni su larga scala. Utilizza Vertex per l'integrazione in pipeline di grandi dimensioni o per processi di rendering batch.

Il livello gratuito ha un limite di utilizzo limitato; superandolo, si tornerà a Nano Banana. I livelli Plus/Pro/Ultra offrono limiti più elevati e output senza filigrana, ma il livello Ultra può essere utilizzato con gli strumenti video Flow e Antigravity IDE in modalità 4K.

Come posso generare un'immagine con Nano Banana Pro (procedura passo dopo passo)?

1) Ricetta interattiva veloce per usare l'app Gemini

Apri Gemini → Strumenti → Crea immagini.
Seleziona Pensando (Nano Banana Pro) come modello.
Inserisci un suggerimento: spiega il soggetto, l'azione, l'atmosfera, l'illuminazione, la fotocamera, le proporzioni e qualsiasi testo che apparirà sull'immagine. Esempio:
“Crea un poster in 4K di un laboratorio di robotica: un team eterogeneo attorno a un tavolo, sovrapposizione del progetto, titolo in grassetto 'Robot in azione' in sans serif, calda luce al tungsteno, ridotta profondità di campo, formato cinematografico 16:9.”
(Facoltativo) Carica fino a 14 immagini da fondere o utilizzare come riferimento. Utilizza lo strumento selezione/maschera per modificare localmente le aree.
Generare, iterare con linguaggio naturale (ad esempio, "rendere il titolo blu e allineato in alto al centro; aumentare il contrasto sul progetto"), quindi esportare

2) Utilizzare HTTP per inviare all'endpoint dell'immagine Gemini

Per ottenere la chiave è necessario effettuare l'accesso a CometAPI.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Questo esempio scrive il payload dell'immagine base64 in un file PNG. generationConfig.imageConfig.resolution richieste di parametri output 4K (disponibile per il modello 3 Pro Image)

3) Chiamate SDK dirette a `generateContent` per la generazione di immagini

Richiede l'installazione del Google SDK e l'ottenimento dell'autenticazione Google. Esempio Python (testo + immagini di riferimento + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Questo esempio mostra il caricamento di un'immagine di riferimento in linea e la richiesta di una composizione 4K durante l'abilitazione google_search come strumento. L'SDK Python gestirà i dettagli REST di basso livello.

Fusione multi-immagine e coerenza dei caratteri

Per produrre un composito che preservi la stessa persona in tutte le scene, passare multiplo inline_data parti (selezionate dal tuo set di foto) e specifica l'istruzione creativa secondo cui il modello dovrebbe "preservare l'identità tra gli output".

Breve esempio pratico: un flusso reale e previsto

chiederà:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline prevista: app → modello di prompt + dati CSV → sostituisci i segnaposto nel prompt → chiamata API con image_size=2048x1152 → ricevi PNG base64 → salva i metadati della risorsa + provenienza → sovrapponi opzionalmente il font esatto tramite compositor, se necessario.

Come dovrei progettare una pipeline di produzione e gestire la sicurezza/provenienza?

Architettura di produzione consigliata

Prompt + passaggio di bozza (modello veloce): Usa il gemini-2.5-flash-image (Nano Banana) per produrre a basso costo numerose varianti a bassa risoluzione.
Selezione e perfezionamento: seleziona i candidati migliori, perfeziona i prompt, applica modifiche di inpainting/mascheratura per la precisione.
Rendering finale ad alta fedeltà: chiamata gemini-3-pro-image-preview (Nano Banana Pro) per rendering finali 2K/4K e post-elaborazione (upsampling, gradazione del colore).
Provenienza e metadati: memorizza prompt, versione del modello, timestamp e informazioni SynthID nel tuo archivio metadati delle risorse: il modello allega una filigrana SynthID e gli output possono essere rintracciati per conformità e controllo dei contenuti.

Sicurezza, diritti e moderazione

Copyright e autorizzazione dei diritti: Non caricare o generare contenuti che violano i diritti. Utilizza conferme esplicite dell'utente per le immagini fornite dall'utente o richieste che potrebbero creare somiglianze riconoscibili. È necessario rispettare le Norme di utilizzo proibito di Google e i filtri di sicurezza del modello.
Filtraggio e controlli automatici: eseguire le immagini generate attraverso un processo di moderazione dei contenuti interno (NSFW, simboli di odio, rilevamento di contenuti politici/vincolanti) prima del consumo a valle o della visualizzazione pubblica.

Come posso effettuare l'editing delle immagini (inpainting), la composizione di più immagini e il rendering del testo?

Nano Banana Pro supporta flussi di lavoro di modifica multimodali: fornisce una o più immagini di input e un'istruzione testuale che descriva le modifiche (rimozione di un oggetto, modifica del cielo, aggiunta di testo). L'API accetta immagine + testo nella stessa richiesta; il modello può produrre testo e immagini intervallati come risposte. Esempi di pattern includono modifiche mascherate e fusioni multi-immagine (trasferimento di stile/composizione). Consulta la documentazione per contents array che combinano blob di testo e immagini binarie.

Esempio: Modifica (pseudo-flusso Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Questa modifica conversazionale consente di modificare iterativamente i risultati fino a ottenere una risorsa pronta per la produzione.

Esempio di Node.js: modifica dell'immagine con maschera e riferimenti multipli

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(A volte le API accettano URI di Cloud Storage o payload di immagini base64; consultare la documentazione API di Gemini per i formati di input esatti.)

Per informazioni sulla generazione e la modifica delle immagini utilizzando CometAPI, fare riferimento a Guida per chiamare gemini-3-pro-image .

Conclusione

Nano Banana Pro (Gemini 3 Pro Image) rappresenta un salto di qualità nella generazione di immagini: uno strumento per visualizzare dati, apportare modifiche localizzate e potenziare i flussi di lavoro degli sviluppatori. Utilizza l'app Gemini per una prototipazione rapida, l'API per l'integrazione in produzione e segui le raccomandazioni sopra riportate per controllare i costi, garantire la sicurezza e mantenere la qualità del marchio. Testa sempre i flussi di lavoro degli utenti reali e memorizza i metadati di provenienza per soddisfare le esigenze di trasparenza e audit.

Usa Nano Banana Pro quando ne hai bisogno qualità da studio risorse, controllo preciso sulla composizione, rendering del testo migliorato all'interno delle immagini e capacità di fondere più riferimenti in un unico output coerente.

Gli sviluppatori possono accedere API Gemini 3 Pro Image (Nano Banana Pro) tramite CometAPI. Per iniziare, esplora le capacità del modello diCometaAPI nella Parco giochi e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. Con e API t offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

Pronti a partire? → Iscriviti oggi a CometAPI !

Se vuoi conoscere altri suggerimenti, guide e novità sull'IA seguici su VK, X e al Discordia!

Cos'è Nano Banana Pro e perché dovrebbe interessarti?

Quali funzioni sono esposte tramite l'API?

Innovazioni e funzioni principali di Nano Banana Pro

Ragionamento sui contenuti più intelligente

Rendering del testo più accurato

Maggiore coerenza e fedeltà visiva

Benchmark delle prestazioni di Nano Banana Pro

Guida pratica alle prestazioni

Come possono gli sviluppatori accedere a Nano Banana Pro?

Quali endpoint e modelli scegliere

Superfici da utilizzare

Come posso generare un'immagine con Nano Banana Pro (procedura passo dopo passo)?

1) Ricetta interattiva veloce per usare l'app Gemini

2) Utilizzare HTTP per inviare all'endpoint dell'immagine Gemini

3) Chiamate SDK dirette a `generateContent` per la generazione di immagini

Fusione multi-immagine e coerenza dei caratteri

Breve esempio pratico: un flusso reale e previsto

Come dovrei progettare una pipeline di produzione e gestire la sicurezza/provenienza?

Architettura di produzione consigliata

Sicurezza, diritti e moderazione

Come posso effettuare l'editing delle immagini (inpainting), la composizione di più immagini e il rendering del testo?

Esempio di Node.js: modifica dell'immagine con maschera e riferimenti multipli

Conclusione

Leggi di più

500+ Modelli in Una API

Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

Cos'è Nano Banana Pro e perché dovrebbe interessarti?

Quali funzioni sono esposte tramite l'API?

Innovazioni e funzioni principali di Nano Banana Pro

Ragionamento sui contenuti più intelligente

Rendering del testo più accurato

Maggiore coerenza e fedeltà visiva

Benchmark delle prestazioni di Nano Banana Pro

Guida pratica alle prestazioni

Come possono gli sviluppatori accedere a Nano Banana Pro?

Quali endpoint e modelli scegliere

Superfici da utilizzare

Come posso generare un'immagine con Nano Banana Pro (procedura passo dopo passo)?

1) Ricetta interattiva veloce per usare l'app Gemini

2) Utilizzare HTTP per inviare all'endpoint dell'immagine Gemini

3) Chiamate SDK dirette a generateContent per la generazione di immagini

Fusione multi-immagine e coerenza dei caratteri

Breve esempio pratico: un flusso reale e previsto

Come dovrei progettare una pipeline di produzione e gestire la sicurezza/provenienza?

Architettura di produzione consigliata

Sicurezza, diritti e moderazione

Come posso effettuare l'editing delle immagini (inpainting), la composizione di più immagini e il rendering del testo?

Esempio di Node.js: modifica dell'immagine con maschera e riferimenti multipli

Conclusione

Leggi di più

500+ Modelli in Una API

3) Chiamate SDK dirette a `generateContent` per la generazione di immagini