Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

CometAPI
AnnaDec 10, 2025
Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

Nano Banana Pro — ufficialmente Immagine Gemini 3 Pro — è il nuovo modello di generazione e modifica delle immagini di livello studio di Google/DeepMind che combina ragionamento multimodale avanzato, rendering di testo ad alta fedeltà, composizione multi-immagine e controlli creativi di livello studio.

Cos'è Nano Banana Pro e perché dovrebbe interessarti?

Nano Banana Pro è il nuovissimo modello di generazione e modifica delle immagini di Google, la versione "Gemini 3 Pro Image", progettato per produrre immagini ad alta fedeltà e contestuali, con testo integrato e qualità professionale fino a 4K. È il successore dei precedenti modelli Nano Banana (Gemini 2.5 Flash Image / "Nano Banana"), con ragionamento migliorato, radicamento nella Ricerca (fatti del mondo reale), rendering del testo più efficace e controlli di modifica locale più potenti. Il modello è disponibile all'interno dell'app Gemini per gli utenti interattivi e l'accesso a Nano Banana Pro avviene tramite l'API Gemini standard, ma è possibile selezionare l'identificativo specifico del modello (gemini-3-pro-image-preview o il suo successore stabile). per l'accesso programmatico.

Perché è importante: Nano Banana Pro è progettato non solo per creare belle immagini, ma anche per visualizzare le informazioni — infografiche, istantanee basate sui dati (meteo, sport), poster ricchi di testo, mockup di prodotto e fusioni multi-immagine (fino a 14 immagini di input e mantenimento della coerenza dei caratteri per un massimo di 5 persone). Per designer, team di prodotto e sviluppatori, questa combinazione di accuratezza, testo sull'immagine e accesso programmatico apre flussi di lavoro di produzione in precedenza difficili da automatizzare.

Quali funzioni sono esposte tramite l'API?

Le funzionalità API tipiche a disposizione degli sviluppatori includono:

  • Generazione testo → immagine (flussi di composizione “pensanti” a fase singola o a più fasi).
  • Modifica delle immagini (maschere locali, ritocchi pittorici, modifiche di stile).
  • Fusione multi-immagine (combinare le immagini di riferimento).
  • Controlli avanzati delle richieste: risoluzione, proporzioni, fasi di post-elaborazione e tracce di "pensiero compositivo" per debug/ispezionabilità nelle modalità di anteprima.

Innovazioni e funzioni principali di Nano Banana Pro

Ragionamento sui contenuti più intelligente

Utilizza lo stack di ragionamento di Gemini 3 Pro per interpretare istruzioni visive complesse e articolate in più fasi (ad esempio, "crea un'infografica in 5 fasi da questo set di dati e aggiungi una didascalia bilingue"). L'API espone un meccanismo di "pensiero" in grado di produrre test di composizione intermedi per perfezionare l'output finale.

Perché è importante: Invece di un singolo passaggio che mappa prompt → pixel, il modello esegue un processo di "pensiero" interno che affina la composizione e può richiamare strumenti esterni (ad esempio, la Ricerca Google) per un fondamento fattuale (ad esempio, etichette di diagrammi accurate o segnaletica locale corretta). Questo produce immagini non solo più belle, ma anche più semanticamente corrette per attività come infografiche, diagrammi o mockup di prodotto.

Come ottenere: La funzione "Thinking" di Nano Banana Pro è un passaggio di ragionamento/composizione interno controllato in cui il modello genera elementi visivi e tracce di ragionamento intermedi prima di produrre l'immagine finale. L'API indica che il modello può creare fino a due frame intermedi e che l'immagine finale è l'ultima fase di tale catena. In fase di produzione, questo facilita la composizione, il posizionamento del testo e le decisioni di layout.

Rendering del testo più accurato

Testo localizzato e leggibile notevolmente migliorato all'interno delle immagini (menu, poster, diagrammi). Nano Banana Pro raggiunge nuovi traguardi nella resa del testo delle immagini:

  • Il testo nelle immagini è chiaro, leggibile e scritto correttamente;
  • Supporta la generazione multilingue (inclusi cinese, giapponese, coreano, arabo, ecc.);
  • Consente agli utenti di scrivere lunghi paragrafi o testi descrittivi su più righe direttamente nelle immagini;
  • Sono disponibili la traduzione automatica e la localizzazione.

Perché è importante: Tradizionalmente, i modelli di immagine faticano a riprodurre testi leggibili e ben allineati. Nano Banana Pro è esplicitamente ottimizzato per un rendering e una localizzazione del testo affidabili (ad esempio, traducendo e preservando il layout), il che apre la strada a casi d'uso creativi concreti come poster, packaging o annunci multilingue.

Come ottenere: I miglioramenti nella resa del testo derivano dall'architettura multimodale sottostante e dall'addestramento su set di dati che enfatizzano esempi di testo nelle immagini, combinati con set di valutazione mirati (valutazioni umane e set di regressione). Il modello impara ad allineare forme di glifi, font e vincoli di layout per produrre testo leggibile e localizzato all'interno delle immagini, sebbene testi di piccole dimensioni e paragrafi estremamente densi possano comunque essere soggetti a errori.

Maggiore coerenza e fedeltà visiva

I controlli da studio (illuminazione, messa a fuoco, angolazione della telecamera, color grading) e la composizione multi-immagine (fino a 14 immagini di riferimento, con tolleranze specifiche per più soggetti umani) aiutano a preservare la coerenza dei personaggi (mantenendo la stessa persona/personaggio in tutte le modifiche) e l'identità del marchio tra le risorse generate. Il modello supporta output nativi 1K/2K/4K.

Perché è importante: I flussi di lavoro di marketing e intrattenimento richiedono personaggi coerenti in tutte le riprese e i montaggi. Il modello può mantenere la somiglianza fino a cinque persone e si fondono fino a 14 immagini di riferimento in un'unica composizione durante la creazione di Sketch → Render 3D. Questa funzionalità è utile per la creatività pubblicitaria, il packaging o la narrazione multi-scatto.

Come ottenere: Gli input del modello accettano più immagini con assegnazioni di ruolo esplicite (ad esempio, "Immagine A: posa", "Immagine B: riferimento volto", "Immagine C: texture di sfondo"). L'architettura condiziona la generazione di tali immagini per mantenere identità/posa/stile durante l'applicazione delle trasformazioni (illuminazione, telecamera).

Benchmark delle prestazioni di Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) "eccelle nei benchmark di intelligenza artificiale Testo→Immagine" e dimostra un ragionamento e un radicamento contestuale migliorati rispetto ai precedenti modelli Nano Banana. Si distingue per una maggiore fedeltà e un rendering del testo migliorato rispetto alle versioni precedenti.

Come utilizzare l'API Nano Banana Pro (immagine Gemini 3 Pro)?

Guida pratica alle prestazioni

Aspettare latenza più elevata e costi per rendering ad alta fedeltà 2K/4K rispetto a quelli 1K o ai modelli "Flash" ottimizzati per la velocità. Se throughput/latenza sono critici, utilizzare la variante Flash (ad esempio, Gemini 2.5 Flash / Nano Banana) per volumi elevati; utilizzare Nano Banana Pro / gemini-3-pro-image per attività di ragionamento complesse e di qualità.

Come possono gli sviluppatori accedere a Nano Banana Pro?

Quali endpoint e modelli scegliere

Identificatore del modello (anteprima / pro): gemini-3-pro-image-preview (anteprima) — usalo quando vuoi le funzionalità di Nano Banana Pro. Per un lavoro più veloce e a basso costo, gemini-2.5-flash-image (Nano Banana) rimane disponibile.

Superfici da utilizzare

  • API Gemini (endpoint del linguaggio generativo): Puoi utilizzare una chiave CometAPI per accedere a xx. CometAPI offre la stessa API a un prezzo più conveniente rispetto al sito web ufficiale. Chiamate HTTP/SDK dirette a generateContent per la generazione di immagini (esempi di seguito).
  • Studio AI di Google: Superficie web per la sperimentazione rapida e il remix di app demo.
  • Vertex AI (aziendale): Throughput predefinito, opzioni di fatturazione (pagamento a consumo/livelli enterprise) e filtri di sicurezza per produzioni su larga scala. Utilizza Vertex per l'integrazione in pipeline di grandi dimensioni o per processi di rendering batch.

Il livello gratuito ha un limite di utilizzo limitato; superandolo, si tornerà a Nano Banana. I livelli Plus/Pro/Ultra offrono limiti più elevati e output senza filigrana, ma il livello Ultra può essere utilizzato con gli strumenti video Flow e Antigravity IDE in modalità 4K.

Come posso generare un'immagine con Nano Banana Pro (procedura passo dopo passo)?

1) Ricetta interattiva veloce per usare l'app Gemini

  1. Apri Gemini → Strumenti → Crea immagini.
  2. Seleziona Pensando (Nano Banana Pro) come modello.
  3. Inserisci un suggerimento: spiega il soggetto, l'azione, l'atmosfera, l'illuminazione, la fotocamera, le proporzioni e qualsiasi testo che apparirà sull'immagine. Esempio:
    “Crea un poster in 4K di un laboratorio di robotica: un team eterogeneo attorno a un tavolo, sovrapposizione del progetto, titolo in grassetto 'Robot in azione' in sans serif, calda luce al tungsteno, ridotta profondità di campo, formato cinematografico 16:9.”
  4. (Facoltativo) Carica fino a 14 immagini da fondere o utilizzare come riferimento. Utilizza lo strumento selezione/maschera per modificare localmente le aree.
  5. Generare, iterare con linguaggio naturale (ad esempio, "rendere il titolo blu e allineato in alto al centro; aumentare il contrasto sul progetto"), quindi esportare

2) Utilizzare HTTP per inviare all'endpoint dell'immagine Gemini

Per ottenere la chiave è necessario effettuare l'accesso a CometAPI.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Questo esempio scrive il payload dell'immagine base64 in un file PNG. generationConfig.imageConfig.resolution richieste di parametri output 4K (disponibile per il modello 3 Pro Image)

3) Chiamate SDK dirette a generateContent per la generazione di immagini

Richiede l'installazione del Google SDK e l'ottenimento dell'autenticazione Google. Esempio Python (testo + immagini di riferimento + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Questo esempio mostra il caricamento di un'immagine di riferimento in linea e la richiesta di una composizione 4K durante l'abilitazione google_search come strumento. L'SDK Python gestirà i dettagli REST di basso livello.

Fusione multi-immagine e coerenza dei caratteri

Per produrre un composito che preservi la stessa persona in tutte le scene, passare multiplo inline_data parti (selezionate dal tuo set di foto) e specifica l'istruzione creativa secondo cui il modello dovrebbe "preservare l'identità tra gli output".

Breve esempio pratico: un flusso reale e previsto

chiederà:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline prevista: app → modello di prompt + dati CSV → sostituisci i segnaposto nel prompt → chiamata API con image_size=2048x1152 → ricevi PNG base64 → salva i metadati della risorsa + provenienza → sovrapponi opzionalmente il font esatto tramite compositor, se necessario.

Come dovrei progettare una pipeline di produzione e gestire la sicurezza/provenienza?

Architettura di produzione consigliata

  1. Prompt + passaggio di bozza (modello veloce): Usa il gemini-2.5-flash-image (Nano Banana) per produrre a basso costo numerose varianti a bassa risoluzione.
  2. Selezione e perfezionamento: seleziona i candidati migliori, perfeziona i prompt, applica modifiche di inpainting/mascheratura per la precisione.
  3. Rendering finale ad alta fedeltà: chiamata gemini-3-pro-image-preview (Nano Banana Pro) per rendering finali 2K/4K e post-elaborazione (upsampling, gradazione del colore).
  4. Provenienza e metadati: memorizza prompt, versione del modello, timestamp e informazioni SynthID nel tuo archivio metadati delle risorse: il modello allega una filigrana SynthID e gli output possono essere rintracciati per conformità e controllo dei contenuti.

Sicurezza, diritti e moderazione

  • Copyright e autorizzazione dei diritti: Non caricare o generare contenuti che violano i diritti. Utilizza conferme esplicite dell'utente per le immagini fornite dall'utente o richieste che potrebbero creare somiglianze riconoscibili. È necessario rispettare le Norme di utilizzo proibito di Google e i filtri di sicurezza del modello.
  • Filtraggio e controlli automatici: eseguire le immagini generate attraverso un processo di moderazione dei contenuti interno (NSFW, simboli di odio, rilevamento di contenuti politici/vincolanti) prima del consumo a valle o della visualizzazione pubblica.

Come posso effettuare l'editing delle immagini (inpainting), la composizione di più immagini e il rendering del testo?

Nano Banana Pro supporta flussi di lavoro di modifica multimodali: fornisce una o più immagini di input e un'istruzione testuale che descriva le modifiche (rimozione di un oggetto, modifica del cielo, aggiunta di testo). L'API accetta immagine + testo nella stessa richiesta; il modello può produrre testo e immagini intervallati come risposte. Esempi di pattern includono modifiche mascherate e fusioni multi-immagine (trasferimento di stile/composizione). Consulta la documentazione per contents array che combinano blob di testo e immagini binarie.

Esempio: Modifica (pseudo-flusso Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Questa modifica conversazionale consente di modificare iterativamente i risultati fino a ottenere una risorsa pronta per la produzione.

Esempio di Node.js: modifica dell'immagine con maschera e riferimenti multipli

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(A volte le API accettano URI di Cloud Storage o payload di immagini base64; consultare la documentazione API di Gemini per i formati di input esatti.)

Per informazioni sulla generazione e la modifica delle immagini utilizzando CometAPI, fare riferimento a Guida per chiamare gemini-3-pro-image .

Conclusione

Nano Banana Pro (Gemini 3 Pro Image) rappresenta un salto di qualità nella generazione di immagini: uno strumento per visualizzare dati, apportare modifiche localizzate e potenziare i flussi di lavoro degli sviluppatori. Utilizza l'app Gemini per una prototipazione rapida, l'API per l'integrazione in produzione e segui le raccomandazioni sopra riportate per controllare i costi, garantire la sicurezza e mantenere la qualità del marchio. Testa sempre i flussi di lavoro degli utenti reali e memorizza i metadati di provenienza per soddisfare le esigenze di trasparenza e audit.

Usa Nano Banana Pro quando ne hai bisogno qualità da studio risorse, controllo preciso sulla composizione, rendering del testo migliorato all'interno delle immagini e capacità di fondere più riferimenti in un unico output coerente.

Gli sviluppatori possono accedere API Gemini 3 Pro Image (Nano Banana Pro) tramite CometAPI. Per iniziare, esplora le capacità del modello diCometaAPI nella  Parco giochi e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. ConeAPI t offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

Pronti a partire? → Iscriviti oggi a CometAPI !

Se vuoi conoscere altri suggerimenti, guide e novità sull'IA seguici su VKX e al Discordia!

SHARE THIS BLOG

500+ Modelli in Una API

Fino al 20% di sconto