Nano Banana è il soprannome della comunità (e abbreviazione interna) per Google Immagine Flash Gemini 2.5 — un modello di generazione e modifica di immagini multimodali di alta qualità e bassa latenza. Questa guida completa (con codice, pattern, fasi di distribuzione ed esempi di CometAPI) mostra tre metodi di chiamata pratici che puoi utilizzare in produzione: (1) un'interfaccia Chat compatibile con OpenAI (testo→immagine), (2) l'interfaccia ufficiale di Google generateContent interfaccia testo→immagine e (3) ufficiale di Google generateContent Interfaccia immagine→immagine che utilizza input/output Base64. Durante il percorso, riceverai consigli passo passo su distribuzione/implementazione, configurazione dell'ambiente, come ottenere operazioni API da CometAPI, note su prezzi e filigrane e i migliori suggerimenti per risultati affidabili ed economici.
Che cos'è Nano Banana (immagine flash Gemini 2.5)?
Nano Banana è il nome informale dato a Gemini 2.5 Flash Image, l'ultimo modello di immagine della famiglia Gemini di Google. È progettato sia per la generazione di immagini fotorealistiche che per l'editing preciso delle immagini (modifiche locali, fusione di più immagini, mantenimento coerente dei caratteri tra le modifiche) ed è disponibile tramite l'API Gemini di Google, Google AI Studio e Vertex AI. Il modello viene fornito con una filigrana invisibile SynthID per la provenienza.
Perché questo è importante per gli sviluppatori: Nano Banana fornisce un singolo modello multimodale di alta qualità in grado di gestire:
- Testo → Immagine (crea nuove immagini da prompt di testo)
- Immagine → Immagine (modifica/trasforma una foto fornita)
- Fusione di più immagini (combina più immagini in un'unica composizione)
Tutto questo è accessibile tramite il sito ufficiale di GooglegenerateContentendpoint (Vertex AI / Gemini API) o tramite endpoint compatibili con OpenAI offerti da gateway API di terze parti come CometAPI e OpenRouter. Ciò significa che è possibile integrare Gemini 2.5 Flash Image in basi di codice compatibili con OpenAI esistenti o richiamare direttamente gli SDK ufficiali di Google.
In cosa eccelle
- Modifiche mirate e locali (cambiare il colore di una maglietta, rimuovere oggetti, modificare le pose).
- Mantenere la coerenza tra soggetto e personaggio nelle riedizioni.
- Fusione/unione di più immagini in un composto coerente.
- Bassa latenza e inferenza conveniente rispetto ai modelli di ricerca più pesanti (Google posiziona i modelli "Flash" come opzioni ad alta produttività).
Come dovrei configurare il mio ambiente di sviluppo per chiamare Nano Banana tramite API?
Di seguito è riportato un elenco di controllo dettagliato che puoi utilizzare come base per uno qualsiasi dei tre metodi di chiamata descritti più avanti.
Prerequisiti (account, chiavi, quota)
- Account Google + progetto Cloud — Se intendi chiamare Gemini direttamente tramite Google (API Gemini / Vertex AI), crea un progetto Google Cloud e abilita le API Vertex AI / Gemini. Avrai bisogno di fatturazione e ruoli appropriati (ad esempio,
Vertex AI AdminorService Accountcon diritti di inferenza). - Accesso API Gemini — Alcuni modelli di immagini Gemini sono in anteprima/disponibilità limitata; potrebbe essere necessario richiedere l'accesso o utilizzare il modello tramite Google AI Studio o Vertex AI, a seconda del tuo account.
- CometAPI (gateway opzionale) — Se preferisci un'API indipendente dal fornitore che possa fungere da proxy per diversi modelli (incluso Gemini), registrati su CometAPI per ottenere una chiave API e consultare l'elenco dei modelli (che include varianti Flash di Gemini 2.5 e un endpoint compatibile con OpenAI). CometAPI può semplificare lo sviluppo e consentirti di cambiare fornitore senza modificare il codice dell'app.
Utensili locali
- Tempi di esecuzione del linguaggio: Node.js 18+, Python 3.10+ consigliato.
- client HTTP:
fetch/axiosper JS;requests/httpxper Python (o SDK ufficiali). - Aiutanti di immagine:
Pillow(Pitone) osharp(Nodo) per il ridimensionamento, la conversione del formato e la codifica/decodifica Base64. - Sicurezza : archivia le chiavi in variabili di ambiente o in un archivio segreto (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Non eseguire mai il commit delle chiavi API.
Installa l'SDK Google/compatibile (facoltativo)
Google fornisce SDK e openai Shim di compatibilità delle librerie: è possibile utilizzare le librerie client OpenAI con Gemini modificando alcune righe (URL di base + chiave API), ma il client nativo Gemini/Google è consigliato per funzionalità multimodali complete. Se si utilizza CometAPI o un gateway compatibile con OpenAI, l'utilizzo del client OpenAI può velocizzare lo sviluppo. Esempi:
Percorso ufficiale di Google (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
Client compatibile con CometAPI/OpenAI (Python):
pip install openai requests
Come faccio a scegliere tra i tre metodi di chiamata per Nano Banana?
La scelta del metodo di chiamata dipende dall'architettura, dai requisiti di latenza/costo e dal fatto che si preferisca utilizzare l'endpoint ufficiale di Google o un gateway di terze parti compatibile con OpenAI. I tre modelli più comuni sono:
1) Interfaccia di chat compatibile con OpenAI (da testo a immagine)
Utilizza questa opzione quando hai già codice o SDK in stile OpenAI e vuoi cambiare modello con modifiche minime. Molti gateway (CometAPI, OpenRouter) espongono i modelli Gemini sotto una superficie REST compatibile con OpenAI, quindi il tuo codice esistente chat or completions le chiamate funzionano solo con un diverso base_url e nome del modello. Questo è spesso il percorso più rapido per la produzione se non si desidera gestire l'autenticazione di Google Cloud.
2) Ufficiale Gemelli generateContent — testo-immagine
Utilizza il sito ufficiale di Google generateContent tramite genai Client (Google) o Vertex AI se desideri l'SDK ufficiale completamente supportato e l'accesso alle funzionalità più recenti (parametri di generazione a grana fine, streaming, API file per asset di grandi dimensioni), oltre alla fatturazione/monitoraggio di Google Cloud. Questa soluzione è consigliata quando hai bisogno di supporto in produzione e controlli di livello aziendale.
3) Ufficiale Gemelli generateContent — immagine-immagine (input/output Base64)
Utilizzare questa opzione quando è necessario inviare immagini binarie in linea (Base64) o si desidera modificare le immagini/pipeline immagine-immagine. Google generateContent Supporta immagini inline (base64) e un'API File per risorse più grandi o riutilizzabili. Le risposte per le immagini generate/modificate vengono in genere restituite come stringhe Base64 che è possibile decodificare e salvare. Questo offre il controllo multimodale più esplicito.
Come posso chiamare Nano Banana tramite un'interfaccia di chat compatibile con OpenAI (testo-immagine)?
Un endpoint di chat compatibile con OpenAI accetta una sequenza di {role, content} Messaggi; descrivi l'immagine che desideri in un messaggio utente e il gateway (CometAPI o uno shim di compatibilità con OpenAI) la traduce in una chiamata al modello Gemini sottostante. Questo è utile se la tua app utilizza già flussi di chat o se desideri combinare la generazione di testo e la generazione di immagini in un unico scambio.
Passaggi
1.Registrati a CometAPI e ottieni una chiave API: Registrati su CometAPI, crea un progetto, copia la tua chiave API. CometAPI espone molti modelli dietro un singolo base_url. ()
-
Installa un client compatibile con OpenAI: Pitone:
pip install openaioppure usa la versione più recenteopenai/OpenAIWrapper SDK utilizzato da molti gateway. -
Punta l'SDK su CometAPI e chiama l'endpoint di completamento della chat:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Note:
-
stream deve essere true; la risposta verrà restituita come stream;
-
La struttura della risposta è racchiusa da CometAPI per la compatibilità con OpenAI.
-
La risposta include un'immagine Base64; decodificarla e salvarla sul client secondo necessità:
Come posso chiamare Nano Banana usando il numero ufficiale Gemini? generateContent interfaccia testo-immagine?
Google fornisce un API per sviluppatori Gemini (l'API Gemini) ed espone anche i modelli Gemini tramite Vertice AIPer l'accesso programmatico all'immagine Flash Gemini 2.5 (Nano Banana) in modo supportato, il funzionario generateContent Il metodo è il punto di ingresso canonico per la generazione di solo testo o multimodale. Utilizza Google SDK GenAI (Pitone: google-genai) oppure chiamare direttamente l'endpoint REST. Fornisce accesso diretto ai parametri e alle modalità del modello ed è il metodo consigliato per utilizzare funzionalità avanzate (editing preciso, fusione multi-immagine) quando si chiamano gli endpoint di Google.
1.Utilizza Google SDK GenAI (Pitone: google-genai)
Fasi di distribuzione/chiamata (panoramica):
- Ottieni una chiave API da Google AI Studio o configurare un account di servizio Vertex AI (a seconda della piattaforma).
- Installare SDK (
pip install --upgrade google-genai) e autenticare (chiave API o credenziali predefinite dell'applicazione Google). - Scegli il modello:
gemini-2.5-flash-imageo lo slug di anteprima mostrato nella documentazione (lo slug esatto dipende dallo stato di GA/anteprima). - Call
client.models.generate_content(...)con un prompt di testo normale (testo-immagine). - Decodificare immagini restituite (se restituite Base64) e salvate/memorizzate.
Esempio Python (client ufficiale) — testo→immagine:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Nota: controllare l'API client ufficiale per i nomi esatti dei parametri: gli esempi sopra riportati seguono i modelli nei documenti di Google.)
2. Chiamata Nano Banan tramite l'endpoint REST
Endpoint EST (esempio di conversione da testo a immagine): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Opzioni di autenticazione: intestazione di fornitura x-goog-api-key: $CometAPI_API_KEY(Creare una chiave in CometAPI.)
Questo pubblica un prompt di testo e salva l'immagine base64 restituita:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Note: l'immagine binaria viene restituita come base64 in
candidates.content.parts.inline_data.dataL'esempio sopra utilizzajqper selezionare i dati in linea e decodificarli. La documentazione ufficiale mostra lo stesso flusso.
Come posso chiamare Nano Banana usando il numero ufficiale Gemini? generateContent interfaccia immagine-immagine (ingresso/uscita Base64)?
Quando dovresti usare la conversione immagine-immagine (base64 in/out)?
Utilizza la conversione immagine-immagine quando hai bisogno di:
- Modifica una foto esistente (inserimento, trasferimento di stile, sostituzione di oggetti).
- Combina più immagini sorgente in un'unica composizione.
- Preservare l'identità di un soggetto attraverso le modifiche (uno dei punti di forza di Nano Banana).
Gemini generateContent supporta dati di immagini in linea tramite Base64 (o come URI di file) e restituisce le immagini generate o modificate come stringhe Base64. La documentazione fornisce esempi espliciti per fornire inline_data con mime_type e al data.
Fasi di distribuzione/chiamata (da immagine a immagine)
- Preparare immagine/i di input: lettura dei byte del file, codifica Base64 o passaggio di byte grezzi tramite l'helper SDK.
- Costruire a
contentsarray in cui una parte è l'immagine in linea (conmimeTypee aldata) e le parti successive includono le istruzioni per la modifica del testo. - POST a
generateContent(SDK ufficiale o REST). - Ricevere Risposta: l'API restituisce le immagini generate/modificate codificate come stringhe Base64. Decodificale e salvale localmente.
Esempio: Python (da immagine a immagine utilizzando byte in linea tramite GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Esempio Python: immagine→immagine utilizzando Base64 tramite punto di riposo
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Se vuoi accedervi utilizzando la porta rest CometAPI:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
Per inline: leggere l'immagine e codificarla in base64. Per un uso ripetuto o >20 MB, caricare tramite l'API File e fare riferimento all'handle del file in
generateContentIdeale per modifiche precise e flussi di lavoro che necessitano di immagini di input e istruzioni di modifica del testo.
Quali sono i migliori consigli per lavorare con Nano Banana?
Ingegneria e controllo rapidi
- Sii esplicito: includere le proporzioni desiderate, i riferimenti di stile (solo nomi di artisti se consentiti), l'obiettivo della fotocamera, l'illuminazione e la composizione. Ad esempio, “Fotorealistico, 3:2, ridotta profondità di campo, ora d'oro, obiettivo Nikon 50 mm.”
- Utilizzare la modifica successiva: preferisco modifiche più piccole e locali in più passaggi rispetto a grandi richieste a scatto singolo: questo preserva la coerenza del soggetto. Il punto di forza di Nano Banana è l'editing iterativo.
Igiene dell'immagine
- Pre-elaborare gli input: normalizzare lo spazio colore, rimuovere gli EXIF incorporati se è richiesta la privacy, ridimensionare a risoluzioni ragionevoli per risparmiare token.
- Output di post-elaborazione: esecuzione del rilevamento dei volti, pulizia di piccoli artefatti tramite filtri leggeri (Pillow/Sharp) prima di restituirli agli utenti.
Norme sulla sicurezza, conformità e contenuti
- Implementare un controllo automatico della sicurezza dei contenuti (modelli di moderazione Vision o controlli della blacklist) prima di archiviare/pubblicare le immagini.
- Se carichi immagini di persone, rispetta le leggi sulla privacy applicabili (GDPR/CCPA) e ottieni i consensi necessari.
- Rispettare le politiche di utilizzo dei modelli e le regole sul copyright quando si richiede l'utilizzo di personaggi protetti da copyright o opere d'arte esistenti.
Note di chiusura
Nano Banana (Gemini 2.5 Flash Image) rappresenta un passaggio pragmatico e ad alta fedeltà per la generazione e la modifica di immagini multimodali: è progettato per garantire coerenza tra le modifiche e un ragionamento multimodale più ricco. Nano Banana (Gemini 2.5 Flash Image) è un passaggio importante nella generazione/modifica di immagini, offrendo elevata coerenza per modifiche multi-step e più superfici di integrazione (gateway compatibili con OpenAI come CometAPI e Google generateContent API). Per accelerare l'adozione, gateway come CometAPI consentono di riutilizzare il codice in stile OpenAI. Verificare sempre l'integrità delle risposte, rispettare la policy sui contenuti e le caratteristiche di provenienza (SynthID) e monitorare i costi durante l'iterazione.
Iniziamo
CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.
Gli sviluppatori possono accedere Immagine Flash Gemini 2.5(Elenco Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image voci di stile nel loro catalogo.) tramite CometAPI, le ultime versioni dei modelli elencate sono quelle aggiornate alla data di pubblicazione dell'articolo. Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. CometaAPI offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.



