Nano Banana er fællesskabets kaldenavn (og interne forkortelse) for Googles Gemini 2.5 Flash-billede — en model til generering og redigering af multimodal billeder af høj kvalitet med lav latenstid. Denne lange guide (med kode, mønstre, implementeringstrin og CometAPI-eksempler) viser tre praktiske kaldsmetoder, du kan bruge i produktion: (1) en OpenAI-kompatibel chatgrænseflade (tekst→billede), (2) Googles officielle generateContent tekst→billedgrænseflade, og (3) Googles officielle generateContent image→image-grænseflade ved hjælp af Base64 input/output. Undervejs får du trinvise råd om distribution/implementering, miljøopsætning, hvordan man får API-operationer fra CometAPI, pris- og vandmærkebemærkninger samt de bedste tips til pålidelige og omkostningseffektive resultater.
Hvad er Nano Banana (Gemini 2.5 Flash-billede)?
Nano Banana er det uformelle navn for Gemini 2.5 Flash Image, Googles seneste billedmodel i Gemini-familien. Den er designet til både fotorealistisk billedgenerering og præcis billedredigering (lokale redigeringer, flerbilledfusion, ensartet tegnbevaring på tværs af redigeringer) og er tilgængelig via Googles Gemini API, Google AI Studio og Vertex AI. Modellen leveres med et usynligt SynthID-vandmærke til at vise proveniens.
Hvorfor dette er vigtigt for udviklere: Nano Banana giver dig en enkelt, multimodal model af høj kvalitet, der kan håndtere:
- Tekst → Billede (opret nye billeder fra tekstprompter)
- Billede → Billede (rediger/transformér et leveret foto)
- Blanding af flere billeder (kombiner flere billeder til én sammensætning)
Alt dette er tilgængeligt enten via Googles officiellegenerateContentendpoints (Vertex AI / Gemini API) eller via OpenAI-kompatible endpoints, der tilbydes af tredjeparts API-gateways som CometAPI og OpenRouter. Det betyder, at du kan integrere Gemini 2.5 Flash Image i eksisterende OpenAI-kompatible kodebaser eller kalde Googles officielle SDK'er direkte.
Hvad den udmærker sig ved
- Målrettede, lokale redigeringer (ændre en skjortefarve, fjerne objekter, justere poseringer).
- Opretholdelse af ensartethed mellem emne/karakter på tværs af genredigeringer.
- Blanding/sammenlægning af flere billeder til en sammenhængende komposit.
- Lav latenstid og omkostningseffektiv inferens sammenlignet med tungere forskningsmodeller (Google positionerer "Flash"-modeller som muligheder med høj kapacitet).
Hvordan skal jeg sætte mit udviklingsmiljø op til at kalde Nano Banana via API?
Nedenfor er en trinvis tjekliste, som du kan bruge som et udgangspunkt for en af de tre opkaldsmetoder, der beskrives senere.
Forudsætninger (konti, nøgler, kvote)
- Google-konto + Cloud-projekt — Hvis du planlægger at ringe til Gemini direkte via Google (Gemini API / Vertex AI), skal du oprette et Google Cloud-projekt og aktivere Vertex AI / Gemini API'erne. Du skal bruge fakturering og de korrekte roller (f.eks.
Vertex AI AdminorService Accountmed inferensrettigheder). - Gemini API-adgang — Nogle Gemini-billedmodeller er forhåndsvisning/begrænset tilgængelighed; du skal muligvis anmode om adgang eller bruge modellen via Google AI Studio eller Vertex AI afhængigt af din konto.
- CometAPI (valgfri gateway) — Hvis du foretrækker en enkelt leverandøruafhængig API, der kan proxyere forskellige modeller (inklusive Gemini), så tilmeld dig CometAPI for at få en API-nøgle og gennemgå deres modelliste (de eksponerer Gemini 2.5 Flash-varianter og et OpenAI-kompatibelt endpoint). CometAPI kan forenkle udviklingen og lade dig skifte udbyder uden at ændre din app-kode.
Lokalt værktøj
- SprogkørselstiderNode.js 18+, Python 3.10+ anbefales.
- HTTP-klient:
fetch/axiostil JS;requests/httpxtil Python (eller officielle SDK'er). - Billedhjælpere:
Pillow(Python) ellersharp(Node) til ændring af størrelse, formatkonvertering og Base64-kodning/afkodning. - SikkerhedGem nøgler i miljøvariabler eller en Secrets-boks (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Commit aldrig API-nøgler.
Installer Google/kompatible SDK'er (valgfrit)
Google leverer SDK'er og openai bibliotekskompatibilitetsskinner — du kan bruge OpenAI-klientbibliotekerne mod Gemini ved at ændre et par linjer (basis-URL + API-nøgle), men den native Gemini/Google-klient anbefales til fulde multimodale funktioner. Hvis du bruger CometAPI eller en OpenAI-kompatibel gateway, kan brugen af OpenAI-klienten fremskynde udviklingen, eksempler:
Officiel Google-rute (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
CometAPI / OpenAI-kompatibel klient (Python):
pip install openai requests
Hvordan vælger jeg mellem de tre opkaldsmetoder for Nano Banana?
Valg af opkaldsmetode afhænger af din arkitektur, latenstids-/omkostningskrav, og om du vil bruge Googles officielle slutpunkt eller en tredjeparts OpenAI-kompatibel gateway. De tre almindelige mønstre er:
1) OpenAI-kompatibel chatgrænseflade (tekst-til-billede)
Brug dette, når du allerede har OpenAI-stil kode eller SDK'er og ønsker at skifte model med minimale ændringer. Mange gateways (CometAPI, OpenRouter) eksponerer Gemini-modeller under en OpenAI-kompatibel REST-overflade, så dine eksisterende chat or completions opkald fungerer bare med en anden base_url og modelnavn. Dette er ofte den hurtigste vej til produktion, hvis du ikke vil administrere Google Cloud-godkendelse.
2) Tvillingernes embedsmand generateContent — tekst-til-billede
Brug Googles officielle generateContent via genai (Google)-klient eller Vertex AI, hvis du ønsker det officielle, fuldt understøttede SDK og adgang til de nyeste funktioner (finkornede genereringsparametre, streaming, fil-API til store aktiver) plus Google Cloud-fakturering/overvågning. Dette anbefales, når du har brug for produktionssupport og kontroller i virksomhedsklassen.
3) Tvillingernes embedsmand generateContent — billede-til-billede (Base64 input/output)
Brug dette, når du skal indsende binære billeder inline (Base64) eller ønsker billedredigering / billede-til-billede-pipelines. Googles generateContent understøtter indlejrede (base64) billeder og en File API til større eller genanvendelige aktiver. Svar på genererede/redigerede billeder returneres typisk som Base64-strenge, som du afkoder og gemmer. Dette giver den mest eksplicitte multimodale kontrol.
Hvordan kan jeg ringe til Nano Banana via en OpenAI-kompatibel chatgrænseflade (tekst-til-billede)?
Et OpenAI-kompatibelt chat-slutpunkt accepterer en sekvens af {role, content} beskeder; du beskriver hvilket billede du ønsker i en brugerbesked, og gatewayen (CometAPI eller en OpenAI-kompatibilitetsshim) oversætter det til et kald til den underliggende Gemini-model. Dette er praktisk, hvis din app allerede bruger chatflows, eller du ønsker at kombinere tekstgenerering + billedgenerering i en enkelt udveksling.
Steps
1.Tilmeld dig CometAPI og få en API-nøgleRegistrer dig på CometAPI, opret et projekt, kopier din API-nøgle. CometAPI eksponerer mange modeller bag en enkelt base_url. ()
-
Installer en OpenAI-kompatibel klientPython:
pip install openaieller brug den nyereopenai/OpenAISDK-wrapper brugt af mange gateways. -
Peg SDK'et mod CometAPI og kald slutpunktet for chatfuldførelser:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Bemærkninger:
-
stream skal være sand; svaret vil blive returneret som en stream;
-
Responsstrukturen er pakket ind af CometAPI for OpenAI-kompatibilitet.
-
Svaret indeholder et Base64-billede; afkod og gem det på klienten efter behov:
Hvordan kan jeg ringe til Nano Banana ved hjælp af den officielle Gemini-telefon? generateContent tekst-til-billede-grænseflade?
Google tilbyder en Gemini-udvikler-API (Gemini API'en) og eksponerer også Gemini-modeller via Vertex AIFor programmatisk adgang til Gemini 2.5 Flash Image (Nano Banana) på en understøttet måde, den officielle generateContent Metoden er det kanoniske indgangspunkt for generering af tekstbaseret eller multimodal tekst. Brug Googles GenAI SDK (Python: google-genai) eller kald REST-slutpunktet direkte. Det giver direkte adgang til modellens parametre og modaliteter, og er den anbefalede måde at bruge avancerede funktioner (præcis redigering, fusion af flere billeder), når Googles slutpunkter kaldes.
- Brug Googles GenAI SDK (Python:
google-genai)
Distributions-/opkaldstrin (oversigt):
- Få en API-nøgle fra Google AI Studio eller opret en Vertex AI-tjenestekonto (afhængigt af platformen).
- Installer SDK (
pip install --upgrade google-genai) og godkend (API-nøgle eller standardlegitimationsoplysninger for Google-applikationer). - Vælg modellen:
gemini-2.5-flash-imageeller forhåndsvisningssluggen vist i dokumentationen (den nøjagtige slug afhænger af GA/forhåndsvisningstilstanden). - Ring til os på
client.models.generate_content(...)med en almindelig tekstprompt (tekst-til-billede). - Afkode returnerede billeder (hvis returneret Base64) og gem/opbevar.
Eksempel på Python (officiel klient) — tekst→billede:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Bemærk: Tjek den officielle klient-API for nøjagtige parameternavne — eksemplerne ovenfor følger mønstre i Google-dokumenterne.)
2. Opkald Nano Banan via REST-slutpunktet
EST-slutpunkt (eksempel på tekst-til-billede): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Godkendelsesmuligheder: forsyningsheader x-goog-api-key: $CometAPI_API_KEY. (Opret en nøgle i CometAPI.)
Dette sender en tekstprompt og gemmer det returnerede base64-billede:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Bemærkninger: Billedbinærfilen returneres som base64 i
candidates.content.parts.inline_data.dataOvenstående eksempel brugerjqat udvælge de indlejrede data og afkode dem. De officielle dokumenter viser det samme flow.
Hvordan kan jeg ringe til Nano Banana ved hjælp af den officielle Gemini-telefon? generateContent Billede-til-billede-grænseflade (Base64 ind/ud)?
Hvornår skal man bruge image-to-image (base64 ind/ud)?
Brug billede-til-billede, når du har brug for at:
- Rediger et eksisterende foto (inpainting, stiloverførsel, objektudskiftning).
- Kombiner flere kildebilleder til én komposition.
- Bevar et motivs identitet på tværs af redigeringer (en af Nano Bananas styrker).
Gemini generateContent understøtter indlejrede billeddata via Base64 (eller som fil-URI'er) og returnerer genererede eller redigerede billeder som Base64-strenge. Dokumentationen giver eksplicitte eksempler på, hvordan man leverer inline_data med mime_type og data.
Distributions-/opkaldstrin (billede-til-billede)
- Forbered inputbillede(r): læs filbytes, Base64-kod eller send rå bytes via SDK-hjælper.
- Konstruere a
contentsarray hvor den ene del er det indlejrede billede (medmimeTypeogdata) og efterfølgende dele indeholder instruktioner til tekstredigering. - POST til
generateContent(officiel SDK eller REST). - Modtage svar: API'en returnerer genererede/redigerede billeder kodet som Base64-strenge. Afkod og gem dem lokalt.
Eksempel — Python (billede-til-billede ved hjælp af inline bytes via GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Python-eksempel: billede→billede ved hjælp af Base64 via hvilepunkt
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Hvis du vil have adgang til den ved hjælp af CometAPI'ens restport:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
For inline: læs billedet og base64-kod det. Ved gentagen brug eller >20 MB, upload via File API og referer til filhandlen i
generateContentBedst til præcise redigeringer og arbejdsgange, der kræver inputbilleder plus tekstlige redigeringsinstruktioner.
Hvad er de bedste tips til at arbejde med Nano Banana?
Hurtig konstruktion og kontrol
- Vær eksplicitInkluder ønsket billedformat, stilreferencer (kun kunstnernavne hvis tilladt), kameralinse, belysning og komposition. F.eks. "Fotorealistisk, 3:2, lav dybdeskarphed, gylden time, Nikon 50 mm objektiv."
- Brug successiv redigeringForetrækker mindre, lokale redigeringer i flere omgange frem for store enkeltstående redigeringsopgaver — dette bevarer motivkonsistens. Nano Bananas styrke er iterativ redigering.
Billedhygiejne
- Forbehandling af input: normalisering af farverum, fjern integreret EXIF, hvis privatliv er påkrævet, skalering til fornuftige opløsninger for at gemme tokens.
- Efterbehandlingsoutput: Kør ansigtsgenkendelse, opryd mindre artefakter via letvægtsfiltre (Pillow / Sharp) før returnering til brugerne.
Sikkerheds-, overholdelses- og indholdspolitikker
- Implementer en automatiseret indholdssikkerhedskontrol (Vision-modereringsmodeller eller sortlistekontroller) før lagring/visning af billeder.
- Hvis du uploader billeder af personer, skal du følge gældende love om privatlivsbeskyttelse (GDPR/CCPA) og indhente de nødvendige samtykker.
- Respekter politikker for modelbrug og ophavsretsregler, når du spørger efter ophavsretligt beskyttede figurer eller eksisterende illustrationer.
Afslutningsnotater
Nano Banana (Gemini 2.5 Flash Image) repræsenterer et pragmatisk og højtydende trin til multimodal billedgenerering og -redigering: det er designet til konsistens på tværs af redigeringer og rigere multimodal ræsonnement. Nano Banana (Gemini 2.5 Flash Image) er et vigtigt trin i billedgenerering/redigering — det tilbyder høj konsistens til flertrinsredigeringer og flere integrationsflader (OpenAI-kompatible gateways som CometAPI og Googles). generateContent API'er). For at sikre hurtigere implementering giver gateways som CometAPI dig mulighed for at genbruge kode i OpenAI-stil. Kontroller altid svar for fornuft, respekter indholdspolitik og proveniensfunktioner (SynthID), og overvåg omkostninger under iteration.
Kom godt i gang
CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.
Udviklere kan få adgang Gemini 2.5 Flash-billede(Nano Banana Comet API-liste gemini-2.5-flash-image-preview/gemini-2.5-flash-image stilposter i deres katalog.) via CometAPI, er de seneste modelversioner, der er angivet, fra artiklens udgivelsesdato. For at begynde, skal du udforske modellens muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.



