Hvordan bruke Nano Banana via API? (Gemini-2-5-flash-image)

Nano Banana er kallenavnet (og den interne forkortelsen) for Googles Gemini 2.5 Flash-bilde — en modell for generering og redigering av multimodal bilder av høy kvalitet med lav latens. Denne omfattende veiledningen (med kode, mønstre, distribusjonstrinn og CometAPI-eksempler) viser tre praktiske anropsmetoder du kan bruke i produksjon: (1) et OpenAI-kompatibelt chatgrensesnitt (tekst→bilde), (2) Googles offisielle generateContent tekst→bildegrensesnitt, og (3) Googles offisielle generateContent bilde→bildegrensesnitt ved bruk av Base64 input/output. Underveis får du trinnvise råd om distribusjon/distribusjon, miljøoppsett, hvordan du får API-operasjoner fra CometAPI, pris- og vannmerkenotater, og de beste tipsene for pålitelige og kostnadseffektive resultater.

Hva er Nano Banana (Gemini 2.5 Flash-bilde)?

Nano Banana er det uformelle navnet på Gemini 2.5 Flash Image, Googles nyeste bildemodell i Gemini-familien. Den er designet for både fotorealistisk bildegenerering og presis bilderedigering (lokale redigeringer, flerbildefusjon, konsistent tegnbevaring på tvers av redigeringer), og er tilgjengelig gjennom Googles Gemini API, Google AI Studio og Vertex AI. Modellen leveres med et usynlig SynthID-vannmerke for proveniens.

Hvorfor dette er viktig for utviklere: Nano Banana gir deg én enkelt, høykvalitets multimodal modell som kan håndtere:

Tekst → Bilde (lag nye bilder fra tekstmeldinger)
Bilde → Bilde (rediger/transformer et gitt bilde)
Blanding av flere bilder (kombiner flere bilder til én sammensatt samling)
Alt dette er tilgjengelig enten via Googles offisielle generateContent endepunkter (Vertex AI / Gemini API) eller via OpenAI-kompatible endepunkter som tilbys av tredjeparts API-gatewayer som CometAPI og OpenRouter. Det betyr at du kan integrere Gemini 2.5 Flash Image i eksisterende OpenAI-kompatible kodebaser eller kalle Googles offisielle SDK-er direkte.

Hva den utmerker seg på

Målrettede, lokale redigeringer (endre en skjortefarge, fjerne objekter, justere positurer).
Opprettholde konsistens mellom emne/karakter på tvers av redigeringer.
Blande/slå sammen flere bilder til et sammenhengende komposittbilde.
Lav latens og kostnadseffektiv inferens sammenlignet med tyngre forskningsmodeller (Google posisjonerer «Flash»-modeller som alternativer med høy gjennomstrømning).

Hvordan bør jeg sette opp utviklingsmiljøet mitt til å kalle Nano Banana via API?

Nedenfor finner du en trinnvis sjekkliste som du kan bruke som et grunnlag for hvilken som helst av de tre anropsmetodene som beskrives senere.

Forutsetninger (kontoer, nøkler, kvote)

Google-konto + Cloud-prosjekt – Hvis du planlegger å ringe Gemini direkte via Google (Gemini API / Vertex AI), opprett et Google Cloud-prosjekt og aktiver Vertex AI / Gemini API-ene. Du trenger fakturering og riktige roller (f.eks. Vertex AI Admin or Service Account med slutningsrettigheter).
Gemini API-tilgang – Noen Gemini-bildemodeller er forhåndsvisningsvennlige/begrenset tilgjengelige. Du må kanskje be om tilgang eller bruke modellen via Google AI Studio eller Vertex AI, avhengig av kontoen din.
CometAPI (valgfri gateway) – Hvis du foretrekker et enkelt leverandøruavhengig API som kan proxy-servere forskjellige modeller (inkludert Gemini), registrer deg på CometAPI for å få en API-nøkkel og se gjennom modelllisten deres (de eksponerer Gemini 2.5 Flash-varianter og et OpenAI-kompatibelt endepunkt). CometAPI kan forenkle utviklingen og la deg bytte leverandør uten å endre appkoden din.

Lokalt verktøy

SpråkkjøretiderNode.js 18+, Python 3.10+ anbefales.
HTTP-klient: fetch/axios for JS; requests/httpx for Python (eller offisielle SDK-er).
Bildehjelpere: Pillow (Python) eller sharp (Node) for endring av størrelse, formatkonvertering og Base64-koding/dekoding.
TrygghetLagre nøkler i miljøvariabler eller et hemmelig hvelv (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Aldri lagre API-nøkler.

Installer Google/kompatible SDK (valgfritt)

Google tilbyr SDK-er og openai bibliotekkompatibilitetsavstander – du kan bruke OpenAI-klientbibliotekene mot Gemini ved å endre noen få linjer (basis-URL + API-nøkkel), men den innebygde Gemini/Google-klienten anbefales for fulle multimodale funksjoner. Hvis du bruker CometAPI eller en OpenAI-kompatibel gateway, kan bruk av OpenAI-klienten øke hastigheten på utviklingen, eksempler:

Offisiell Google-rute (Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

CometAPI / OpenAI-kompatibel klient (Python):

pip install openai requests

Hvordan velger jeg mellom de tre anropsmetodene for Nano Banana?

Valg av anropsmetode avhenger av arkitekturen din, krav til ventetid/kostnad, og om du vil stole på Googles offisielle endepunkt eller en tredjeparts OpenAI-kompatibel gateway. De tre vanlige mønstrene er:

1) OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)

Bruk dette når du allerede har OpenAI-stilkode eller SDK-er og ønsker å bytte modell med minimale endringer. Mange gatewayer (CometAPI, OpenRouter) eksponerer Gemini-modeller under en OpenAI-kompatibel REST-overflate, slik at din eksisterende chat or completions samtaler fungerer med bare en annen base_url og modellnavn. Dette er ofte den raskeste veien til produksjon hvis du ikke vil administrere Google Cloud-autentisering.

2) Tvillingenes offisielle `generateContent` — tekst-til-bilde

Bruk Googles offisielle generateContent via genai (Google)-klient eller Vertex AI hvis du ønsker det offisielle, fullt støttede SDK-et og tilgang til de nyeste funksjonene (finkornede genereringsparametere, strømming, fil-API for store ressurser), pluss Google Cloud-fakturering/-overvåking. Dette anbefales når du trenger produksjonsstøtte og kontroller i bedriftsklassen.

3) Tvillingenes offisielle `generateContent` — bilde-til-bilde (Base64 input/output)

Bruk dette når du må sende inn binære bilder inline (Base64) eller ønsker bilderedigering / bilde-til-bilde-pipelines. Googles generateContent støtter innebygde (base64) bilder og et File API for større eller gjenbrukbare ressurser. Svar for genererte/redigerte bilder returneres vanligvis som Base64-strenger som du dekoder og lagrer. Dette gir den mest eksplisitte multimodale kontrollen.

Hvordan kan jeg ringe Nano Banana via et OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)?

Et OpenAI-kompatibelt chat-endepunkt godtar en sekvens av {role, content} meldinger; du beskriver hvilket bilde du ønsker i en brukermelding, og gatewayen (CometAPI eller en OpenAI-kompatibilitetsshim) oversetter det til et kall til den underliggende Gemini-modellen. Dette er praktisk hvis appen din allerede bruker chatflyter, eller du vil kombinere tekstgenerering + bildegenerering i én utveksling.

Steps

1.Registrer deg for CometAPI og få en API-nøkkelRegistrer deg på CometAPI, opprett et prosjekt, kopier API-nøkkelen din. CometAPI eksponerer mange modeller bak én enkelt base_url. ()

Installer en OpenAI-kompatibel klientPython: pip install openai eller bruk den nyere openai/OpenAI SDK-wrapper brukt av mange gatewayer.
Pek SDK-en mot CometAPI og kall endepunktet for chatfullføringer:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

Merknader:

stream må være sann; svaret vil bli returnert som en stream;
Responsstrukturen er pakket inn av CometAPI for OpenAI-kompatibilitet.
Svaret inkluderer et Base64-bilde; dekoder og lagrer det på klienten etter behov:

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` tekst-til-bilde-grensesnitt?

Google tilbyr en Gemini-utvikler-API (Gemini API) og eksponerer også Gemini-modeller via Vertex AIFor programmatisk tilgang til Gemini 2.5 Flash Image (Nano Banana) på en støttet måte, den offisielle generateContent Metoden er det kanoniske inngangspunktet for generering av kun tekst eller multimodal. Bruk Googles GenAI SDK (Python: google-genai) eller kall REST-endepunktet direkte. Det gir direkte tilgang til modellens parametere og modaliteter, og er den anbefalte måten å bruke avanserte funksjoner (presis redigering, flerbildefusjon) når du kaller Googles endepunkter.

Bruk Googles GenAI SDK (Python: google-genai)

Distribusjons- / samtaletrinn (oversikt):

Få en API-nøkkel fra Google AI Studio eller opprett en Vertex AI-tjenestekonto (avhengig av plattform).
Installer SDK (pip install --upgrade google-genai) og autentisere (API-nøkkel eller standardlegitimasjon for Google-applikasjonen).
Velg modellen: gemini-2.5-flash-image eller forhåndsvisningssluggen som vises i dokumentasjonen (den nøyaktige sluggen avhenger av GA/forhåndsvisningstilstanden).
Anrop client.models.generate_content(...) med en ren tekstledetekst (tekst-til-bilde).
Dekode returnerte bilder (hvis returnert Base64) og lagre/lagre.

Eksempel på Python (offisiell klient) — tekst→bilde:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(Merk: sjekk det offisielle klient-API-et for nøyaktige parameternavn – eksemplene ovenfor følger mønstrene i Google-dokumentene.)

2. Anrop Nano Banan via REST-endepunktet

EST-endepunkt (eksempel på tekst-til-bilde): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

Autentiseringsalternativer: forsyningshode x-goog-api-key: $CometAPI_API_KEY. (Opprett en nøkkel i CometAPI.)

Dette legger ut en tekstmelding og lagrer det returnerte base64-bildet:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

Merknader: Bildebinærfilen returneres som base64 i candidates.content.parts.inline_data.dataEksemplet ovenfor bruker jq å plukke ut de innebygde dataene og dekode dem. De offisielle dokumentene viser den samme flyten.

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` Bilde-til-bilde-grensesnitt (Base64 inn/ut)?

Når bør du bruke bilde-til-bilde (base64 inn/ut)?

Bruk bilde-til-bilde når du trenger å:

Rediger et eksisterende bilde (innmaling, stiloverføring, objekterstatning).
Kombiner flere kildebilder til én komposisjon.
Bevar et motivs identitet på tvers av redigeringer (en av Nano Bananas styrker).

Gemini generateContent støtter innebygde bildedata via Base64 (eller som fil-URI-er) og returnerer genererte eller redigerte bilder som Base64-strenger. Dokumentasjonen gir eksplisitte eksempler for å gi inline_data med mime_type og data.

Distribusjons-/anropstrinn (bilde-til-bilde)

Forbered input image(s): les filbytes, Base64-kode eller send råbytes via SDK-hjelperen.
Konstruer a contents matrise der én del er det innebygde bildet (med mimeType og data) og påfølgende deler inkluderer instruksjoner for tekstredigering.
POST til generateContent (offisiell SDK eller REST).
Motta svar: API-et returnerer genererte/redigerte bilder kodet som Base64-strenger. Dekod og lagre dem lokalt.

Eksempel — Python (bilde-til-bilde ved bruk av innebygde byte via GenAI SDK)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

Python-eksempel: bilde→bilde ved bruk av Base64 via hvilepunkt

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

Hvis du vil ha tilgang til den ved hjelp av CometAPI-restporten:

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

For innebygd bruk: les bildet og base64-kode det. For gjentatt bruk eller >20 MB, last opp via File API og referer til filhåndtaket i generateContentBest for presise redigeringer og arbeidsflyter som krever bilder i tillegg til tekstredigeringsinstruksjoner.

Hva er de beste tipsene for å jobbe med Nano Banana?

Rask prosjektering og kontroll

Vær eksplisittInkluder ønsket sideforhold, stilreferanser (kun kunstnernavn hvis tillatt), kameralinse, belysning og komposisjon. F.eks. «Fotorealistisk, 3:2, liten dybdeskarphet, gyllen time, Nikon 50 mm-objektiv.»
Bruk suksessiv redigeringForetrekker mindre, lokale redigeringer i flere omganger fremfor store enkeltbilde-oppgaver – dette bevarer motivkonsistens. Nano Bananas styrke er iterativ redigering.

Bildehygiene

Forbehandling av inndata: normaliser fargerommet, fjern innebygd EXIF hvis personvern er nødvendig, skaler til fornuftige oppløsninger for å lagre tokens.
Etterbehandlingsutganger: kjør ansiktsgjenkjenning, fjern mindre artefakter via lette filtre (Pillow / Sharp) før retur til brukerne.

Sikkerhets-, samsvars- og innholdspolicyer

Implementer en automatisert sikkerhetssjekk av innhold (visjonsmodereringsmodeller eller svartelistesjekker) før lagring/visning av bilder.
Hvis du laster opp bilder av personer, må du følge gjeldende personvernlover (GDPR/CCPA) og innhente nødvendige samtykker.
Respekter retningslinjer for modellbruk og opphavsrettsregler når du ber om opphavsrettsbeskyttede figurer eller eksisterende kunstverk.

Avslutningsnotater

Nano Banana (Gemini 2.5 Flash Image) representerer et pragmatisk og høykvalitets trinn for multimodal bildegenerering og -redigering: det er designet for konsistens på tvers av redigeringer og rikere multimodal resonnement. Nano Banana (Gemini 2.5 Flash Image) er et viktig trinn i bildegenerering/redigering – og tilbyr høy konsistens for flertrinnsredigeringer og flere integrasjonsflater (OpenAI-kompatible gatewayer som CometAPI og Googles). generateContent API-er). For raskere adopsjon lar gatewayer som CometAPI deg gjenbruke OpenAI-stilkode. Sjekk alltid svarenes tilregnelighet, respekter innholdspolicy og proveniensfunksjoner (SynthID), og overvåk kostnader under iterasjon.

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Utviklere har tilgang Gemini 2.5 Flash-bilde(Nano Banana Comet API-liste gemini-2.5-flash-image-preview/gemini-2.5-flash-image stiloppføringer i katalogen deres.) gjennom CometAPI, er de nyeste modellversjonene som er oppført per artikkelens publiseringsdato. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Hva er Nano Banana (Gemini 2.5 Flash-bilde)?

Hva den utmerker seg på

Hvordan bør jeg sette opp utviklingsmiljøet mitt til å kalle Nano Banana via API?

Forutsetninger (kontoer, nøkler, kvote)

Lokalt verktøy

Installer Google/kompatible SDK (valgfritt)

Hvordan velger jeg mellom de tre anropsmetodene for Nano Banana?

1) OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)

2) Tvillingenes offisielle `generateContent` — tekst-til-bilde

3) Tvillingenes offisielle `generateContent` — bilde-til-bilde (Base64 input/output)

Hvordan kan jeg ringe Nano Banana via et OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)?

Steps

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` tekst-til-bilde-grensesnitt?

2. Anrop Nano Banan via REST-endepunktet

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` Bilde-til-bilde-grensesnitt (Base64 inn/ut)?

Når bør du bruke bilde-til-bilde (base64 inn/ut)?

Distribusjons-/anropstrinn (bilde-til-bilde)

Eksempel — Python (bilde-til-bilde ved bruk av innebygde byte via GenAI SDK)

Python-eksempel: bilde→bilde ved bruk av Base64 via hvilepunkt

Hva er de beste tipsene for å jobbe med Nano Banana?

Rask prosjektering og kontroll

Bildehygiene

Sikkerhets-, samsvars- og innholdspolicyer

Avslutningsnotater

Komme i gang

Les mer

500+ modeller i ett API

Hvordan bruke Nano Banana via API? (Gemini-2-5-flash-image)

Hva er Nano Banana (Gemini 2.5 Flash-bilde)?

Hva den utmerker seg på

Hvordan bør jeg sette opp utviklingsmiljøet mitt til å kalle Nano Banana via API?

Forutsetninger (kontoer, nøkler, kvote)

Lokalt verktøy

Installer Google/kompatible SDK (valgfritt)

Hvordan velger jeg mellom de tre anropsmetodene for Nano Banana?

1) OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)

2) Tvillingenes offisielle generateContent — tekst-til-bilde

3) Tvillingenes offisielle generateContent — bilde-til-bilde (Base64 input/output)

Hvordan kan jeg ringe Nano Banana via et OpenAI-kompatibelt chatgrensesnitt (tekst-til-bilde)?

Steps

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? generateContent tekst-til-bilde-grensesnitt?

2. Anrop Nano Banan via REST-endepunktet

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? generateContent Bilde-til-bilde-grensesnitt (Base64 inn/ut)?

Når bør du bruke bilde-til-bilde (base64 inn/ut)?

Distribusjons-/anropstrinn (bilde-til-bilde)

Eksempel — Python (bilde-til-bilde ved bruk av innebygde byte via GenAI SDK)

Python-eksempel: bilde→bilde ved bruk av Base64 via hvilepunkt

Hva er de beste tipsene for å jobbe med Nano Banana?

Rask prosjektering og kontroll

Bildehygiene

Sikkerhets-, samsvars- og innholdspolicyer

Avslutningsnotater

Komme i gang

Les mer

500+ modeller i ett API

2) Tvillingenes offisielle `generateContent` — tekst-til-bilde

3) Tvillingenes offisielle `generateContent` — bilde-til-bilde (Base64 input/output)

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` tekst-til-bilde-grensesnitt?

Hvordan kan jeg ringe Nano Banana ved å bruke den offisielle Gemini-telefonen? `generateContent` Bilde-til-bilde-grensesnitt (Base64 inn/ut)?