Hvordan bruker jeg Nano Banana Pro (Gemini 3 Pro Image) API-et?

CometAPI
AnnaDec 10, 2025
Hvordan bruker jeg Nano Banana Pro (Gemini 3 Pro Image) API-et?

Nano Banana Pro – offisielt Gemini 3 Pro-bilde — er Google/DeepMinds nye modell for bildegenerering og -redigering i studioklasse som kombinerer avansert multimodal resonnering, tekstgjengivelse med høy kvalitet, komposisjon av flere bilder og kreative kontroller på studionivå.

Hva er Nano Banana Pro, og hvorfor burde du bry deg?

Nano Banana Pro er Googles nyeste modell for bildegenerering og bilderedigering – «Gemini 3 Pro Image»-utgivelsen – som er utviklet for å produsere høyoppløselige, kontekstbevisste bilder og tekst på bildet med studiokvalitet opptil 4K. Det er en etterfølger til de tidligere Nano Banana-modellene (Gemini 2.5 Flash Image / «Nano Banana») med forbedret resonnement, søkeforankring (fakta fra den virkelige verden), sterkere tekstgjengivelse og kraftigere lokale redigeringskontroller. Modellen er tilgjengelig i Gemini-appen for interaktive brukere og får tilgang til Nano Banana Pro gjennom standard Gemini API, men du velger den spesifikke modellidentifikatoren (gemini-3-pro-image-preview eller dens stabile etterfølger). for programmatisk tilgang.

Hvorfor dette er viktig: Nano Banana Pro er ikke bare bygget for å lage pene bilder, men også visualisere informasjon — infografikk, datadrevne øyeblikksbilder (vær, sport), teksttunge plakater, produktmodeller og flerbildefusjoner (opptil 14 inndatabilder og opprettholdelse av tegnkonsistens på tvers av opptil 5 personer). For designere, produktteam og utviklere åpner denne kombinasjonen av nøyaktighet, tekst på bildet og programmatisk tilgang produksjonsarbeidsflyter som tidligere var vanskelige å automatisere

Hvilke funksjoner eksponeres via API-et?

Typiske API-funksjoner som er eksponert for utviklere inkluderer:

  • Tekst → Bildegenerering (enkelt- eller flertrinns «tenkende» komposisjonsflyter).
  • Bilderedigering (lokale masker, innmaling, stiljusteringer).
  • Flerbildefusjon (kombiner referansebilder).
  • Avanserte forespørselskontrolleroppløsning, sideforhold, etterbehandlingstrinn og «komposisjonstanke»-spor for feilsøking/inspeksjonsevne i forhåndsvisningsmodus.

Kjerneinnovasjoner og funksjoner til Nano Banana Pro

Smartere innholdsresonnement

Bruker Gemini 3 Pros resonnementsstabel til å tolke komplekse visuelle instruksjoner i flere trinn (f.eks. «lag en 5-trinns infografikk fra dette datasettet og legg til en tospråklig bildetekst»). API-et eksponerer en «tenkemekanisme» som kan produsere mellomliggende komposisjonstester for å forbedre det endelige resultatet.

Hvorfor det betyr noe: I stedet for en enkelt gjennomgang som kartlegger prompt → piksel, utfører modellen en intern «tenkeprosess» som forbedrer komposisjonen og kan kalle på eksterne verktøy (f.eks. Google Søk) for faktabasert forankring (f.eks. nøyaktige diagrametiketter eller lokalitetskorrekt skilting). Dette gir bilder som ikke bare er penere, men også mer semantisk korrekte for oppgaver som infografikk, diagrammer eller produktmodeller.

Slik oppnår du: Nano Banana Pros «Thinking» er en kontrollert intern resonnements-/komposisjonsprosess der modellen genererer mellomliggende visuelle elementer og resonnementsspor før det endelige bildet produseres. API-et viser at modellen kan opprette opptil to mellombilder, og at det endelige bildet er det siste trinnet i den kjeden. I produksjon hjelper dette med komposisjon, plassering av tekst og layoutbeslutninger.

Mer nøyaktig tekstgjengivelse

Betydelig forbedret lesbar, lokalisert tekst i bilder (menyer, plakater, diagrammer). Nano Banana Pro når nye høyder innen gjengivelse av bildetekst:

  • Tekst i bilder er tydelig, lesbar og stavet nøyaktig;
  • Støtter flerspråklig generering (inkludert kinesisk, japansk, koreansk, arabisk, osv.);
  • Lar brukere skrive lange avsnitt eller beskrivende tekst på flere linjer direkte inn i bilder;
  • Automatisk oversettelse og lokalisering er tilgjengelig.

Hvorfor det betyr noe: Tradisjonelt sett sliter bildemodeller med å gjengi lesbar, godt justert tekst. Nano Banana Pro er eksplisitt optimalisert for pålitelig tekstgjengivelse og lokalisering (f.eks. oversettelse og bevaring av layout), noe som åpner for reelle kreative bruksområder som plakater, emballasje eller flerspråklige annonser.

Slik oppnår du: Forbedringer i tekstgjengivelse kommer fra den underliggende multimodale arkitekturen og trening på datasett som vektlegger eksempler på tekst-i-bilde, kombinert med målrettede evalueringssett (menneskelige evalueringer og regresjonssett). Modellen lærer å justere tegnformer, fonter og layoutbegrensninger for å produsere lesbar, lokalisert tekst inni bilder – selv om liten tekst og ekstremt tette avsnitt fortsatt kan være utsatt for feil.

Sterkere visuell konsistens og gjengivelse

Studiokontroller (belysning, fokus, kameravinkel, fargegradering) og flerbildekomposisjon (opptil 14 referansebilder, med spesielle tillatelser for flere menneskelige subjekter) bidrar til å bevare karakterkonsistens (beholde samme person/karakter på tvers av redigeringer) og merkeidentitet på tvers av genererte ressurser. Modellen støtter innebygde 1K/2K/4K-utganger.

Hvorfor det betyr noe: Markedsførings- og underholdningsarbeidsflyter krever konsistente karakterer på tvers av bilder og redigeringer. Modellen kan opprettholde likhet i opptil fem folk og blande seg opp til 14 referansebilder til én komposisjon mens du produserer Sketch → 3D-rendering. Dette er nyttig for reklamekreativitet, emballasje eller historiefortelling med flere bilder.

Slik oppnår du: Modellinndata godtar flere bilder med eksplisitte rolletildelinger (f.eks. «Bilde A: positur», «Bilde B: ansiktsreferanse», «Bilde C: bakgrunnstekstur»). Arkitekturen forutsetter generering på disse bildene for å opprettholde identitet/positur/stil samtidig som transformasjoner (belysning, kamera) brukes.

Ytelsesbenchmarks for Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) «utmerker seg på Tekst→Bilde AI-referansepunkter» og viser forbedret resonnement og kontekstuell forankring sammenlignet med tidligere Nano Banana-modeller. Den vektlegger høyere gjengivelseskvalitet og forbedret tekstgjengivelse sammenlignet med tidligere utgivelser.

Hvordan bruker jeg Nano Banana Pro (Gemini 3 Pro Image) API-et?

Praktisk veiledning om ytelse

Forvent høyere ventetid og kostnader for 2K/4K high-fidelity-gjengivelser enn for 1K eller «Flash»-modeller som er optimalisert for hastighet. Hvis gjennomstrømning/forsinkelse er kritisk, bruk flash-varianten (f.eks. Gemini 2.5 Flash / Nano Banana) for høyt volum; bruk Nano Banana Pro / gemini-3-pro-image for kvalitet og komplekse resonneringsoppgaver.

Hvordan kan utviklere få tilgang til Nano Banana Pro?

Hvilke endepunkter og modeller du skal velge

Modellidentifikator (forhåndsvisning / pro): gemini-3-pro-image-preview (forhåndsvisning) – bruk dette når du ønsker Nano Banana Pro-funksjonene. For raskere og rimeligere arbeid, gemini-2.5-flash-image (Nano Banana) er fortsatt tilgjengelig.

Overflater som skal brukes

  • Gemini API (endepunkt for generativt språk): Du kan bruke en CometAPI-nøkkel for å få tilgang til xx. CometAPI tilbyr samme API til en gunstigere pris enn det offisielle nettstedet. Direkte HTTP/SDK-kall til generateContent for bildegenerering (eksempler nedenfor).
  • Google AI Studio: Nettflate for rask eksperimentering og remiksing av demoapper.
  • Vertex AI (bedrift): Tilrettelagt gjennomstrømning, faktureringsvalg (betal etter bruk / bedriftsnivåer) og sikkerhetsfiltre for storskala produksjon. Bruk Vertex når du integrerer i store pipelines eller batch-renderingjobber.

Gratisnivået har en begrenset bruksgrense; overskridelse av grensen vil gå tilbake til Nano Banana. Plus/Pro/Ultra-nivåene tilbyr høyere grenser og vannmerkefri utgang, men Ultra kan brukes i Flow-videoverktøy og Antigravity IDE i 4K-modus.

Hvordan genererer jeg et bilde med Nano Banana Pro (trinn for trinn)?

1) Rask interaktiv oppskrift med Gemini-appen

  1. Åpne Gemini → Verktøy → Lag bilder.
  2. Velg Tenkning (Nano Banana Pro) som modell.
  3. Skriv inn en melding: forklar motiv, handling, stemning, belysning, kamera, sideforhold og eventuell tekst som skal vises på bildet. Eksempel:
    «Lag en 4K-plakat av et robotverksted: et mangfoldig team rundt et bord, blåkopi-overlegg, fet skrift med overskriften «Roboter i aksjon» i sans serif, varmt wolframlys, grunn dybdeskarphet, filmatisk 16:9.»
  4. (Valgfritt) Last opp opptil 14 bilder for sammenslåing eller bruk som referanser. Bruk markerings-/maskeringsverktøyet til å redigere områder lokalt.
  5. Generer, iterer med naturlig språk (f.eks. «gjør overskriften blå og justert øverst i midten; øk kontrasten på blåkopien»), og eksporter deretter

2) Bruk HTTP for å sende til Gemini-bildeendepunktet

Du må logge inn på CometAPI for å få tak i nøkkelen.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Dette eksemplet skriver base64-bildenyttelasten til en PNG-fil. generationConfig.imageConfig.resolution parameterforespørsler 4K-utgang (tilgjengelig for 3 Pro Image-modellen)

3) Direkte SDK-kall til generateContent for bildegenerering

Krever installasjon av Google SDK og innhenting av Google-autentisering. Python-eksempel (tekst + referansebilder + grunnlag):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Dette eksemplet viser opplasting av et innebygd referansebilde og forespørsel om en 4K-komposisjon samtidig som man aktiverer google_search som et verktøy. Python SDK vil håndtere REST-detaljer på lavt nivå.

Flerbildefusjon og karakterkonsistens

For å lage en kompositt som bevarer den samme personen på tvers av scener, send flere inline_data deler (valgt fra fotosettet ditt), og spesifiser den kreative instruksjonen om at modellen skal «bevare identitet på tvers av resultater».

Kort praktisk eksempel – en reell prompt og forventet flyt

Spør:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Forventet pipeline: app → ledetekstmal + CSV-data → erstatt plassholdere i ledetekst → API-kall med image_size=2048x1152 → motta base64 PNG → lagre metadata for ressurs + proveniens → legg eventuelt over nøyaktig skrifttype via compositor om nødvendig.

Hvordan bør jeg designe en produksjonsrørledning og håndtere sikkerhet/proveniens?

Anbefalt produksjonsarkitektur

  1. Prompt + utkast (hurtigmodell): Bruk gemini-2.5-flash-image (Nano Banana) for å produsere mange variasjoner med liten oppløsning billig.
  2. Utvalg og forbedring: velg de beste kandidatene, finjuster ledetekster, rediger innmaling/maske for presisjon.
  3. Høy-kvalitets endelig gjengivelse: ring gemini-3-pro-image-preview (Nano Banana Pro) for endelige 2K/4K-gjengivelser og etterbehandling (oppsampling, fargegrad).
  4. Proveniens og metadata: lagre ledetekst, modellversjon, tidsstempler og SynthID-informasjon i metadatalageret for ressurser – modellen legger til et SynthID-vannmerke, og utdataene kan spores tilbake for samsvar og innholdsrevisjon.

Sikkerhet, rettigheter og moderering

  • Opphavsrett og rettighetsklarering: Ikke last opp eller generer innhold som krenker rettigheter. Bruk eksplisitte brukerbekreftelser for brukerleverte bilder eller instruksjoner som kan skape gjenkjennelige likheter. Googles retningslinjer for forbudt bruk og sikkerhetsfiltre for modeller må respekteres.
  • Filtrering og automatiserte kontroller: kjøre genererte bilder gjennom en intern innholdsmodereringspipeline (NSFW, hatsymboler, deteksjon av politisk/bindende innhold) før forbruk nedstrøms eller offentlig visning.

Hvordan gjør jeg bilderedigering (inpainting), flerbildekomposisjon og tekstgjengivelse?

Nano Banana Pro støtter multimodale redigeringsarbeidsflyter: gi ett eller flere inputbilder og en tekstinstruksjon som beskriver redigeringer (fjerne et objekt, endre himmel, legge til tekst). API-et godtar bilde + tekst i samme forespørsel; modellen kan produsere sammenflettet tekst og bilder som svar. Eksempler på mønstre inkluderer maskerte redigeringer og blandinger av flere bilder (stiloverføring / komposisjon). Se dokumentasjonen for contents arrayer som kombinerer tekstklatter og binære bilder.

Eksempel: Rediger (Python pseudo-flyt)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Denne samtaleredigeringen lar deg iterativt justere resultatene til du når et produksjonsklart ressurs.

Node.js-eksempel – bilderedigering med maske og flere referanser

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API-er godtar noen ganger Cloud Storage URI-er eller base64-bildenyttelaster; sjekk Gemini API-dokumentasjonen for nøyaktige inndataformater.)

For informasjon om generering og redigering av bilder ved hjelp av CometAPI, se Veiledning for å ringe gemini-3-pro-bilde .

Konklusjon

Nano Banana Pro (Gemini 3 Pro Image) er et sprang i produksjonsklassen innen bildegenerering: et verktøy for å visualisere data, produsere lokaliserte redigeringer og drive utviklerarbeidsflyter. Bruk Gemini-appen for rask prototyping, API-et for produksjonsintegrasjon, og følg anbefalingene ovenfor for å kontrollere kostnader, sikre sikkerhet og opprettholde merkevarekvalitet. Test alltid reelle brukerarbeidsflyter og lagre proveniensmetadata for å møte behov for åpenhet og revisjon.

Bruk Nano Banana Pro når du trenger det studiokvalitet ressurser, presis kontroll over komposisjon, forbedret tekstgjengivelse i bilder og muligheten til å slå sammen flere referanser til én sammenhengende utdata.

Utviklere har tilgang Gemini 3 Pro Image (Nano Banana Pro) API gjennom CometAPI. For å begynne, utforsk modellfunksjonene tilCometAPI i lekeplass og se API-veiledningen for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. cometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Klar til å dra? → Registrer deg for CometAPI i dag !

Hvis du vil vite flere tips, guider og nyheter om AI, følg oss på VKX og Discord!

SHARE THIS BLOG

500+ modeller i ett API

Opptil 20 % rabatt