Hvordan bruke Nano Banana Pro(Gemini 3 Pro Image) API-et?

CometAPI
AnnaNov 20, 2025
Hvordan bruke Nano Banana Pro(Gemini 3 Pro Image) API-et?

Nano Banana Pro — offisielt Gemini 3 Pro Image — er Google/DeepMinds nye studiokvalitetsmodell for bildegenerering og -redigering som kombinerer avansert multimodal resonnering, høyfidelitets tekstrendering, komposisjon med flere bilder og kreative kontroller på studionivå.

Hva er Nano Banana Pro, og hvorfor bør du bry deg?

Nano Banana Pro er Googles nyeste modell for bildegenerering og -redigering — “Gemini 3 Pro Image”-utgaven — designet for å produsere kontekstbevisste bilder og på-bildet-tekst i studiokvalitet, opptil 4K. Den er en etterfølger til de tidligere Nano Banana-modellene (Gemini 2.5 Flash Image / “Nano Banana”) med forbedret resonnering, forankring i Søk (reelle fakta), sterkere tekstrendering og kraftigere lokale redigeringskontroller. Modellen er tilgjengelig i Gemini-appen for interaktiv bruk, og du kan få tilgang til Nano Banana Pro via standard Gemini API ved å velge den spesifikke modellidentifikatoren (gemini-3-pro-image-preview eller dens stabile etterfølger) for programmert tilgang.

Hvorfor det er viktig: Nano Banana Pro er bygget ikke bare for å lage pene bilder, men for å visualisere informasjon — infografikk, datadrevne øyeblikksbilder (vær, sport), tekstrike plakater, produktmockups og sammensmelting av flere bilder (opptil 14 inndata-bilder, og opprettholder identitetskonsistens for opptil 5 personer). For designere, produktteam og utviklere åpner den kombinasjonen av nøyaktighet, på-bildet-tekst og programmatisk tilgang produksjonsarbeidsflyter som tidligere var vanskelige å automatisere.

Hvilke funksjoner er eksponert via API-et?

Typiske API-kapasiteter tilgjengelig for utviklere inkluderer:

  • Text → Image-generering (enkeltstegs- eller flerstegs “tenke”-komposisjonsflyter).
  • Bilderedigering (lokale masker, inpainting, stiljusteringer).
  • Sammensmelting av flere bilder (kombiner referansebilder).
  • Avanserte forespørselskontroller: oppløsning, sideforhold, etterbehandlingssteg, og “composition thought”-spor for feilsøking/inspeksjon i forhåndsvisningsmoduser.

Kjerneinnovasjoner og funksjoner i Nano Banana Pro

Smartere innholdsresonnering

Bruker Gemini 3 Pros resonneringsstakk for å tolke komplekse, flerstegs visuelle instruksjoner (f.eks. “lag en infografikk i 5 trinn fra dette datasettet og legg til en tospråklig bildetekst”). API-et eksponerer en “Thinking”-mekanisme som kan produsere midlertidige komposisjonstester for å raffinere sluttresultatet.

Hvorfor det er viktig: I stedet for et enkelt pass som kartlegger prompt → piksel, utfører modellen en intern “tenkeprosess” som raffinerer komposisjon og kan kalle eksterne verktøy (f.eks. Google Søk) for faktabasert forankring (f.eks. korrekte diagrametiketter eller lokalt riktige skilt). Dette gir bilder som ikke bare er penere, men også mer semantisk korrekte for oppgaver som infografikk, diagrammer eller produktmockups.

Slik oppnås det: Nano Banana Pros “Thinking” er en kontrollert intern resonnerings-/komposisjonsprosess der modellen genererer mellomliggende visuelle steg og resonneringsspor før den produserer sluttbildet. API-et eksponerer at modellen kan skape opptil to mellomrammer, og at sluttbildet er siste steg i kjeden. I produksjon hjelper dette med komposisjon, plassering av tekst og layoutavgjørelser.

Mer presis tekstrendering

Betydelig forbedret, lesbar og lokalisert tekst inne i bilder (menyer, plakater, diagrammer). Nano Banana Pro når nye høyder i tekstrendering i bilder:

  • Tekst i bilder er klar, lesbar og riktig stavet;
  • Støtter flerspråklig generering (inkludert kinesisk, japansk, koreansk, arabisk, osv.);
  • Lar brukere skrive lange avsnitt eller flerlinjet beskrivende tekst direkte i bilder;
  • Automatisk oversettelse og lokalisering er tilgjengelig.

Hvorfor det er viktig: Tradisjonelt sliter bildemodeller med å gjengi lesbar, godt justert tekst. Nano Banana Pro er eksplisitt optimalisert for pålitelig tekstrendering og lokalisering (f.eks. å oversette og bevare layout), noe som låser opp reelle kreative brukstilfeller som plakater, emballasje eller flerspråklige annonser.

Slik oppnås det: Forbedringer i tekstrendering stammer fra den underliggende multimodale arkitekturen og trening på datasett som vektlegger tekst-i-bilde-eksempler, kombinert med målrettede evalueringssett (menneskelige evalueringer og regresjonssett). Modellen lærer å tilpasse glyffformer, fonter og layoutbegrensninger for å produsere lesbar, lokalisert tekst inne i bilder — selv om liten tekst og svært tette avsnitt fortsatt kan være feilutsatte.

Bedre visuell konsistens og trofasthet

Studiokontroller (lyssetting, fokus, kameravinkel, fargegradering) og komposisjon med flere bilder (opptil 14 referansebilder, med særskilte tillatelser for flere menneskelige motiver) bidrar til å bevare identitetskonsistens (holde samme person/karakter på tvers av redigeringer) og merkevareidentitet på tvers av genererte ressurser. Modellen støtter native 1K/2K/4K utdata.

Hvorfor det er viktig: Markedsførings- og underholdningsarbeidsflyter krever konsistente karakterer på tvers av opptak og redigeringer. Modellen kan opprettholde likhet for opptil fem personer og blande opptil 14 referansebilder i en enkelt komposisjon samtidig som den produserer Skisse → 3D-render. Dette er nyttig for reklame, emballasje eller historiefortelling på tvers av flere bilder.

Slik oppnås det: Modellens inndata aksepterer flere bilder med eksplisitte rollefordelinger (f.eks. “Bilde A: positur”, “Bilde B: ansiktsreferanse”, “Bilde C: bakgrunnstekstur”). Arkitekturen betinger genereringen på disse bildene for å opprettholde identitet/positur/stil samtidig som den anvender transformasjoner (lys, kamera).

Ytelsesreferanser for Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “utmerker seg på tekst→bilde AI-benchmarker” og demonstrerer forbedret resonnering og kontekstuell forankring sammenlignet med tidligere Nano Banana-modeller. Den fremhever høyere trofasthet og forbedret tekstrendering relativt til tidligere utgaver.

Hvordan bruke Nano Banana Pro(Gemini 3 Pro Image) API-et?

Praktisk veiledning om ytelse

Forvent høyere latens og kostnad for 2K/4K høyfidelitetsrenderinger enn for 1K eller “Flash”-modellene optimalisert for hastighet. Hvis gjennomstrømming/latens er kritisk, bruk flash-varianten (f.eks. Gemini 2.5 Flash / Nano Banana) for høyt volum; bruk Nano Banana Pro / gemini-3-pro-image for kvalitet og komplekse resonneringsoppgaver.

Hvordan kan utviklere få tilgang til Nano Banana Pro?

Hvilke endepunkter og modeller du bør velge

Modellidentifikator (preview / pro): gemini-3-pro-image-preview (preview) — bruk denne når du ønsker Nano Banana Pro-funksjonene. For raskere, rimeligere arbeid er gemini-2.5-flash-image (Nano Banana) fortsatt tilgjengelig.

Overflater som kan brukes

  • Gemini API (generativelanguage-endepunkt): Du kan bruke en CometAPI-nøkkel for å få tilgang til xx. CometAPI tilbyr det samme API-et til en gunstigere pris enn den offisielle siden. Direkte HTTP-/SDK-kall til generateContent for bildegenerering (eksempler nedenfor).
  • Google AI Studio: Nettflate for rask eksperimentering og remiksing av demoapper.
  • Vertex AI (enterprise): Klargjort gjennomstrømming, faktureringsvalg (forbruk/enterprise-nivåer) og sikkerhetsfiltre for produksjon i stor skala. Bruk Vertex når du integrerer i store rørledninger eller batch-renderingsjobber.

Gratisnivået har en begrenset brukskvote; overskrides grensen, faller du tilbake til Nano Banana. Plus/Pro/Ultra-nivåene tilbyr høyere grenser og utdata uten vannmerke, men Ultra kan brukes i Flow videoverktøy og Antigravity IDE i 4K-modus.

Hvordan genererer jeg et bilde med Nano Banana Pro (steg for steg)?

1) Rask, interaktiv oppskrift for å bruke Gemini-appen

  1. Åpne Gemini → Verktøy → Create images.
  2. Velg Thinking (Nano Banana Pro) som modell.
  3. Skriv en prompt: forklar motiv, handling, stemning, lyssetting, kamera, sideforhold og eventuell tekst som skal vises på bildet. Eksempel:
    “Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.”
  4. (Valgfritt) Last opp opptil 14 bilder for å flette eller bruke som referanser. Bruk utvalgs-/maskeringsverktøyet for lokalredigering.
  5. Generer, iterer med naturlig språk (f.eks. “make the headline blue and aligned top-center; increase contrast on the blueprint”), og eksporter deretter.

2) Bruk HTTP til å sende til Geminis bildeendepunkt

Du må logge inn på CometAPI for å hente nøkkelen.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Dette eksemplet skriver base64-bildeinnholdet til en PNG-fil. Parameteren generationConfig.imageConfig.resolution ber om 4K-utdata (tilgjengelig for 3 Pro Image-modellen).

3) Direkte SDK-kall til generateContent for bildegenerering

Krever installasjon av Google SDK og innhenting av Google-autentisering. Python-eksempel (tekst + referansebilder + forankring):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Dette eksemplet viser opplasting av et innebygd referansebilde og forespørsel om en 4K-komposisjon samtidig som google_search aktiveres som verktøy. Python-SDK-en håndterer lavnivå REST-detaljer.

Sammensmelting av flere bilder og identitetskonsistens

For å produsere en kompositt som bevarer samme person på tvers av scener, send inn flere inline_data-deler (valgt fra fotosettet ditt), og spesifiser i den kreative instruksjonen at modellen skal “bevare identitet på tvers av utdata”.

Kort praktisk eksempel — en ekte prompt og forventet flyt

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Forventet flyt: app → promptmal + CSV-data → erstatt plassholdere i prompt → API-kall med image_size=2048x1152 → motta base64-PNG → lagre ressurs + opphavsmetadata → eventuelt legge på nøyaktig font via kompositor ved behov.

Hvordan bør jeg designe en produksjonspipeline og håndtere sikkerhet/opphav?

Anbefalt produksjonsarkitektur

  1. Prompt + utkastpass (rask modell): Bruk gemini-2.5-flash-image (Nano Banana) for å produsere mange lavoppløste varianter rimelig.
  2. Utvalg og raffinering: velg beste kandidater, forbedre promptene, bruk inpainting/maskeredigering for presisjon.
  3. Sluttrender i høy kvalitet: kall gemini-3-pro-image-preview (Nano Banana Pro) for endelige 2K/4K-renderinger og etterbehandling (oppskalering, fargegradering).
  4. Opphav og metadata: lagre prompt, modellversjon, tidsstempler og SynthID-info i metadataarkivet for ressursene dine — modellen legger ved et SynthID-vannmerke, og utdata kan spores tilbake for etterlevelse og innholdsrevisjon.

Sikkerhet, rettigheter og moderering

  • Opphavsrett og rettighetsklarering: ikke last opp eller generer innhold som krenker rettigheter. Bruk eksplisitte brukerbekreftelser for brukerleverte bilder eller prompt som kan skape gjenkjennelige likheter. Googles Prohibited Use Policy og modellens sikkerhetsfiltre må respekteres.
  • Filtrering og automatiske kontroller: kjør genererte bilder gjennom en intern innholdsmodereringspipeline (NSFW, hatefulle symboler, politisk/bindende innhold) før nedstrømsbruk eller offentlig visning.

Hvordan gjør jeg bilderedigering (inpainting), komposisjon med flere bilder og tekstrendering?

Nano Banana Pro støtter multimodale redigeringsarbeidsflyter: oppgi ett eller flere inndata-bilder og en tekstlig instruksjon som beskriver redigeringene (fjern et objekt, endre himmelen, legg til tekst). API-et aksepterer bilde + tekst i samme forespørsel; modellen kan produsere vekselsvis tekst og bilder som svar. Eksempelutforminger inkluderer maskerte redigeringer og blandinger av flere bilder (stiloverføring/komposisjon). Se dokumentasjonen for contents-arrayer som kombinerer tekstblokker og binære bilder.

Eksempel: Redigering (Python-pseudoflyt)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Denne samtalebaserte redigeringen lar deg justere resultatene iterativt til du har en produksjonsklar ressurs.

Node.js-eksempel — bilderedigering med maske og flere referanser

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API-er aksepterer noen ganger Cloud Storage-URI-er eller base64-bildeinnhold; se Gemini API-dokumentasjonen for nøyaktige inndataformater.)

For informasjon om generering og redigering av bilder ved hjelp av CometAPI, se Veiledning for bruk av gemini-3-pro-image .

Konklusjon

Nano Banana Pro (Gemini 3 Pro Image) er et produksjonsklart sprang innen bildegenerering: et verktøy for å visualisere data, produsere lokaliserte redigeringer og drive utviklerarbeidsflyter. Bruk Gemini-appen for rask prototyping, API-et for produksjonsintegrasjon, og følg anbefalingene over for å kontrollere kostnader, sikre sikkerhet og opprettholde merkevarekvalitet. Test alltid reelle brukerarbeidsflyter og lagre opphavsmetadata for å oppfylle krav til åpenhet og revisjon.

Bruk Nano Banana Pro når du trenger studiokvalitetsressurser, presis kontroll over komposisjon, forbedret tekstrendering i bilder og muligheten til å flette flere referanser til ett sammenhengende resultat.

Utviklere kan få tilgang til Gemini 3 Pro Image (Nano Banana Pro) API via CometAPI. For å komme i gang, utforsk modellkapabilitetene til CometAPI i Playground og se API-guiden for detaljert veiledning. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og hentet API-nøkkelen. CometAPI tilbyr en pris som er langt lavere enn den offisielle prisen for å hjelpe deg å integrere.

Klar til å komme i gang?→ Registrer deg for CometAPI i dag !

Hvis du vil ha flere tips, veiledninger og nyheter om AI, følg oss på VK, X og Discord!

Tilgang til toppmodeller til lav kostnad

Les mer