Hvordan bruger man Nano Banana Pro(Gemini 3 Pro Image) API'et ?

CometAPI
AnnaNov 20, 2025
Hvordan bruger man Nano Banana Pro(Gemini 3 Pro Image) API'et ?

Nano Banana Pro — officielt Gemini 3 Pro Image — er Google/DeepMinds nye billedgenererings- og redigeringsmodel i studiekvalitet, som kombinerer avanceret multimodal ræsonnering, tekstgengivelse i høj kvalitet, komposition med flere billeder og kreative kontroller på studieniveau.

Hvad er Nano Banana Pro, og hvorfor bør du interessere dig for det?

Nano Banana Pro er Googles nyeste model til billedgenerering og billedredigering — udgivelsen “Gemini 3 Pro Image” — designet til at producere kontekstbevidste billeder i høj kvalitet og tekst i billeder med studiekvalitet op til 4K. Det er en efterfølger til de tidligere Nano Banana-modeller (Gemini 2.5 Flash Image / “Nano Banana”) med forbedret ræsonnering, Search-grounding (fakta fra den virkelige verden), stærkere tekstgengivelse og mere kraftfulde lokale redigeringskontroller. Modellen er tilgængelig i Gemini-appen for interaktive brugere, og du kan få adgang til Nano Banana Pro gennem den standardiserede Gemini API, men du vælger den specifikke modelidentifikator (gemini-3-pro-image-preview eller dens stabile efterfølger).  til programmæssig adgang.

Hvorfor det er vigtigt: Nano Banana Pro er ikke kun bygget til at skabe flotte billeder, men til at visualisere information — infografikker, datadrevne snapshots (vejr, sport), teksttunge plakater, produktmockups og fusioner af flere billeder (op til 14 inputbilleder og opretholdelse af figurkonsistens på tværs af op til 5 personer). For designere, produktteams og udviklere åbner denne kombination af nøjagtighed, tekst i billeder og programmæssig adgang produktionsarbejdsgange, som tidligere var svære at automatisere

Hvilke funktioner eksponeres via API'et?

Typiske API-funktioner, der er eksponeret for udviklere, omfatter:

  • Tekst → Billedgenerering (enkelttrins- eller flertrins “thinking”-kompositionsflows).
  • Billedredigering (lokale masker, inpainting, stiljusteringer).
  • Fusion af flere billeder (kombinér referencebilleder).
  • Avancerede anmodningskontroller: opløsning, billedformat, efterbehandlingstrin og “composition thought”-spor til fejlsøgning/inspektion i preview-tilstande.

Kerneinnovationer og funktioner i Nano Banana Pro

Smartere indholdsræsonnering

Bruger Gemini 3 Pro’s ræsonneringsstak til at fortolke komplekse, flertrins visuelle instruktioner (f.eks. “lav en 5-trins infografik ud fra dette datasæt og tilføj en tosproget billedtekst”). API'et eksponerer en “Thinking”-mekanisme, der kan producere midlertidige kompositionstests for at forfine det endelige output.

Hvorfor det er vigtigt: I stedet for en enkelt gennemløb, der mapper prompt → pixel, udfører modellen en intern “thinking”-proces, der forfiner kompositionen og kan kalde eksterne værktøjer (f.eks. Google Search) for faktuel grounding (f.eks. nøjagtige diagrametiketter eller lokalt korrekte skilte). Det giver billeder, som ikke kun er flottere, men også mere semantisk korrekte til opgaver som infografikker, diagrammer eller produktmockups.

Sådan opnås det: Nano Banana Pro’s “Thinking” er en kontrolleret intern ræsonnerings-/kompositionsfase, hvor modellen genererer mellemliggende billeder og ræsonneringsspor, før det endelige billede produceres. API'et eksponerer, at modellen kan oprette op til to midlertidige frames, og at det endelige billede er den sidste fase i den kæde. I produktion hjælper dette med komposition, placering af tekst og layoutbeslutninger.

Mere nøjagtig tekstgengivelse

Betydeligt forbedret læsbar, lokaliseret tekst inde i billeder (menuer, plakater, diagrammer). Nano Banana Pro når nye højder inden for tekstgengivelse i billeder:

  • Tekst i billeder er klar, læsbar og stavet korrekt;
  • Understøtter flersproget generering (herunder kinesisk, japansk, koreansk, arabisk osv.);
  • Giver brugere mulighed for at skrive lange afsnit eller flersporet beskrivende tekst direkte ind i billeder;
  • Automatisk oversættelse og lokalisering er tilgængelig.

Hvorfor det er vigtigt: Traditionelt har billedmodeller haft svært ved at gengive læsbar, veljusteret tekst. Nano Banana Pro er eksplicit optimeret til pålidelig tekstgengivelse og lokalisering (f.eks. oversættelse og bevarelse af layout), hvilket åbner reelle kreative anvendelser som plakater, emballage eller flersprogede annoncer.

Sådan opnås det: Forbedringerne i tekstgengivelse kommer fra den underliggende multimodale arkitektur og træning på datasæt med fokus på tekst-i-billede-eksempler kombineret med målrettede evalueringssæt (menneskelige evalueringer og regressionssæt). Modellen lærer at tilpasse glyfformer, skrifttyper og layoutbegrænsninger for at producere læsbar, lokaliseret tekst inde i billeder — selv om lille tekst og ekstremt tætte tekstafsnit stadig kan være fejlbehæftede.

Stærkere visuel konsistens og kvalitet

Studiokontroller (belysning, fokus, kameravinkel, farvegrading) og komposition med flere billeder (op til 14 referencebilleder med særlige tilladelser til flere menneskelige motiver) hjælper med at bevare figurkonsistens (behold den samme person/figur på tværs af redigeringer) og brandidentitet på tværs af genererede aktiver. Modellen understøtter native 1K/2K/4K-output.

Hvorfor det er vigtigt: Marketing- og underholdningsarbejdsgange kræver konsistente figurer på tværs af optagelser og redigeringer. Modellen kan bevare ligheden for op til fem personer og blande op til 14 referencebilleder i én komposition, mens den producerer Sketch → 3D Render. Det er nyttigt til annoncekreativer, emballage eller historiefortælling over flere scener.

Sådan opnås det: Modelinput accepterer flere billeder med eksplicitte rolleangivelser (f.eks. “Billede A: positur”, “Billede B: ansigtsreference”, “Billede C: baggrundstekstur”). Arkitekturen betinger genereringen på disse billeder for at bevare identitet/positur/stil, mens transformationer (belysning, kamera) anvendes.

Performance-benchmarks for Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “udmærker sig på Tekst→Billede AI-benchmarks” og demonstrerer forbedret ræsonnering og kontekstuel grounding sammenlignet med tidligere Nano Banana-modeller. Det fremhæver højere kvalitet og forbedret tekstgengivelse i forhold til tidligere udgivelser.

Hvordan bruger man Nano Banana Pro(Gemini 3 Pro Image) API'et ?

Praktisk vejledning om ydeevne

Forvent højere latenstid og omkostninger for 2K/4K-renderinger i høj kvalitet end for 1K eller de “Flash”-modeller, der er optimeret til hastighed. Hvis throughput/latenstid er kritisk, så brug flash-varianten (f.eks. Gemini 2.5 Flash / Nano Banana) til høj volumen; brug Nano Banana Pro / gemini-3-pro-image til kvalitet og komplekse ræsonneringsopgaver.

Hvordan kan udviklere få adgang til Nano Banana Pro?

Hvilke endpoints og modeller skal man vælge

Modelidentifikator (preview / pro): gemini-3-pro-image-preview (preview) — brug denne, når du vil have Nano Banana Pro-funktionerne. Til hurtigere arbejde med lavere omkostninger er gemini-2.5-flash-image (Nano Banana) stadig tilgængelig.

Flader, der kan bruges

  • Gemini API (generativelanguage-endpoint): Du kan bruge en CometAPI-nøgle til at få adgang til xx. CometAPI tilbyder den samme API til en mere fordelagtig pris end den officielle hjemmeside. Direkte HTTP-/SDK-kald til generateContent til billedgenerering (eksempler nedenfor).
  • Google AI Studio: Webflade til hurtig eksperimentering og remix af demo-apps.
  • Vertex AI (enterprise): Provisioned throughput, valgmuligheder for fakturering (pay-as-you-go / enterprise-niveauer) og sikkerhedsfiltre til storstilet produktion. Brug Vertex, når du integrerer i store pipelines eller batch-renderingsjob.

Gratisniveauet har en begrænset brugsgrænse; hvis grænsen overskrides, skiftes der tilbage til Nano Banana. Plus/Pro/Ultra-niveauerne tilbyder højere grænser og output uden vandmærke, men Ultra kan bruges i Flow-videoværktøjer og Antigravity IDE i 4K-tilstand.

Hvordan genererer jeg et billede med Nano Banana Pro (trin for trin)?

1) Hurtig interaktiv opskrift til brug i Gemini-appen

  1. Åbn Gemini → Værktøjer → Create images.
  2. Vælg Thinking (Nano Banana Pro) som model.
  3. Indtast en prompt: forklar motiv, handling, stemning, belysning, kamera, billedformat og eventuel tekst, der skal vises på billedet. Eksempel:
    “Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.”
  4. (Valgfrit) Upload op til 14 billeder, der skal flettes, eller bruges som referencer. Brug markerings-/maskeringsværktøjet til lokal redigering af områder.
  5. Generér, iterér med naturligt sprog (f.eks. “make the headline blue and aligned top-center; increase contrast on the blueprint”), og eksportér

2) Brug HTTP til at sende til Gemini-billedendpointet

Du skal logge ind på CometAPI for at få nøglen.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Dette eksempel skriver base64-billedpayloaden til en PNG-fil. Parameteren generationConfig.imageConfig.resolution anmoder om 4K-output (tilgængeligt for 3 Pro Image-modellen)

3) Direkte SDK-kald til generateContent til billedgenerering

Kræver installation af Google SDK og opnåelse af Google-godkendelse. Python-eksempel (tekst + referencebilleder + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Dette eksempel viser upload af et inline-referencebillede og anmodning om en 4K-komposition, mens google_search aktiveres som et værktøj. Python-SDK'et håndterer REST-detaljerne på lavt niveau.

Fusion af flere billeder og figurkonsistens

For at producere en komposition, der bevarer den samme person på tværs af scener, skal du sende flere inline_data-dele (udvalgt fra dit fotosæt) og angive den kreative instruktion om, at modellen skal “preserve identity across outputs.”

Kort praktisk eksempel — en reel prompt og forventet flow

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Forventet pipeline: app → promptskabelon + CSV-data → erstat pladsholdere i prompt → API-kald med image_size=2048x1152 → modtag base64 PNG → gem aktiv + metadata om proveniens → læg eventuelt præcis skrifttype ovenpå via compositor om nødvendigt.

Hvordan bør jeg designe en produktionspipeline og håndtere sikkerhed / proveniens?

Anbefalet produktionsarkitektur

  1. Prompt + kladdepassage (hurtig model): Brug gemini-2.5-flash-image (Nano Banana) til billigt at producere mange variationer i lav opløsning.
  2. Udvælgelse og forfinelse: vælg de bedste kandidater, forfin prompts, og anvend inpainting-/maskeredigeringer for præcision.
  3. Endelig rendering i høj kvalitet: kald gemini-3-pro-image-preview (Nano Banana Pro) til de endelige 2K/4K-renderinger og efterbehandling (opskalering, farvegrading).
  4. Proveniens og metadata: gem prompt, modelversion, tidsstempler og SynthID-oplysninger i dit aktivs metadata-lager — modellen vedhæfter et SynthID-vandmærke, og output kan spores tilbage til compliance og indholdsaudit.

Sikkerhed, rettigheder og moderering

  • Copyright og rettighedsafklaring: upload eller generér ikke indhold, der krænker rettigheder. Brug eksplicitte brugerbekræftelser for brugerleverede billeder eller prompts, der kan skabe genkendelige ligheder. Googles politik for forbudt brug og modellens sikkerhedsfiltre skal respekteres.
  • Filtrering og automatiserede kontroller: kør genererede billeder gennem en intern indholdsmodereringspipeline (NSFW, hatesymboler, politisk/bindende indholdsdetektion) før downstream-forbrug eller offentlig visning.

Hvordan udfører jeg billedredigering (inpainting), komposition med flere billeder og tekstgengivelse?

Nano Banana Pro understøtter multimodale redigeringsarbejdsgange: angiv ét eller flere inputbilleder og en tekstinstruktion, der beskriver redigeringer (fjern et objekt, ændr himlen, tilføj tekst). API'et accepterer billede + tekst i samme anmodning; modellen kan producere interfolierede tekst- og billedsvar. Eksempelmønstre omfatter maskerede redigeringer og blandinger af flere billeder (style transfer / komposition). Se dokumentationen for contents-arrays, der kombinerer tekstblokke og binære billeder.

Eksempel: Redigering (Python pseudo-flow)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Denne konversationsbaserede redigering gør det muligt at justere resultater iterativt, indtil du opnår et produktionsklart aktiv.

Node.js-eksempel — billedredigering med maske og flere referencer

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API'er accepterer nogle gange Cloud Storage-URI'er eller base64-billedpayloads; tjek Gemini API-dokumentationen for de præcise inputformater.)

For information om generering og redigering af billeder ved hjælp af CometAPI, se venligst Guide to calling gemini-3-pro-image .

Konklusion

Nano Banana Pro (Gemini 3 Pro Image) er et produktionsklart spring inden for billedgenerering: et værktøj til visualisering af data, produktion af lokaliserede redigeringer og understøttelse af udviklerarbejdsgange. Brug Gemini-appen til hurtig prototyping, API'et til produktionsintegration, og følg anbefalingerne ovenfor for at styre omkostninger, sikre sikkerhed og opretholde brandkvalitet. Test altid reelle brugerarbejdsgange, og gem metadata om proveniens for at opfylde krav til transparens og audit.

Brug Nano Banana Pro, når du har brug for aktiver i studiekvalitet, præcis kontrol over komposition, forbedret tekstgengivelse inde i billeder og muligheden for at samle flere referencer i ét sammenhængende output.

Udviklere kan få adgang til Gemini 3 Pro Image( Nano Banana Pro) API gennem CometAPI. For at komme i gang kan du udforske modelkapaciteterne i CometAPI i Playground og konsultere API-guiden for detaljerede instruktioner. Før adgang skal du sikre dig, at du er logget ind på CometAPI og har fået API-nøglen. CometAPI tilbyder en pris, der er langt lavere end den officielle pris, for at hjælpe dig med integrationen.

Klar til at komme i gang?→ Tilmeld dig CometAPI i dag !

Hvis du vil kende flere tips, guider og nyheder om AI, så følg os på VKX og Discord!

Adgang til topmodeller til lav pris

Læs mere