Nano Banana Pro — officielt Gemini 3 Pro-billede — er Google/DeepMinds nye model til billedgenerering og -redigering i studiekvalitet, der kombinerer avanceret multimodal ræsonnement, tekstgengivelse med høj kvalitet, komposition af flere billeder og kreative kontroller på studieniveau.
Hvad er Nano Banana Pro, og hvorfor skulle du være interesseret?
Nano Banana Pro er Googles nyeste model til billedgenerering og billedredigering – "Gemini 3 Pro Image"-udgivelsen – designet til at producere højkvalitets, kontekstbevidste billeder og tekst på billedet med studiekvalitet op til 4K. Det er en efterfølger til de tidligere Nano Banana-modeller (Gemini 2.5 Flash Image / "Nano Banana") med forbedret ræsonnement, søgebaseret søgning (fakta fra den virkelige verden), stærkere tekstgengivelse og mere kraftfulde lokale redigeringskontroller. Modellen er tilgængelig i Gemini-appen for interaktive brugere og giver adgang til Nano Banana Pro via standard Gemini API'en, men du vælger den specifikke modelidentifikator (gemini-3-pro-image-preview eller dens stabile efterfølger). for programmatisk adgang.
Hvorfor dette er vigtigt: Nano Banana Pro er ikke kun bygget til at lave smukke billeder, men også til visualisere information — infografik, datadrevne snapshots (vejr, sport), teksttunge plakater, produktmockups og flerbilledfusioner (op til 14 inputbilleder og opretholdelse af tegnkonsistens på tværs af op til 5 personer). For designere, produktteams og udviklere åbner denne kombination af nøjagtighed, tekst på billedet og programmatisk adgang produktionsworkflows, der tidligere var svære at automatisere
Hvilke funktioner eksponeres via API'en?
Typiske API-funktioner, der eksponeres for udviklere, inkluderer:
- Tekst → Billedgenerering (enkelt- eller flertrins "tænkende" kompositionsflows).
- Billedredigering (lokale masker, indmaling, stiljusteringer).
- Flerbilledfusion (kombiner referencebilleder).
- Avancerede anmodningskontrollerOpløsning, billedformat, efterbehandlingstrin og "kompositionstanke"-spor til fejlfinding/inspektionsevne i forhåndsvisningstilstande.
Kerninnovationer og funktioner i Nano Banana Pro
Smartere indholdsræsonnement
Bruger Gemini 3 Pros ræsonnementstak til at fortolke komplekse, flertrins visuelle instruktioner (f.eks. "opret en 5-trins infografik ud fra dette datasæt og tilføj en tosproget billedtekst"). API'en eksponerer en "tænknings"-mekanisme, der kan producere midlertidige kompositionstests for at forfine det endelige output.
Hvorfor det er vigtigt: I stedet for en enkelt gennemgang, der kortlægger prompt → pixel, udfører modellen en intern "tænkningsproces", der forfiner kompositionen og kan kalde eksterne værktøjer (f.eks. Google-søgning) for faktuelt grundlag (f.eks. præcise diagrammærkater eller lokalitetskorrekt skiltning). Dette giver billeder, der ikke kun er pænere, men også mere semantisk korrekte til opgaver som infografik, diagrammer eller produktmockups.
Sådan opnår du: Nano Banana Pros "Thinking" er en kontrolleret intern ræsonnements-/kompositionsproces, hvor modellen genererer mellemliggende visuelle elementer og ræsonnementsspor, før det endelige billede produceres. API'en viser, at modellen kan oprette op til to mellembilleder, og at det endelige billede er det sidste trin i denne kæde. I produktionen hjælper dette med komposition, placering af tekst og layoutbeslutninger.
Mere præcis tekstgengivelse
Markant forbedret læsbar, lokaliseret tekst i billeder (menuer, plakater, diagrammer). Nano Banana Pro når nye højder inden for billedtekstgengivelse:
- Tekst i billeder er klar, læselig og korrekt stavet;
- Understøtter flersproget generering (herunder kinesisk, japansk, koreansk, arabisk osv.);
- Giver brugerne mulighed for at skrive lange afsnit eller beskrivende tekst på flere linjer direkte ind i billeder;
- Automatisk oversættelse og lokalisering er tilgængelig.
Hvorfor det er vigtigt: Traditionelt har billedmodeller svært ved at gengive læsbar, veljusteret tekst. Nano Banana Pro er eksplicit optimeret til pålidelig tekstgengivelse og lokalisering (f.eks. oversættelse og bevarelse af layout), hvilket åbner op for reelle kreative anvendelsesscenarier som plakater, emballage eller flersprogede annoncer.
Sådan opnår du: Forbedringerne af tekstgengivelsen kommer fra den underliggende multimodale arkitektur og træning af datasæt, der lægger vægt på tekst-i-billede-eksempler, kombineret med målrettede evalueringssæt (menneskelige evalueringer og regressionssæt). Modellen lærer at justere glyfformer, skrifttyper og layoutbegrænsninger for at producere læselig, lokaliseret tekst i billeder - selvom lille tekst og ekstremt tætte afsnit stadig kan være fejlbehæftede.
Stærkere visuel konsistens og nøjagtighed
Studiekontroller (belysning, fokus, kameravinkel, farvegraduering) og flerbilledkomposition (op til 14 referencebilleder med særlige tilladelser til flere menneskelige subjekter) hjælper med at bevare karakterens konsistens (bevar den samme person/karakter på tværs af redigeringer) og brandidentitet på tværs af genererede aktiver. Modellen understøtter native 1K/2K/4K-output.
Hvorfor det er vigtigt: Marketing- og underholdningsworkflows kræver ensartede karakterer på tværs af optagelser og redigeringer. Modellen kan bevare ligheden i op til fem mennesker og blander sig til 14 referer billeder til en enkelt komposition under produktion af Sketch → 3D Render. Dette er nyttigt til annoncekreativitet, emballage eller storytelling med flere skud.
Sådan opnår du: Modelinput accepterer flere billeder med eksplicitte rolletildelinger (f.eks. "Billede A: pose", "Billede B: ansigtsreference", "Billede C: baggrundstekstur"). Arkitekturen betinger generering på disse billeder for at bevare identitet/pose/stil, mens der anvendes transformationer (belysning, kamera).
Ydelsesbenchmarks for Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) "udmærker sig på Tekst→Billede AI-benchmarks" og demonstrerer forbedret ræsonnement og kontekstuel forankring sammenlignet med tidligere Nano Banana-modeller. Den lægger vægt på højere kvalitet og forbedret tekstgengivelse i forhold til tidligere udgivelser.

Praktisk præstationsvejledning
Forvent højere ventetid og omkostninger for 2K/4K high-fidelity-gengivelser end for 1K eller "Flash"-modeller, der er optimeret til hastighed. Hvis gennemløb/latens er kritisk, skal du bruge flash-varianten (f.eks. Gemini 2.5 Flash / Nano Banana) til høj volumen; brug Nano Banana Pro / gemini-3-pro-image til kvalitets- og komplekse ræsonnementsopgaver.
Hvordan kan udviklere få adgang til Nano Banana Pro?
Hvilke slutpunkter og modeller skal vælges
Modelidentifikator (forhåndsvisning / pro): gemini-3-pro-image-preview (forhåndsvisning) — brug dette, når du ønsker Nano Banana Pro-funktionerne. For hurtigere og billigere arbejde, gemini-2.5-flash-image (Nano Banana) er stadig tilgængelig.
Overflader til brug
- Gemini API (slutpunkt for generativt sprog): Du kan bruge en CometAPI-nøgle til at få adgang til xx. CometAPI tilbyder den samme API til en mere fordelagtig pris end den officielle hjemmeside. Direkte HTTP/SDK-kald til
generateContenttil billedgenerering (eksempler nedenfor). - Google AI Studio: Weboverflade til hurtig eksperimentering og remixning af demo-apps.
- Vertex AI (virksomhed): Provisioneret gennemløb, faktureringsvalg (betaling efter forbrug/virksomhedsniveauer) og sikkerhedsfiltre til storskalaproduktion. Brug Vertex, når du integrerer i store pipelines eller batch-renderingjobs.
Gratisniveauet har en begrænset brugsgrænse; overskridelse af grænsen vil vende tilbage til Nano Banana. Plus/Pro/Ultra-niveauerne tilbyder højere grænser og vandmærkefri output, men Ultra kan bruges i Flow-videoværktøjer og Antigravity IDE i 4K-tilstand.
Hvordan genererer jeg et billede med Nano Banana Pro (trin for trin)?
1) Hurtig interaktiv opskrift til brug af Gemini-appen
- Åbn Gemini → Værktøjer → Opret billeder.
- Type Tænkning (Nano Banana Pro) som model.
- Indtast en prompt: forklar motiv, handling, stemning, belysning, kamera, billedformat og eventuel tekst, der skal vises på billedet. Eksempel:
"Lav en 4K-plakat af en robotværksted: et mangfoldigt team omkring et bord, overlay af en plantegning, fed overskrift 'Robotter i aktion' i sans serif, varmt wolframlys, lav dybdeskarphed, filmisk 16:9." - (Valgfrit) Upload op til 14 billeder, der skal fusioneres eller bruges som referencer. Brug markerings-/maskeringsværktøjet til at redigere områder lokalt.
- Generer, iterer med naturligt sprog (f.eks. "gør overskriften blå og justeret øverst i midten; øg kontrasten på tegningen"), og eksporter derefter
2) Brug HTTP til at sende til Gemini-billedslutpunktet
Du skal logge ind på CometAPI for at få adgang til nøglen.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Dette eksempel skriver base64-billednyttelasten til en PNG-fil. generationConfig.imageConfig.resolution parameteranmodninger 4K-output (tilgængelig for 3 Pro Image-modellen)
3) Direkte SDK-kald til generateContent til billedgenerering
Kræver installation af Google SDK og indhentning af Google-godkendelse. Python-eksempel (tekst + referencebilleder + grundlag):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Dette eksempel viser upload af et indlejret referencebillede og anmodning om en 4K-komposition, mens man aktiverer google_search som et værktøj. Python SDK'et håndterer REST-detaljer på lavt niveau.
Flerbilledfusion og karakterkonsistens
For at producere en komposit, der bevarer den samme person på tværs af scener, send flere inline_data dele (udvalgt fra dit fotosæt), og angiv den kreative instruktion om, at modellen skal "bevare identitet på tværs af output".
Kort praktisk eksempel — en reel prompt og forventet flow
Spørg:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Forventet pipeline: app → promptskabelon + CSV-data → erstat pladsholdere i prompt → API-kald med image_size=2048x1152 → modtag base64 PNG → gem metadata for aktiv + proveniens → læg eventuelt den nøjagtige skrifttype over via compositor, hvis det er nødvendigt.
Hvordan skal jeg designe en produktionspipeline og håndtere sikkerhed/proveniens?
Anbefalet produktionsarkitektur
- Prompt + udkast (hurtig model): Brug
gemini-2.5-flash-image(Nano Banana) til at producere mange variationer med lav opløsning billigt. - Udvælgelse og forfinelse: Vælg de bedste kandidater, forfin prompts, anvend inpainting/maske-redigeringer for præcision.
- Endelig gengivelse i høj kvalitet: ringe
gemini-3-pro-image-preview(Nano Banana Pro) til endelige 2K/4K-renderinger og efterbehandling (upsampling, farvegraduering). - Proveniens og metadata: gem prompt, modelversion, tidsstempler og SynthID-oplysninger i dit aktivmetadatalager — modellen vedhæfter et SynthID-vandmærke, og output kan spores tilbage med henblik på overholdelse og indholdsrevision.
Sikkerhed, rettigheder og moderering
- Ophavsret og rettighedsgodkendelse: Upload eller generer ikke indhold, der krænker rettigheder. Brug eksplicitte brugerbekræftelser til brugerleverede billeder eller prompts, der kan skabe genkendelige ligheder. Googles politik for forbudt brug og modelsikkerhedsfiltre skal respekteres.
- Filtrering og automatiserede kontroller: Kør genererede billeder gennem en intern indholdsmoderationspipeline (NSFW, hadesymboler, detektion af politisk/bindende indhold) før forbrug efterfølgende eller offentlig visning.
Hvordan udfører jeg billedredigering (inpainting), flerbilledkomposition og tekstgengivelse?
Nano Banana Pro understøtter multimodale redigeringsarbejdsgange: angiv et eller flere inputbilleder og en tekstinstruktion, der beskriver redigeringer (fjern et objekt, skift himmel, tilføj tekst). API'en accepterer billede + tekst i samme anmodning; modellen kan producere sammenflettet tekst og billeder som svar. Eksempler på mønstre inkluderer maskerede redigeringer og blandinger af flere billeder (stiloverførsel / komposition). Se dokumentationen for... contents arrays, der kombinerer tekstblobs og binære billeder.
Eksempel: Rediger (Python pseudo-flow)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Denne samtaleredigering giver dig mulighed for iterativt at justere resultaterne, indtil du når et produktionsklart aktiv.
Node.js eksempel — billedredigering med maske og flere referencer
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API'er accepterer nogle gange Cloud Storage URI'er eller base64-billednyttelaster; se Gemini API-dokumentationen for de nøjagtige inputformater.)
For information om generering og redigering af billeder ved hjælp af CometAPI, se venligst Guide til at ringe til Gemini-3-Pro-billedet .
Konklusion
Nano Banana Pro (Gemini 3 Pro Image) er et spring i produktionsklassen inden for billedgenerering: et værktøj til at visualisere data, producere lokaliserede redigeringer og drive udviklerworkflows. Brug Gemini-appen til hurtig prototyping, API'en til produktionsintegration, og følg ovenstående anbefalinger for at kontrollere omkostninger, sikre sikkerhed og opretholde brandkvalitet. Test altid rigtige brugerworkflows og gem proveniensmetadata for at opfylde behovene for gennemsigtighed og revision.
Brug Nano Banana Pro, når du har brug for det studiekvalitet aktiver, præcis kontrol over komposition, forbedret tekstgengivelse i billeder og muligheden for at sammenlægge flere referencer til ét sammenhængende output.
Udviklere kan få adgang Gemini 3 Pro Image (Nano Banana Pro) API gennem CometAPI. For at begynde, udforsk modellens mulighederCometAPI i Legeplads og se API-vejledningen for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.
Klar til at gå? → Tilmeld dig CometAPI i dag !
Hvis du vil vide flere tips, guider og nyheder om AI, følg os på VK, X og Discord!



