Gemini 2.5 Flash er konstruert for å levere raske svar uten å kompromittere kvaliteten på utdata. Den støtter multimodale inndata, inkludert tekst, bilder, lyd og video, noe som gjør den egnet for ulike bruksområder. Modellen er tilgjengelig via plattformer som Google AI Studio og Vertex AI, og gir utviklere verktøyene som trengs for sømløs integrasjon i ulike systemer.

Grunnleggende informasjon (Funksjoner)

Gemini 2.5 Flash introduserer flere fremtredende funksjoner som skiller den i Gemini 2.5-familien:

Hybrid Reasoning: Utviklere kan angi parameteren thinking_budget for å finjustere hvor mange token modellen dedikerer til intern resonnering før svar.
Pareto Frontier: Plassert ved det optimale kost–ytelsespunktet tilbyr Flash det beste pris‑til‑intelligens-forholdet blant 2.5‑modellene.
Multimodal Support: Behandler tekst, bilder, video og lyd naturlig, noe som muliggjør rikere samtale- og analysekapabiliteter.
1 Million-Token Context: En enestående kontekstlengde muliggjør dyp analyse og forståelse av lange dokumenter i én enkelt forespørsel.

Modellversjonering

Gemini 2.5 Flash har gått gjennom følgende viktige versjoner:

gemini-2.5-flash-lite-preview-09-2025: Forbedret verktøybrukbarhet: Forbedret ytelse på komplekse, flertrinnsoppgaver, med en økning på 5% i SWE-Bench Verified-score (fra 48.9% til 54%). Forbedret effektivitet: Når resonnering aktiveres, oppnås utdata av høyere kvalitet med færre token, noe som reduserer ventetid og kostnader.
Preview 04-17: Tidlig tilgangsversjon med “thinking”-kapasitet, tilgjengelig via gemini-2.5-flash-preview-04-17.
Stable General Availability (GA): Fra og med 17. juni 2025 erstatter det stabile endepunktet gemini-2.5-flash forhåndsvisningen, og sikrer pålitelighet på produksjonsnivå uten API-endringer fra forhåndsvisningen 20. mai.
Utfasing av forhåndsvisning: Endepunktene for forhåndsvisning var planlagt stengt 15. juli 2025; brukere må migrere til GA-endepunktet før denne datoen.

Per juli 2025 er Gemini 2.5 Flash nå offentlig tilgjengelig og stabil (ingen endringer fra gemini-2.5-flash-preview-05-20). Hvis du bruker gemini-2.5-flash-preview-04-17, vil gjeldende forhåndsvisningspriser fortsette frem til den planlagte avviklingen av modellendepunktet 15. juli 2025, når det blir stengt. Du kan migrere til den generelt tilgjengelige modellen "gemini-2.5-flash".

Raskere, billigere, smartere:

Designmål: lav ventetid + høy gjennomstrømning + lave kostnader;
Generell akselerasjon i resonnering, multimodal prosessering og oppgaver med lange tekster;
Token-bruk er redusert med 20–30%, noe som reduserer resonneringskostnader betydelig.

Tekniske spesifikasjoner

Inndata-kontekstvindu: Opptil 1 million tokens, som muliggjør omfattende kontekstbevaring.

Utdata-tokens: Kan generere opptil 8,192 tokens per svar.

Støttede modaliteter: Tekst, bilder, lyd og video.

Integrasjonsplattformer: Tilgjengelig via Google AI Studio og Vertex AI.

Prising: Konkurransedyktig token-basert prismodell, som muliggjør kostnadseffektiv utrulling.

Tekniske detaljer

Under panseret er Gemini 2.5 Flash en transformer-basert stor språkmodell trent på en blanding av nett-, kode-, bilde- og videodata. Viktige tekniske spesifikasjoner inkluderer:

Multimodal trening: Trenet til å samstemme flere modaliteter, kan Flash sømløst blande tekst med bilder, video eller lyd, nyttig for oppgaver som videosammendrag eller lydteksting.
Dynamisk tankeprosess: Implementerer en intern resonnementssløyfe der modellen planlegger og bryter ned komplekse forespørsler før endelig svar.
Konfigurerbare thinking-budsjetter: thinking_budget kan settes fra 0 (ingen resonnering) opp til 24,576 tokens, noe som muliggjør avveiinger mellom ventetid og svarkvalitet.
Verktøyintegrasjon: Støtter Grounding with Google Search, Code Execution, URL Context og Function Calling, som muliggjør handlinger i den virkelige verden direkte fra naturlige språkforespørsler.

Benchmark-ytelse

I strenge evalueringer viser Gemini 2.5 Flash bransjeledende ytelse:

LMArena Hard Prompts: Oppnådde andreplass, kun etter 2.5 Pro, på det krevende Hard Prompts-benchmarket, som demonstrerer sterke evner til flertrinnsresonnering.
MMLU-score på 0.809: Overgår gjennomsnittlig modellytelse med en MMLU-nøyaktighet på 0.809, noe som reflekterer bred domeneinnsikt og resonneringsstyrke.
Latens og gjennomstrømning: Oppnår 271.4 tokens/sec dekodingshastighet med 0.29 s Time-to-First-Token, noe som gjør den ideell for latensfølsomme arbeidsbelastninger.
Leder på pris–ytelse: Med $0.26/1 M tokens underbyr Flash mange konkurrenter samtidig som den matcher eller overgår dem på sentrale benchmarker.

Disse resultatene indikerer Gemini 2.5 Flash sin konkurransefordel innen resonnering, vitenskapelig forståelse, matematisk problemløsning, koding, visuell tolkning og flerspråklige kapabiliteter:

Begrensninger

Mens den er kraftig, har Gemini 2.5 Flash enkelte begrensninger:

Sikkerhetsrisikoer: Modellen kan utvise en «belærende» tone og kan produsere plausible, men feilaktige eller partiske utdata (hallusinasjoner), særlig ved randtilfeller. Streng menneskelig oppfølging er fortsatt essensiell.
Hastighetsgrenser: API-bruk er begrenset av rate limits (10 RPM, 250,000 TPM, 250 RPD på standardnivåer), noe som kan påvirke batchprosessering eller applikasjoner med høyt volum.
Intelligens-terskel: Selv om den er usedvanlig kapabel for en «flash»-modell, er den fortsatt mindre nøyaktig enn 2.5 Pro på de mest krevende agent-baserte oppgavene som avansert koding eller fleragentkoordinering.
Kostnadsavveininger: Selv om den tilbyr best pris–ytelse, vil omfattende bruk av thinking-modus øke det totale token-forbruket og dermed kostnadene for dypt resonerende forespørsler.

Priser for Gemini 2.5 Flash

Utforsk konkurransedyktige priser for Gemini 2.5 Flash, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan Gemini 2.5 Flash kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Eksempelkode og API for Gemini 2.5 Flash

Gemini 2.5 Flash API er Googles nyeste multimodale KI-modell, utviklet for høyhastighets- og kostnadseffektive oppgaver med kontrollerbare resonneringsevner, som lar utviklere slå avanserte "thinking"-funksjoner av og på via Gemini API

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versjoner av Gemini 2.5 Flash

Grunnen til at Gemini 2.5 Flash har flere øyeblikksbilder kan inkludere potensielle faktorer som variasjoner i utdata etter oppdateringer som krever eldre øyeblikksbilder for konsistens, å gi utviklere en overgangsperiode for tilpasning og migrering, og ulike øyeblikksbilder som tilsvarer globale eller regionale endepunkter for å optimalisere brukeropplevelsen. For detaljerte forskjeller mellom versjoner, vennligst se den offisielle dokumentasjonen.

version
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-image
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

Grunnleggende informasjon (Funksjoner)

Gemini 2.5 Flash introduserer flere fremtredende funksjoner som skiller den i Gemini 2.5-familien:

Hybrid Reasoning: Utviklere kan angi parameteren thinking_budget for å finjustere hvor mange token modellen dedikerer til intern resonnering før svar.
Pareto Frontier: Plassert ved det optimale kost–ytelsespunktet tilbyr Flash det beste pris‑til‑intelligens-forholdet blant 2.5‑modellene.
Multimodal Support: Behandler tekst, bilder, video og lyd naturlig, noe som muliggjør rikere samtale- og analysekapabiliteter.
1 Million-Token Context: En enestående kontekstlengde muliggjør dyp analyse og forståelse av lange dokumenter i én enkelt forespørsel.

Modellversjonering

Gemini 2.5 Flash har gått gjennom følgende viktige versjoner:

gemini-2.5-flash-lite-preview-09-2025: Forbedret verktøybrukbarhet: Forbedret ytelse på komplekse, flertrinnsoppgaver, med en økning på 5% i SWE-Bench Verified-score (fra 48.9% til 54%). Forbedret effektivitet: Når resonnering aktiveres, oppnås utdata av høyere kvalitet med færre token, noe som reduserer ventetid og kostnader.
Preview 04-17: Tidlig tilgangsversjon med “thinking”-kapasitet, tilgjengelig via gemini-2.5-flash-preview-04-17.
Stable General Availability (GA): Fra og med 17. juni 2025 erstatter det stabile endepunktet gemini-2.5-flash forhåndsvisningen, og sikrer pålitelighet på produksjonsnivå uten API-endringer fra forhåndsvisningen 20. mai.
Utfasing av forhåndsvisning: Endepunktene for forhåndsvisning var planlagt stengt 15. juli 2025; brukere må migrere til GA-endepunktet før denne datoen.

Raskere, billigere, smartere:

Designmål: lav ventetid + høy gjennomstrømning + lave kostnader;
Generell akselerasjon i resonnering, multimodal prosessering og oppgaver med lange tekster;
Token-bruk er redusert med 20–30%, noe som reduserer resonneringskostnader betydelig.

Tekniske spesifikasjoner

Inndata-kontekstvindu: Opptil 1 million tokens, som muliggjør omfattende kontekstbevaring.

Utdata-tokens: Kan generere opptil 8,192 tokens per svar.

Støttede modaliteter: Tekst, bilder, lyd og video.

Integrasjonsplattformer: Tilgjengelig via Google AI Studio og Vertex AI.

Prising: Konkurransedyktig token-basert prismodell, som muliggjør kostnadseffektiv utrulling.

Tekniske detaljer

Under panseret er Gemini 2.5 Flash en transformer-basert stor språkmodell trent på en blanding av nett-, kode-, bilde- og videodata. Viktige tekniske spesifikasjoner inkluderer:

Benchmark-ytelse

I strenge evalueringer viser Gemini 2.5 Flash bransjeledende ytelse:

LMArena Hard Prompts: Oppnådde andreplass, kun etter 2.5 Pro, på det krevende Hard Prompts-benchmarket, som demonstrerer sterke evner til flertrinnsresonnering.
MMLU-score på 0.809: Overgår gjennomsnittlig modellytelse med en MMLU-nøyaktighet på 0.809, noe som reflekterer bred domeneinnsikt og resonneringsstyrke.
Latens og gjennomstrømning: Oppnår 271.4 tokens/sec dekodingshastighet med 0.29 s Time-to-First-Token, noe som gjør den ideell for latensfølsomme arbeidsbelastninger.
Leder på pris–ytelse: Med $0.26/1 M tokens underbyr Flash mange konkurrenter samtidig som den matcher eller overgår dem på sentrale benchmarker.

Disse resultatene indikerer Gemini 2.5 Flash sin konkurransefordel innen resonnering, vitenskapelig forståelse, matematisk problemløsning, koding, visuell tolkning og flerspråklige kapabiliteter:

Begrensninger

Mens den er kraftig, har Gemini 2.5 Flash enkelte begrensninger:

Sikkerhetsrisikoer: Modellen kan utvise en «belærende» tone og kan produsere plausible, men feilaktige eller partiske utdata (hallusinasjoner), særlig ved randtilfeller. Streng menneskelig oppfølging er fortsatt essensiell.
Hastighetsgrenser: API-bruk er begrenset av rate limits (10 RPM, 250,000 TPM, 250 RPD på standardnivåer), noe som kan påvirke batchprosessering eller applikasjoner med høyt volum.
Intelligens-terskel: Selv om den er usedvanlig kapabel for en «flash»-modell, er den fortsatt mindre nøyaktig enn 2.5 Pro på de mest krevende agent-baserte oppgavene som avansert koding eller fleragentkoordinering.
Kostnadsavveininger: Selv om den tilbyr best pris–ytelse, vil omfattende bruk av thinking-modus øke det totale token-forbruket og dermed kostnadene for dypt resonerende forespørsler.

Gemini 2.5 Flash

Flere modeller

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Relaterte blogger

Nano Banana 2 Flash Kommer snart – Den lynraske utviklingen innen AI-bildegenerering

Nano Banana-rabatter: Virkelig penger å spare i 2026 for utviklere

Er Free Gemini 2.5 Pro API nede? Endringer i gratiskvoten i 2025

Den ultimate guiden til nano-bananer: Slik bruker du og oppfordrer til best resultat

Hvordan bruke Nano Banana via API? (Gemini-2-5-flash-image)