Gemini 2.5 Flash-Lite API

CometAPI
AnnaJun 26, 2025
Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite API repræsenterer Googles nyeste tilbud i sin familie af hybride ræsonnementsmodeller, designet til at levere uovertruffen omkostningseffektivitet og ultra-lav latenstid til applikationer med høj volumen og latenstid.


Grundlæggende oplysninger og funktioner

Flash-Lite, der blev annonceret i en forhåndsvisning den 17. juni 2025, fuldender Gemini 2.5-serien – sammen med Flash og Pro – ved at give udviklere en mulighed, der er optimeret til hastighed, pris-ydelseog adaptiv tænkning evner.

Du kan begynde at bruge Gemini 2.5 Flash-Lite ved at angive "gemini-2.5-flash-lite" i din kode. Hvis du bruger en forhåndsvisningsversion, kan du skifte til "gemini-2.5-flash-lite", som er den samme som forhåndsvisningsversionen. Google planlægger at fjerne forhåndsvisningsaliaset for Flash-Lite den 25. august.

StabilitetModelDato
Stabil (GA)gemini-2.5-flash-liteJuli 22, 2025
Eksperimentel forhåndsvisninggemini-2.5-flash-lite-06-17Tilgængelighedsperiode: 17. juni – 25. august 2025
seneste versiongemini-2.5-flash-lite-preview-09-202509-2025
  • TænkekontrolImplementerer en dynamisk tænkningsbudget via en API-parameter, med tankegang er deaktiveret som standard for at maksimere hastigheden og reducere omkostningerne.
  • Lav latenstid: Konstrueret til en hurtig tid til første token, Flash-Lite minimerer opstartsomkostninger og opnår latenstider på under 100 ms på standard Google Cloud-infrastruktur.
  • Høj gennemstrømningMed kapable afkodningspipelines opretholder den hundredvis af tokens i sekundet, der låser op for brugeroplevelser i realtid i chatbots og streamingapplikationer.
  • Multimodal supportSelvom Flash-Lite primært er optimeret til tekst, accepterer det også billeder, lydog video input via Gemini API'en, hvilket muliggør alsidige anvendelsesscenarier fra dokumentopsummering til lysvisionsopgaver.

Tekniske detaljer

  • Adaptiv ræsonnement: Gemini 2.5 Flash-Lite understøtter on-demand tænker, hvilket kun giver udviklere mulighed for at allokere beregningsressourcer, når dybere ræsonnement er påkrævet.
  • VærktøjsintegrationerFuld kompatibilitet med Gemini 2.5's native værktøjer, inklusive Jordforbindelse med Google-søgning, Kodeudførelse, URL-kontekstog Funktionsopkald for problemfri multimodale arbejdsgange.
  • **Model Context Protocol (MCP)**Udnytter Googles MCP til at hente webdata i realtid og sikrer, at svarene er up-to-date og kontekstuelt relevant.
  • DistributionsmulighederTilgængelig via CometAPI, Gemini API, Vertex AIog Google AI Studio, med et forhåndsvisningsspor, hvor tidlige brugere kan eksperimentere og give feedback.

Benchmark-præstation for Gemini 2.5 Flash-Lite

  • Latency: Opnår op til 50 % lavere gennemsnitlige svartider sammenlignet med Gemini 2.5 Flash, med typisk under 100 ms latenser på standardklassificerings- og opsummeringsbenchmarks.
  • gennemløb: Optimeret til høj volumen arbejdsbelastninger, der håndterer titusindvis af anmodninger i minuttet uden forringelse af ydeevnen.
  • Pris-ydelse: Demonstrerer en 25% reduktion i omkostningerne pr. 1,000 tokens i forhold til sin Flash-modpart, hvilket gør den til Pareto-optimal valg til omkostningsfølsomme implementeringer.
  • IndustriadoptionTidlige brugere rapporterer problemfri integration i produktionsrørledninger, hvor præstationsmålinger stemmer overens med eller overgår de oprindelige prognoser.

Gemini 2.5 Flash-Lite API


Ideel brugssager

  • Højfrekvente, lavkomplekse opgaver: Automatiseret tagging, sentimentanalyse og masseoversættelse
  • Omkostningsfølsomme rørledninger: Dataudtrækning fra store dokumentkorpus, periodisk batchopsummering
  • Edge- og mobile scenarier: Når latenstid er kritisk, men ressourcebudgetterne er begrænsede

Begrænsninger af Gemini 2.5 Flash-Lite

  • ForhåndsvisningsstatusKan gennemgå API-ændringer før GA; integrationer bør tage højde for mulige versionsforskelle.
  • Ingen finjustering undervejsKan ikke uploade brugerdefinerede vægte; stol på prompt tekniske meddelelser og systemmeddelelser.
  • Reduceret kreativitetTunet til deterministiske opgaver med høj kapacitet; mindre egnet til åben generering eller "kreativ" skrivning.
  • RessourceloftSkalerer kun lineært op til ~16 vCPU'er; ud over dette mindskes gennemløbsgevinsterne.
  • Multimodale begrænsningerUnderstøtter billed-/lydinput, men med begrænset kvalitet; ikke ideel til opgaver med tungt syn eller lydtransskription.
  • Afvejning i kontekstvindue Selvom den accepterer op til 1 mio. tokens, kan praktisk inferens i den skala medføre forringet gennemløbshastighed.

Sådan ringer du Gemini 2.5 Flash-Lite API fra CometAPI

Gemini 2.5 Flash-Lite API-priser i CometAPI, 20 % rabat på den officielle pris:

  • Input-tokens: $0.08/M tokens
  • Output-tokens: $0.32/M-tokens

Påkrævede trin

  • Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, bedes du registrere dig først
  • Få adgangslegitimations-API-nøglen til grænsefladen. Klik på "Tilføj token" ved API-tokenet i det personlige center, få token-nøglen: sk-xxxxx og send.
  • Hent url'en til dette websted: https://api.cometapi.com/

Brugsmetoder

  1. Vælg "gemini-2.5-flash-lite” endepunkt for at sende API-anmodningen og indstille anmodningsteksten. Forespørgselsmetoden og anmodningsteksten er hentet fra vores websteds API-dokument. Vores websted tilbyder også Apifox-test for din bekvemmelighed.
  2. Erstatte med din egentlige CometAPI-nøgle fra din konto.
  3. Indsæt dit spørgsmål eller din anmodning i indholdsfeltet – det er det, modellen vil reagere på.
  4. . Behandle API-svaret for at få det genererede svar.

CometAPI leverer en fuldt kompatibel REST API – til problemfri migrering. Vigtige detaljer til API-dok:

Se også Gemini 2.5 Pro

Læs mere

500+ modeller i én API

Op til 20% rabat