Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Wejście:$0.24/M
Wyjście:$2/M
Kontekst:1M
Maks. wyjście:65K
Gemini 2.5 Flash to model AI opracowany przez Google, zaprojektowany tak, aby zapewniać szybkie i ekonomiczne rozwiązania dla deweloperów, zwłaszcza dla aplikacji wymagających zwiększonych możliwości wnioskowania. Zgodnie z zapowiedzią wersji zapoznawczej Gemini 2.5 Flash, model został udostępniony w wersji zapoznawczej 17 kwietnia 2025 r., obsługuje wejście multimodalne i ma okno kontekstu o wielkości 1 miliona tokenów. Ten model obsługuje maksymalną długość kontekstu wynoszącą 65,536 tokenów.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API
Wersje

Gemini 2.5 Flash został zaprojektowany tak, aby dostarczać szybkie odpowiedzi bez kompromisu w jakości wyników. Obsługuje wejścia multimodalne, w tym tekst, obrazy, audio i wideo, dzięki czemu nadaje się do różnorodnych zastosowań. Model jest dostępny na platformach takich jak Google AI Studio i Vertex AI, zapewniając deweloperom narzędzia niezbędne do bezproblemowej integracji z różnymi systemami.


Podstawowe informacje (funkcje)

Gemini 2.5 Flash wprowadza kilka wyróżniających się funkcji, które odróżniają go w rodzinie Gemini 2.5:

  • Hybrydowe rozumowanie: Deweloperzy mogą ustawić parametr thinking_budget, aby precyzyjnie kontrolować, ile tokenów model przeznacza na wewnętrzne rozumowanie przed wygenerowaniem odpowiedzi.
  • Granica Pareto: Umieszczony w optymalnym punkcie koszt–wydajność, Flash oferuje najlepszy stosunek ceny do inteligencji wśród modeli 2.5.
  • Obsługa multimodalna: Natywnie przetwarza tekst, obrazy, wideo i audio, umożliwiając bogatsze możliwości konwersacyjne i analityczne.
  • Kontekst 1 miliona tokenów: Niezrównana długość kontekstu pozwala na dogłębną analizę i rozumienie długich dokumentów w jednym żądaniu.

Wersjonowanie modelu

Gemini 2.5 Flash przeszedł przez następujące kluczowe wersje:

  • gemini-2.5-flash-lite-preview-09-2025: Zwiększona użyteczność narzędzi: poprawiona wydajność w złożonych, wieloetapowych zadaniach, ze wzrostem wyników SWE-Bench Verified o 5% (z 48.9% do 54%). Zwiększona efektywność: po włączeniu rozumowania uzyskiwana jest wyższa jakość wyników przy mniejszej liczbie tokenów, co redukuje latencję i koszty.
  • Preview 04-17: Wydanie we wczesnym dostępie z funkcją „thinking”, dostępne poprzez gemini-2.5-flash-preview-04-17.
  • Stabilna dostępność ogólna (GA): Od 17 czerwca 2025 stabilny endpoint gemini-2.5-flash zastępuje wersję preview, zapewniając niezawodność klasy produkcyjnej bez zmian w API względem wersji z 20 maja.
  • Wycofywanie wersji preview: Endpointy preview zaplanowano do wyłączenia 15 lipca 2025; użytkownicy muszą przejść na endpoint GA przed tą datą.

Od lipca 2025 Gemini 2.5 Flash jest publicznie dostępny i stabilny (bez zmian względem gemini-2.5-flash-preview-05-20 ). Jeśli używasz gemini-2.5-flash-preview-04-17, dotychczasowe ceny wersji preview będą obowiązywać do planowanego wycofania endpointu modelu 15 lipca 2025, kiedy zostanie on wyłączony. Możesz przejść na ogólnodostępny model "gemini-2.5-flash" .

Szybszy, tańszy, mądrzejszy:

  • Cele projektowe: niska latencja + wysoka przepustowość + niski koszt;
  • Ogólne przyspieszenie w rozumowaniu, przetwarzaniu multimodalnym i zadaniach na długich tekstach;
  • Zużycie tokenów zmniejszone o 20–30%, co znacząco obniża koszty rozumowania.

Specyfikacja techniczna

Okno kontekstu wejściowego: do 1 miliona tokenów, co pozwala na rozbudowaną retencję kontekstu.

Tokeny wyjściowe: możliwość generowania do 8,192 tokenów na odpowiedź.

Obsługiwane modalności: tekst, obrazy, audio i wideo.

Platformy integracji: dostępny przez Google AI Studio i Vertex AI.

Cennik: konkurencyjny model rozliczeń oparty na tokenach, ułatwiający efektywne kosztowo wdrożenia.


Szczegóły techniczne

Pod maską Gemini 2.5 Flash to duży model językowy oparty na architekturze transformer, trenowany na mieszance danych z sieci, kodu, obrazów i wideo. Kluczowe techniczne specyfikacje obejmują:

Trening multimodalny: Wytrenowany do łączenia wielu modalności, Flash może płynnie zestawiać tekst z obrazami, wideo lub audio, co jest przydatne w zadaniach takich jak podsumowywanie wideo czy opisy audio.

Dynamiczny proces myślenia: Implementuje wewnętrzną pętlę rozumowania, w której model planuje i rozbija złożone polecenia przed finalnym wynikiem.

Konfigurowalne budżety myślenia: thinking_budget można ustawić od 0 (brak rozumowania) do 24,576 tokenów, umożliwiając kompromis między latencją a jakością odpowiedzi.

Integracja narzędzi: Obsługuje Grounding with Google Search, Code Execution, URL Context i Function Calling, umożliwiając wykonywanie działań w świecie rzeczywistym bezpośrednio z poleceń w języku naturalnym.


Wydajność w benchmarkach

W rygorystycznych ewaluacjach Gemini 2.5 Flash demonstruje wiodącą w branży wydajność:

  • LMArena Hard Prompts: Wynik ustępujący jedynie 2.5 Pro w wymagającym benchmarku Hard Prompts, pokazujący silne możliwości wieloetapowego rozumowania.
  • Wynik MMLU 0.809: Przewyższa średnią wydajność modeli z dokładnością MMLU 0.809, odzwierciedlając szeroką wiedzę dziedzinową i zdolności rozumowania.
  • Opóźnienie i przepustowość: Osiąga prędkość dekodowania 271.4 tokenów/s przy 0.29 s Time-to-First-Token, co czyni go idealnym dla obciążeń wrażliwych na latencję.
  • Lider cena–wydajność: Przy $0.26/1 M tokenów Flash wyprzedza wielu konkurentów kosztowo, dorównując im lub przewyższając ich w kluczowych benchmarkach.

Wyniki te wskazują na przewagę konkurencyjną Gemini 2.5 Flash w zakresie rozumowania, rozumienia naukowego, rozwiązywania problemów matematycznych, kodowania, interpretacji wizualnej i wielojęzyczności:

Gemini 2.5 Flash


Ograniczenia

  • Ryzyka związane z bezpieczeństwem: Model może przejawiać pouczający ton i generować wiarygodnie brzmiące, lecz niepoprawne lub stronnicze odpowiedzi (halucynacje), szczególnie w zapytaniach brzegowych. Rygorystyczny nadzór człowieka pozostaje niezbędny.
  • Limity zapytań: Użycie API ograniczają limity (10 RPM, 250,000 TPM, 250 RPD w domyślnych progach), co może wpływać na przetwarzanie wsadowe lub zastosowania o dużym wolumenie.
  • Dolny pułap inteligencji: Choć wyjątkowo zdolny jak na model flash, pozostaje mniej dokładny niż 2.5 Pro w najbardziej wymagających zadaniach agencyjnych, takich jak zaawansowane kodowanie czy koordynacja wielu agentów.
  • Kompromisy kosztowe: Mimo najlepszego stosunku cena–wydajność, intensywne użycie trybu thinking zwiększa całkowite zużycie tokenów, podnosząc koszty dla zadań wymagających głębokiego rozumowania.

Funkcje dla Gemini 2.5 Flash

Poznaj kluczowe funkcje Gemini 2.5 Flash, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla Gemini 2.5 Flash

Poznaj konkurencyjne ceny dla Gemini 2.5 Flash, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak Gemini 2.5 Flash może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Przykładowy kod i API dla Gemini 2.5 Flash

Gemini 2.5 Flash API to najnowszy wielomodalny model sztucznej inteligencji firmy Google, zaprojektowany do szybkich i ekonomicznych zadań, z możliwością sterowania rozumowaniem, który umożliwia deweloperom włączanie lub wyłączanie zaawansowanych funkcji "myślenia" za pośrednictwem Gemini API.
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Wersje modelu Gemini 2.5 Flash

Powody, dla których Gemini 2.5 Flash posiada wiele migawek, mogą obejmować takie czynniki jak: różnice w wynikach po aktualizacjach wymagające starszych migawek dla zachowania spójności, zapewnienie programistom okresu przejściowego na adaptację i migrację, oraz różne migawki odpowiadające globalnym lub regionalnym punktom końcowym w celu optymalizacji doświadczenia użytkownika. Aby poznać szczegółowe różnice między wersjami, zapoznaj się z oficjalną dokumentacją.
version
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-all
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-preview-05-20-thinking
gemini-2.5-flash-thinking
gemini-2.5-flash-deepsearch
gemini-2.5-flash-image
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-preview-05-20

Więcej modeli