Gemini 2.5 Flash è progettato per fornire risposte rapide senza compromettere la qualità dell’output. Supporta input multimodali, tra cui testo, immagini, audio e video, rendendolo adatto a diverse applicazioni. Il modello è accessibile tramite piattaforme come Google AI Studio e Vertex AI, offrendo agli sviluppatori gli strumenti necessari per un’integrazione senza soluzione di continuità in vari sistemi.

Informazioni di base (Funzionalità)

Gemini 2.5 Flash introduce diverse funzionalità di spicco che lo distinguono all’interno della famiglia Gemini 2.5:

Ragionamento ibrido: Gli sviluppatori possono impostare un parametro thinking_budget per controllare con precisione quanti token il modello dedica al ragionamento interno prima dell’output.
Frontiera di Pareto: Posizionato nel punto ottimale costo-prestazioni, Flash offre il miglior rapporto prezzo–intelligenza tra i modelli 2.5.
Supporto multimodale: Elabora nativamente testo, immagini, video e audio, abilitando capacità conversazionali e analitiche più ricche.
Contesto da 1 milione di token: Una lunghezza del contesto senza pari consente analisi approfondite e comprensione di documenti lunghi in una singola richiesta.

Versioni del modello

Gemini 2.5 Flash è passato attraverso le seguenti versioni chiave:

gemini-2.5-flash-lite-preview-09-2025: Migliore usabilità degli strumenti: prestazioni migliorate su attività complesse e multi-step, con un aumento del 5% nei punteggi SWE-Bench Verified (da 48.9% a 54%). Efficienza migliorata: abilitando il ragionamento, si ottiene un output di qualità superiore con meno token, riducendo latenza e costi.
Preview 04-17: Release di accesso anticipato con funzionalità di “thinking”, disponibile tramite gemini-2.5-flash-preview-04-17.
Disponibilità generale stabile (GA): Dal 17 giugno 2025, l’endpoint stabile gemini-2.5-flash sostituisce la preview, garantendo affidabilità a livello di produzione senza modifiche all’API rispetto alla preview del 20 maggio.
Dismissione della preview: Gli endpoint di preview erano programmati per la dismissione il 15 luglio 2025; gli utenti devono migrare all’endpoint GA prima di tale data.

A luglio 2025, Gemini 2.5 Flash è ora pubblicamente disponibile e stabile (nessuna modifica rispetto a gemini-2.5-flash-preview-05-20). Se stai utilizzando gemini-2.5-flash-preview-04-17, la tariffazione di preview esistente continuerà fino alla data di ritiro programmata dell’endpoint del modello, il 15 luglio 2025, quando verrà disattivato. Puoi eseguire la migrazione al modello generalmente disponibile "gemini-2.5-flash".

Più veloce, più economico, più intelligente:

Obiettivi di progettazione: bassa latenza + alto throughput + basso costo;
Accelerazione complessiva nel ragionamento, nell’elaborazione multimodale e nei task su testi lunghi;
L’uso di token è ridotto del 20–30%, riducendo sensibilmente i costi del ragionamento.

Specifiche tecniche

Finestra di contesto in input: fino a 1 milione di token, consentendo un’ampia conservazione del contesto.

Token di output: in grado di generare fino a 8,192 token per risposta.

Modalità supportate: testo, immagini, audio e video.

Piattaforme di integrazione: disponibile tramite Google AI Studio e Vertex AI.

Prezzi: modello di tariffazione basato sui token, competitivo, che facilita implementazioni economicamente convenienti.

Dettagli tecnici

Sotto il cofano, Gemini 2.5 Flash è un grande modello linguistico basato su transformer, addestrato su un mix di dati web, codice, immagini e video. Le principali specifiche tecniche includono:

Addestramento multimodale: Addestrato ad allineare più modalità, Flash può combinare senza soluzione di continuità testo con immagini, video o audio, utile per attività come la sintesi di video o la descrizione audio.

Processo di ragionamento dinamico: Implementa un ciclo di ragionamento interno in cui il modello pianifica e scompone prompt complessi prima dell’output finale.

Budget di thinking configurabili: Il thinking_budget può essere impostato da 0 (nessun ragionamento) fino a 24,576 token, consentendo compromessi tra latenza e qualità delle risposte.

Integrazione con strumenti: Supporta Grounding with Google Search, Code Execution, URL Context e Function Calling, abilitando azioni reali direttamente da prompt in linguaggio naturale.

Prestazioni sui benchmark

In valutazioni rigorose, Gemini 2.5 Flash dimostra prestazioni di livello leader nel settore:

LMArena Hard Prompts: Punteggio secondo solo a 2.5 Pro sullo sfidante benchmark Hard Prompts, a dimostrazione di solide capacità di ragionamento a più fasi.
Punteggio MMLU di 0.809: Supera la prestazione media dei modelli con un’accuratezza MMLU di 0.809, riflettendo l’ampiezza della conoscenza sui domini e le capacità di ragionamento.
Latenza e throughput: Raggiunge una velocità di decodifica di 271.4 token/sec con un Time-to-First-Token di 0.29 s, rendendolo ideale per carichi sensibili alla latenza.
Leader nel rapporto prezzo-prestazioni: A \$0.26/1 M tokens, Flash batte molti concorrenti eguagliandoli o superandoli nei benchmark chiave.

Questi risultati indicano il vantaggio competitivo di Gemini 2.5 Flash nel ragionamento, nella comprensione scientifica, nella risoluzione di problemi matematici, nel coding, nell’interpretazione visiva e nelle capacità multilingue:

Limitazioni

Pur essendo potente, Gemini 2.5 Flash presenta alcune limitazioni:

Rischi per la sicurezza: Il modello può mostrare un tono “predicatorio” e può produrre output plausibili ma errati o di parte (allucinazioni), in particolare su query borderline. Un rigoroso controllo umano rimane essenziale.
Limiti di rate: L’utilizzo dell’API è vincolato da limiti di rate (10 RPM, 250,000 TPM, 250 RPD sui livelli predefiniti), che possono influire sull’elaborazione in batch o su applicazioni ad alto volume.
Soglia di intelligenza: Pur essendo eccezionalmente capace per un modello flash, rimane meno accurato di 2.5 Pro nei task agentici più impegnativi come il coding avanzato o il coordinamento multi‑agente.
Compromessi sui costi: Sebbene offra il miglior rapporto prezzo-prestazioni, l’uso esteso della modalità thinking aumenta il consumo complessivo di token, incrementando i costi per prompt che richiedono ragionamenti profonditi.

Prezzi per Gemini 2.5 Flash

Esplora i prezzi competitivi per Gemini 2.5 Flash, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come Gemini 2.5 Flash può migliorare i tuoi progetti mantenendo i costi gestibili.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Codice di esempio e API per Gemini 2.5 Flash

Gemini 2.5 Flash API è il più recente modello di IA multimodale di Google, progettato per attività ad alta velocità e a costi contenuti, con capacità di ragionamento controllabili, che consente agli sviluppatori di attivare o disattivare le funzionalità avanzate di "ragionamento" tramite la Gemini API.

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versioni di Gemini 2.5 Flash

Il motivo per cui Gemini 2.5 Flash dispone di più snapshot può includere fattori potenziali come variazioni nell'output dopo aggiornamenti che richiedono snapshot precedenti per coerenza, offrire agli sviluppatori un periodo di transizione per l'adattamento e la migrazione, e diversi snapshot corrispondenti a endpoint globali o regionali per ottimizzare l'esperienza utente. Per le differenze dettagliate tra le versioni, si prega di fare riferimento alla documentazione ufficiale.

version
gemini-2.5-flash-image
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking
gemini-2.5-flash-lite-preview-06-17-thinking

Informazioni di base (Funzionalità)

Gemini 2.5 Flash introduce diverse funzionalità di spicco che lo distinguono all’interno della famiglia Gemini 2.5:

Ragionamento ibrido: Gli sviluppatori possono impostare un parametro thinking_budget per controllare con precisione quanti token il modello dedica al ragionamento interno prima dell’output.
Frontiera di Pareto: Posizionato nel punto ottimale costo-prestazioni, Flash offre il miglior rapporto prezzo–intelligenza tra i modelli 2.5.
Supporto multimodale: Elabora nativamente testo, immagini, video e audio, abilitando capacità conversazionali e analitiche più ricche.
Contesto da 1 milione di token: Una lunghezza del contesto senza pari consente analisi approfondite e comprensione di documenti lunghi in una singola richiesta.

Versioni del modello

Gemini 2.5 Flash è passato attraverso le seguenti versioni chiave:

gemini-2.5-flash-lite-preview-09-2025: Migliore usabilità degli strumenti: prestazioni migliorate su attività complesse e multi-step, con un aumento del 5% nei punteggi SWE-Bench Verified (da 48.9% a 54%). Efficienza migliorata: abilitando il ragionamento, si ottiene un output di qualità superiore con meno token, riducendo latenza e costi.
Preview 04-17: Release di accesso anticipato con funzionalità di “thinking”, disponibile tramite gemini-2.5-flash-preview-04-17.
Disponibilità generale stabile (GA): Dal 17 giugno 2025, l’endpoint stabile gemini-2.5-flash sostituisce la preview, garantendo affidabilità a livello di produzione senza modifiche all’API rispetto alla preview del 20 maggio.
Dismissione della preview: Gli endpoint di preview erano programmati per la dismissione il 15 luglio 2025; gli utenti devono migrare all’endpoint GA prima di tale data.

Più veloce, più economico, più intelligente:

Obiettivi di progettazione: bassa latenza + alto throughput + basso costo;
Accelerazione complessiva nel ragionamento, nell’elaborazione multimodale e nei task su testi lunghi;
L’uso di token è ridotto del 20–30%, riducendo sensibilmente i costi del ragionamento.

Specifiche tecniche

Finestra di contesto in input: fino a 1 milione di token, consentendo un’ampia conservazione del contesto.

Token di output: in grado di generare fino a 8,192 token per risposta.

Modalità supportate: testo, immagini, audio e video.

Piattaforme di integrazione: disponibile tramite Google AI Studio e Vertex AI.

Prezzi: modello di tariffazione basato sui token, competitivo, che facilita implementazioni economicamente convenienti.

Dettagli tecnici

Processo di ragionamento dinamico: Implementa un ciclo di ragionamento interno in cui il modello pianifica e scompone prompt complessi prima dell’output finale.

Budget di thinking configurabili: Il thinking_budget può essere impostato da 0 (nessun ragionamento) fino a 24,576 token, consentendo compromessi tra latenza e qualità delle risposte.

Prestazioni sui benchmark

In valutazioni rigorose, Gemini 2.5 Flash dimostra prestazioni di livello leader nel settore:

LMArena Hard Prompts: Punteggio secondo solo a 2.5 Pro sullo sfidante benchmark Hard Prompts, a dimostrazione di solide capacità di ragionamento a più fasi.
Punteggio MMLU di 0.809: Supera la prestazione media dei modelli con un’accuratezza MMLU di 0.809, riflettendo l’ampiezza della conoscenza sui domini e le capacità di ragionamento.
Latenza e throughput: Raggiunge una velocità di decodifica di 271.4 token/sec con un Time-to-First-Token di 0.29 s, rendendolo ideale per carichi sensibili alla latenza.
Leader nel rapporto prezzo-prestazioni: A \$0.26/1 M tokens, Flash batte molti concorrenti eguagliandoli o superandoli nei benchmark chiave.

Limitazioni

Pur essendo potente, Gemini 2.5 Flash presenta alcune limitazioni:

Rischi per la sicurezza: Il modello può mostrare un tono “predicatorio” e può produrre output plausibili ma errati o di parte (allucinazioni), in particolare su query borderline. Un rigoroso controllo umano rimane essenziale.
Limiti di rate: L’utilizzo dell’API è vincolato da limiti di rate (10 RPM, 250,000 TPM, 250 RPD sui livelli predefiniti), che possono influire sull’elaborazione in batch o su applicazioni ad alto volume.
Soglia di intelligenza: Pur essendo eccezionalmente capace per un modello flash, rimane meno accurato di 2.5 Pro nei task agentici più impegnativi come il coding avanzato o il coordinamento multi‑agente.
Compromessi sui costi: Sebbene offra il miglior rapporto prezzo-prestazioni, l’uso esteso della modalità thinking aumenta il consumo complessivo di token, incrementando i costi per prompt che richiedono ragionamenti profonditi.

Gemini 2.5 Flash

Altri modelli

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Blog correlati

Nano Banana 2 Flash In arrivo – L'evoluzione ad alta velocità della generazione di immagini con IA

Sconti Nano Banana: un vero risparmio nel 2026 per gli sviluppatori

L'API gratuita di Gemini 2.5 Pro è fuori uso? Modifiche alla quota gratuita nel 2025

Guida definitiva alla nano-banana: come usarla e come ottenere il massimo

Come utilizzare Nano Banana tramite API? (Gemini-2-5-flash-image)