Gemini 2.5 Flash è progettato per fornire risposte rapide senza compromettere la qualità dell’output. Supporta input multimodali, tra cui testo, immagini, audio e video, rendendolo adatto a diverse applicazioni. Il modello è accessibile tramite piattaforme come Google AI Studio e Vertex AI, offrendo agli sviluppatori gli strumenti necessari per un’integrazione senza soluzione di continuità in vari sistemi.
Informazioni di base (Funzionalità)
Gemini 2.5 Flash introduce diverse funzionalità di spicco che lo distinguono all’interno della famiglia Gemini 2.5:
- Ragionamento ibrido: Gli sviluppatori possono impostare un parametro thinking_budget per controllare con precisione quanti token il modello dedica al ragionamento interno prima dell’output.
- Frontiera di Pareto: Posizionato nel punto ottimale costo-prestazioni, Flash offre il miglior rapporto prezzo–intelligenza tra i modelli 2.5.
- Supporto multimodale: Elabora nativamente testo, immagini, video e audio, abilitando capacità conversazionali e analitiche più ricche.
- Contesto da 1 milione di token: Una lunghezza del contesto senza pari consente analisi approfondite e comprensione di documenti lunghi in una singola richiesta.
Versioni del modello
Gemini 2.5 Flash è passato attraverso le seguenti versioni chiave:
- gemini-2.5-flash-lite-preview-09-2025: Migliore usabilità degli strumenti: prestazioni migliorate su attività complesse e multi-step, con un aumento del 5% nei punteggi SWE-Bench Verified (da 48.9% a 54%). Efficienza migliorata: abilitando il ragionamento, si ottiene un output di qualità superiore con meno token, riducendo latenza e costi.
- Preview 04-17: Release di accesso anticipato con funzionalità di “thinking”, disponibile tramite gemini-2.5-flash-preview-04-17.
- Disponibilità generale stabile (GA): Dal 17 giugno 2025, l’endpoint stabile gemini-2.5-flash sostituisce la preview, garantendo affidabilità a livello di produzione senza modifiche all’API rispetto alla preview del 20 maggio.
- Dismissione della preview: Gli endpoint di preview erano programmati per la dismissione il 15 luglio 2025; gli utenti devono migrare all’endpoint GA prima di tale data.
A luglio 2025, Gemini 2.5 Flash è ora pubblicamente disponibile e stabile (nessuna modifica rispetto a gemini-2.5-flash-preview-05-20). Se stai utilizzando gemini-2.5-flash-preview-04-17, la tariffazione di preview esistente continuerà fino alla data di ritiro programmata dell’endpoint del modello, il 15 luglio 2025, quando verrà disattivato. Puoi eseguire la migrazione al modello generalmente disponibile "gemini-2.5-flash".
Più veloce, più economico, più intelligente:
- Obiettivi di progettazione: bassa latenza + alto throughput + basso costo;
- Accelerazione complessiva nel ragionamento, nell’elaborazione multimodale e nei task su testi lunghi;
- L’uso di token è ridotto del 20–30%, riducendo sensibilmente i costi del ragionamento.
Specifiche tecniche
Finestra di contesto in input: fino a 1 milione di token, consentendo un’ampia conservazione del contesto.
Token di output: in grado di generare fino a 8,192 token per risposta.
Modalità supportate: testo, immagini, audio e video.
Piattaforme di integrazione: disponibile tramite Google AI Studio e Vertex AI.
Prezzi: modello di tariffazione basato sui token, competitivo, che facilita implementazioni economicamente convenienti.
Dettagli tecnici
Sotto il cofano, Gemini 2.5 Flash è un grande modello linguistico basato su transformer, addestrato su un mix di dati web, codice, immagini e video. Le principali specifiche tecniche includono:
Addestramento multimodale: Addestrato ad allineare più modalità, Flash può combinare senza soluzione di continuità testo con immagini, video o audio, utile per attività come la sintesi di video o la descrizione audio.
Processo di ragionamento dinamico: Implementa un ciclo di ragionamento interno in cui il modello pianifica e scompone prompt complessi prima dell’output finale.
Budget di thinking configurabili: Il thinking_budget può essere impostato da 0 (nessun ragionamento) fino a 24,576 token, consentendo compromessi tra latenza e qualità delle risposte.
Integrazione con strumenti: Supporta Grounding with Google Search, Code Execution, URL Context e Function Calling, abilitando azioni reali direttamente da prompt in linguaggio naturale.
Prestazioni sui benchmark
In valutazioni rigorose, Gemini 2.5 Flash dimostra prestazioni di livello leader nel settore:
- LMArena Hard Prompts: Punteggio secondo solo a 2.5 Pro sullo sfidante benchmark Hard Prompts, a dimostrazione di solide capacità di ragionamento a più fasi.
- Punteggio MMLU di 0.809: Supera la prestazione media dei modelli con un’accuratezza MMLU di 0.809, riflettendo l’ampiezza della conoscenza sui domini e le capacità di ragionamento.
- Latenza e throughput: Raggiunge una velocità di decodifica di 271.4 token/sec con un Time-to-First-Token di 0.29 s, rendendolo ideale per carichi sensibili alla latenza.
- Leader nel rapporto prezzo-prestazioni: A \$0.26/1 M tokens, Flash batte molti concorrenti eguagliandoli o superandoli nei benchmark chiave.
Questi risultati indicano il vantaggio competitivo di Gemini 2.5 Flash nel ragionamento, nella comprensione scientifica, nella risoluzione di problemi matematici, nel coding, nell’interpretazione visiva e nelle capacità multilingue:
Limitazioni
Pur essendo potente, Gemini 2.5 Flash presenta alcune limitazioni:
- Rischi per la sicurezza: Il modello può mostrare un tono “predicatorio” e può produrre output plausibili ma errati o di parte (allucinazioni), in particolare su query borderline. Un rigoroso controllo umano rimane essenziale.
- Limiti di rate: L’utilizzo dell’API è vincolato da limiti di rate (10 RPM, 250,000 TPM, 250 RPD sui livelli predefiniti), che possono influire sull’elaborazione in batch o su applicazioni ad alto volume.
- Soglia di intelligenza: Pur essendo eccezionalmente capace per un modello flash, rimane meno accurato di 2.5 Pro nei task agentici più impegnativi come il coding avanzato o il coordinamento multi‑agente.
- Compromessi sui costi: Sebbene offra il miglior rapporto prezzo-prestazioni, l’uso esteso della modalità thinking aumenta il consumo complessivo di token, incrementando i costi per prompt che richiedono ragionamenti profonditi.




