Come utilizzare l'API Gemini 3.5 Flash

Google ha presentato Gemini 3.5 Flash al Google I/O 2026 come l’ultimo modello della serie Flash, offrendo intelligenza di livello frontier con velocità e costi da fascia Flash. Rilasciato intorno al 19 maggio 2026, combina ragionamento avanzato, forti capacità agentiche e comprensione multimodale, mantenendo una bassa latenza.

Questo modello si distingue per sviluppatori, imprese e builder di AI che necessitano di alte prestazioni senza l’onere dei modelli “Pro” più voluminosi. Eguaglia o supera i precedenti modelli Pro nei principali benchmark agentici e di coding, offrendo al contempo velocità ed efficienza superiori.

Punti chiave (Struttura da Featured Snippet):

Prestazioni: Supera Gemini 3.1 Pro su Terminal-Bench 2.1 (76,2% vs 70,3%), MCP Atlas (83,6%) e altri.
Velocità: Latenza di livello Flash per casi d’uso in tempo reale e ad alto volume.
Contesto: Fino a 1M token di input, 64k token di output.
Multimodale: Gestisce testo, immagini, video, audio, PDF in modo nativo.
Prezzi: Circa $1.50 / 1M token di input e $9 / 1M token di output (varia per provider/piattaforma).

Per un’integrazione senza attriti, CometAPI offre un proxy unificato e affidabile verso i modelli Gemini (e molti altri) con limiti di rate aumentati, fatturazione semplificata, routing di fallback e analitiche d’uso—ideale per app in produzione che scalano con Gemini 3.5 Flash.

Che cos’è Gemini 3.5 Flash?

Gemini 3.5 Flash è il modello Flash-tier più intelligente di Google, progettato per prestazioni frontier costanti su task agentici e di coding su larga scala. Si basa sulla serie Gemini 3, combinando ragionamento di livello Pro con efficienza da Flash.

Diversamente dalle varianti “Lite” focalizzate esclusivamente sui costi, o dai modelli Pro che privilegiano la massima intelligenza, 3.5 Flash eccelle in scenari reali multi-step: deploy di sotto-agenti, iterazioni di codice rapide (“vibe coding”), uso parallelo di tool e workflow di lunga durata che richiedono il mantenimento del contesto su molti turni.

Capacità principali:

Input multimodali: Testo, immagini, video, audio, PDF.
Strumenti e funzionalità agentiche: Function calling, esecuzione di codice, search grounding, file search, contesto da URL. (Computer Use non ancora supportato.)
Modalità di pensiero: Livelli di impegno configurabili per bilanciare profondità e velocità.
Pronto per la produzione: Stato GA con versioning stabile (gemini-3.5-flash).

Supporta un contesto di 1M token, abilitando l’elaborazione di documenti, codebase o storici di conversazioni massivi—critico per agent complessi.

Novità in Gemini 3.5 Flash

Rispetto a Gemini 3 Flash e 3.1 Pro, 3.5 Flash porta aggiornamenti significativi:

Prestazioni agentiche migliorate: +42% in benchmark cyber multi-turn di lungo raggio con una riduzione del 72% dei token in alcuni casi.
Coding migliore: Leader in Terminal-Bench e varianti SWE-Bench per workflow reali degli sviluppatori.
Ragionamento multimodale potenziato: Punteggi al top su CharXiv (84,2%) e MMMU-Pro.
Coordinamento parallelo dei sotto-agenti: Supporto nativo per orchestrazioni multi-agent complesse (dimostrato in esempi Antigravity come migrazioni di codebase e sviluppo di giochi).
Guadagni di efficienza: Mantiene o migliora la velocità aumentando l’intelligenza, rendendolo adatto a produzioni ad alto volume.

Tabella di confronto benchmark:

Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Note
Terminal-Bench 2.1 (Agentic)	76.2%	58.0%	70.3%	Vantaggio netto nel coding
MCP Atlas (Multi-step)	83.6%	62.0%	78.2%	Workflow agentici
CharXiv (Multimodale)	84.2%	80.3%	83.3%	Ragionamento su grafici
GDPval-AA (Elo)	1656	1204	1314	Lavoro di conoscenza
MMMU-Pro	83.6%	81.2%	80.5%	Multimodale

Utenti reali (es. Shopify, Macquarie Bank, Salesforce) riportano miglioramenti in forecasting, elaborazione documentale e automazione enterprise.

Regolazioni del comportamento e modifiche principali

Google ha introdotto aggiornamenti importanti al comportamento per migliore efficienza e coerenza.

Nuovo livello di impegno predefinito: Medium

Il thinking_level predefinito è passato da high (nelle preview precedenti) a medium. Ciò fornisce ottimi risultati per la maggior parte dei task riducendo latenza e costi. Usare high per il ragionamento più complesso.

Tabella di confronto dei livelli di impegno:

Effort Level	Ideale per	Impatto su latenza/costi	Casi d’uso consigliati
minimal	Risposte rapide	Minimo	Chat, fatti semplici, routing base
low	Agentic/code con pochi step	Basso	Analisi, scrittura, tool veloci
medium (default)	La maggior parte dei task	Bilanciato	Codice complesso, agent standard
high	Ragionamento profondo	Più alto	Matematica difficile, task agent più ardui

Esempio di codice (Python - Impostazione del Thinking Level):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Pattern simili si applicano in JavaScript, REST, ecc.

Conservazione del pensiero

Il modello ora mantiene automaticamente il ragionamento intermedio nelle conversazioni multi-turn quando viene fornita la cronologia completa (incluse le firme di pensiero). Questo migliora le prestazioni in debugging iterativo, refactoring e sessioni agent lunghe—nessuna modifica aggiuntiva all’API necessaria per Interactions API; GenerateContent beneficia del passaggio della cronologia completa.

Aggiornamenti ai parametri (best practice Gemini 3.x)

Evitare di impostare manualmente temperature, top_p, top_k — i default sono ottimizzati.
Usare thinking_level invece del thinking_budget numerico.
Il matching rigoroso delle risposte dei function (id, name, count) è fondamentale per evitare risposte vuote.

Come accedere e usare l’API di Gemini 3.5 Flash

1. Opzioni di accesso:

Google AI Studio (il più semplice per test) — Disponibile un livello gratuito.
Gemini API (accesso diretto con API key).
Vertex AI / Gemini Enterprise Agent Platform (funzionalità enterprise, limiti più alti).
Terze parti come CometAPI (consigliato per accesso multi-provider semplificato, analitiche e affidabilità).

Inizia con CometAPI: CometAPI aggrega l’accesso ai modelli Gemini con un singolo endpoint, migliore gestione degli errori, dashboard d’uso e avvisi sui costi. Registrati su Cometapi.com, ottieni la tua key e indirizza le richieste a gemini-3.5-flash (o ID modello equivalente) con modifiche minime al codice. Perfetto per scalare senza gestire più API key o i rate limit direttamente.

2. Configurazione di base e Hello World

Guida rapida Python:

import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

Esempio JavaScript:

import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>

3. Uso avanzato: multimodale, chiamata di funzioni e agenti

Esempio multimodale (Immagine + Testo):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Function Calling per workflow agentici:

Definisci i tool, lascia che il modello li invochi, quindi fornisci le risposte (corrispondenza rigorosa di id/name).

Output strutturati:

Usa schema di risposta per un parsing JSON affidabile—perfetto per pipeline di estrazione dati.

Tool di esecuzione del codice:

Abilitalo per permettere al modello di eseguire codice Python in un sandbox per matematica, analisi dati, ecc.

Per setup agentici completi, considera i Managed Agents di Google (preview) o costruisci i tuoi con Cometapi.com per orchestrazione, logging e controllo dei costi.

Consigli per l’API di Gemini 3.5 Flash

Sfrutta il livello Medium predefinito — Overridalo solo quando necessario.
Passa la cronologia completa per la conservazione del pensiero in chat/agent.
Usa il context caching per prompt grandi ripetuti (risparmi significativi).
Gestione rigorosa delle risposte ai tool per prevenire failure.
Monitora i token — 1M di contesto è potente ma costoso se usato male.
Combina con Cometapi.com — Implementa routing intelligente (es. fallback a Flash-Lite per query semplici), livelli di cache, dashboard d’uso e gestione degli errori unificata. Ottimizza spesa e affidabilità per app ad alto volume o mission-critical.

Best practice per l’uso dell’API di Gemini 3.5 Flash

Progettazione dei prompt:

Usa prompt chiari e strutturati con ruoli (System + User).
Specifica il formato di output (JSON, tabelle Markdown).
Chain-of-Thought: “Pensa passo dopo passo...”

Ottimizzazione dei costi:

Sfrutta il livello “medium” predefinito.
Usa caching (dove supportato).
Monitora l’uso dei token tramite i dashboard CometAPI.
Esegui in batch i task non urgenti.

Gestione degli errori e affidabilità:

Implementa retry con exponential backoff.
Usa CometAPI per fallback automatici ad altri modelli.

Progettazione degli agenti:

Scomponi i task complessi in sotto-agenti.
Mantieni lo stato con sessioni chat o memoria esterna.
Combina con Antigravity o orchestrazione personalizzata.

Applicazioni reali e casi di studio

Coding agent: Sviluppo iterativo con cicli di feedback rapidi.
Automazione enterprise: Elaborazione documenti, estrazione dati (es. vantaggi per Box Life Sciences).
Analisi multimodale: Video/audio + testo per insight ricchi.
Agent per il supporto clienti: Gestione di conversazioni a lungo contesto.

L’integrazione tramite Cometapi.com consente ai team di fare A/B test di prompt/modelli, tracciare l’ROI per workflow e scalare senza grattacapi infrastrutturali.

Confronto: Gemini 3.5 Flash vs. competitor e modelli precedenti

Gemini 3.5 Flash offre un eccellente rapporto prezzo-prestazioni per use case agentici/coding. Spesso è più veloce e conveniente dei modelli Pro completi per molti task, riducendo al contempo il gap sulla pura intelligenza.

Quando sceglierlo:

App ad alto throughput (chatbot, assistant di coding).
Automazione agentica.
Analisi multimodale con requisiti di velocità.
Produzione attenta al budget.

Limitazioni: Ancora sfumature tra preview/stabile; prezzi più alti rispetto ai vecchi tier Flash per alcuni output. Test approfonditi consigliati.

Tabella di confronto prestazioni (approssimativa, basata su report pubblici):

Model	Forza agentica	Velocità	Cost (Input/Output)	Ideale per
Gemini 3.5 Flash	High (Frontier)	Very High	$1.50 / $9	Agent, Coding, Scala
Gemini 3 Flash	Medium-High	High	Lower	Task veloci generali
Gemini 3.1 Pro	Very High	Medium	Higher	Massima intelligenza
Lite Variants	Medium	Highest	Lowest	Alto volume, semplici

Errori comuni e risoluzione dei problemi

Risposte dei function non allineate → output vuoti.
Uso eccessivo di high → costi/latenza maggiori.
Mancato uso della cache per contesti ripetitivi.
Sorprese sui limiti di token nelle sessioni lunghe.

Conclusione: Inizia a creare con Gemini 3.5 Flash oggi stesso

Gemini 3.5 Flash democratizza capacità di AI frontier per applicazioni sensibili a velocità e costi. Il suo rilascio GA, combinato con aggiornamenti comportamentali come il livello di impegno predefinito medium e la conservazione del pensiero, lo rende una potenza produttiva.

Prossimi passi:

Ottieni la tua chiave API e testa .
Implementa tramite SDK con gli esempi di codice sopra.
Scala in modo intelligente con Cometapi.com per proxy, ottimizzazione, monitoraggio e supporto multi-LLM.
Sperimenta pattern agentici e condividi i risultati.

Seguendo questa guida, sfrutterai Gemini 3.5 Flash in modo efficace minimizzando rischi e costi. Per una gestione dell’API senza attriti, pensata per i workflow di AI moderni, visita CometAPI e integra oggi stesso.