Come utilizzare l'API Gemini 3.5 Flash

CometAPI
AnnaMay 20, 2026
Come utilizzare l'API Gemini 3.5 Flash

Google ha presentato Gemini 3.5 Flash al Google I/O 2026 come l’ultimo modello della serie Flash, offrendo un’intelligenza di frontiera a velocità e costi da livello Flash. Rilasciato intorno al 19 maggio 2026, combina ragionamento avanzato, solide capacità agentiche e comprensione multimodale mantenendo una bassa latenza.

Questo modello si distingue per sviluppatori, imprese e costruttori di AI che necessitano di prestazioni elevate senza l’onere dei modelli “Pro” più grandi. Rivaleggia o supera i precedenti modelli Pro nei principali benchmark agentici e di coding, offrendo al contempo velocità ed efficienza superiori.

Key Highlights (struttura “Featured Snippet”):

  • Performance: Supera Gemini 3.1 Pro su Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%) e altro.
  • Speed: Latenza di livello Flash per casi d’uso in tempo reale e ad alto volume.
  • Context: Fino a 1M token in input, 64k token in output.
  • Multimodal: Gestisce nativamente testo, immagini, video, audio, PDF.
  • Pricing: Circa $1.50 / 1M token in input e $9 / 1M token in output (varia per provider/piattaforma).

Per un’integrazione senza attriti, CometAPI fornisce un proxy unificato e affidabile per i modelli Gemini (e molti altri) con limiti di rate migliorati, fatturazione semplificata, routing di fallback e analisi d’uso—ideale per app in produzione che scalano con Gemini 3.5 Flash.

Che cos’è Gemini 3.5 Flash?

Gemini 3.5 Flash è il modello Flash-tier più intelligente di Google, progettato per garantire prestazioni di frontiera sostenute in compiti agentici e di coding su larga scala. Si basa sulla serie Gemini 3, combinando un ragionamento simile ai modelli Pro con l’efficienza di livello Flash.

A differenza delle varianti “Lite” più leggere focalizzate esclusivamente sul costo, o dei modelli Pro più pesanti che privilegiano la massima intelligenza, 3.5 Flash eccelle in scenari reali e multi-step: distribuzione di sub-agent, rapide iterazioni di codice (“vibe coding”), uso parallelo degli strumenti e workflow di lungo periodo che richiedono il mantenimento del contesto su molti turni.

Core Capabilities:

  • Input multimodali: Testo, immagini, video, audio, PDF.
  • Strumenti e funzionalità agentiche: Function calling, esecuzione di codice, search grounding, ricerca file, contesto da URL. (Computer Use non ancora supportato.)
  • Modalità di “thinking”: Livelli di impegno configurabili per bilanciare profondità e velocità.
  • Pronto per la produzione: Stato GA con versioning stabile (gemini-3.5-flash).

Supporta un contesto di 1M token, consentendo l’elaborazione di documenti, codebase o cronologie di conversazione molto grandi—critico per agent complessi.

Novità di Gemini 3.5 Flash

Rispetto a Gemini 3 Flash e 3.1 Pro, 3.5 Flash introduce importanti miglioramenti:

  • Migliore performance agentica: +42% su benchmark cyber multi-turn di lungo raggio con riduzione dei token fino al 72% in alcuni casi.
  • Coding migliore: Guida Terminal-Bench e varianti SWE-Bench per flussi di lavoro reali degli sviluppatori.
  • Ragionamento multimodale potenziato: Punteggi top su CharXiv (84.2%) e MMMU-Pro.
  • Coordinamento parallelo di sub-agent: Supporto nativo per orchestrazioni multi-agent complesse (dimostrato in esempi Antigravity come migrazione di codebase e sviluppo di giochi).
  • Guadagni di efficienza: Mantiene o migliora la velocità incrementando l’intelligenza, rendendolo adatto alla produzione ad alto volume.

Benchmark Comparison Table:

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProNote
Terminal-Bench 2.1 (Agentic)76.2%58.0%70.3%Forte vantaggio nel coding
MCP Atlas (Multi-step)83.6%62.0%78.2%Workflow agentici
CharXiv (Multimodal)84.2%80.3%83.3%Ragionamento su grafici
GDPval-AA (Elo)165612041314Lavoro di conoscenza
MMMU-Pro83.6%81.2%80.5%Multimodale

Utenti reali (ad es., Shopify, Macquarie Bank, Salesforce) riportano miglioramenti in forecasting, elaborazione documentale e automazione enterprise.

Modifiche di comportamento e cambiamenti chiave

Google ha introdotto importanti aggiornamenti comportamentali per una migliore efficienza e coerenza.

Nuovo livello di impegno predefinito: medio

Il thinking_level predefinito è passato da “high” (nelle anteprime precedenti) a “medium”. Questo offre risultati eccellenti per la maggior parte dei compiti riducendo latenza e costi. Usa “high” per il ragionamento più complesso.

Effort Level Comparison Table:

Effort LevelIdeale perImpatto su latenza/costiCasi d’uso consigliati
minimalRisposte rapideMinimoChat, fatti semplici, routing di base
lowMeno step agentici/codingBassoAnalisi, scrittura, tool rapidi
medium (default)La maggior parte dei taskBilanciatoCodice complesso, agent standard
highRagionamento profondoPiù elevatoMatematica difficile, task agent più ardui

Code Example (Python - Impostazione del livello di riflessione):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Presuppone che la API key sia configurata via env o auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Dimostra che la radice quadrata di 2 è irrazionale.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Schemi simili si applicano in JavaScript, REST, ecc.

Conservazione del ragionamento

Il modello ora mantiene automaticamente il ragionamento intermedio nelle conversazioni multi-turn quando viene fornita la cronologia completa (incluse le firme del pensiero). Questo aumenta le prestazioni in debugging iterativo, refactoring e lunghe sessioni agent—nessuna modifica API aggiuntiva necessaria per Interactions API; GenerateContent trae beneficio dal passaggio della cronologia completa.

Aggiornamenti dei parametri (best practice Gemini 3.x)

  • Evita di impostare manualmente temperature, top_p, top_k — i default sono ottimizzati.
  • Usa thinking_level invece di un thinking_budget numerico.
  • Il matching rigoroso delle risposte delle funzioni (id, name, count) è cruciale per evitare risposte vuote.

Come accedere e usare l’API di Gemini 3.5 Flash

1. Opzioni di accesso:

  1. Google AI Studio (il più semplice per test) — Disponibile free tier.
  2. Gemini API (accesso diretto con API key).
  3. Vertex AI / Gemini Enterprise Agent Platform (funzionalità enterprise, limiti più alti).
  4. Terze parti come CometAPI (consigliato per accesso multi-provider semplificato, analytics e affidabilità).

Get Started with CometAPI: CometAPI aggrega l’accesso ai modelli Gemini con un endpoint unico, migliore gestione degli errori, dashboard d’uso e avvisi di costo. Registrati su Cometapi.com, ottieni la tua key e instrada le richieste verso gemini-3.5-flash (o ID modello equivalente) con modifiche minime al codice. Perfetto per scalare senza gestire più chiavi API o limiti di rate direttamente.

2. Basic Setup e Hello World

Python Quickstart:

import osfrom google import genaifrom google.genai import types​# Configura il client (API key da env o autenticazione Google)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Oppure usa Client() con i default​client = genai.Client()​response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Spiega l'esecuzione agentica parallela in tre frasi.",)print(response.text)

JavaScript Example:

import { GoogleGenAI } from "@google/genai";​const ai = new GoogleGenAI({});​async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Spiega l'esecuzione agentica parallela in tre frasi.",  });  console.log(response.text);}​main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Ciao, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>​​

3. Utilizzo avanzato: multimodale, function calling e agent

Multimodal Example (Image + Text):

# Supponendo che tu abbia un file immagine o i byte
image_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")​
response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Descrivi questa immagine in dettaglio e suggerisci miglioramenti."],)

Function Calling per workflow agentici:

Definisci gli strumenti, lascia che il modello li chiami, quindi fornisci le risposte (corrispondenza rigorosa di id/name).

Output strutturati:

Usa schemi di risposta per un parsing JSON affidabile—perfetti per pipeline di estrazione dati.

Strumento di esecuzione del codice:

Abilitalo per consentire al modello di eseguire codice Python in sandbox per matematica, analisi dati, ecc.

Per setup agentici completi, considera i Managed Agents di Google (preview) o crea i tuoi con Cometapi.com per orchestrazione, logging e controllo dei costi.

Consigli per l’API di Gemini 3.5 Flash

  1. Sfrutta il livello “medium” di default — Sovrascrivi solo quando necessario.
  2. Passa la cronologia completa per la conservazione del ragionamento in chat/agent.
  3. Usa il context caching per prompt grandi ripetuti (risparmi significativi).
  4. Gestione rigorosa delle risposte degli strumenti per prevenire errori.
  5. Monitora i token — 1M di contesto è potente ma costoso se usato male.
  6. Combina con Cometapi.com — Implementa routing intelligente (es. fallback su Flash-Lite per query semplici), layer di caching, dashboard d’uso e gestione unificata degli errori. Ottimizza spesa e affidabilità per app ad alto volume o mission-critical.

Best practice per usare l’API di Gemini 3.5 Flash

Prompt engineering:

  • Usa prompt chiari e strutturati con ruoli (System + User).
  • Specifica il formato di output (JSON, tabelle Markdown).
  • Chain-of-Thought: “Pensa passo dopo passo...”

Ottimizzazione dei costi:

  • Sfrutta il livello di impegno “medium”.
  • Usa caching (dove supportato).
  • Monitora l’uso di token tramite i dashboard di CometAPI.
  • Esegui in batch i task non urgenti.

Affidabilità e gestione errori:

  • Implementa retry con backoff esponenziale.
  • Usa CometAPI per fallback automatici su altri modelli.

Progettazione agentica:

  • Scomponi i compiti complessi in sub-agent.
  • Mantieni lo stato con sessioni di chat o memoria esterna.
  • Combina con Antigravity o orchestrazione personalizzata.

Applicazioni reali e case study

  • Coding Agents: Sviluppo iterativo con cicli di feedback rapidi.
  • Automazione enterprise: Elaborazione documenti, estrazione dati (ad es., Box Life Sciences).
  • Analisi multimodale: Video/audio + testo per insight ricchi.
  • Agenti di supporto clienti: Gestione di conversazioni a lungo contesto.

L’integrazione tramite Cometapi.com consente ai team di fare A/B test su prompt/modelli, tracciare l’ROI per workflow e scalare senza problemi di infrastruttura.

Confronto: Gemini 3.5 Flash vs. concorrenti e modelli precedenti

Gemini 3.5 Flash offre un eccellente rapporto prezzo-prestazioni per casi d’uso agentici/coding. Spesso è più veloce e più conveniente dei modelli Pro completi per molti task, riducendo il gap in termini di pura intelligenza.

Quando sceglierlo:

  • App ad alta intensità di throughput (chatbot, assistenti di coding).
  • Automazione agentica.
  • Analisi multimodale con requisiti di velocità.
  • Produzione attenta al budget.

Limitazioni: Persistono alcune sfumature di anteprima/stabilità; i prezzi possono essere più alti dei vecchi tier Flash per alcuni output. Testa accuratamente.

Performance Comparison Table (approssimativa, basata su report pubblici):

ModelAgentic StrengthSpeedCost (Input/Output)Best For
Gemini 3.5 FlashHigh (Frontier)Very High$1.50 / $9Agents, Coding, Scale
Gemini 3 FlashMedium-HighHighLowerGeneral Fast Tasks
Gemini 3.1 ProVery HighMediumHigherMax Intelligence
Lite VariantsMediumHighestLowestHigh-Volume Simple

Errori comuni e troubleshooting

  • Risposte delle funzioni non corrispondenti → Output vuoti.
  • Uso eccessivo di high → Costi/latenza più elevati.
  • Mancato uso del caching per contesti ripetitivi.
  • Sorprese sui limiti di token nelle sessioni lunghe.

Conclusione: inizia a costruire con Gemini 3.5 Flash oggi

Gemini 3.5 Flash democratizza capacità AI di frontiera per applicazioni sensibili a velocità e costi. Il suo rilascio GA, insieme ad aggiornamenti comportamentali ponderati come il livello di impegno medio predefinito e la conservazione del ragionamento, lo rende una potenza per la produzione.

Action Steps:

  1. Ottieni la tua API key e fai dei test.
  2. Implementa tramite gli SDK con gli esempi di codice sopra.
  3. Scala in modo intelligente con Cometapi.com per proxy, ottimizzazione, monitoraggio e supporto multi-LLM.
  4. Sperimenta pattern agentici e condividi i risultati.

Seguendo questa guida, sfrutterai al meglio Gemini 3.5 Flash minimizzando rischi e costi. Per una gestione dell’API senza soluzione di continuità, pensata per workflow AI moderni, visita CometAPI e integra oggi stesso.

Pronto a ridurre i costi di sviluppo AI del 20%?

Inizia gratuitamente in pochi minuti. Crediti di prova gratuiti inclusi. Nessuna carta di credito richiesta.

Leggi di più