Il 20 maggio 2025, Google DeepMind ha presentato in sordina Diffusione dei Gemelli, un modello sperimentale di diffusione del testo che promette di rimodellare il panorama dell'intelligenza artificiale generativa. Presentato durante Google I/O 2025, questo prototipo di ricerca all'avanguardia sfrutta tecniche di diffusione, precedentemente popolari nella generazione di immagini e video, per produrre testo e codice coerenti, raffinando iterativamente il rumore casuale. I primi benchmark suggeriscono che rivaleggia, e in alcuni casi supera, i modelli Google esistenti basati su transformer, sia in termini di velocità che di qualità.
Cos'è la diffusione Gemini?
Come viene applicata la diffusione alla generazione di testo e codice?
I tradizionali modelli linguistici di grandi dimensioni (LLM) si basano su architetture autoregressive, generando contenuti un token alla volta, prevedendo la parola successiva in base a tutti gli output precedenti. Al contrario, Diffusione dei Gemelli Inizia con un campo di "rumore" randomizzato e lo raffina iterativamente in testo coerente o codice eseguibile attraverso una sequenza di passaggi di denoising. Questo paradigma rispecchia il modo in cui modelli di diffusione come Imagen e Stable Diffusion creano immagini, ma è la prima volta che un approccio di questo tipo viene adattato alla generazione di testo a velocità simili a quelle di produzione.
Perché il rapporto “rumore-narrativa” è importante
Immaginate l'interferenza sullo schermo di un televisore in assenza di segnale: sfarfallii casuali e privi di forma. Nell'intelligenza artificiale basata sulla diffusione, quell'interferenza è il punto di partenza; il modello "scolpisce" il significato dal caos, imponendo gradualmente struttura e semantica. Questa visione olistica in ogni fase di raffinamento consente un'autocorrezione intrinseca, mitigando problemi come l'incoerenza o le "allucinazioni" che possono affliggere i modelli token-by-token.
Innovazioni e capacità chiave
- Generazione accelerata: Gemini Diffusion può produrre interi blocchi di testo simultaneamente, riducendo significativamente la latenza rispetto ai metodi di generazione token per token. ()
- Coerenza migliorata:Generando segmenti di testo più grandi in una volta sola, il modello ottiene una maggiore coerenza contestuale, con conseguenti output più coerenti e logicamente strutturati.()
- Perfezionamento iterativo:L'architettura del modello consente la correzione degli errori in tempo reale durante il processo di generazione, migliorando l'accuratezza e la qualità del risultato finale. ()
Perché Google ha sviluppato Gemini Diffusion?
Risolvere i colli di bottiglia di velocità e latenza
I modelli autoregressivi, pur essendo potenti, presentano limiti di velocità fondamentali: ogni token dipende dal contesto precedente, creando un collo di bottiglia sequenziale. Gemini Diffusion elimina questo vincolo consentendo il raffinamento parallelo su tutte le posizioni, con conseguente Generazione end-to-end 4–5 volte più veloce Rispetto alle controparti autoregressive di dimensioni simili. Questa accelerazione può tradursi in una minore latenza per le applicazioni in tempo reale, dai chatbot agli assistenti di programmazione.
Nuove strade pionieristiche verso l'AGI
Oltre alla velocità, la visione iterativa e globale della diffusione si allinea alle capacità chiave dell'intelligenza artificiale generale (AGI): ragionamento, modellazione del mondo e sintesi creativa. La leadership di Google DeepMind concepisce Gemini Diffusion come parte di una strategia più ampia per costruire sistemi di intelligenza artificiale più contestualizzati e proattivi, in grado di operare senza soluzione di continuità in ambienti digitali e fisici.
Come funziona Gemini Diffusion nel dettaglio?
Il ciclo di iniezione e denoising del rumore
- Inizializzazione:Il modello inizia con un tensore di rumore casuale.
- Fasi di denoising:A ogni iterazione, una rete neurale prevede come ridurre leggermente il rumore, guidata da modelli di linguaggio o di codice appresi.
- Raffinatezza: I passaggi ripetuti convergono verso un output coerente, con ogni passaggio che consente la correzione degli errori nell'intero contesto anziché basarsi esclusivamente sui token precedenti.
Innovazioni architettoniche
- Parallelismo:Scollegando le dipendenze dei token, la diffusione consente aggiornamenti simultanei, massimizzando l'utilizzo dell'hardware.
- Efficienza dei parametri:I primi benchmark mostrano prestazioni paragonabili a modelli autoregressivi più grandi, nonostante un'architettura più compatta.
- Autocorrezione:La natura iterativa supporta intrinsecamente gli aggiustamenti di metà generazione, fondamentali per attività complesse come il debug del codice o le derivazioni matematiche.
Quali parametri di riferimento dimostrano le prestazioni di Gemini Diffusion?
Velocità di campionamento del token
I test interni di Google segnalano un frequenza di campionamento media di 1,479 token al secondo, un balzo in avanti notevole rispetto ai precedenti modelli Gemini Flash, sebbene con un overhead di avvio medio di 0.84 secondi per richiesta. Questa metrica sottolinea la capacità della diffusione di applicazioni ad alta produttività.
Valutazioni di codifica e ragionamento
- HumanEval (codifica): tasso di successo dell'89.6%, molto simile al 2.0% del Gemini 90.2 Flash-Lite.
- MBPP (codifica): 76.0%, contro il 75.8% di Flash-Lite.
- BIG-Bench Extra Hard (ragionamento): 15.0%, inferiore al 21.0% di Flash-Lite.
- MMLU globale (multilingue): 69.1%, rispetto al 79.0% di Flash-Lite.
Questi risultati contrastanti rivelano l'eccezionale attitudine della diffusione per attività iterative e localizzate (ad esempio la codifica) e mettono in evidenza aree (ragionamento logico complesso e comprensione multilingue) in cui restano necessari perfezionamenti architettonici.
Come si confronta Gemini Diffusion con i precedenti modelli Gemini?
Flash-Lite vs. Pro vs. Diffusion
- Gemini 2.5 Flash Lite offre un'inferenza economica e con latenza ottimizzata per attività di carattere generale.
- Gemelli 2.5 Pro si concentra sul ragionamento approfondito e sulla codifica, con la modalità "Deep Think" per scomporre problemi complessi.
- Diffusione dei Gemelli è specializzata nella generazione rapidissima e negli output autocorrettivi, posizionandosi come un approccio complementare piuttosto che come una sostituzione diretta.
Punti di forza e limiti
- Punti di forza: Velocità, capacità di modifica, efficienza dei parametri, prestazioni elevate nelle attività di codice.
- Limiti: Prestazioni più deboli nei benchmark di ragionamento astratto e multilingue; maggiore occupazione di memoria dovuta a più passaggi di denoising; maturità dell'ecosistema in ritardo rispetto agli strumenti autoregressivi.
Come puoi accedere a Gemini Diffusion?
Partecipare al programma di accesso anticipato
Google ha aperto un lista d'attesa Per la demo sperimentale di Gemini Diffusion, sviluppatori e ricercatori possono registrarsi tramite il blog di Google DeepMind. L'accesso anticipato mira a raccogliere feedback, perfezionare i protocolli di sicurezza e ottimizzare la latenza prima di un'implementazione più ampia.
Disponibilità e integrazione future
Sebbene non sia stata annunciata una data di rilascio definitiva, Google accenna a disponibilità generale In linea con il prossimo aggiornamento Gemini 2.5 Flash-Lite. I percorsi di integrazione previsti includono:
- Studio sull'intelligenza artificiale di Google per la sperimentazione interattiva.
- API Gemelli per un'implementazione senza interruzioni nelle pipeline di produzione.
- Piattaforme di terze parti (ad esempio, Hugging Face) che ospita punti di controllo pre-rilasciati per la ricerca accademica e parametri di riferimento guidati dalla comunità.
Ripensando la generazione di testo e codice attraverso la lente della diffusione, Google DeepMind si afferma nel prossimo capitolo dell'innovazione dell'IA. Che Gemini Diffusion inauguri un nuovo standard o coesista con i giganti dell'autoregressività, la sua combinazione di velocità e capacità di autocorrezione promette di rimodellare il modo in cui costruiamo, perfezioniamo e ci fidiamo dei sistemi di IA generativa.
Iniziamo
CometAPI fornisce un'interfaccia REST unificata che aggrega centinaia di modelli di intelligenza artificiale, inclusa la famiglia Gemini, in un endpoint coerente, con gestione integrata delle chiavi API, quote di utilizzo e dashboard di fatturazione. Questo significa che non dovrete più destreggiarvi tra URL e credenziali di più fornitori.
Gli sviluppatori possono accedere Pre-API Flash Gemini 2.5 (modello:gemini-2.5-flash-preview-05-20) e API di Gemini 2.5 Pro (modello:gemini-2.5-pro-preview-05-06)ecc. attraverso CometaAPIPer iniziare, esplora le capacità del modello nel Playground e consulta il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.
