Le 20 mai 2025, Google DeepMind a discrètement dévoilé Diffusion des Gémeaux, un modèle expérimental de diffusion de texte qui promet de révolutionner l'IA générative. Présenté lors de la Google I/O 2025, ce prototype de recherche de pointe exploite des techniques de diffusion, autrefois populaires dans la génération d'images et de vidéos, pour produire du texte et du code cohérents en affinant itérativement le bruit aléatoire. Les premiers benchmarks suggèrent qu'il rivalise, et dans certains cas surpasse, les modèles existants de Google basés sur des transformateurs, tant en termes de vitesse que de qualité.
Qu'est-ce que Gemini Diffusion ?
Comment la diffusion est-elle appliquée à la génération de texte et de code ?
Les grands modèles linguistiques traditionnels (LLM) reposent sur des architectures autorégressives, générant du contenu un jeton à la fois en prédisant le mot suivant en fonction de toutes les sorties précédentes. En revanche, Diffusion des Gémeaux Le programme commence par un champ de « bruit » aléatoire et le raffine itérativement en texte cohérent ou en code exécutable grâce à une séquence d'étapes de débruitage. Ce paradigme reflète la façon dont les modèles de diffusion comme Imagen et Stable Diffusion créent des images, mais c'est la première fois qu'une telle approche est déployée à grande échelle pour générer du texte à des vitesses comparables à celles de la production.
Pourquoi la conversion du bruit au récit est importante
Imaginez le bruit parasite sur un écran de télévision en l'absence de signal : des scintillements aléatoires et informes. Dans l'IA par diffusion, ce bruit parasite est le point de départ ; le modèle « sculpte » le sens à partir du chaos, imposant progressivement structure et sémantique. Cette vision holistique à chaque étape de raffinement permet une autocorrection inhérente, atténuant ainsi les problèmes tels que l'incohérence ou les « hallucinations » qui peuvent perturber les modèles jeton par jeton.
Principales innovations et capacités
- Génération accélérée: Gemini Diffusion peut produire des blocs de texte entiers simultanément, réduisant considérablement la latence par rapport aux méthodes de génération jeton par jeton. ()
- Cohérence améliorée:En générant des segments de texte plus grands à la fois, le modèle atteint une plus grande cohérence contextuelle, ce qui donne des résultats plus cohérents et logiquement structurés. ()
- Raffinement itératif:L'architecture du modèle permet une correction des erreurs en temps réel pendant le processus de génération, améliorant ainsi la précision et la qualité de la sortie finale. ()
Pourquoi Google a-t-il développé Gemini Diffusion ?
Résoudre les goulots d'étranglement liés à la vitesse et à la latence
Les modèles autorégressifs, bien que puissants, sont confrontés à des limitations de vitesse fondamentales : chaque jeton dépend du contexte précédent, créant un goulot d'étranglement séquentiel. Gemini Diffusion brise cette contrainte en permettant un raffinement parallèle sur toutes les positions, ce qui se traduit par Génération de bout en bout 4 à 5 fois plus rapide par rapport à leurs homologues autorégressifs de taille similaire. Cette accélération peut se traduire par une latence plus faible pour les applications temps réel, des chatbots aux assistants de code.
Ouvrir de nouvelles voies vers l'IAG
Au-delà de la rapidité, la vision globale et itérative de Diffusion s'aligne sur les capacités clés de l'intelligence artificielle générale (IAG) : raisonnement, modélisation du monde et synthèse créative. La direction de Google DeepMind envisage Gemini Diffusion comme faisant partie d'une stratégie plus large visant à créer des systèmes d'IA plus contextuels et proactifs, capables de fonctionner de manière transparente dans les environnements numériques et physiques.
Comment fonctionne Gemini Diffusion sous le capot ?
La boucle d'injection et de débruitage du bruit
- Initialisation:Le modèle démarre avec un tenseur de bruit aléatoire.
- Étapes de débruitage:À chaque itération, un réseau neuronal prédit comment réduire légèrement le bruit, guidé par des modèles appris de langage ou de code.
- Raffinement:Les étapes répétées convergent vers une sortie cohérente, chaque passage permettant une correction d'erreur sur l'ensemble du contexte plutôt que de s'appuyer uniquement sur les jetons passés.
Innovations architecturales
- Parallélisme:En découplant les dépendances des jetons, la diffusion permet des mises à jour simultanées, maximisant ainsi l'utilisation du matériel.
- Paramètre Efficacité:Les premiers benchmarks montrent des performances comparables à celles des modèles autorégressifs plus grands malgré une architecture plus compacte.
- Auto-correction:La nature itérative prend en charge de manière inhérente les ajustements de mi-génération, essentiels pour les tâches complexes telles que le débogage de code ou les dérivations mathématiques.
Quels benchmarks démontrent la performance de Gemini Diffusion ?
Vitesse d'échantillonnage des jetons
Les tests internes de Google signalent une taux d'échantillonnage moyen de 1,479 XNUMX jetons par seconde, un bond spectaculaire par rapport aux précédents modèles Gemini Flash, avec toutefois une surcharge de démarrage moyenne de 0.84 seconde par requête. Cette mesure souligne la capacité de la diffusion à prendre en charge les applications à haut débit.
Évaluations de codage et de raisonnement
- HumanEval (codage): Taux de réussite de 89.6 %, ce qui correspond étroitement aux 2.0 % de Gemini 90.2 Flash-Lite.
- MBPP (codage): 76.0 %, contre 75.8 % pour Flash-Lite.
- BIG-Bench Extra Hard (raisonnement):15.0 %, inférieur aux 21.0 % de Flash-Lite.
- MMLU mondial (multilingue): 69.1 %, contre 79.0 % pour Flash-Lite.
Ces résultats mitigés révèlent l'aptitude exceptionnelle de la diffusion pour les tâches itératives et localisées (par exemple, le codage) et mettent en évidence des domaines - raisonnement logique complexe et compréhension multilingue - où des améliorations architecturales restent nécessaires.
Comment Gemini Diffusion se compare-t-il aux modèles Gemini précédents ?
Flash-Lite vs. Pro vs. Diffusion
- Gemini 2.5 Flash Lite offre une inférence rentable et optimisée en termes de latence pour les tâches générales.
- Gémeaux 2.5 Pro se concentre sur le raisonnement et le codage approfondis, avec le mode « Deep Think » pour décomposer des problèmes complexes.
- Diffusion des Gémeaux se spécialise dans la génération ultra-rapide et les sorties autocorrectrices, se positionnant comme une approche complémentaire plutôt que comme un remplacement direct.
Forces et limites
- Points forts:Vitesse, capacités d'édition, efficacité des paramètres, performances robustes sur les tâches de code.
- Limites:Performances plus faibles sur le raisonnement abstrait et les benchmarks multilingues ; empreinte mémoire plus élevée en raison de multiples passes de débruitage ; maturité de l'écosystème en retard par rapport aux outils autorégressifs.
Comment accéder à Gemini Diffusion ?
Rejoindre le programme d'accès anticipé
Google a ouvert un liste d'attente Pour la démonstration expérimentale de Gemini Diffusion, les développeurs et les chercheurs peuvent s'inscrire via le blog Google DeepMind. L'accès anticipé vise à recueillir des retours, à affiner les protocoles de sécurité et à optimiser la latence avant un déploiement plus large.
Disponibilité et intégration futures
Bien qu'aucune date de sortie ferme n'ait été annoncée, Google laisse entendre que disponibilité générale Compatible avec la prochaine mise à jour Flash-Lite de Gemini 2.5. Les intégrations prévues incluent :
- Google IA Studio pour une expérimentation interactive.
- API Gémeaux pour un déploiement transparent dans les pipelines de production.
- Plateformes tierces (par exemple, Hugging Face) hébergeant des points de contrôle pré-publiés pour la recherche universitaire et des repères communautaires.
En réinventant la génération de texte et de code à travers le prisme de la diffusion, Google DeepMind s'inscrit dans la prochaine étape de l'innovation en IA. Que Gemini Diffusion instaure une nouvelle norme ou cohabite avec des géants de l'autorégression, son mélange de rapidité et de prouesses d'autocorrection promet de transformer la manière dont nous construisons, peaufinons et faisons confiance aux systèmes d'IA générative.
Pour commencer
CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA, dont la famille Gemini, sous un point de terminaison cohérent, avec gestion intégrée des clés API, des quotas d'utilisation et des tableaux de bord de facturation. Plus besoin de jongler avec plusieurs URL et identifiants de fournisseurs.
Les développeurs peuvent accéder Pré-API Flash Gemini 2.5 (modèle:gemini-2.5-flash-preview-05-20) et API Gemini 2.5 Pro (modèle:gemini-2.5-pro-preview-05-06)etc. à travers API CometPour commencer, explorez les capacités du modèle dans le Playground et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.
