¿Qué es la difusión Gemini? Todo lo que necesitas saber

CometAPI
AnnaMay 25, 2025
¿Qué es la difusión Gemini? Todo lo que necesitas saber

El 20 de mayo de 2025, Google DeepMind presentó silenciosamente Difusión de Géminis, un modelo experimental de difusión de texto que promete transformar el panorama de la IA generativa. Presentado durante Google I/O 2025, este prototipo de investigación de vanguardia aprovecha las técnicas de difusión, anteriormente populares en la generación de imágenes y vídeos, para producir texto y código coherentes mediante el refinamiento iterativo del ruido aleatorio. Las primeras pruebas de rendimiento sugieren que rivaliza, y en algunos casos supera, a los modelos basados ​​en transformadores de Google, tanto en velocidad como en calidad.

¿Qué es Gemini Diffusion?

¿Cómo se aplica la difusión a la generación de texto y código?

Los modelos de lenguaje grande (LLM) tradicionales se basan en arquitecturas autorregresivas, generando contenido token a token mediante la predicción de la siguiente palabra, condicionada a todas las salidas anteriores. En contraste, Difusión de Géminis Comienza con un campo de "ruido" aleatorio y lo refina iterativamente para convertirlo en texto coherente o código ejecutable mediante una secuencia de pasos de eliminación de ruido. Este paradigma refleja la forma en que los modelos de difusión como Imagen y Difusión Estable crean imágenes, pero es la primera vez que este enfoque se escala para la generación de texto a velocidades similares a las de producción.

Por qué es importante la relación entre el ruido y la narrativa

Imagine la estática en una pantalla de televisión sin señal: parpadeos aleatorios e irregulares. En la IA basada en la difusión, esa estática es el punto de partida; el modelo "esculpe" significado a partir del caos, imponiendo gradualmente estructura y semántica. Esta visión holística en cada etapa de refinamiento permite una autocorrección inherente, mitigando problemas como la incoherencia o las "alucinaciones" que pueden afectar a los modelos token a token.

Innovaciones y capacidades clave

  • Generación acelerada:Gemini Diffusion puede producir bloques enteros de texto simultáneamente, lo que reduce significativamente la latencia en comparación con los métodos de generación token por token. ()
  • Coherencia mejoradaAl generar segmentos de texto más grandes a la vez, el modelo logra una mayor consistencia contextual, lo que da como resultado resultados más coherentes y lógicamente estructurados. ()
  • Refinamiento iterativo:La arquitectura del modelo permite la corrección de errores en tiempo real durante el proceso de generación, mejorando la precisión y la calidad del resultado final.()

¿Por qué Google desarrolló Gemini Diffusion?

Abordar los cuellos de botella de velocidad y latencia

Los modelos autorregresivos, si bien son potentes, enfrentan limitaciones fundamentales de velocidad: cada token depende del contexto anterior, lo que crea un cuello de botella secuencial. La difusión de Gemini rompe esta restricción al permitir un refinamiento paralelo en todas las posiciones, lo que resulta en Generación de extremo a extremo de 4 a 5 veces más rápida En comparación con sus homólogos autorregresivos de tamaño similar, esta aceleración puede traducirse en una menor latencia para aplicaciones en tiempo real, desde chatbots hasta asistentes de código.

Nuevas vías pioneras hacia la IAG

Más allá de la velocidad, la visión iterativa y global de la difusión se alinea con las capacidades clave de la inteligencia artificial general (IAG): razonamiento, modelado del mundo y síntesis creativa. La dirección de Google DeepMind concibe Gemini Diffusion como parte de una estrategia más amplia para construir sistemas de IA más proactivos y sensibles al contexto que puedan operar sin problemas en entornos digitales y físicos.

¿Cómo funciona Gemini Diffusion bajo el capó?

El bucle de inyección y eliminación de ruido

  1. Inicialización:El modelo comienza con un tensor de ruido aleatorio.
  2. Pasos para la eliminación de ruidoEn cada iteración, una red neuronal predice cómo reducir ligeramente el ruido, guiada por patrones aprendidos de lenguaje o código.
  3. RefinamientoLos pasos repetidos convergen hacia una salida coherente, y cada paso permite la corrección de errores en todo el contexto en lugar de depender únicamente de tokens pasados.

innovaciones arquitectónicas

  • ParalelismoAl disociar las dependencias de los tokens, la difusión permite actualizaciones simultáneas, maximizando la utilización del hardware.
  • Eficiencia de parámetrosLos primeros puntos de referencia muestran un rendimiento comparable al de los modelos autorregresivos más grandes a pesar de una arquitectura más compacta.
  • Autocorrección:La naturaleza iterativa admite inherentemente ajustes de mitad de generación, lo cual es crucial para tareas complejas como la depuración de código o las derivaciones matemáticas.

¿Qué puntos de referencia demuestran el rendimiento de Gemini Diffusion?

Velocidad de muestreo del token

Las pruebas internas de Google informan un frecuencia de muestreo promedio de 1,479 tokens por segundoUn avance drástico respecto a los modelos Gemini Flash anteriores, aunque con una sobrecarga de inicio promedio de 0.84 segundos por solicitud. Esta métrica subraya la capacidad de difusión para aplicaciones de alto rendimiento.

Evaluaciones de codificación y razonamiento

  • HumanEval (codificación):Porcentaje de aprobación del 89.6 %, muy similar al 2.0 % de Gemini 90.2 Flash-Lite.
  • MBPP (codificación):76.0%, frente al 75.8% de Flash-Lite.
  • BIG-Bench Extra Hard (razonamiento):15.0%, inferior al 21.0% de Flash-Lite.
  • MMLU global (multilingüe):69.1%, en comparación con el 79.0% de Flash-Lite.

Estos resultados mixtos revelan la aptitud excepcional de la difusión para tareas iterativas y localizadas (por ejemplo, codificación) y resaltan áreas (razonamiento lógico complejo y comprensión multilingüe) donde siguen siendo necesarios refinamientos arquitectónicos.

¿Cómo se compara Gemini Diffusion con los modelos Gemini anteriores?

Flash-Lite vs. Pro vs. Difusión

  • Gemini 2.5 Flash Lite Ofrece una inferencia rentable y con latencia optimizada para tareas generales.
  • Géminis 2.5 Pro Se centra en el razonamiento profundo y la codificación, presentando el modo “Deep Think” para descomponer problemas complejos.
  • Difusión de Géminis Se especializa en la generación ultrarrápida y resultados autocorrectivos, posicionándose como un enfoque complementario en lugar de un reemplazo directo.

Fortalezas y limitaciones

  • Ventajas:Velocidad, capacidades de edición, eficiencia de parámetros, rendimiento sólido en tareas de código.
  • LimitacionesRendimiento más débil en razonamiento abstracto y puntos de referencia multilingües; mayor consumo de memoria debido a múltiples pasadas de eliminación de ruido; la madurez del ecosistema está rezagada con respecto a las herramientas autorregresivas.

¿Cómo puedes acceder a Gemini Diffusion?

Unirse al programa de acceso anticipado

Google ha abierto una lista de espera Para la demo experimental de Gemini Diffusion, los desarrolladores e investigadores pueden registrarse a través del blog de Google DeepMind. El acceso anticipado busca recopilar comentarios, perfeccionar los protocolos de seguridad y optimizar la latencia antes de un lanzamiento más amplio.

Disponibilidad e integración futuras

Si bien no se ha anunciado una fecha de lanzamiento firme, Google insinúa que... disponibilidad general Alineado con la próxima actualización de Gemini 2.5 Flash-Lite. Las rutas de integración previstas incluyen:

  • Estudio de IA de Google para la experimentación interactiva.
  • API de Géminis para una implementación sin problemas en las tuberías de producción.
  • Plataformas de terceros (por ejemplo, Hugging Face) que alberga puntos de control previamente publicados para investigaciones académicas y puntos de referencia impulsados ​​por la comunidad.

Al reimaginar la generación de texto y código a través de la difusión, Google DeepMind se posiciona en el siguiente capítulo de la innovación en IA. Ya sea que Gemini Diffusion marque el comienzo de un nuevo estándar o coexista con gigantes autorregresivos, su combinación de velocidad y capacidad de autocorrección promete transformar la forma en que construimos, refinamos y confiamos en los sistemas de IA generativa.

Primeros Pasos

CometAPI proporciona una interfaz REST unificada que integra cientos de modelos de IA, incluida la familia Gemini, en un punto final consistente, con gestión de claves API integrada, cuotas de uso y paneles de facturación. En lugar de tener que gestionar múltiples URL y credenciales de proveedores.

Los desarrolladores pueden acceder API pre-Flash de Gemini 2.5  (modelo:gemini-2.5-flash-preview-05-20) y API de Gemini 2.5 Pro (modelo:gemini-2.5-pro-preview-05-06)etc. a través de CometAPIPara comenzar, explore las capacidades del modelo en el Playground y consulte la Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API".

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento