Qwen 2.5: Qué es, arquitectura y puntos de referencia

CometAPI
AnnaDec 4, 2025
Qwen 2.5: Qué es, arquitectura y puntos de referencia

A medida que la inteligencia artificial continúa evolucionando, Qwen 2.5 de Alibaba se perfila como un competidor formidable en el ámbito de los grandes modelos lingüísticos (LLM). Lanzado a principios de 2025, Qwen 2.5 presenta mejoras significativas con respecto a sus predecesores, ofreciendo un conjunto de funciones que se adaptan a una amplia gama de aplicaciones, desde el desarrollo de software y la resolución de problemas matemáticos hasta la generación de contenido multilingüe y más.

Este artículo profundiza en las complejidades de Qwen 2.5, ofreciendo una descripción detallada de su arquitectura, capacidades y aplicaciones prácticas. Ya seas desarrollador, investigador o profesional, comprender cómo aprovechar Qwen 2.5 puede abrirte nuevas posibilidades en tu trabajo.

¿Qué es Qwen 2.5?

Qwen 2.5 es la familia de modelos de lenguaje de gran tamaño de la generación 2025 de Alibaba Cloud, que abarca desde 1.5 millones de millones hasta 72 millones de parámetros (y un equivalente con razonamiento optimizado de 32 millones) y que ahora impulsa productos comerciales, de investigación y de consumo como Qwen Chat, DashScope y una puerta de enlace API compatible con OpenAI. En comparación con Qwen 2, la línea 2.5 introduce (i) un núcleo de mezcla de expertos (MoE) para mayor eficiencia, (ii) entrenamiento en tokens de aproximadamente 20 T, (iii) seguimiento de instrucciones, codificación y razonamiento multilingüe más robustos, (iv) lenguaje de visión (VL) y variantes "Omni" totalmente multimodales, y (v) opciones de implementación que van desde Alibaba Cloud hasta el autoalojamiento a través de GitHub, Hugging Face, ModelScope y Docker/OLLAMA.

Todos los tamaños comparten un tamaño común receta de preentrenamiento pero divergen en su instrucción-ajuste fino Capas: Qwen-Chat (para diálogos abiertos) y Qwen-Base (para ajustes posteriores). Los puntos de control más grandes también incluyen Qwen 2.5‑Max, una edición dispersa de Mezcla de Expertos (MoE) que activa 2.7 mil millones de parámetros por token para un costo de inferencia mucho menor en las GPU.

Aspectos arquitectónicos destacados de Qwen 2.5

Cambio arquitectónico

Qwen 2.5 representa un avance significativo en el desarrollo de modelos de IA, principalmente gracias a su extenso entrenamiento y arquitectura refinada. El modelo se preentrenó con un conjunto de datos colosal de 18 billones de tokens, un aumento sustancial respecto a los 7 billones de tokens utilizados en su predecesor, Qwen 2. Este extenso conjunto de datos de entrenamiento mejora la comprensión del modelo del lenguaje, el razonamiento y el conocimiento específico del dominio.

Qwen 2.5 adopta una estructura de Mezcla de Expertos (MoE) dispersa: solo un pequeño subconjunto de expertos se activa por token, lo que permite una mayor capacidad efectiva sin un crecimiento lineal del costo de Qwen. El entrenamiento utilizó aproximadamente 20 tokens T y un programa de datos refinado con ajuste fino supervisado (SFT) y RLHF. Los puntos de referencia publicados por el equipo muestran importantes mejoras en MMLU, matemáticas GSM8K y comprensión multilingüe interlingüística en comparación con Qwen 2 y las líneas base de pares 7 B/70 B.

La familia de modelos Qwen 2.5

EdiciónTamañoModalidadPropósito y titular destacado
Qwen 2.5‑1.5B‑Instruir1.5 BTextoDispositivos de borde/chatbots donde la memoria es escasa
Qwen 2.5‑7B‑Instruir7 BTextoLLM insignia de código abierto con 32 k de contexto y cobertura en 29 idiomas
Qwen 2.5‑Omni‑7B7 BMultimodal (texto + imagen + audio + vídeo)Fusión de modalidades de extremo a extremo
Qwen 2.5‑VL‑3B/7B/72B‑Instrucciones3–72 BVisión-lenguajeSubtítulos densos, control de calidad de documentos, OCR, análisis de gráficos
QwQ‑32B32 BTexto (razonamiento)MoE especializado en matemáticas y codificación; paridad con DeepSeek R1 671 B a un costo del 5 %
Qwen 2.5‑Maxno revelado (multiexperto)TextoLíder de referencia interno, disponible a través de API y Qwen Chat

Capacidades clave y puntos de referencia

Seguimiento de instrucciones y alcance multilingüe

Documentos internos muestran que Qwen 2.5‑7B supera a Llama‑3 8B en AlpacaEval (92 vs. 89) y alcanza una tasa de éxito del 79 % frente a GPT‑3.5‑Turbo en el MT‑Bench chino. Los idiomas compatibles incluyen turco, indonesio, alemán, árabe y suajili. Una ventana de contexto de 32 k con codificaciones posicionales de cuerda deslizante proporciona un resumen de PDF de 200 páginas sin fragmentación.

Codificación y razonamiento

QwQ‑32B obtiene una puntuación del 50.4 % en GSM8K (5 intentos) y del 74 % en HumanEval‑Plus, similar a la de DeepSeek R1 con una vigésima parte del número de parámetros. Las primeras pruebas de la comunidad muestran que el modelo 7B puede compilar y depurar fragmentos de C++ usando g++‑13 dentro de un entorno de pruebas de Docker con mínimas alucinaciones.

Fortalezas multimodales

Qwen 2.5‑VL‑72B alcanza un 62.7 % en MMMU y un 73.4 % en TextVQA, superando a Gemini 1.5‑Pro en tareas de OCR de tablas (según el blog de Qwen de enero). Omni‑7B extiende esto a la transcripción espectral de audio y al muestreo de fotogramas MP4 mediante un tokenizador compartido.


Licencias, seguridad y gobernanza

Alibaba conserva el código/licencia de Apache 2.0 con un adicional Qian-Wen, IA responsable jinete:

  • Prohibido: contenido terrorista, desinformación, extracción de datos personales.
  • Necesario: Los desarrolladores deben implementar filtros de contenido y marcas de agua en las aplicaciones posteriores.

La licencia permite el uso comercial pero exige divulgación de la tarjeta modelo Si se modifican y redistribuyen los pesos. En Alibaba Cloud, la moderación se aplica en el servidor; quienes alojan sus datos en servidores propios deben integrar el filtro de gradiente de políticas de código abierto (vinculado en el repositorio).


Hoja de ruta hacia Qwen 3

Bloomberg y PYMNTS informan que Alibaba revelará Qwen 3 A finales de abril de 2025, probablemente alcanzando parámetros densos de más de 100 mil millones de bytes y capacidades nativas de uso de herramientas. Fuentes internas sugieren que se están probando clústeres de GPU de 4x2048 en ASIC Hanguang 800+ y un kernel Triton-Flash-Attention v3. Qwen 2.5 seguirá siendo la rama de código abierto, mientras que Qwen 3 podría debutar bajo una licencia más restrictiva, similar a la de Llama 3-Commercial de Meta.


Consejos prácticos para desarrolladores

  1. Conteo de tokens: Qwen usa QwenTokenizador; su token especial es igual <|im_end|> en indicaciones de estilo OpenAI.
  2. Mensajes del sistema: Envolver con <|im_start|>system … <|im_end|> para preservar la jerarquía y evitar los culpables del peso delta.
  3. Sintonia FINA: Aplique LoRA rango 64 solo en las capas 20 a 24; el LoRA de capa temprana produce ganancias insignificantes debido a la escasez de MoE.
  4. Streaming: Con DashScope, habilite X-DashScope-Stream: true; el tamaño del fragmento es de 20 tokens.
  5. Entrada de Qwen-VL: Codificar bytes de imagen como base64; pasar vía inputs=.

Conclusión

Qwen 2.5 consolida la posición de Alibaba Cloud en la carrera global de LLM de código abierto al combinar la eficiencia de MoE con una licencia permisiva y una variedad de rutas de acceso, desde Qwen Chat con un solo clic hasta Ollama en un portátil y terminales DashScope de nivel empresarial. Para los investigadores, su corpus de entrenamiento transparente y su sólida paridad chino-inglés cubren el vacío dejado por la serie Llama de Meta. Para los desarrolladores, la API compatible con OpenAI reduce la fricción de la migración, mientras que las ramas multimodales VL/Omni anticipan un futuro cercano donde texto, visión, audio y video convergen en un espacio de tokens unificado. Con la llegada de Qwen 3 a finales de este mes, Qwen 2.5 sirve como campo de pruebas y como un modelo de producción robusto, que ya está transformando el cálculo competitivo de la IA a gran escala en 2025.

Para desarrolladores: acceso a la API

CometAPI Ofrece un precio mucho más bajo que el oficial para ayudarte a integrar Qwen API. ¡Recibirás $1 en tu cuenta tras registrarte e iniciar sesión! Bienvenido a registrarte y a experimentar CometAPI.

CometAPI actúa como un centro centralizado para las API de varios modelos de IA líderes, lo que elimina la necesidad de interactuar con múltiples proveedores de API por separado.

Por favor, consulte  API máxima de Qwen 2.5 Para obtener detalles de integración, CometAPI ha actualizado la última versión. API QwQ-32BPara obtener más información sobre el modelo en Comet API, consulte Documento API.

SHARE THIS BLOG

500+ Modelos en Una API

Hasta 20% de Descuento