Alibaba Cloud lanza el modelo multimodal Qwen-VLo y mejora la capacidad de imagen

La división de inteligencia artificial de Alibaba Cloud se lanzó oficialmente Qwen‑VLo, la última versión de la serie de modelos multimodales Qwen, marca un avance significativo en las capacidades unificadas de visión y lenguaje. Anunciado el 28 de junio de 2025, Qwen-VLo ofrece funcionalidades de comprensión y generación, superando con creces a sus predecesores, incluyendo la creación y edición de imágenes de alta resolución mediante indicaciones en lenguaje natural e información visual.

Basándose en versiones anteriores como Qwen-VL y Qwen2.5-VL, Qwen-VLo representa lo que Alibaba describe como una "actualización integral" en IA multimodal. Mientras que Qwen-VL se centraba principalmente en la interpretación de información visual y Qwen2.5-VL mejoraba la comprensión de contextos extensos, Qwen-VLo integra estas fortalezas en un único marco capaz de realizar tareas bidireccionales de visión y lenguaje. Admite instrucciones abiertas, admite varios idiomas, incluidos chino e inglés, y perfecciona sus resultados para competir con los de los artistas humanos.

Características clave

Generación progresiva de imágenes

Qwen-VLo construye imágenes paso a paso, de izquierda a derecha y de arriba a abajo, refinando iterativamente el contenido predicho para garantizar la consistencia y la armonía visual. Este mecanismo mejora la eficiencia de la generación y el control del usuario sobre el proceso creativo.

Soporte de resolución dinámica

Mediante el entrenamiento de resolución dinámica, el modelo puede gestionar resoluciones de entrada/salida y relaciones de aspecto arbitrarias. Los usuarios pueden generar contenido adaptado a diversos escenarios, como banners web, portadas para redes sociales o pósteres de alta resolución, sin verse limitados por formatos fijos.

Edición de instrucciones abiertas

Mediante indicaciones de lenguaje natural, Qwen VLo puede realizar ediciones avanzadas como transferencias de estilo ("Aplicar un estilo Van Gogh"), transformaciones compuestas ("Añadir un cielo soleado") y modificaciones multifacéticas con una sola instrucción. También permite extraer y editar señales visuales tradicionales como mapas de profundidad, máscaras de segmentación y contornos de bordes.

Interacción multilingüe

El modelo acepta comandos en varios idiomas (actualmente admite chino e inglés), atendiendo así a una base de usuarios global y rompiendo las barreras lingüísticas en los flujos de trabajo creativos.

Disponibilidad y acceso

Qwen‑VLo está actualmente disponible en realice una vista previa a través de la plataforma Qwen Chat en chat.qwen.aiAlibaba Cloud ha observado que, al tratarse de una versión preliminar, los usuarios podrían encontrar inconsistencias ocasionales o imprecisiones durante la generación. El equipo de desarrollo está trabajando activamente para solucionar estas limitaciones antes de una implementación más amplia.

En el interior, los ingenieros de IA de Alibaba han optimizado Qwen-VLo para su implementación tanto en entornos de nube como en el edge. Gracias a la cuantificación de precisión mixta y a novedosas técnicas de ajuste preciso con eficiencia de parámetros, el modelo mantiene un alto rendimiento en un espacio de computación compacto. Alibaba también ha integrado canales de inferencia adaptativos para equilibrar la latencia y la calidad, lo que garantiza que Qwen-VLo pueda servir a aplicaciones sensibles a la latencia, como herramientas de diseño interactivo, a la vez que escala a cargas de trabajo de nivel empresarial en Alibaba Cloud.

Comparar con Qwen-VL-Plus/Max

Dimensión de función	Qwen-VL-Plus/Max	Qwen VLo
Comprensión de la imagen	Clasificación básica, descripción	Reconocimiento de estructuras multidimensionales, mejor comprensión del contexto
Generación de imágenes	Soporte de estilo limitado	Alta precisión, generación progresiva, fuertes capacidades de control de estilo.
Capacidad multitarea	Requiere información específica para la tarea	Multitarea unificada, admite instrucciones de lenguaje complejas
Interacción multilingüe	Soporte limitado	Soporte nativo para chino e inglés, control del lenguaje natural más fluido
Capacidad de conservación de detalles	Posible pérdida de detalles en la generación	Identificación y reconstrucción precisa de estructuras y semánticas clave

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Para comenzar, explore las capacidades de los modelos en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API".

La última integración de la API Qwen-VLo pronto aparecerá en CometAPI, ¡así que permanezca atento! Mientras finalizamos la carga del modelo Qwen-VLo, explore nuestros otros modelos en Página de modelos o pruébalos en el Patio de juegos de IAEl último modelo de Qwen en CometAPI es API de Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.