El 4 de agosto de 2025, el equipo Qwen de Alibaba se lanzó oficialmente Imagen de Qwen, un modelo base de transformador de difusión multimodal (MMDiT) de 20 mil millones de parámetros, diseñado para ofrecer una fidelidad sin precedentes en la síntesis de texto a imagen y la edición precisa de imágenes. Este lanzamiento marca la audaz entrada de Alibaba en el campo de la generación de imágenes de código abierto, posicionando a Qwen-Image como un competidor directo de sistemas propietarios como GPT-4o, DALL·E 2 y Midjourney de OpenAI.
Innovaciones técnicas
Imágenes de Qwen 20 mil millones de toneladas de combustible diésel La estructura básica representa una importante proeza de ingeniería, lo que permite al modelo sobresalir en la representación de contenido textual complejo directamente dentro de las imágenes generadas. Su enfoque de aprendizaje curricular comienza con tareas sencillas de representación no textual y avanza progresivamente hasta la gestión de descripciones de párrafos, lo que produce una fidelidad excepcional tanto en lenguajes alfabéticos como logográficos. Además, el modelo incorpora... codificación dual mecanismo que procesa por separado representaciones semánticas y reconstructivas a través de Qwen2.5-VL y un codificador VAE, que logra un equilibrio entre mantener la coherencia semántica y el realismo visual durante la edición de imágenes.
Avances en la representación y edición de texto
Un diferenciador clave de Qwen-Image es su soporte nativo para texto incrustadoEsto le permite insertar texto legible en inglés y chino dentro de imágenes en diseños multilineales y contextos de párrafo. Las pruebas de rendimiento internas demuestran que Qwen-Image supera a muchos competidores de código abierto en cuanto a adherencia inmediata y claridad del texto, lo que lo hace ideal para aplicaciones que requieren elementos de diseño multilingües. Sus capacidades de edición de imágenes también se benefician de un paradigma de entrenamiento multitarea que integra tareas de conversión de texto a imagen, de texto a imagen a imagen y de reconstrucción de imagen a imagen, lo que mejora la consistencia al modificar elementos visuales existentes.
Evaluaciones independientes demuestran la superioridad de Qwen-Image sobre varios modelos líderes, tanto de código abierto como propietarios, en cuanto a precisión de incrustación de texto. En pruebas comparativas, supera a alternativas de código abierto de gama media y rivaliza con ofertas comerciales como Midjourney en cuanto a adherencia inmediata, especialmente en indicaciones bilingües que combinan inglés y chino. Si bien algunos sistemas propietarios aún pueden ser líderes en la generación de escenas ultracomplejas, las primeras opiniones de los usuarios destacan la claridad inigualable de Qwen-Image para diseños de texto multilingües y sus robustos controles de edición.
En consonancia con el compromiso de Alibaba con una IA “abierta, transparente y sostenible”, Qwen-Image es de código abierto En la plataforma MoDa, invitamos a la comunidad a contribuir y personalizar. Además del lanzamiento del modelo, Alibaba ha publicado documentación exhaustiva, código de ejemplo y un portal de comentarios para facilitar las pruebas reales en diversos casos de uso, desde procesos de publicación automatizados hasta herramientas educativas interactivas.
Resultados de evaluación
Los puntos de referencia internos de Alibaba y las evaluaciones de terceros ofrecen una imagen del excelente desempeño de Qwen-Image:
- GenEval (Generación general de imágenes): Se logró una distancia de inicio de Fréchet (FID) de 10.2, superando en promedio a modelos comparables de 20 parámetros B.
- LongText-Bench (representación de texto): Anotó 92.7% precisión en la colocación de texto de varias líneas e integridad de glifos, superando a GPT-4.1 en un 14 %.
- GEdit/ImgEdit (Edición de imágenes): Se registró una puntuación media de opinión (MOS) de 4.3/5, lo que refleja una alta satisfacción del usuario al mantener la coherencia semántica durante las ediciones.
- OneIG-Bench (Generación de infografías): Clasificado entre los tres mejores modelos para representar visualmente datos estructurados y gráficos directamente desde indicaciones, demostrando sólidas capacidades de diseño y selección de color.
- Clasificación de la tabla de clasificaciónEn el ranking de Artificial Analysis Image Arena, Qwen-Image actualmente ocupa el quinto lugar entre todos los modelos de generación de imágenes, y es la única entrada de peso abierto entre los 5 primeros, lo que demuestra su ventaja competitiva en la comunidad de investigación.
Acceso y ecosistema
El conjunto de funciones versátiles de Qwen-Image desbloquea una variedad de aplicaciones en el mundo real:
- Anuncios de marketing: Creación rápida de imágenes promocionales personalizadas con eslóganes integrados y elementos de texto multilingües.
- Contenido educativo: Generación automatizada de diagramas ilustrativos, infografías e imágenes anotadas para plataformas de aprendizaje electrónico.
- Diseño y creación de prototipos: Maquetas sobre la marcha y arte conceptual con capas editables para flujos de trabajo creativos interactivos.
- Servicios de localización: Adaptación perfecta de elementos visuales a diferentes contextos lingüísticos sin esfuerzo manual de diseño gráfico.
Los usuarios pueden interactuar con Qwen-Image a través de la interfaz Chat Qwen de Alibaba seleccionando el modo “Generación de imágenes”, o integrar el modelo en sus entornos a través del repositorio de GitHub y las API de CometAPI.
- Uso interactivo: Visitar chat.qwen.ai y seleccione cualquier modelo Qwen no codificante, luego cambie a “Generación de imágenes” para comenzar a crear.
- Código y pesos:
- GitHub: github.com/QwenLM/Qwen-Image
- Abrazando la cara:huggingface.co
- Modeloscopio:modelscope.cn
Alibaba fomenta los comentarios y las contribuciones de la comunidad para fomentar un abierto, transparente y sostenible ecosistema de IA generativa.
La última integración Qwen-Image pronto aparecerá en CometAPI, ¡así que estad atentos! Mientras finalizamos la carga del modelo Qwen-Image, explora nuestros otros modelos en la página de Modelos o pruébalos en AI Playground.
CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.
Vea también
