API de edición de imágenes de Qwen

CometAPI
AnnaNov 12, 2025
API de edición de imágenes de Qwen

Qwen-Image-Edit es la rama de edición de la familia de aplicaciones de imagen Qwen, desarrollada por el equipo de Qwen (ecosistema Alibaba/QwenLM). Se basa en una arquitectura MMDiT de 20 mil millones de parámetros y extiende explícitamente las capacidades avanzadas de renderizado de texto de Qwen-Image para ofrecer flujos de trabajo de edición de imágenes robustos. El modelo está diseñado para tareas donde la fidelidad de la edición es crucial, como cambiar directamente el texto en letreros, preservar las fuentes y el diseño, agregar o eliminar objetos manteniendo la coherencia semántica, realizar transformaciones de punto de vista y pose, y transferencias de estilo precisas.

Características principales

  • Edición precisa de texto en imágenes (bilingüe: chino e inglés) — agregar, eliminar o reemplazar texto conservando en la medida de lo posible la fuente, el tamaño y el estilo.
  • Modos de edición duales: semántico + apariencia — admite cambios semánticos de alto nivel (reposo, reemplazo de objetos, punto de vista) y ediciones de apariencia de bajo nivel (transferencia de estilo, textura, retoque local).
  • Ediciones de máscara/región/varios turnos — admite el relleno de imágenes con máscaras, avisos de región y ediciones encadenadas para flujos de trabajo de refinamiento iterativo.
  • Entradas de múltiples imágenes (última versión): La iteración 2509 agrega soporte para edición de múltiples imágenes (por ejemplo, persona+persona, persona+producto), consistencia mejorada de identidad/producto/texto y entradas nativas estilo ControlNet.

Detalles técnicos

  • Escala base / familia: construido en el Parámetro 20B Modelo de base Qwen-Image (difusión de estilo MMDiT / diseño multimodal).
  • Proceso de edición con codificación dual: El módulo de edición recibe (1) una representación semántica mediante un codificador visual Qwen2.5-VL y (2) una representación reconstructiva mediante un codificador VAE. La transmisión paralela de ambas representaciones permite al cabezal de edición equilibrar el cambio semántico con la fidelidad de píxeles. Esta codificación dual es una decisión de ingeniería fundamental para lograr ediciones robustas.
  • Formación progresiva/curricular: El entrenamiento progresó desde tareas sencillas de renderizado y generación de texto hasta renderizado de texto complejo a nivel de párrafo y objetivos de edición multitarea (reconstrucción T2I, TI2I e I2I). Se ha informado que este programa es un factor clave en la mejora de la fidelidad del texto y la estabilidad de edición del modelo.
  • Modelo de sabor/módulos: Qwen-Image-Edit se describe como un modelo 20B estilo MMDiT que integra componentes Qwen2.5-VL, un cabezal de edición de difusión y componentes VAE para el control de la apariencia.

Rendimiento de referencia

Estado del arte (SOTA) de referencia cruzada afirmado: El equipo de Qwen informa de resultados de última generación (SOTA) o de primer nivel en múltiples pruebas de referencia públicas de generación y edición de imágenes, incluyendo GenEval, DPG, OneIG-Bench (generación) y GEdit, ImgEdit, GSO (edición).

API de edición de imágenes de Qwen

Limitaciones y advertencias (prácticas)

  1. Artefactos y casos límite: Las pruebas de la comunidad muestran ocasionalmente sobresaturación, artefactos en la textura de la piel o costuras de composición en algunas ediciones de alto detalle; las bifurcaciones de Lightning de la comunidad tienen como objetivo mitigar estos problemas.
  2. Capacidad de cómputo/memoria: El modelo de 20 bits y los flujos de edición de precisión completa requieren un uso intensivo de la GPU. La implementación local se beneficia de bfloat16/FP8 y flujos de trabajo de muestreo optimizados (existen variantes "lightning" de 4/8 pasos para reducir la VRAM y la latencia).
  3. Seguridad y propiedad intelectual: Al igual que todos los programas de edición de imágenes de uso general, Qwen-Image-Edit puede generar personajes con derechos de autor o contenido sensible; su uso en producción requiere controles de moderación y autorización de derechos. (Buenas prácticas empresariales habituales).
  4. Modos de fallo: Los caracteres o palabras oscuros o muy raros aún pueden representarse incorrectamente o requerir ediciones iterativas ("encadenadas") para converger (los autores señalan ejemplos como los glifos chinos raros que requieren correcciones paso a paso).

Cómo se compara Qwen-Image-Edit con otras opciones

  • Difusión estable / SDXL (repintado): SDXL, junto con ControlNet y sus flujos de trabajo de inpainting dedicados, son rápidos, cuentan con un amplio soporte de herramientas de la comunidad y son compatibles con muchos LoRa; destacan en flujos de trabajo de inpainting generales y en velocidad/eficiencia. Las fortalezas de Qwen-Image-Edit son: edición de texto bilingüe nativaEn algunos casos, ofrece una mayor coherencia entre identidad y producto, además de una integración que optimiza la semántica y la apariencia. Las comparaciones con la comunidad muestran que Qwen suele obtener mejores resultados en fidelidad de edición y adecuación al texto, pero con un mayor coste computacional.
  • Editores de código cerrado (Adobe Firefly / DALL·E / Runway): Las API cerradas pueden ser muy sofisticadas (interfaz de usuario, moderación integrada, garantías de latencia), pero Qwen-Image-Edit destaca como una alternativa totalmente abierta que se centra específicamente en la edición de texto bilingüe robusta y ofrece implementación local. La elección práctica suele depender de si se necesita control local/licencias abiertas o una experiencia de usuario en la nube refinada.

Casos de uso practico

  • Edición de carteles y señalización — Cambiar el texto de los carteles conservando la fuente y la textura.
  • Marketing de producto / generación de carteles — Agregar/eliminar artículos, mantener la identidad del producto para las imágenes de comercio electrónico.
  • Ediciones de retratos que preservan la identidad — cambios de pose, transferencias de estilo manteniendo la identidad consistente (mejorado en 2509).
  • Restauración y corrección caligráfica — Restauración de fotografías antiguas y corrección gradual de caracteres manuscritos/impresos.
  • Flujos de trabajo creativos/de diseño — Edición de composiciones con múltiples imágenes, generación de memes, diseño de avatares donde puede incluirse texto bilingüe.

Cómo llamar a la API qwen-image-edit desde CometAPI

qwen-image-edit Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.

Tokens de entrada$2.00
Fichas de salida$6.40

Pasos requeridos

  • Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
  • Accede a tu Consola CometAPI.
  • Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.

API de edición de imágenes de Qwen

Método de uso

  1. Seleccione el punto de conexión «qwen-image-edit» para enviar la solicitud a la API y configure el cuerpo de la solicitud. El método y el cuerpo de la solicitud se encuentran en la documentación de la API de nuestro sitio web. También ofrecemos pruebas con Apifox para su comodidad.
  2. Reemplazar con su clave CometAPI real de su cuenta.
  3. Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
  4. . Procesa la respuesta de la API para obtener la respuesta generada.

CometAPI proporciona una API REST totalmente compatible para una migración fluida. Detalles clave para editar imagen:

Vea también API de imágenes Qwen

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento