Qué es Flux.2 y Flux 2 ya está disponible en CometAPI

FLUX.2 es una familia de modelos de generación y edición de imágenes recientemente anunciada por Black Forest Labs que ofrece fidelidad de nivel de producción, edición con múltiples referencias (hasta 10 referencias) y variantes desplegables que van desde Dev con pesos abiertos hasta Pro para producción y un nivel Flex controlable.

¿Qué es FLUX.2?

FLUX.2 es la familia de generación + edición de imágenes de nivel de producción de Black Forest Labs que combina condicionamiento con múltiples referencias, un espacio latente rediseñado (VAE) y primitivas de control avanzadas (control por color hex, prompting JSON, guía de pose) para ofrecer resultados consistentes y de alta fidelidad para flujos de trabajo creativos y comerciales. Admite tanto la generación de texto→imagen como la edición de imágenes con múltiples referencias dentro de una sola familia de modelos, y BFL ofrece endpoints de API alojados, así como artefactos de pesos abiertos para investigación e inferencia local. La oferta existe en múltiples canales de distribución: pesos abiertos para investigadores/desarrolladores (FLUX.2), modelos de producción alojados como Flux.2 Pro y endpoints alojados personalizables como Flux.2 Flex.

Capacidades clave

Edición con múltiples referencias: combina hasta 8–10 imágenes de referencia para una sola salida manteniendo la identidad y la consistencia de estilo. Esto es especialmente útil para publicidad, mockups de producto o continuidad de personajes entre variantes creativas.
Alta resolución (hasta 4MP): salidas de hasta 4 megapíxeles (por ejemplo 2048×2048 y mayores, según la relación de aspecto).
Fotorrealismo + detalle fino: mejoras en manos, rostros, texturas y razonamiento espacial frente a modelos abiertos anteriores.
Prompting estructurado y prompts JSON: FLUX.2 admite prompts estructurados/JSON que se asignan de forma natural a controles de UI (scene, subjects[], style, lighting, camera), lo que permite una generación programática y reproducible.
Tipografía y fidelidad de color: renderizado de texto inusualmente bueno y control exacto del color (hex) para flujos de trabajo sensibles a la marca.
Procedencia del contenido y seguridad: la API Pro aplica metadatos C2PA firmados criptográficamente a las imágenes producidas y opera un filtrado por capas para categorías de contenido no permitido.

Pro vs Flex vs Dev: ¿Qué modelo elegir?

Variant	Latency & cost	Quality	Control & features	Multi-reference
FLUX.2	optimizado para baja latencia (<10 s en configuraciones típicas de API), incluye filtros de contenido y metadatos C2PA firmados criptográficamente para procedencia.	La más alta (4MP, mejor fidelidad)	Funciones completas, SLA de producción	Hasta 8 (API, límite de 9MP)
FLUX.2	mayor latencia que `pro` pero expone hiperparámetros de inferencia ajustables (steps, guidance scale, etc.)	Alta	Fidelidad vs. diversidad ajustable; pasos de inferencia ajustables, guidance scale y otros controles de muestreo para equilibrar calidad/velocidad.	Hasta 10
FLUX.2	Depende del hardware	Sólida (pesos abiertos)	Edición completa + múltiples referencias; checkpoint abierto	Máximo recomendado 6
FLUX.2	Edge / bajos recursos	Moderada (destilado)	Rápido, baja huella de VRAM

Cuándo elegir cada uno

Elige dev si debes ejecutar localmente, necesitas investigación algorítmica o requieres personalizaciones con pesos abiertos (y aceptas altas necesidades de hardware).
Elige pro cuando necesites imágenes de producción predecibles y de baja latencia con funciones integradas de seguridad y procedencia.
Elige flex si estás iterando sobre hiperparámetros de generación (ajustando steps, guidance scale, etc.) y quieres un endpoint administrado que exponga ese control.

¿Cómo funciona FLUX.2?

FLUX.2 reúne tres elementos arquitectónicos principales:

1. Backbone transformer de flujo rectificado

En su núcleo, FLUX.2 utiliza una arquitectura transformer de flow-matching / flujo rectificado que opera en un espacio latente aprendido (una alternativa moderna a la difusión para algunos pipelines de producción). Este backbone permite renderizado de alta fidelidad y razonamiento espacial que mejoran la consistencia entre múltiples referencias. El enfoque de “flow matching” ofrece distintas compensaciones en velocidad de muestreo y fidelidad en comparación con la difusión clásica.

2. Nuevo autoencoder variacional (VAE)

Un autoencoder diseñado específicamente comprime las imágenes en una representación latente optimizada para las tareas de generación y edición de FLUX.2. BFL afirma que el nuevo VAE mejora la compresibilidad y la fidelidad (mejor dinámica de aprendizaje y reconstrucciones de mayor calidad que generaciones anteriores). El VAE es un contribuyente clave para un reescalado limpio hasta 4MP y una mejora en el detalle.

3. Modelo visión–lenguaje (VLM) de contexto largo

Un VLM (según se informa, relacionado con codificadores visuales–lingüísticos de clase Mistral en notas publicadas) proporciona el condicionamiento lingüístico y el conocimiento del mundo real que hacen que los prompts sean más fieles y que el modelo siga mejor instrucciones complejas (guía de pose, ediciones contextuales, etc.). Combinar un VLM con un backbone de flujo permite a FLUX.2 razonar sobre composición y semántica en ventanas de contexto más grandes.

Cómo interactúan estas piezas (flujo de ejecución)

Codificar entrada(s): las imágenes de referencia se codifican mediante el VAE en tokens latentes; los prompts de texto se codifican mediante el VLM.
Fusión multimodal: el backbone transformer ingiere latentes de imagen + tokens de texto y modela relaciones espaciales, rasgos de identidad e instrucciones de edición.
Generación basada en flujo: los samplers de flujo rectificado generan o editan imágenes latentes condicionadas por la representación fusionada.
Decodificación: el VAE decodifica los latentes de vuelta al espacio de píxeles, aplicando opcionalmente restricciones finales de color y metadatos de marca de agua/C2PA.

Por qué importa esta arquitectura

Esta combinación ofrece tres ventajas prácticas: (1) coherencia con múltiples referencias porque la identidad y el estilo se modelan explícitamente en el espacio latente; (2) mejor texto y tipografía debido a una integración más estrecha entre el VLM y el espacio latente de imagen; (3) opciones de despliegue escalables — la misma familia básica de modelos puede distribuirse como pesos abiertos para uso local (dev), como servicio administrado de baja latencia (pro) o como servicio ajustable para desarrolladores (flex).

¿Qué tan bueno es FLUX.2?

Rendimiento en benchmarks

Black Forest Labs publicó evaluaciones comparativas y gráficos que muestran a FLUX.2 superando a varios contemporáneos de pesos abiertos en pruebas comparativas cara a cara de preferencia humana/tasa de victoria y en análisis ELO vs. costo. Los aspectos destacados reportados en el resumen publicado por el proveedor/prensa incluyen:

Tasa de victoria en Texto→Imagen: FLUX.2 reportó una tasa de victoria de ≈66,6% (frente a ~51,3% de Qwen-Image, 48,1% de Hunyuan Image 3.0).
Edición con una sola referencia: tasa de victoria de ≈59,8% (frente a ~49,3% de Qwen-Image, 41,2% de FLUX.1 Kontext).
Edición con múltiples referencias: tasa de victoria de ≈63,6% (frente a ~36,4% de Qwen-Image).
ELO vs costo: la familia FLUX.2 (Pro, Flex, Dev) se agrupa en una franja de alta calidad y costo relativamente bajo (ELO ≈1030–1050 mientras opera a ~2–6 centavos por imagen en la tabla de precios del proveedor).

Generación con múltiples referencias

Una de las mayores características de FLUX.2 es su capacidad para generar múltiples salidas consistentes usando múltiples imágenes de referencia.

Por ejemplo, al fotografiar un producto, puedes subir varias fotos tomadas desde distintos ángulos, bajo diferentes condiciones de iluminación y con distintos fondos, y generar múltiples variaciones de la misma imagen a la vez.

Esta función te permite generar rápidamente por lotes fotos de catálogo de productos para sitios web de comercio electrónico, banners publicitarios, conjuntos de imágenes para redes sociales y más.

A diferencia de la generación tradicional de una sola imagen, este mecanismo de múltiples referencias es ideal para flujos de trabajo del mundo real que enfatizan la consistencia y la integridad.

Alta resolución, calidad empresarial (hasta 4MP)

FLUX.2 admite salida de hasta 4 megapíxeles (aproximadamente 2000-3000 píxeles), proporcionando una calidad de imagen adecuada para aplicaciones prácticas como publicidad, impresión, señalización y pósteres.

Maneja perfectamente texto, logotipos, mockups de UI, infografías y más, por lo que resulta adecuado no solo para la creación artística sino también para diseño y uso comercial.

Mientras tanto, la calidad de renderizado de fuentes y texto también ha mejorado, lo que lo hace adecuado para crear banners publicitarios y etiquetas de productos.

Compatible con ejecución local en GPU: bajo costo, baja barrera de entrada

Hasta la fecha, muchos modelos de generación de imágenes de alto rendimiento solo son prácticos en centros de datos con enormes recursos de cómputo. Sin embargo, FLUX.2 está optimizado para ejecutarse en GPUs estándar (como NVIDIA RTX) con menor consumo de VRAM.

Ya no es necesario acceder a los modelos a través de la nube; pueden editarse y generarse localmente, reduciendo significativamente los costos y aumentando la flexibilidad operativa.

Esta es una gran ventaja no solo para las empresas sino también para creadores individuales y pequeños equipos.

Flujo de trabajo unificado de creación y edición

FLUX.2 admite no solo texto a imagen (generación de text → image) sino también imagen a imagen (edición y estilización de imágenes existentes).

Esto permite usar de forma consistente un único modelo para tareas como “dibujar una imagen nueva desde cero”, “editar y retocar fotos existentes” y “reutilizar múltiples imágenes para crear variaciones uniformes”.

Por ejemplo, es fácil cambiar el fondo de una foto de producto por una atmósfera diferente o redimensionarla para redes sociales.

Cómo acceder a la API de Flux.2

Nos complace anunciar que CometAPI ha integrado la API de Flux.2. Ahora compatible con el formato de modelo de Replicate (más barato que el precio oficial de Replicate), endpoints de FLUX.2:

black-forest-labs/flux-2-pro
black-forest-labs/flux-2-dev
black-forest-labs/flux-2-flex

Empieza a desarrollar ahora Create Predictions – API Doc,

¿Quieres probar primero? Prueba FLUX.2 en nuestro playground después de registrarte e iniciar sesión en CometAPI; si quieres empezar a desarrollar con la API ahora: Create Predictions – API Doc.

FLUX.2 no es simplemente otro lanzamiento de modelo; es una estrategia de producto a nivel de familia que aborda realidades de producción: fidelidad, editabilidad, coherencia con múltiples referencias y vías prácticas de despliegue (APIs administradas y checkpoints abiertos). Para las organizaciones que producen contenido visual a escala, FLUX.2 promete ganancias significativas de productividad, siempre que los equipos combinen la adopción técnica con una sólida gobernanza de licencias y control de calidad.

Principales usos y casos de uso previstos de FLUX.2

Visuales de producto/creación de catálogos de comercio electrónico

Las empresas de comercio electrónico y las marcas tienen una gran demanda de tomar numerosas fotos de productos desde múltiples ángulos, con diferente iluminación, fondos y modos de color.

Con FLUX.2, puedes generar rápidamente múltiples resultados visualmente consistentes sin tener que fotografiar realmente ningún contenido.
Esto te permite ampliar rápidamente tu catálogo de productos al tiempo que reduces costos de fotografía, tiempo y costos de gestión.

Creación de materiales publicitarios y de marketing

La demanda de materiales de diseño es amplia, incluyendo banners publicitarios, imágenes para publicaciones en redes sociales, visuales de campañas promocionales y pósteres de relaciones públicas.

Simplemente proporciona una descripción de texto para obtener imágenes con el estilo, la composición y la atmósfera deseados, reduciendo enormemente la carga de diseñadores y anunciantes.
Además, como pueden generarse variaciones usando múltiples imágenes de referencia, también es adecuado para pruebas A/B de ideas creativas y para crear materiales compatibles con múltiples idiomas y regiones.

Diseño de interfaz de usuario/experiencia de usuario, prototipado

FLUX.2 también admite la edición de logotipos, fuentes, diseños y fondos, por lo que resulta adecuado no solo para generación de fotos sino también para el diseño visual de productos digitales.

Puedes crear rápidamente diseños preliminares, wireframes, sitios web para eventos, mockups de pantallas de aplicaciones y más.
Esta es una solución de producción rentable, especialmente adecuada para startups y pequeños equipos de diseño.

Arte/obras creativas y uso personal

Por supuesto, también puede usarse puramente para “arte”, “ilustraciones” o “diseño gráfico”.

Amplía tus horizontes creativos creando obras en diversos estados de ánimo y estilos mediante prompts de texto e imágenes de referencia.
También puedes usar funciones de edición de imágenes para reutilizar libremente fotos existentes en estilos artísticos, o experimentar con paisajes fantásticos o diseños de personajes.

Diferencias frente a modelos y competidores existentes: ¿por qué elegir FLUX.2?

Comparación con otros modelos de generación de imágenes con IA

Actualmente, hay muchos modelos (de código abierto y comerciales) en el campo de la generación de imágenes con IA, como los modelos de difusión tradicionales y los modelos competidores más recientes. Entonces, ¿por qué FLUX.2 es tan convincente? Las razones son las siguientes:

Generación y edición integradas: muchos modelos se centran en “generación (text to image)” o en “edición (image to image)”. FLUX.2 admite ambas funciones simultáneamente, logrando un flujo de trabajo muy consistente.
Múltiples entradas de referencia: utiliza múltiples imágenes de referencia para facilitar la fotografía de producto y una consistencia visual uniforme.
Calidad comercial y alta resolución: admite 4MP para publicidad, fotografía de producto e impresión.
Ejecución local sencilla: es independiente de la nube y puede ejecutarse en GPUs estándar, ofreciendo ventajas tanto en costo como en flexibilidad.
Selección flexible de modelos: ofrece una variedad de modelos que cubren desde aplicaciones estándar hasta comerciales y de investigación, lo que te permite elegir el que mejor se adapte a tus necesidades y presupuesto.

Esto convierte a FLUX.2 en una opción poderosa para flujos de trabajo profesionales, uso comercial, producción de gran volumen y proyectos donde el costo y la velocidad son críticos.

Reflexiones finales:

FLUX.2 se sitúa en una intersección pragmática: ofrece opciones de investigación con pesos abiertos para equipos que necesitan control y reproducibilidad, y APIs de producción administradas para equipos que priorizan baja latencia, resultados predecibles y procedencia. Al ofrecer variantes tanto abiertas como administradas (dev/pro/flex), BFL reconoce que distintos flujos de trabajo — experimentación, diseño iterativo y producción — requieren diferentes compensaciones entre fidelidad, velocidad, personalización y gobernanza.

Los desarrolladores pueden acceder a Flux.2 Dev API, Flux.2 Flex API y Flux.2 Pro API a través de CometAPI. Para comenzar, explora las capacidades de modelos de CometAPI en el Playground. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y de haber obtenido la clave API. CometAPI ofrece un precio muy inferior al precio oficial para ayudarte con la integración.

¿Listo para empezar?→ Regístrate en CometAPI hoy !

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord.