FLUX.2 é uma família recém-anunciada de modelos de geração e edição de imagens da Black Forest Labs que oferece fidelidade de nível profissional, edição com múltiplas referências (até 10 referências) e variantes implementáveis que variam da versão Dev de código aberto à versão Pro de produção, além de um nível Flex controlável.
O que é FLUX.2?
FLUX.2 é a família de modelos de geração e edição de imagens de nível profissional da Black Forest Labs, que combina condicionamento multirreferencial, um espaço latente reformulado (VAE) e primitivas de controle avançadas (direcionamento de cores hexadecimais, prompts JSON, orientação de pose) para fornecer resultados consistentes e de alta fidelidade para fluxos de trabalho criativos e comerciais. Suporta geração de texto para imagem e edição de imagens multirreferenciais em uma única família de modelos, e a BFL fornece endpoints de API hospedados, bem como artefatos de peso aberto para pesquisa e inferência local. A oferta está disponível em vários canais de distribuição: pesos abertos para pesquisadores/desenvolvedores (FLUX.2 ), modelos de produção hospedados, como **Flux.2 Pro**e endpoints hospedados personalizáveis como Flux.2 Flex.
Principais capacidades
- Edição com múltiplas referências: Combine até 8 a 10 imagens de referência para uma única saída, mantendo a identidade e a consistência do estilo. Isso é especialmente útil para publicidade, protótipos de produtos ou para garantir a continuidade de personagens em diferentes versões criativas.
- Alta resolução (até 4MP): Saídas de até 4 megapixels (por exemplo, 2048×2048 e maiores, dependendo da proporção).
- Fotorrealismo + detalhes precisos: Melhorias nas mãos, rostos, texturas e raciocínio espacial em comparação com modelos abertos anteriores.
- Instruções estruturadas e instruções JSON: O FLUX.2 suporta prompts estruturados/JSON que se mapeiam naturalmente para controles de interface do usuário (cena, sujeitos[], estilo, iluminação, câmera), permitindo geração programática e reproduzível.
- Tipografia e fidelidade de cores: Renderização de texto excepcionalmente boa e controle preciso de cores (hexadecimal) para fluxos de trabalho que respeitam a identidade da marca.
- Proveniência e segurança do conteúdo: A API Pro aplica metadados C2PA com assinatura criptográfica às imagens produzidas e opera filtragem em camadas para categorias de conteúdo proibidas.
Pro vs Flex vs Dev: Qual modelo escolher?
| Variante | Latência e custo | Qualidade | Controle e recursos | Multi-referência |
|---|---|---|---|---|
| FLUX.2 | Otimizado para baixa latência (menos de 10 segundos em configurações típicas de API), inclui filtros de conteúdo e metadados C2PA com assinatura criptográfica para comprovação de procedência. | Qualidade máxima (4MP, melhor fidelidade) | Funcionalidades completas, SLAs de produção | Até 8 (API, limite de 9MP) |
| FLUX.2 | latência maior que pro mas expõe hiperparâmetros de inferência ajustáveis (passos, escala de orientação, etc.) | Alta | Fidelidade versus diversidade ajustáveis; etapas de inferência, escala de orientação e outros controles de amostragem ajustáveis para otimizar a relação entre qualidade e velocidade. | Até 10 |
| FLUX.2 | Depende do hardware | Forte (pesos livres) | Edição completa + múltiplas referências; ponto de verificação aberto | Máximo recomendado: 6 |
| FLUX.2 | Edge / poucos recursos | Moderado (destilado) | Rápido e com pequena quantidade de VRAM. |
Quando escolher qual
- Escolha dev Se você precisar executar localmente, realizar pesquisas algorítmicas ou exigir personalizações de peso aberto (e aceitar altos requisitos de hardware).
- Escolha pró Quando você precisa de imagens de produção previsíveis e de baixa latência, com recursos integrados de segurança e rastreabilidade.
- Escolha flexionar Se você estiver iterando sobre hiperparâmetros de geração (etapas de ajuste, escala de orientação, etc.) e desejar um endpoint gerenciado que exponha esse controle.
Como funciona o FLUX.2?
FLUX.2 reúne três elementos arquitetônicos principais:
1. Estrutura principal do transformador de fluxo retificado
Em sua essência, o FLUX.2 utiliza um correspondência de fluxo / fluxo retificado A arquitetura de transformação opera em um espaço latente aprendido (uma alternativa moderna à difusão para alguns fluxos de trabalho de produção). Essa estrutura permite renderização de alta fidelidade e raciocínio espacial que melhoram a consistência entre múltiplas referências. A abordagem de "correspondência de fluxo" oferece diferentes compensações em termos de velocidade de amostragem e fidelidade em comparação com a difusão clássica.
2. Novo autoencoder variacional (VAE)
Um autoencoder desenvolvido especificamente para este fim comprime imagens em uma representação latente otimizada para as tarefas de geração e edição do FLUX.2. A BFL afirma que o novo VAE melhora a compressibilidade e a fidelidade (melhor dinâmica de aprendizado e reconstruções de maior qualidade do que as gerações anteriores). O VAE contribui significativamente para a ampliação limpa para 4MP e para a melhoria dos detalhes.
3. Modelo de visão-linguagem de contexto longo (VLM)
Um VLM (relatado como relacionado aos codificadores visuais-linguísticos da classe Mistral em notas publicadas) fornece o condicionamento da linguagem e o conhecimento do mundo real que tornam os prompts mais fiéis e o modelo mais eficiente em seguir instruções complexas (orientação de pose, edições contextuais, etc.). A combinação de um VLM com uma estrutura de fluxo permite que o FLUX.2 raciocine sobre composição e semântica em janelas de contexto maiores.
Como essas partes interagem (fluxo de tempo de execução)
- Codificar entrada(s): As imagens de referência são codificadas em tokens latentes por meio do VAE; os prompts de texto são codificados pelo VLM.
- Fusão intermodal: A estrutura principal do Transformer ingere dados latentes de imagem e tokens de texto, e modela relações espaciais, características de identidade e instruções de edição.
- Geração baseada em fluxo: Os amostradores de fluxo retificado geram ou editam imagens latentes condicionadas à representação fundida.
- Decodificar: O VAE decodifica os sinais latentes de volta para o espaço de pixels, aplicando opcionalmente restrições de cor finais e metadados de marca d'água/C2PA.
Por que essa arquitetura é importante?
Esta combinação proporciona três vantagens práticas: (1) coerência multirreferencial porque a identidade e o estilo são modelados explicitamente no latente; (2) texto e tipografia melhores devido à integração mais estreita entre o VLM e o espaço latente da imagem; (3) opções de implantação escaláveis — a mesma família de modelos básicos pode ser distribuída como pesos abertos para uso local (dev), como um serviço gerenciado de baixa latência (pro) ou como um serviço configurável para desenvolvedores (flex).
Como o FLUX.2 é bom?
Desempenho em testes de benchmark
A Black Forest Labs publicou avaliações comparativas e gráficos mostrando que o FLUX.2 supera vários concorrentes de peso aberto em testes diretos de preferência humana/taxa de vitórias e em análises de ELO versus custo. Os destaques relatados no resumo publicado pelo fornecedor/imprensa incluem:
- Taxa de sucesso de texto→imagem: FLUX.2 relatou ≈66.6% Taxa de vitórias (contra ~51.3% do Qwen-Image e 48.1% do Hunyuan Image 3.0).
- Edição de referência única: ≈59.8% taxa de vitórias (contra ~49.3% Qwen-Image, 41.2% FLUX.1 Kontext).
- Edição com múltiplas referências: ≈63.6% taxa de vitórias (contra ~36.4% para Qwen-Image).
- ELO vs. custo: A família FLUX.2 (Pro, Flex, Dev) se encontra em uma faixa de alta qualidade e custo relativamente baixo (ELO ≈1030–1050, operando a ~2–6 centavos por imagem, de acordo com a tabela de preços do fornecedor).
Geração de Múltiplas Referências
Uma das maiores vantagens do FLUX.2 é sua capacidade de gerar múltiplas saídas consistentes usando várias imagens de referência.
Por exemplo, ao fotografar um produto, você pode carregar várias fotos tiradas de ângulos diferentes, sob diferentes condições de iluminação e contra diferentes fundos, e gerar várias variações da mesma imagem simultaneamente.
Essa funcionalidade permite gerar rapidamente em lote fotos de catálogos de produtos para sites de comércio eletrônico, banners publicitários, conjuntos de imagens para redes sociais e muito mais.
Ao contrário da geração tradicional de imagem única, esse mecanismo de múltiplas referências é ideal para fluxos de trabalho do mundo real que enfatizam a consistência e a integridade.
Alta resolução, qualidade profissional (até 4MP)
A FLUX.2 suporta saída de até 4 megapixels (aproximadamente 2000-3000 pixels), proporcionando qualidade de imagem adequada para aplicações práticas como publicidade, impressão, sinalização e pôsteres.
Ele lida perfeitamente com texto, logotipos, protótipos de interface do usuário, infográficos e muito mais, tornando-o adequado não apenas para criação artística, mas também para design e uso comercial.
Entretanto, a qualidade de renderização de fontes e textos também foi aprimorada, tornando-a adequada para a criação de banners publicitários e rótulos de produtos.
Suporta execução local em GPU: baixo custo, baixa barreira de entrada.
Até o momento, muitos modelos de geração de imagens de alto desempenho só são viáveis em data centers com recursos computacionais massivos. No entanto, o FLUX.2 é otimizado para rodar em GPUs padrão (como a NVIDIA RTX) com menor consumo de VRAM.
Não é mais necessário acessar os modelos pela nuvem; eles podem ser editados e gerados localmente, reduzindo significativamente os custos e aumentando a flexibilidade operacional.
Essa é uma grande vantagem não apenas para empresas, mas também para criadores individuais e pequenas equipes.
Fluxo de trabalho unificado de criação e edição
O FLUX.2 suporta não apenas a conversão de texto em imagem (geração de texto → imagem), mas também a conversão de imagem em imagem (edição e estilização de imagens existentes).
Isso permite que você use consistentemente um único modelo para tarefas como "desenhar uma nova imagem do zero", "editar e retocar fotos existentes" e "reutilizar várias imagens para criar variações uniformes".
Por exemplo, é fácil mudar o fundo da foto de um produto para uma atmosfera diferente ou redimensioná-la para as redes sociais.
Como acessar a API do Flux.2
Temos o prazer de anunciar que a CometAPI integrou a API Flux.2. Agora com suporte ao modelo de formato Replicate (preço inferior ao Replicate Oficial) e endpoints FLUX.2:
- black-forest-labs/flux-2-pro
- black-forest-labs/flux-2-dev
- black-forest-labs/flux-2-flex
Comece a construir agora Criar previsões – Documentação da API,
Quer tentar primeiro? Teste o FLUX.2 e em nosso recreio Após se registrar e fazer login no CometAPI, se você quiser Comece a desenvolver com a API agora mesmo: Criar previsões – Documentação da API.
FLUX.2 não é apenas mais um lançamento de modelo; é uma estratégia de produto em nível familiar que aborda as realidades da produção: fidelidade, editabilidade, coerência multirreferencial e caminhos práticos de implantação (APIs gerenciadas e pontos de verificação abertos). Para organizações que produzem conteúdo visual em grande escala, FLUX.2 promete ganhos de produtividade significativos — desde que as equipes combinem a adoção técnica com uma governança de licenciamento robusta e controle de qualidade.
Principais usos e casos de uso pretendidos do FLUX.2
Criação de imagens de produtos/catálogo de e-commerce
Empresas e marcas de comércio eletrônico têm uma alta demanda por fotos de produtos tiradas de vários ângulos, usando diferentes iluminações, fundos e modos de cor.
- Com o FLUX.2, você pode gerar rapidamente vários efeitos visualmente consistentes sem precisar gravar nenhum conteúdo.
- Isso permite expandir rapidamente seu catálogo de produtos, reduzindo custos com fotografia, tempo e custos de gerenciamento.
Criação de material publicitário e de marketing
A demanda por materiais de design é ampla, incluindo banners publicitários, imagens para postagens em mídias sociais, recursos visuais para campanhas promocionais e pôsteres de relações públicas.
- Basta fornecer uma descrição em texto para obter imagens com o estilo, a composição e a atmosfera desejados, reduzindo consideravelmente o trabalho de designers e publicitários.
- Além disso, como é possível gerar variações usando várias imagens de referência, essa técnica também é adequada para testes A/B de ideias criativas e para a criação de materiais compatíveis com vários idiomas e regiões.
Design de interface do usuário/experiência do usuário, prototipagem
O FLUX.2 também suporta a edição de logotipos, fontes, layouts e planos de fundo, tornando-o adequado não apenas para a geração de fotos, mas também para o design visual de produtos digitais.
- Você pode criar rapidamente designs preliminares, wireframes, sites de eventos, protótipos de telas de aplicativos e muito mais.
- Esta é uma solução de produção com boa relação custo-benefício, especialmente adequada para startups e pequenas equipes de design.
Arte/Obras Criativas e Uso Pessoal
Claro, também pode ser usado exclusivamente para "obras de arte", "ilustrações" ou "design gráfico".
- Amplie seus horizontes criativos criando obras em diversos estilos e atmosferas, utilizando textos explicativos e imagens de referência.
- Você também pode usar recursos de edição de imagem para reaproveitar livremente fotos existentes em estilos artísticos ou experimentar paisagens fantásticas ou designs de personagens.
Diferenciado dos modelos existentes e da concorrência — por que escolher o FLUX.2?
Comparação com outros modelos de geração de imagens por IA
Atualmente, existem muitos modelos (de código aberto e comerciais) na área de geração de imagens por IA, como os modelos de difusão tradicionais e os mais recentes modelos concorrentes. Então, por que o FLUX.2 é tão atraente? Os motivos são os seguintes:
- Geração e edição integradas: Muitos modelos se concentram em "geração (texto para imagem)" ou "edição (imagem para imagem)". O FLUX.2 suporta ambas as funções simultaneamente, alcançando um fluxo de trabalho altamente consistente.
- Múltiplas entradas de referência: Utilize várias imagens de referência para facilitar a fotografia de produtos e garantir consistência visual.
- Qualidade comercial e alta resolução: Suporta 4MP para publicidade, fotografia de produtos e impressão.
- Execução local simplificada: É independente da nuvem e pode ser executado em GPUs padrão, oferecendo vantagens tanto em custo quanto em flexibilidade.
- Seleção flexível de modelos: Oferece uma variedade de modelos que abrangem desde aplicações padrão até comerciais e de pesquisa, permitindo que você escolha aquele que melhor se adapta às suas necessidades e orçamento.
Isso torna o FLUX.2 uma escolha poderosa para fluxos de trabalho profissionais, uso comercial, produção em grande volume e projetos onde custo e velocidade são essenciais.
Pensamentos finais:
FLUX.2 situa-se numa intersecção pragmática: oferece opções de pesquisa de peso aberto para equipes que precisam de controle e reprodutibilidade, e APIs gerenciadas de produção Para equipes que priorizam baixa latência, resultados previsíveis e rastreabilidade. Ao disponibilizar variantes abertas e gerenciadas (dev/pro/flex), a BFL reconhece que diferentes fluxos de trabalho — experimentação, design iterativo e produção — exigem diferentes compensações entre fidelidade, velocidade, personalização e governança.
Os desenvolvedores podem acessar API de desenvolvimento Flux.2, API Flux.2 Flex e API Flux.2 Pro por meio da CometAPI. Para começar, explore os recursos de modelagem da CometAPI no PlaygroundAntes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.
Pronto para ir?→ Inscreva-se no CometAPI hoje mesmo !
Se você quiser saber mais dicas, guias e novidades sobre IA, siga-nos em VK, X e Discord!
