O que é o Flux.2 e o Flux 2 já está disponível no CometAPI

CometAPI
AnnaNov 26, 2025
O que é o Flux.2 e o Flux 2 já está disponível no CometAPI

FLUX.2 é uma família recém-anunciada de modelos de geração e edição de imagens da Black Forest Labs que oferece fidelidade de nível de produção, edição com múltiplas referências (até 10 referências) e variantes implantáveis que vão do Dev com pesos abertos ao Pro de produção e a uma camada Flex controlável.

O que é o FLUX.2?

FLUX.2 é a família de geração + edição de imagens de nível de produção da Black Forest Labs que combina condicionamento por múltiplas referências, um espaço latente reformulado (VAE) e primitivas avançadas de controle (direcionamento por cor hexadecimal, prompting em JSON, orientação de pose) para entregar resultados consistentes e de alta fidelidade para fluxos de trabalho criativos e comerciais. Ele oferece suporte tanto à geração de texto→imagem quanto à edição de imagens com múltiplas referências em uma única família de modelos, e a BFL disponibiliza endpoints de API hospedados, bem como artefatos com pesos abertos para pesquisa e inferência local. A oferta existe em vários canais de distribuição: pesos abertos para pesquisadores/desenvolvedores (FLUX.2), modelos de produção hospedados como Flux.2 Pro e endpoints hospedados personalizáveis como Flux.2 Flex.

Principais recursos

  • Edição com múltiplas referências: combine até 8–10 imagens de referência em uma única saída, mantendo a identidade e a consistência de estilo. Isso é especialmente útil para publicidade, mockups de produtos ou continuidade de personagens em variantes criativas.
  • Alta resolução (até 4MP): saídas de até 4 megapixels (por exemplo, 2048×2048 e maiores, dependendo da proporção).
  • Fotorrealismo + detalhes finos: melhorias em mãos, rostos, texturas e raciocínio espacial em comparação com modelos abertos anteriores.
  • Prompting estruturado e prompts em JSON: o FLUX.2 oferece suporte a prompts estruturados/em JSON que se mapeiam naturalmente para controles de UI (scene, subjects[], style, lighting, camera), permitindo geração programática e reproduzível.
  • Tipografia e fidelidade de cor: renderização de texto incomumente boa e direcionamento exato de cor (hex) para fluxos de trabalho sensíveis à marca.
  • Proveniência de conteúdo e segurança: a API Pro aplica metadados C2PA assinados criptograficamente às imagens produzidas e opera filtragem em camadas para categorias de conteúdo não permitidas.

Pro vs Flex vs Dev: Qual modelo escolher?

VariantLatency & costQualityControl & featuresMulti-reference
FLUX.2otimizado para baixa latência (<10s em configurações típicas de API), inclui filtros de conteúdo e metadados C2PA assinados criptograficamente para proveniência.Mais alta (4MP, melhor fidelidade)Recursos completos, SLAs de produçãoAté 8 (API, limite de 9MP)
FLUX.2latência mais alta do que pro, mas expõe hiperparâmetros de inferência ajustáveis (steps, guidance scale etc.)AltaFidelidade vs. diversidade ajustável; etapas de inferência, guidance scale e outros controles de amostragem ajustáveis para equilibrar qualidade/velocidade.Até 10
FLUX.2Depende do hardwareForte (pesos abertos)Edição completa + múltiplas referências; checkpoint abertoMáximo recomendado de 6
FLUX.2Edge / poucos recursosModerada (destilado)Rápido, pequena exigência de VRAM

Quando escolher cada um

  • Escolha dev se você precisa executar localmente, fazer pesquisa algorítmica ou requer personalizações com pesos abertos (e aceita altas exigências de hardware).
  • Escolha pro quando precisar de imagens de produção previsíveis, com baixa latência e recursos integrados de segurança e proveniência.
  • Escolha flex se estiver iterando sobre hiperparâmetros de geração (ajustando steps, guidance scale etc.) e quiser um endpoint gerenciado que exponha esse controle.

Como o FLUX.2 funciona?

O FLUX.2 reúne três elementos arquiteturais principais:

1. Backbone transformer de fluxo retificado

Em sua essência, o FLUX.2 usa uma arquitetura transformer de flow-matching / rectified-flow que opera em um espaço latente aprendido (uma alternativa moderna à difusão para alguns pipelines de produção). Esse backbone permite renderização de alta fidelidade e raciocínio espacial que melhoram a consistência em múltiplas referências. A abordagem de “flow matching” oferece trade-offs diferentes em velocidade de amostragem e fidelidade em comparação com a difusão clássica.

2. Novo autoencoder variacional (VAE)

Um autoencoder desenvolvido especificamente comprime imagens em uma representação latente otimizada para as tarefas de geração e edição do FLUX.2. A BFL afirma que o novo VAE melhora a compressibilidade e a fidelidade (melhor dinâmica de aprendizado e reconstruções de maior qualidade do que em gerações anteriores). O VAE é um dos principais responsáveis pelo upscaling limpo para 4MP e pela melhoria nos detalhes.

3. Modelo de visão–linguagem de contexto longo (VLM)

Um VLM (relatado como relacionado a codificadores visuais–linguísticos da classe Mistral em notas publicadas) fornece o condicionamento de linguagem e o conhecimento do mundo real que tornam os prompts mais fiéis e o modelo melhor em seguir instruções complexas (orientação de pose, edições contextuais etc.). Combinar um VLM com um backbone de fluxo permite ao FLUX.2 raciocinar sobre composição e semântica em janelas de contexto maiores.

Como essas partes interagem (fluxo de execução)

  1. Codificar entradas: imagens de referência são codificadas pelo VAE em tokens latentes; prompts de texto são codificados pelo VLM.
  2. Fusão multimodal: o backbone transformer ingere latentes de imagem + tokens de texto e modela relações espaciais, características de identidade e instruções de edição.
  3. Geração baseada em fluxo: os samplers de fluxo retificado geram ou editam imagens latentes condicionadas à representação fundida.
  4. Decodificação: o VAE decodifica os latentes de volta ao espaço de pixels, opcionalmente aplicando restrições finais de cor e metadados de watermark/C2PA.

Por que essa arquitetura importa

Essa combinação traz três vantagens práticas: (1) coerência com múltiplas referências, porque identidade e estilo são modelados explicitamente no latente; (2) melhor texto e tipografia, devido à integração mais estreita entre o VLM e o espaço latente da imagem; (3) opções de implantação escaláveis — a mesma família básica de modelos pode ser disponibilizada como pesos abertos para uso local (dev), como serviço gerenciado de baixa latência (pro) ou como serviço ajustável para desenvolvedores (flex).

Quão bom é o FLUX.2?

Desempenho em benchmarks

A Black Forest Labs publicou avaliações comparativas e gráficos mostrando o FLUX.2 superando vários contemporâneos de pesos abertos em testes comparativos de preferência humana/taxa de vitória e em análises de ELO vs. custo. Os destaques relatados no resumo publicado pelo fornecedor/imprensa incluem:

  • Taxa de vitória em Texto→Imagem: o FLUX.2 relatou uma taxa de vitória de ≈66,6% (vs ~51,3% do Qwen-Image, 48,1% do Hunyuan Image 3.0).
  • Edição com referência única: taxa de vitória de ≈59,8% (vs ~49,3% do Qwen-Image, 41,2% do FLUX.1 Kontext).
  • Edição com múltiplas referências: taxa de vitória de ≈63,6% (vs ~36,4% do Qwen-Image).
  • ELO vs custo: a família FLUX.2 (Pro, Flex, Dev) se agrupa em uma faixa de alta qualidade e custo relativamente baixo (ELO ≈1030–1050 operando em ~2–6 centavos por imagem no gráfico de preços do fornecedor).

Geração com múltiplas referências

Um dos maiores recursos do FLUX.2 é sua capacidade de gerar múltiplas saídas consistentes usando múltiplas imagens de referência.

Por exemplo, ao fotografar um produto, você pode enviar várias fotos tiradas de diferentes ângulos, sob diferentes condições de iluminação e com diferentes fundos, e gerar múltiplas variações da mesma imagem de uma só vez.

Esse recurso permite gerar rapidamente, em lote, fotos de catálogo de produtos para sites de e-commerce, banners publicitários, conjuntos de imagens para redes sociais e muito mais.

Ao contrário da geração tradicional de imagem única, esse mecanismo de múltiplas referências é ideal para fluxos de trabalho do mundo real que enfatizam consistência e integridade.

Alta resolução, qualidade empresarial (até 4MP)

O FLUX.2 suporta saída de até 4 megapixels (aproximadamente 2000-3000 pixels), fornecendo qualidade de imagem adequada para aplicações práticas, como publicidade, impressão, sinalização e pôsteres.

Ele lida perfeitamente com texto, logotipos, mockups de UI, infográficos e muito mais, tornando-o adequado não apenas para criação artística, mas também para design e uso comercial.

Enquanto isso, a qualidade de renderização de fontes e texto também foi aprimorada, tornando-o adequado para criar banners publicitários e rótulos de produtos.

Suporte à execução local em GPU: baixo custo, baixa barreira de entrada

Até o momento, muitos modelos de geração de imagem de alto desempenho só são práticos em data centers com enormes recursos computacionais. No entanto, o FLUX.2 é otimizado para rodar em GPUs padrão (como NVIDIA RTX) com menor consumo de VRAM.

Os modelos não precisam mais ser acessados pela nuvem; eles podem ser editados e gerados localmente, reduzindo significativamente os custos e aumentando a flexibilidade operacional.

Essa é uma grande vantagem não apenas para empresas, mas também para criadores individuais e pequenas equipes.

Fluxo de criação e edição unificado

O FLUX.2 suporta não apenas texto-para-imagem (text → image generation), mas também imagem-para-imagem (edição e estilização de imagens existentes).

Isso permite usar consistentemente um único modelo para tarefas como “desenhar uma nova imagem do zero”, “editar e retocar fotos existentes” e “reutilizar múltiplas imagens para criar variações uniformes”.

Por exemplo, é fácil mudar o fundo de uma foto de produto para uma atmosfera diferente ou redimensioná-la para redes sociais.

Como acessar a API do Flux.2

Temos o prazer de anunciar que a CometAPI integrou a API do Flux.2. Agora com suporte ao formato de modelo do Replicate (abaixo do preço oficial do Replicate), endpoints do FLUX.2:

  • black-forest-labs/flux-2-pro
  • black-forest-labs/flux-2-dev
  • black-forest-labs/flux-2-flex

Comece a desenvolver agora Create Predictions – API Doc,

Quer testar primeiro? Teste o FLUX.2 em nosso playground após se registrar e fazer login na CometAPI. Se você quiser começar a desenvolver com a API agora: Create Predictions – API Doc.

O FLUX.2 não é apenas mais um lançamento de modelo; é uma estratégia de produto em nível de família que aborda realidades de produção: fidelidade, editabilidade, coerência com múltiplas referências e caminhos práticos de implantação (APIs gerenciadas e checkpoints abertos). Para organizações que produzem conteúdo visual em escala, o FLUX.2 promete ganhos significativos de produtividade — desde que as equipes aliem a adoção técnica a uma governança robusta de licenciamento e controle de qualidade.

Principais usos e casos de uso pretendidos do FLUX.2

Visuais de produto/criação de catálogo de e-commerce

Empresas de e-commerce e marcas têm grande demanda por tirar inúmeras fotos de produtos de vários ângulos, usando diferentes iluminações, fundos e modos de cor.

  • Com o FLUX.2, você pode gerar rapidamente vários resultados visualmente consistentes sem realmente fotografar qualquer conteúdo.
  • Isso permite expandir rapidamente seu catálogo de produtos enquanto reduz custos com fotografia, tempo e custos de gerenciamento.

Criação de materiais de publicidade e marketing

A demanda por materiais de design é ampla, incluindo banners publicitários, imagens para posts em redes sociais, visuais de campanhas promocionais e pôsteres de relações públicas.

  • Basta fornecer uma descrição em texto para obter imagens com o estilo, composição e atmosfera desejados, reduzindo muito a carga sobre designers e anunciantes.
  • Além disso, como variações podem ser geradas usando múltiplas imagens de referência, também é adequado para testes A/B de ideias criativas e para criar materiais compatíveis com múltiplos idiomas e regiões.

Design de interface do usuário/experiência do usuário, prototipagem

O FLUX.2 também oferece suporte à edição de logotipos, fontes, layouts e fundos, tornando-o adequado não apenas para geração de fotos, mas também para o design visual de produtos digitais.

  • Você pode criar rapidamente designs preliminares, wireframes, sites de eventos, mockups de telas de aplicativos e muito mais.
  • Esta é uma solução de produção econômica, especialmente adequada para startups e pequenas equipes de design.

Arte/trabalhos criativos e uso pessoal

Claro, ele também pode ser usado puramente para “arte”, “ilustrações” ou “design gráfico”.

  • Expanda seus horizontes criativos criando trabalhos em vários humores e estilos usando prompts de texto e imagens de referência.
  • Você também pode usar recursos de edição de imagem para reaproveitar livremente fotos existentes em estilos artísticos ou experimentar paisagens fantásticas ou designs de personagens.

Diferenciação em relação aos modelos existentes e concorrentes — por que escolher o FLUX.2?

Comparação com outros modelos de geração de imagem por IA

Atualmente, há muitos modelos (open-source e comerciais) no campo da geração de imagem por IA, como modelos tradicionais de difusão e os mais recentes modelos concorrentes. Então, por que o FLUX.2 é tão atraente? As razões são as seguintes:

  • Geração e edição integradas: muitos modelos se concentram em “geração (texto para imagem)” ou “edição (imagem para imagem)”. O FLUX.2 suporta ambas as funções simultaneamente, alcançando um fluxo de trabalho altamente consistente.
  • Múltiplas entradas de referência: utiliza múltiplas imagens de referência para facilitar a fotografia de produtos e manter consistência visual.
  • Qualidade comercial e alta resolução: suporta 4MP para publicidade, fotografia de produtos e impressão.
  • Execução local fácil: é independente da nuvem e pode rodar em GPUs padrão, oferecendo vantagens tanto em custo quanto em flexibilidade.
  • Seleção flexível de modelos: oferece uma variedade de modelos que cobrem desde aplicações padrão até comerciais e de pesquisa, permitindo escolher o que melhor se adapta às suas necessidades e ao seu orçamento.

Isso torna o FLUX.2 uma escolha poderosa para fluxos de trabalho profissionais, uso comercial, produção em alto volume e projetos em que custo e velocidade são críticos.

Considerações finais:

O FLUX.2 se posiciona em uma interseção pragmática: oferece opções de pesquisa com pesos abertos para equipes que precisam de controle e reprodutibilidade, e APIs gerenciadas de produção para equipes que priorizam baixa latência, saídas previsíveis e proveniência. Ao disponibilizar variantes abertas e gerenciadas (dev/pro/flex), a BFL reconhece que diferentes fluxos de trabalho — experimentação, design iterativo e produção — exigem diferentes trade-offs entre fidelidade, velocidade, personalização e governança.

Os desenvolvedores podem acessar a Flux.2 Dev API, Flux.2 Flex API e Flux.2 Pro API por meio da CometAPI. Para começar, explore os recursos dos modelos da CometAPI no Playground. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao preço oficial para ajudar você na integração.

Pronto para começar?→ Cadastre-se na CometAPI hoje !

Se você quiser saber mais dicas, guias e notícias sobre IA, siga-nos no VKX e Discord!

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Comece gratuitamente em minutos. Créditos de avaliação gratuita incluídos. Não é necessário cartão de crédito.

Leia Mais