O Tongyi Lab da Alibaba lançou oficialmente o Z-Image, um modelo de geração de imagens de código aberto com 6 bilhões de parâmetros que está causando grande impacto na comunidade de IA. Lançado no final de 2025, o Z-Image rapidamente destronou favoritos anteriores como Flux e SDXL aos olhos de muitos usuários locais.
Embora sua eficiência técnica e capacidades bilíngues sejam impressionantes, o maior burburinho em torno do Z-Image diz respeito a um atributo completamente diferente: seu potencial para criação de conteúdo irrestrita e sem censura. Ao contrário dos modelos proprietários baseados em nuvem trancados por trás de filtros de segurança rígidos, seus pesos abertos permitem que os usuários executem o modelo localmente em hardware de consumo, dando-lhes total liberdade sobre o conteúdo que geram — incluindo material NSFW (Not Safe For Work).
O que é Z-Image e por que está a abalar o mercado?
Z-Image (ou ZaoXiang) é um modelo fundacional desenvolvido pelo Tongyi Lab da Alibaba. Ao contrário dos modelos massivos e pesados do passado, que exigiam GPUs de nível corporativo, o Z-Image foi projetado para a eficiência. Ele utiliza uma arquitetura inédita Scalable Single-Stream Diffusion Transformer (S3-DiT).
O avanço técnico: S3-DiT
A maioria dos geradores de imagens anteriores, como o Stable Diffusion XL (SDXL), adotava uma abordagem de duplo fluxo (processando separadamente dados de texto e imagem) ou um fluxo híbrido como o Flux. O Z-Image simplifica isso ao concatenar texto, tokens semânticos visuais e tokens de VAE de imagem em uma sequência unificada. Isso permite ao modelo lidar com as relações texto-imagem de forma mais direta e eficiente.
O resultado? Um modelo de 6 bilhões de parâmetros que entrega muito além do que seu porte sugere.
- Baixa exigência de VRAM: Pode ser executado em GPUs com apenas 6 GB a 8 GB de VRAM, tornando-o acessível a usuários com placas mais antigas como NVIDIA RTX 2060 ou 3060.
- Velocidade incrível: A variante Z-Image-Turbo usa um processo de inferência destilado de 8 etapas, capaz de gerar imagens de 1024x1024 de alta qualidade em tempos inferiores a um segundo em H800s, ou em apenas alguns segundos em placas de consumo.
- Domínio bilíngue: Renderiza texto em inglês e chinês com alta precisão, recurso muitas vezes ausente em modelos centrados no Ocidente.
As variantes
O lançamento inclui três versões distintas:
- Z-Image-Turbo: O demônio da velocidade. Otimizado para geração em 8 etapas, ideal para iteração rápida e fluxos de trabalho em tempo real. Esta é a versão que a maioria dos usuários está usando localmente.
- Z-Image-Base: O modelo base bruto. Embora mais lento, é a escolha preferida para ajuste fino pela comunidade e treinamento de LoRAs (Low-Rank Adaptations), pois retém mais conhecimento detalhado.
- Z-Image-Edit: Uma variante especializada projetada para edição de imagens seguindo instruções (por exemplo, "faça a pessoa sorrir", "mude o fundo para inverno").
Por que os usuários estão recorrendo ao Z-Image para conteúdo irrestrito?
Ao contrário dos modelos de difusão tradicionais que exigem dezenas de etapas para síntese de imagens, o Z-Image se destaca pela eficiência. Sua variante Turbo, a iteração mais popular, alcança latência inferior a um segundo em GPUs de alto desempenho como a H800, usando apenas oito Number of Function Evaluations (NFEs). Essa velocidade é particularmente benéfica para criadores de NSFW que frequentemente iteram prompts para refinar detalhes explícitos. Os recursos incluem renderização fotorrealista com controle impecável de iluminação, texturas e composições; renderização bilíngue de texto em inglês e chinês; e fortes capacidades de seguir instruções. Para aplicações NSFW, o status sem censura do Z-Image — sem os filtros de segurança encontrados em modelos como DALL-E ou Midjourney — permite a geração de conteúdo adulto sem restrições, conforme confirmado por testes da comunidade em plataformas como Reddit e YouTube no final de 2025.
O modelo base suporta ajuste fino para aplicações personalizadas, enquanto a variante Edit permite modificações precisas em imagens via prompts em linguagem natural.
Por que o Z-Image é ideal para criação de conteúdo NSFW?
Para artistas profissionais, desenvolvedores independentes de jogos e entusiastas, a capacidade de gerar conteúdo sem restrições é crucial. Seja para nudez artística, temas de terror intensos ou conteúdo adulto, os usuários migraram para o Z-Image porque ele não dá lições de moralidade.
Como o modelo é open source (licença Apache 2.0), os desenvolvedores podem treinar pequenos adaptadores para direcionar o modelo a estilos, personagens ou temas explícitos específicos sem restrições.
A criação de conteúdo NSFW exige flexibilidade, precisão nos detalhes e privacidade — qualidades que o Z-Image oferece de sobra. Ferramentas tradicionais frequentemente censuram prompts explícitos, limitando a expressão artística. O Z-Image, por sua vez, processa entradas sem censura, permitindo a geração de cenas eróticas, figuras de fantasia ou ilustrações com temática adulta com alta fidelidade. Sua superioridade em fotorrealismo para NSFW muitas vezes supera modelos como o Stable Diffusion em aderência ao prompt em cenários complexos envolvendo anatomia, poses e atmosferas. Essa abordagem sem censura está alinhada com a criação ética de conteúdo adulto, desde que os usuários observem os padrões legais e as diretrizes das plataformas.
Como acessar o Z-Image?
Acessar o Z-Image é simples, com opções baseadas em nuvem e locais para atender a diferentes necessidades dos usuários.
Onde encontrar o Z-Image online?
O principal ponto de acesso online é por meio do demo oficial no Hugging Face Spaces, onde você pode gerar imagens diretamente no navegador sem instalação. Para uma experiência web mais polida, visite z-image.ai, um serviço independente que implanta modelos Z-Image. Lá, os usuários fazem login para acessar uma galeria de imagens geradas, selecionar proporções (por exemplo, 16:9 para cenas NSFW em tela ampla) e usar créditos gratuitos diários.
Para usuários avançados, os checkpoints do modelo estão disponíveis no Hugging Face (https://huggingface.co/Tongyi-MAI/Z-Image-Turbo) e no ModelScope.
Quais são as opções gratuitas e pagas do Z-Image?
O acesso gratuito inclui créditos diários limitados no z-image.ai, suficientes para testar prompts NSFW. Planos pagos oferecem créditos adicionais para geração em alto volume, começando por faixas acessíveis. Para entusiastas de open source, o acesso local via GitHub (https://github.com/Tongyi-MAI/Z-Image) é totalmente gratuito, embora exija investimento em hardware.
Como instalar o Z-Image localmente?
A instalação local desbloqueia controle total, essencial para criação de NSFW com privacidade. Por ser open source, não é um "app" que você baixa de uma loja, mas um modelo que você executa em um ambiente.
Que hardware e software você precisa?
O Z-Image Turbo roda eficientemente em GPUs com 6–12 GB de VRAM, como NVIDIA RTX 3060 ou superior. Os pré-requisitos de software incluem Python 3.10+, PyTorch 2.0+ e CUDA para GPUs NVIDIA.
Guia de instalação passo a passo
- Clone o repositório:
git clonehttps://github.com/Tongyi-MAI/Z-Image.gite navegue até o diretório. - Instale as dependências:
pip install -e .para inferência nativa, oupip install git+https://github.com/huggingface/diffuserspara suporte ao Diffusers. - Baixe os modelos: Obtenha
Z-Image-Turbodo Hugging Face e coloque na sua pasta de modelos. - Para integração com ComfyUI (recomendado para fluxos de trabalho baseados em nós): Instale o ComfyUI, atualize-o e baixe os arquivos safetensors necessários, como
z_image_turbo_bf16.safetensors.
Como gerar conteúdo NSFW com o Z-Image?
Criar conteúdo NSFW envolve elaborar prompts eficazes e ajustar parâmetros.
Quais prompts funcionam melhor para imagens NSFW?
Prompts NSFW eficazes devem ser detalhados: especifique anatomia, poses, iluminação e clima. Por exemplo: "Uma mulher voluptuosa em lingerie, pose sedutora, iluminação suave de quarto, fotorrealista." Seu suporte bilíngue permite misturar idiomas para resultados únicos. Dicas do guia da fal.ai de dezembro de 2025 sugerem evitar termos vagos para melhorar a aderência.
Como usar código Python para geração de NSFW?
Aqui está um exemplo em Python usando Diffusers para geração local:
import torch
from diffusers import ZImagePipeline
# Load the pipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# Enable optimizations (optional)
# pipe.transformer.compile()
# pipe.enable_model_cpu_offload()
# NSFW prompt example
prompt = "Erotic scene of a nude couple embracing passionately, soft candlelight, detailed anatomy, high resolution, photorealistic."
# Generate image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # Optimal for Turbo
guidance_scale=0.0, # No guidance for uncensored output
generator=torch.Generator("cuda").manual_seed(69),
).images[0]
image.save("nsfw_example.png")
Esse código produz imagens NSFW de alta qualidade em segundos. Experimente diferentes sementes para variações.
Técnicas avançadas: edição de imagens para NSFW
Use o Z-Image-Edit para modificar imagens existentes: envie uma imagem base e use o prompt "Aprimorar a nudez com detalhes mais explícitos." Essa variante ajustada, prevista para lançamento completo no início de 2026 segundo atualizações de notícias, se destaca em edições criativas.
Como os usuários devem criar prompts para melhores resultados?
Criar prompts para o Z-Image é um pouco diferente de criar para modelos mais antigos como o Stable Diffusion 1.5. Como usa uma espinha dorsal Transformer semelhante aos Large Language Models (LLMs), ele entende muito melhor a linguagem natural.
1. Linguagem natural vs. "tag salad"
- Antiga abordagem (SD1.5):
masterpiece, best quality, 1girl, red dress, standing, city street, bokeh - Abordagem Z-Image:
A high-quality photo of a woman wearing a red dress standing on a busy city street with blurred lights in the background.
Embora ele possa entender tags separadas por vírgulas, destaca-se quando você descreve a cena em frases. Isso é particularmente útil para gerar cenas complexas sem restrições, nas quais a relação entre objetos (por exemplo, "X está segurando Y") é crucial.
2. Aproveitando as capacidades bilíngues
Um dos recursos exclusivos do Z-Image é sua capacidade de renderizar texto. Se você quiser texto na sua imagem, basta incluí-lo entre aspas.
- Prompt:
A movie poster for a horror film titled "THE UNKNOWN", dark atmosphere, skulls. - Resultado: O modelo provavelmente renderizará o texto "THE UNKNOWN" corretamente, algo que confunde a maioria dos outros modelos.
3. Usando prompts negativos
Para a versão Turbo, prompts negativos (dizendo ao modelo o que não gerar) são menos eficazes porque o modelo tem menos etapas para "se corrigir".
Conselho: Foque em um prompt positivo forte. Se você precisa remover elementos específicos (por exemplo, "mãos deformadas"), geralmente é melhor usar o modelo Base ou refinar a imagem usando um fluxo img2img.
Conclusão
O lançamento do Z-Image marca um momento crucial. Ele prova que modelos de código aberto da China não estão apenas alcançando os modelos fechados do Ocidente, mas os estão superando em eficiência e acessibilidade.
Para o usuário interessado em conteúdo irrestrito, o Z-Image representa liberdade. Ele rompe a dependência de serviços por assinatura que monitoram e censuram entradas. No entanto, essa liberdade vem acompanhada de responsabilidade.
A CometAPI oferece modelos Grok de forma semelhante menos restritos (O Grok permite NSFW? Tudo o que você precisa saber), bem como modelos como Nano Banana Pro, GPT- image 1.5, Sora 2 (O Sora 2 pode gerar conteúdo NSFW? Como podemos testá-lo?) etc. — desde que você tenha as dicas e truques certos de NSFW para contornar as restrições e começar a criar livremente. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao oficial para ajudar você a integrar.
Pronto para começar?→ Teste gratuito para criação !
