阿里巴巴通义实验室已正式发布 Z-Image,这是一款拥有 60 亿参数的开源图像生成模型,正席卷整个 AI 社区。自 2025 年底发布以来,Z-Image 在许多本地用户眼中迅速取代了 Flux 和 SDXL 等以往热门。
尽管其技术效率和双语能力令人印象深刻,但围绕 Z-Image 最受关注的话题完全是另一个特性:其在不受限制、无审查内容创作方面的潜力。不同于被严格安全过滤器锁定的专有云端模型,其开放权重允许用户在消费级硬件上本地运行,从而对生成内容拥有完全自由——包括 NSFW(Not Safe For Work)材料。
什么是 Z-Image,它为何正在颠覆市场?
Z-Image(或称 ZaoXiang)是阿里巴巴通义实验室开发的基础模型。不同于以往需要企业级 GPU 的庞大模型,Z-Image 专为高效而生。它采用一种新颖的**可扩展单流扩散 Transformer(S3-DiT)**架构。
技术突破:S3-DiT
此前的大多数图像生成器(如 Stable Diffusion XL(SDXL))采用双流方法(分别处理文本和图像数据),或像 Flux 一样采取混合流。Z-Image 通过将文本、视觉语义 token 和图像 VAE token 拼接为单一统一序列来简化这一过程。这使得模型能够更直接、更高效地处理文本-图像关系。
结果如何?一个 60 亿参数、却远超同级别表现的模型。
- 低显存需求: 在仅有 6GB 至 8GB 显存 的 GPU 上即可运行,使得配备 NVIDIA RTX 2060 或 3060 等旧卡的用户也能使用。
- 惊人的速度: Z-Image-Turbo 变体采用蒸馏的 8 步推理流程,可在 H800 上以亚秒级生成高质量 1024x1024 图像,或在消费级显卡上用时数秒。
- 双语精通: 能高准确度渲染英文与中文文本,这在西方中心化模型中常见缺失。
版本
本次发布包含三个不同版本:
- Z-Image-Turbo: 极速版本。针对 8 步生成优化,适合快速迭代和实时工作流。这是当前多数用户用于本地部署的版本。
- Z-Image-Base: 原始基础模型。虽然更慢,但因保留更详细的知识,更适合社区进行微调和训练 LoRA(低秩适配)。
- Z-Image-Edit: 专为指令跟随的图像编辑而设计(例如“让人物微笑”“将背景改为冬季”)。
为什么用户转向 Z-Image 进行不受限制的内容创作?
不同于传统扩散模型需要几十步进行图像合成,Z-Image 在效率上表现出色。最受欢迎的 Turbo 版本在 H800 等高端 GPU 上仅用八次函数评估(NFE)即可实现亚秒级延迟。这种速度对经常迭代提示词以微调细节的 NSFW 创作者尤其有利。其特性包括对光照、质感与构图的精确控制下的照片级真实感;中英文双语文本渲染;以及强大的指令跟随能力。用于 NSFW 时,Z-Image 的“未审查”状态——缺少 DALL·E 或 Midjourney 等模型中的安全过滤器——使得无需限制即可生成成人内容,且这一点已在 2025 年底 Reddit 和 YouTube 等平台上的社区测试中得到验证。
基础版支持用于自定义应用的微调,而 Edit 版本可通过自然语言提示实现精确的图像修改。
为什么 Z-Image 非常适合 NSFW 内容创作?
对职业艺术家、独立游戏开发者和爱好者而言,生成不受限制的内容至关重要。无论是艺术化裸露、逼真的恐怖主题,还是成人内容,用户纷纷选择 Z-Image,因为它不会进行道德说教。
由于该模型是开源的(Apache 2.0 许可证),开发者可以训练小型适配器,将模型引导至特定风格、角色或露骨主题,且不受限制。
NSFW 内容创作需要灵活性、细节准确度与隐私——而这些正是 Z-Image 所擅长的。传统工具常会屏蔽露骨提示词,限制艺术表达。Z-Image 则能处理未审查输入,以高保真度生成色情场景、奇幻人物或成人主题插画。在 NSFW 的照片级真实感方面,其在复杂场景(涉及解剖、姿态和氛围等)的提示词遵循度上,常常优于 Stable Diffusion 等模型。这种未审查的方法与合乎伦理的成人内容创作相契合,前提是用户遵守法律标准与平台规范。
如何获取 Z-Image?
访问 Z-Image 很简单,云端与本地两种方案可满足不同用户需求。
在线哪里可以使用 Z-Image?
主要在线入口是 Hugging Face Spaces 官方演示,你可以直接在浏览器中生成图像,无需安装。若需更完善的网页体验,可访问 z-image.ai,这是一项部署 Z-Image 模型的独立服务。用户登录后即可浏览生成图片库、选择纵横比(例如用于宽屏 NSFW 场景的 16:9),并使用每日免费额度。
面向高级用户,模型检查点可在 Hugging Face(https://huggingface.co/Tongyi-MAI/Z-Image-Turbo)与 ModelScope 获取。
Z-Image 的免费与付费选项有哪些?
免费访问包括 z-image.ai 上的每日有限额度,足以测试 NSFW 提示词。付费方案提供更多额度以支持大批量生成,且起价亲民。对开源爱好者而言,通过 GitHub(https://github.com/Tongyi-MAI/Z-Image)进行本地访问完全免费,但需要硬件投入。
如何在本地安装 Z-Image?
本地安装可以解锁完整控制力,这对注重隐私的 NSFW 创作至关重要。由于它是开源的,这不是从商店下载的“应用”,而是需要在环境中运行的模型。
需要什么硬件和软件?
Z-Image Turbo 可在 6–12GB 显存的 GPU(如 NVIDIA RTX 3060 或更高型号)上高效运行。软件前置条件包括 Python 3.10+、PyTorch 2.0+,以及适用于 NVIDIA GPU 的 CUDA。
分步安装指南
- 克隆仓库:
git clonehttps://github.com/Tongyi-MAI/Z-Image.git并进入目录。 - 安装依赖:用于原生推理执行
pip install -e .,或执行pip install git+https://github.com/huggingface/diffusers以获得 Diffusers 支持。 - 下载模型:从 Hugging Face 获取
Z-Image-Turbo并放入你的 models 文件夹。 - 集成 ComfyUI(推荐用于基于节点的工作流):安装 ComfyUI,更新它,并下载所需的 safetensors 文件,如
z_image_turbo_bf16.safetensors。
如何使用 Z-Image 生成 NSFW 内容?
创建 NSFW 内容需要编写有效的提示词并微调参数。
哪些提示词最适合 NSFW 图像?
有效的 NSFW 提示词应当具体:明确解剖、姿态、光照与氛围。例如:“穿着内衣的丰腴女性,诱惑姿势,昏暗卧室灯光,照片级真实感。”其双语支持允许混合语言以获得独特结果。根据 fal.ai 2025 年 12 月的指南,建议避免使用模糊术语以增强遵循度。
如何使用 Python 代码生成 NSFW?
以下是一个使用 Diffusers 在本地生成的 Python 示例:
import torch
from diffusers import ZImagePipeline
# 加载管线
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# 启用优化(可选)
# pipe.transformer.compile()
# pipe.enable_model_cpu_offload()
# NSFW 提示词示例
prompt = "一对裸露情侣热情相拥的情色场景,柔和烛光,细致的解剖细节,高分辨率,照片级真实感。"
# 生成图像
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # 对 Turbo 最优
guidance_scale=0.0, # 未受限输出无需引导
generator=torch.Generator("cuda").manual_seed(69),
).images[0]
image.save("nsfw_example.png")
该代码可在数秒内生成高质量的 NSFW 图像。通过更换种子获取不同变体。
进阶技巧:用于 NSFW 的图像编辑
使用 Z-Image-Edit 对现有图像进行修改:上传基图并输入提示“增强裸露并加入更露骨的细节”。根据新闻更新,该微调变体计划于 2026 年初完整发布,且在创意编辑方面表现出色。
用户应如何编写提示词以获得最佳效果?
为 Z-Image 编写提示词与为旧模型(如 Stable Diffusion 1.5)略有不同。由于它采用类似大型语言模型(LLM)的 Transformer 主干,它对自然语言的理解更好。
1. 自然语言 vs. 标签堆砌
- 旧方法(SD1.5):
masterpiece, best quality, 1girl, red dress, standing, city street, bokeh - Z-Image 方法:
A high-quality photo of a woman wearing a red dress standing on a busy city street with blurred lights in the background.
虽然它也能理解逗号分隔的标签,但当你用句子描述场景时,它的表现尤为出色。对于生成复杂且不受限制的场景(如“X 正拿着 Y”),对象之间的关系尤为关键,这种方式更为有效。
2. 利用双语能力
Z-Image 的一大特色是能够渲染文本。如果你希望图像包含文本,只需将其放在引号中。
- 提示:
A movie poster for a horror film titled "THE UNKNOWN", dark atmosphere, skulls. - 结果: 模型很可能能够正确渲染“THE UNKNOWN”这段文字,而这往往是其他模型难以做到的。
3. 使用负面提示词
对于 Turbo 版本,负面提示词(告诉模型不生成什么)效果较弱,因为模型用于“修正”自身的步骤更少。
建议: 专注于强有力的正向提示词。如果需要去除特定元素(例如“畸形的手”),通常更好地使用 Base 模型,或通过 img2img 工作流对图像进行细化。
结论
Z-Image 的发布是一个关键时刻。它证明了来自中国的开源模型不仅在追赶西方的闭源模型,而且在效率与可及性方面实现了超越。
对于关注不受限制内容的用户,Z-Image 代表着自由。它打破了对监控和审查输入的订阅服务的依赖。然而,自由与责任并行。
CometAPI 也提供限制更少的 Grok 模型(Grok 是否允许 NSFW?你需要知道的一切),以及诸如 Nano Banana Pro、GPT- image 1.5、Sora 2(Sora 2 能生成 NSFW 吗?我们如何试用?)等——前提是你掌握合适的 NSFW 技巧与提示词以绕过限制并自由创作。在访问前,请确保你已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方的价格,帮助你完成集成。
准备好出发了吗?→ 创建免费试用 !
