Makmal Tongyi Alibaba telah rasmi melancarkan Z-Image, sebuah model penjanaan imej sumber terbuka dengan 6 bilion parameter yang kini menggemparkan komuniti AI. Dilancarkan pada penghujung 2025, Z-Image dengan pantas menyingkirkan kegemaran terdahulu seperti Flux dan SDXL di mata ramai pengguna tempatan.
Walaupun kecekapan teknikal dan keupayaan dwibahasanya mengagumkan, perbincangan paling hangat tentang Z-Image berkisar pada atribut yang sama sekali berbeza: potensinya untuk penciptaan kandungan tanpa sekatan dan tanpa penapisan. Tidak seperti model proprietari berasaskan awan yang dikunci di sebalik penapis keselamatan ketat, pemberatan (weights) terbuka membolehkan pengguna menjalankan model ini secara tempatan pada perkakasan pengguna, memberikan kebebasan penuh terhadap kandungan yang mereka jana—termasuk bahan NSFW (Not Safe For Work).
Apakah Z-Image dan Mengapa Ia Menggugat Pasaran?
Z-Image (atau ZaoXiang) ialah model asas yang dibangunkan oleh Makmal Tongyi Alibaba. Tidak seperti model gergasi dan berat pada masa lalu yang memerlukan GPU gred perusahaan, Z-Image direka untuk kecekapan. Ia menggunakan seni bina Scalable Single-Stream Diffusion Transformer (S3-DiT).
Pencapaian Teknikal: S3-DiT
Kebanyakan penjana imej terdahulu, seperti Stable Diffusion XL (SDXL), menggunakan pendekatan aliran dwi (memproses data teks dan imej secara berasingan) atau aliran hibrid seperti Flux. Z-Image mempermudahnya dengan menggabungkan token teks, token semantik visual, dan token VAE imej ke dalam satu jujukan bersatu. Ini membolehkan model mengendalikan hubungan teks-imej dengan lebih langsung dan cekap.
Hasilnya? Sebuah model 6 bilion parameter yang berprestasi jauh melebihi kelas saiznya.
- Keperluan VRAM Rendah: Ia boleh berjalan pada GPU dengan serendah 6GB hingga 8GB VRAM, menjadikannya mudah diakses pengguna dengan kad lama seperti NVIDIA RTX 2060 atau 3060.
- Kelajuan Mengagumkan: Varian Z-Image-Turbo menggunakan proses inferens 8 langkah yang didistil, mampu menjana imej 1024x1024 berkualiti tinggi dalam masa kurang daripada satu saat pada H800, atau hanya beberapa saat pada kad pengguna.
- Penguasaan Dwibahasa: Ia memaparkan teks dalam bahasa Inggeris dan Cina dengan ketepatan tinggi, ciri yang sering kurang pada model berfokus Barat.
Varian-Varian
Keluaran ini termasuk tiga versi berbeza:
- Z-Image-Turbo: Sangat pantas. Dioptimumkan untuk penjanaan 8 langkah, sesuai untuk iterasi pantas dan aliran kerja masa nyata. Inilah versi yang kebanyakan pengguna gunakan untuk kegunaan tempatan.
- Z-Image-Base: Model asas mentah. Walaupun lebih perlahan, ia ialah pilihan utama untuk penyetelan halus komuniti dan latihan LoRA (Low-Rank Adaptations), kerana mengekalkan pengetahuan yang lebih terperinci.
- Z-Image-Edit: Varian khusus yang direka untuk penyuntingan imej berasaskan arahan (cth., "make the person smile," "change background to winter").
Mengapa Pengguna Beralih kepada Z-Image untuk Kandungan Tanpa Sekatan?
Tidak seperti model difusi tradisional yang memerlukan berpuluh-puluh langkah untuk sintesis imej, Z-Image unggul dalam kecekapan. Varian Turbo, iterasi paling popular, mencapai latensi bawah satu saat pada GPU berprestasi tinggi seperti H800, hanya menggunakan lapan Bilangan Penilaian Fungsi (NFE). Kelajuan ini amat bermanfaat untuk pencipta NSFW yang sering mengiterasi prompt untuk memperhalus perincian eksplisit. Ciri-ciri termasuk pemaparan fotorealistik dengan kawalan pencahayaan, tekstur, dan komposisi yang cemerlang; pemaparan teks dwibahasa dalam bahasa Inggeris dan Cina; serta keupayaan mengikuti arahan yang kukuh. Untuk aplikasi NSFW, statusnya yang tidak ditapis—tanpa penapis keselamatan seperti pada model seperti DALL-E atau Midjourney—membolehkan penjanaan kandungan dewasa tanpa sekatan, seperti disahkan oleh ujian komuniti di platform seperti Reddit dan YouTube pada penghujung 2025.
Model asas menyokong penyetelan halus untuk aplikasi tersuai, manakala varian Edit membolehkan pengubahsuaian imej yang tepat melalui prompt bahasa semula jadi.
Mengapa Z-Image Sesuai untuk Penciptaan Kandungan NSFW?
Bagi artis profesional, pembangun permainan bebas, dan penggemar, keupayaan menjana kandungan tanpa sekatan adalah penting. Sama ada untuk seni bogel, tema seram yang suram, atau kandungan dewasa, pengguna berbondong-bondong ke Z-Image kerana ia tidak "mendakwah" tentang moral.
Memandangkan model ini sumber terbuka (lesen Apache 2.0), pembangun boleh melatih penyesuai kecil ini untuk mengemudi model ke gaya, watak, atau tema eksplisit tertentu tanpa sekatan.
Penciptaan kandungan NSFW menuntut fleksibiliti, ketepatan perincian, dan privasi—kualiti yang Z-Image berikan sepenuhnya. Alat tradisional sering menapis prompt eksplisit, menghadkan ekspresi artistik. Z-Image pula memproses input yang tidak ditapis, membolehkan penjanaan adegan erotik, figura fantasi, atau ilustrasi bertema dewasa dengan fideliti tinggi. Keunggulannya dalam fotorealisme untuk NSFW sering mengatasi model seperti Stable Diffusion dalam pematuhan prompt bagi senario kompleks yang melibatkan anatomi, pose, dan suasana. Pendekatan tanpa penapisan ini sejajar dengan penciptaan kandungan dewasa yang beretika, asalkan pengguna mematuhi standard undang-undang dan garis panduan platform.
Bagaimana Mengakses Z-Image?
Mengakses Z-Image adalah mudah, dengan pilihan berasaskan awan dan setempat untuk memenuhi keperluan berbeza pengguna.
Di Mana Anda Boleh Menemui Z-Image dalam Talian?
Titik akses dalam talian utama adalah melalui demo rasmi di Hugging Face Spaces (https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo) , di mana anda boleh menjana imej terus dalam pelayar tanpa pemasangan. Untuk pengalaman web yang lebih rapi, lawati z-image.ai, perkhidmatan bebas yang menggunakan model Z-Image. Di sini, pengguna log masuk untuk mengakses galeri imej terjana, memilih nisbah bidang (cth., 16:9 untuk adegan NSFW skrin lebar), dan menggunakan kredit percuma harian.
Untuk pengguna lanjutan, titik semak model tersedia di Hugging Face (https://huggingface.co/Tongyi-MAI/Z-Image-Turbo) dan ModelScope.
Apakah Pilihan Percuma dan Berbayar untuk Z-Image?
Akses percuma termasuk kredit harian terhad di z-image.ai, mencukupi untuk menguji prompt NSFW. Pelan berbayar menawarkan kredit tambahan untuk penjanaan volum tinggi, bermula pada aras harga yang berpatutan. Bagi peminat sumber terbuka, akses tempatan melalui GitHub (https://github.com/Tongyi-MAI/Z-Image) adalah percuma sepenuhnya, walaupun memerlukan pelaburan perkakasan.
Bagaimana Memasang Z-Image Secara Tempatan?
Pemasangan tempatan membuka kawalan penuh, penting untuk penciptaan NSFW yang sensitif terhadap privasi. Oleh kerana ia sumber terbuka, ia bukan "aplikasi" yang dimuat turun dari gedung, tetapi model yang anda jalankan dalam persekitaran.
Perkakasan dan Perisian Apa yang Anda Perlukan?
Z-Image Turbo berjalan dengan cekap pada GPU dengan 6–12GB VRAM, seperti NVIDIA RTX 3060 atau lebih tinggi. Prasyarat perisian termasuk Python 3.10+, PyTorch 2.0+, dan CUDA untuk GPU NVIDIA.
Panduan Pemasangan Langkah demi Langkah
- Klon repositori:
git clonehttps://github.com/Tongyi-MAI/Z-Image.gitdan pergi ke direktori tersebut. - Pasang kebergantungan:
pip install -e .untuk inferens natif, ataupip install git+https://github.com/huggingface/diffusersuntuk sokongan Diffusers. - Muat turun model: Dapatkan
Z-Image-Turbodari Hugging Face dan letakkan dalam folder model anda. - Untuk integrasi ComfyUI (disyorkan untuk aliran kerja berasaskan nod): Pasang ComfyUI, kemas kini, dan muat turun fail safetensors yang diperlukan seperti
z_image_turbo_bf16.safetensors.
Bagaimana Menjana Kandungan NSFW dengan Z-Image?
Mencipta kandungan NSFW melibatkan penggubalan prompt yang berkesan dan penyetelan parameter.
Prompt Apakah yang Paling Berkesan untuk Imej NSFW?
Prompt NSFW yang berkesan harus terperinci: Nyatakan anatomi, pose, pencahayaan, dan suasana. Contohnya: "Seorang wanita bertubuh montok memakai lingeri, pose menggoda, pencahayaan bilik tidur malap, fotorealistik." Sokongan dwibahasanya membolehkan mencampur bahasa untuk hasil yang unik. Petua daripada panduan Disember 2025 oleh fal.ai mencadangkan mengelakkan istilah kabur untuk meningkatkan pematuhan.
Bagaimana Menggunakan Kod Python untuk Penjanaan NSFW?
Berikut contoh Python menggunakan Diffusers untuk penjanaan tempatan:
import torch
from diffusers import ZImagePipeline
# Muatkan pipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# Dayakan pengoptimuman (pilihan)
# pipe.transformer.compile()
# pipe.enable_model_cpu_offload()
# Contoh prompt NSFW
prompt = "Adegan erotik pasangan bogel berpelukan dengan penuh ghairah, cahaya lilin lembut, anatomi terperinci, resolusi tinggi, fotorealistik."
# Jana imej
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # Optimum untuk Turbo
guidance_scale=0.0, # Tiada panduan untuk keluaran tidak ditapis
generator=torch.Generator("cuda").manual_seed(69),
).images[0]
image.save("nsfw_example.png")
Kod ini menghasilkan imej NSFW berkualiti tinggi dalam beberapa saat. Uji dengan seed berbeza untuk variasi.
Teknik Lanjutan: Penyuntingan Imej untuk NSFW
Gunakan Z-Image-Edit untuk mengubah suai imej sedia ada: Muat naik imej asas dan berikan prompt "Tingkatkan ketelanjangan dengan butiran yang lebih eksplisit." Varian yang ditala ini, yang dijadualkan untuk keluaran penuh pada awal 2026 menurut kemas kini berita, cemerlang dalam suntingan kreatif.
Bagaimana Pengguna Perlu Membuat Prompt untuk Hasil Terbaik?
Prompt untuk Z-Image sedikit berbeza daripada prompt untuk model lama seperti Stable Diffusion 1.5. Oleh kerana ia menggunakan rangka Transformer yang serupa dengan Model Bahasa Besar (LLM), ia memahami bahasa semula jadi dengan lebih baik.
1. Bahasa Semula Jadi vs. Senarai Tag
- Cara Lama (SD1.5):
masterpiece, best quality, 1girl, red dress, standing, city street, bokeh - Cara Z-Image:
Foto berkualiti tinggi seorang wanita memakai gaun merah berdiri di jalan bandar yang sibuk dengan lampu kabur di latar belakang.
Walaupun ia boleh memahami tag yang dipisahkan koma, ia cemerlang apabila anda menerangkan adegan dalam ayat. Ini amat berguna untuk menjana adegan kompleks tanpa sekatan di mana hubungan antara objek (cth., "X sedang memegang Y") adalah penting.
2. Memanfaatkan Keupayaan Dwibahasa
Salah satu ciri unik Z-Image ialah keupayaannya untuk memaparkan teks. Jika anda mahukan teks dalam imej anda, sertakannya dalam tanda petik.
- Prompt:
Poster filem untuk filem seram bertajuk "THE UNKNOWN", suasana gelap, tengkorak. - Hasil: Model berkemungkinan memaparkan teks "THE UNKNOWN" dengan betul, sesuatu yang mengelirukan kebanyakan model lain.
3. Menggunakan Prompt Negatif
Untuk versi Turbo, prompt negatif (memberitahu model apa yang tidak mahu dihasilkan) kurang berkesan kerana model mempunyai lebih sedikit langkah untuk "membetulkan" dirinya.
Nasihat: Fokus pada prompt positif yang kuat. Jika anda perlu membuang elemen tertentu (cth., "tangan cacat"), selalunya lebih baik menggunakan model Base atau memperhalus imej menggunakan aliran kerja img2img.
Kesimpulan
Keluaran Z-Image menandakan detik penting. Ia membuktikan bahawa model sumber terbuka dari China bukan sahaja mengejar model sumber tertutup Barat tetapi mengatasinya dari segi kecekapan dan kebolehcapaian.
Bagi pengguna yang berminat dengan kandungan tanpa sekatan, Z-Image mewakili kebebasan. Ia memecahkan kebergantungan kepada perkhidmatan berasaskan langganan yang memantau dan menapis input. Walau bagaimanapun, kebebasan ini datang bersama tanggungjawab.
CometAPI menawarkan model Grok yang kurang terhad serupa (Adakah Grok membenarkan NSFW? Semua yang Anda Perlu Tahu), serta model seperti Nano Banana Pro, GPT- image 1.5, Sora 2 (Bolehkah Sora 2 menjana kandungan NSFW? Bagaimana kita boleh mencubanya?) dan lain-lain—dengan syarat anda mempunyai tip dan helah NSFW yang tepat untuk memintas sekatan dan mula berkarya dengan bebas. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasikan.
Sedia Bermula?→ Percubaan percuma untuk Mencipta !
