Wan 2.6 техникалық сипаттамалары
| Параметр | Wan 2.6 бейне жинағы |
|---|---|
| Провайдер | Alibaba / Tongyi Lab |
| Модельдер отбасы | Wan 2.6 |
| Шығарылым мерзімі | 2025 жылғы желтоқсан айындағы генерация |
| Енгізу түрлері | Мәтін, кескіндер, референс бейнелер, аудио енгізулер |
| Шығыс түрі | Қосымша синхрондалған аудиомен бейне |
| Негізгі режимдер | Мәтіннен бейнеге (T2V), кескіннен бейнеге (I2V), референстен бейнеге (R2V) |
| Flash нұсқалары | I2V Flash, R2V Flash |
| Ажыратымдылық қолдауы | 720P және 1080P |
| Ұзақтығы бойынша қолдау | 2–15 секунд (жұмыс ағынына байланысты) |
| Аудио мүмкіндіктері | Түпнұсқа аудио генерациясы, дауыс референстері, ерін синхрондау |
| Көп кадрлы қолдау | Бір жұмыс ағынында 2–8 көрініс сегменті |
| Референс қолдауы | 5 референске дейін (жұмыс ағына байланысты аралас кескін/бейне) |
| API жұмыс ағыны | Асинхронды тапсырма құру + поллинг |
Wan 2.6 деген не?
Wan 2.6 — Alibaba-ның мультимодалды бейне генерациялау жүйесі, ол басқарылатын қысқа форматтағы өндіріске шоғырланған. Тек промптқа негізделген тәсілден гөрі, бұл модель жасаушылардың жұмыс ағындары үшін мәтіндік промпттарды, кескін референстерін, референс бейнелерді, аудио бойынша шарттауды және көріністерді тізбектеуді біріктіреді. Алдыңғы Wan нұсқаларымен салыстырғанда негізгі жаңарту — референске негізделген тұтастықтың күшеюі және ұзағырақ баяндауды генерациялау.
Wan 2.6 негізгі мүмкіндіктері
- Референстен бейнеге жұмыс ағындары: Пайдаланушылар әр генерацияда кейіпкердің болмысын, стильін және дауыстың сабақтастығын сақтау үшін кескін немесе бейне референстерін бере алады.
- Көп кадрлы нарратив генерациясы: Бір генерациялау ағынында көріністер арасындағы ауысулар мен оқиға дамуын қамтамасыз ету үшін бірнеше промптты тізбектеуді қолдайды.
- Түпнұсқа аудио синхронизациясы: Генерацияланған аудио, қолданушы жүктеген жеке аудио және ерін синхрондау жұмыс ағындары үшін кіріктірілген қолдау.
- Икемді енгізу режимдері: Тек промпт арқылы генерациялауды, алғашқы кадрдан анимациялауды және референс-бағытталған жұмыс ағындарын қолдайды.
- Итерацияға арналған Flash нұсқалары: Жылдам нұсқалар соңғы жоғары сапалы рендерлерге дейін жедел тестілеуге мүмкіндік береді.
- Ұзағырақ клиптер: Бұрынғы генерациялармен салыстырғанда клип ұзақтығы ұлғайтылған, бұл нарративтік контент жасауды қолдайды.
Wan 2.6 бенчмарк өнімділігі
Wan 2.6 үшін ресми бенчмарк ашықтығы шектеулі күйінде қалып отыр; Alibaba мәтіндік LLM провайдерлеріне қарағанда стандартталған бенчмарк көрсеткіштерін азырақ жариялады. Бағалаудың көбі ашық лидербордтардан гөрі жұмыс ағындарын тестілеу мен экожүйелік салыстырулардан алынады. Қауымдастық тестілері тұрақты түрде мыналарды атап көрсетеді:
- Ескі Wan нұсқаларымен салыстырғанда кейіпкер тұтастығының жақсаруы.
- Аудио-бейне синхрондаудың жақсаруы.
- Көп кадрлы сабақтастықтың күшеюі.
- Референс бойынша шарттаудың сенімдірек болуы.
Бенчмарк жарияланымдары сирек болғандықтан, өндірістік тестілеу енгізуге дейін маңызды болып қала береді.
Wan 2.6 және басқа бейне модельдері
| Мүмкіндік | Wan 2.6 | Wan 2.7 | Veo-family models |
|---|---|---|---|
| Түпнұсқа аудио генерациясы | Күшті | Күштірек | Күшті |
| Көп кадрлы жұмыс ағыны | Иә | Жақсартылған | Орташа |
| Референстен бейнеге | Күшті басымдық | Күштірек басқару мүмкіндіктері | Орташа |
| Клип ұзақтығы | 15s дейін | Ұқсас / жұмыс ағынына байланысты | Әр түрлі |
| Көп референсті қолдау | 5 референске дейін | Кеңейтілген жұмыс ағындары | Орташа |
| Өңдеу жұмыс ағындары | Орташа | Өңдеуді жақсырақ қолдау | Күшті |
Wan 2.6 шектеулері
- Қысқа клип ұзақтығы әлі де ұзақ форматтағы өндірісті шектейді.
- Қозғалысы жоғары көріністерде уақытша тұрақсыздық байқалуы мүмкін.
- Референсқа тәуелді жұмыс ағындары баптау күрделілігін арттырады.
- Қоғамдық бенчмарк есептері шектеулі күйінде қалып отыр.
- Асинхронды генерациялау конвейерлері интеграция күрделілігін арттырады.
Өкілдік қолдану сценарийлері
- Кейіпкер тұрақтылығы сақталған маркетингтік бейнелер.
- Көп көріністі әлеуметтік желі клиптері.
- Автор аватарын анимациялау.
- Референске негізделген өнім бейнелері.
- Синхрондалған аудиомен AI арқылы әңгімелеу.
- Тұлғалық сәйкестікті сақтауды қажет ететін бренд контенті.