Alibaba, 세계 최초의 오픈소스 MoE 비디오 생성 모델인 Wan 2.2 공개

CometAPI
AnnaJul 29, 2025
Alibaba, 세계 최초의 오픈소스 MoE 비디오 생성 모델인 Wan 2.2 공개

알리바바의 DAMO 아카데미가 오늘 공식 출시되었습니다. 완 2.2, 오픈 소스 비디오 생성 모델의 차세대 제품군입니다. 전문가 혼합(MoE) 아키텍처. WAN 2.2는 계산 효율성, 동작 충실도, 그리고 영화적 표현력 면에서 획기적인 향상을 약속합니다. 이를 통해 개발자와 제작자는 전례 없는 제어력과 유연성으로 텍스트 또는 이미지 프롬프트에서 고품질 1080p 비디오를 제작할 수 있습니다. WAN 2.2는 이전 버전인 WAN 2.1에 비해 동작 품질, 시각적 디테일, 그리고 계산 효율성이 크게 향상되었습니다.

Wan 2.2의 주요 혁신

1. MoE 기반 노이즈 제거 파이프라인

시스템은 가장 중요한 부분, 즉 장면 레이아웃을 위한 광범위한 작업부터 세밀한 디테일 조정까지 리소스를 할당할 수 있습니다. 이러한 설계 덕분에 Wan 2.2의 주력 모델은 총 27억 개의 매개변수를 지원하는 동시에 추론 패스당 14억 개의 매개변수만 활성화하여 고품질 비디오 합성에 필요한 컴퓨팅 리소스를 효과적으로 절반으로 줄일 수 있습니다.

  • 고소음 전문가 전반적인 동작 궤적과 장면 구성을 확립하는 데 중점을 둡니다.
  • 저소음 전문가 세심한 질감, 얼굴 디테일, 조명 뉘앙스를 적용합니다.

이 듀얼 전문가 프레임워크를 사용하면 제작자는 Wan 2.1과 비교했을 때 GPU 메모리 요구 사항을 비례적으로 증가시키지 않고도 전문적인 영화적 충실도를 갖춘 더 길고 복잡한 시퀀스를 생성할 수 있습니다.

2. 영화적 미적 제어 시스템

혁신적인 건축 기술을 바탕으로, 사용자가 직관적인 키워드 프롬프트를 통해 조명, 색 보정, 카메라 각도, 구도를 조정할 수 있는 전례 없는 "필름 미학 제어 시스템"을 선보입니다. "석양", "부드러운 림 라이트", "로우 앵글 균형 구도"와 같은 설명어를 조합하여 제작자는 할리우드 블록버스터나 인디 예술 영화를 연상시키는 장면을 자동으로 생성할 수 있습니다. 반대로, "차가운 톤", "강한 조명", "동적 프레이밍"과 같은 입력을 통해 SF나 누아르 스타일의 영상을 원하는 대로 제작할 수 있습니다.

오픈 소스 AI 비디오 모델에서 처음으로 Wan 2.2는 다음을 통합합니다. 필름 등급 제어 인터페이스:

  • 60개 이상의 조정 가능한 매개변수 조명, 색상 등급, 프레이밍, 렌즈 효과, 피사계 심도 등을 다룹니다.
  • 스마트 스타일 연결사용자가 기분(예: "황혼의 누아르 조명")을 설명할 수 있고 시스템이 복잡한 카메라 및 색상 설정을 자동으로 구성하도록 할 수 있습니다.
  • 미리 정의된 영화 사전 설정"빈티지 웨스턴", "네오 도쿄 SF", "다큐멘터리 리포타주"와 같은 키워드를 사용하면 창의적인 워크플로우가 간소화됩니다.

3. 향상된 물리학 및 감정적 사실주의

Wan 2.2는 실제 현상과 인간의 미세 표정을 시뮬레이션하는 데 있어 현저한 개선을 보여줍니다.

  • 물리 시뮬레이션 자연스러운 유체 역학, 체적 조명, 충돌 효과를 위해.
  • 얼굴 미세 표정 캡처떨리는 입술, 눈썹 움직임, 억눌린 눈물과 같은 미묘한 신호를 높은 충실도로 표현합니다.
  • 여러 사람이 참여하는 장면 처리움직이는 캐릭터 전반에 걸쳐 일관된 상호작용과 일관된 조명을 보장합니다.

모델 변형 및 성능

Wan 2.2 릴리스에는 다음이 포함됩니다.

  • 완 2.2‑T2V‑A14B: 텍스트-비디오
  • 완 2.2‑I2V‑A14B: 이미지에서 비디오로
  • 완 2.2‑IT2V‑5B: 소비자 등급 GPU에 적합한 5억 개의 매개변수를 갖는 컴팩트한 통합 모델, 통합 세대

5B 변형은 3×4×16 시공간 토큰 감소를 위해 고압축 16D VAE를 활용하여, 적당한 하드웨어에서도 부드러운 1080p 출력을 구현합니다.

Wan 2.2 제품군에는 다양한 사용 사례에 맞게 설계된 두 가지 핵심 제품이 포함되어 있습니다.

14B-매개변수 MoE 모델(Wan 2.2-T2V-A14B 및 Wan 2.2-I2V-A14B)

  • 최고의 품질을 위해 전체 MoE 아키텍처를 채택했습니다.
  • 최대 1080p 해상도에서 텍스트-비디오 및 이미지-비디오 워크플로를 모두 지원합니다.
  • 스튜디오 수준의 제작과 연구에 이상적입니다.

5B-매개변수 밀집 통합 모델(Wan 2.2-IT2V-5B)

  • 단일 소비자 등급 GPU(예: NVIDIA RTX 4090)에 배포할 수 있는 소형의 성능 지향적 모델입니다.
  • 고압축 720D VAE를 활용해 품질 손실을 최소화하면서 24×3×4의 시간적, 공간적 다운샘플링을 달성하여 몇 분 만에 16p, 16fps 비디오를 생성합니다.
  • 취미인과 소규모 팀이 AI 비디오 생성을 실험할 수 있는 장벽을 낮춥니다.

벤치마크 결과에 따르면, 소형 모델은 표준 게임 하드웨어에서 5분 이내에 2.2초 분량의 고화질 클립을 제공할 수 있으며, 이는 Wan XNUMX가 해당 분야에서 가장 빠른 오픈 소스 솔루션 중 하나임을 보여줍니다.

접근성 및 오픈 소스 약속

Alibaba의 AI 민주화 공약에 따라 Wan 2.2는 완전히 오픈 소스이며 다양한 플랫폼을 통해 무료로 접근할 수 있습니다.

  • GitHub & Hugging Face 모델과 코드를 직접 다운로드할 수 있습니다.
  • 모다 커뮤니티 커뮤니티 중심의 확장 및 통합을 위해.
  • 알리바바 클라우드 바이리안 API 엔터프라이즈급 주문형 모델 호스팅을 위해.
  • Tongyi Wanxiang 웹사이트 및 앱 코드 없이 브라우저 기반으로 실험할 수 있습니다.

2025년 초부터 Wan 시리즈는 오픈 소스 커뮤니티에서 5만 건 이상의 다운로드를 기록하며 전 세계 AI 실무자 간의 협력적 혁신과 기술 개발을 촉진하는 역할을 강조했습니다.

업계에 미치는 영향

Wan 2.2의 출시는 AI 지원 영화 제작 및 콘텐츠 제작에 있어 중요한 순간을 의미합니다.

상업적 잠재력: 브랜드, 광고주, 소셜 미디어 플랫폼은 비디오 자산의 신속한 프로토타입 제작, 개인화된 광고 크리에이티브, 역동적인 스토리텔링 형식을 통해 이점을 얻을 수 있습니다.

장벽 낮추기: 전문가와 개인 크리에이터 모두 이제 값비싼 하드웨어나 소프트웨어 라이선스 없이도 스튜디오 수준에 가까운 비디오 제작이 가능합니다.

혁신 촉매: MoE 기반 생성 비디오 모델을 오픈 소스화하면 연구 협업이 가속화되고 잠재적으로 새로운 아키텍처와 예술적 도구가 탄생할 수 있습니다.

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

최신 통합 Wan 2.2가 곧 CometAPI에 출시될 예정이니 기대해 주세요!Gemini 2.5 Flash‑Lite 모델 업로드를 마무리하는 동안 모델 페이지에서 다른 모델을 살펴보거나 AI Playground에서 사용해 보세요.

기다리는 동안 개발자는 액세스할 수 있습니다. 베오 3 APIMidjourney 비디오 API 을 통하여 코멧API WAN 2.2 대신 비디오를 생성하려면, 이 기사가 게재된 날짜를 기준으로 최신 Claude Models 버전이 나열되어 있습니다. 먼저, 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

요약하자면, 알리바바의 Wan 2.2는 비디오 AI의 최첨단 기술을 발전시킬 뿐만 아니라 오픈소스 생태계가 어떻게 발전을 가속화하고 사용 사례를 다양화할 수 있는지를 보여주는 좋은 예입니다. 개발자들이 Wan XNUMX의 MoE 백본과 시네마틱 컨트롤을 실험하기 시작함에 따라, 알리바바가 지원했던 바로 그 커뮤니티에서 차세대 AI 생성 비디오 콘텐츠가 탄생할 가능성이 높습니다.

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인