WAN 2.1 API

CometAPI
AnnaMar 20, 2025
WAN 2.1 API

Wan 2.1 API는 최첨단 딥 러닝 모델을 사용하여 텍스트나 이미지 입력을 고품질의 사실적인 비디오로 변환하는 고급 AI 기반 비디오 생성 인터페이스입니다.

WAN 2.1 API

기본 정보: Wan 2.1이란 무엇입니까?

Wan 2.1은 Alibaba Cloud에서 개발한 AI 모델로, 텍스트 또는 이미지 기반 입력에서 고품질 비디오 콘텐츠를 생성하도록 설계되었습니다. Diffusion Transformers 및 3D Variational Autoencoders(VAE)를 포함한 고급 딥 러닝 프레임워크를 활용하여 동적이고 시각적으로 일관된 비디오 클립을 합성합니다. 오픈 소스 솔루션인 Wan 2.1은 광범위한 개발자, 연구자 및 콘텐츠 제작자가 사용할 수 있어 AI 기반 비디오 생성 기능을 크게 향상시킵니다.

Wan 2.1의 성능 지표

Wan 2.1은 AI 생성 비디오 품질에서 뛰어난 성능을 보여주었으며, 기존 오픈소스 모델을 지속적으로 능가하고 상업용 폐쇄 소스 솔루션과 경쟁했습니다. 이 모델은 비디오 생성 모델을 평가하는 데 사용되는 벤치마크인 VBench에서 높은 순위를 차지했으며, 특히 복잡한 동작 생성 및 다중 객체 상호 작용에서 탁월했습니다. 이전 반복에 비해 Wan 2.1은 뛰어난 시간적 일관성, 향상된 해상도, 감소된 아티팩트를 제공하여 원활한 시청 환경을 보장합니다.

기술적인 세부 사항

건축 혁신

이 모델은 다음을 통합한 최첨단 프레임워크를 기반으로 구축되었습니다.

  • 3D 변분 자동 인코더(VAE): 높은 비디오 화질을 유지하면서 시공간적 압축을 강화하고 메모리 사용량을 줄입니다.
  • 확산 변압기(DiT): 비디오 생성 시 장기적인 시공간적 일관성을 가능하게 하는 전체 주의 메커니즘을 구현합니다.
  • 다단계 훈련 과정: 점차적으로 해상도와 비디오 길이를 늘려서 훈련 효율성과 계산 리소스 할당을 최적화합니다.

모델 변형

다양한 사용자 요구 사항을 충족하기 위해 여러 가지 구성으로 제공됩니다.

  • 완 2.1-T2V-14B: 고품질의 사실적인 비디오 합성에 최적화된 14억 개의 매개변수를 가진 텍스트-비디오 모델입니다.
  • 완 2.1-T2V-1.3B: 1.3GB의 VRAM만 필요로 하는 8.19억 개의 매개변수를 갖는 접근성 높은 모델을 통해 소비자 등급 GPU가 약 5분 안에 480초짜리 4p 비디오를 생성할 수 있습니다.
  • WAN 2.1-I2V-14B-480P 및 720P: 정적 이미지를 동적 비디오 콘텐츠로 변환하도록 설계된, 다양한 해상도를 지원하는 이미지-비디오 모델입니다.

훈련 데이터 세트 및 전처리

Wan 2.1에 사용된 데이터 세트는 여러 단계의 데이터 정리 및 증강 프로세스를 사용하여 신중하게 큐레이팅된 대규모 고품질 비디오 시퀀스로 구성되어 있습니다. 이를 통해 시각적 및 동작 충실도를 향상시키는 동시에 품질이 낮은 데이터를 제거할 수 있습니다. 사전 학습 프로세스는 XNUMX단계로 나뉘며, 다양한 해상도와 동작 복잡성을 처리하는 모델의 능력을 점진적으로 개선합니다.

Wan 2.1의 진화

Wan 2.1은 이전 반복에 비해 상당한 개선 사항을 통합한 이전 AI 기반 비디오 생성 모델의 직접적인 진화입니다. 기존 생성적 적대 네트워크(GAN)에서 확산 기반 아키텍처로의 전환은 생성된 비디오의 사실성과 응집성을 크게 향상시켰습니다. 또한, 트랜스포머 기반 어텐션 메커니즘을 채택하여 보다 정교한 시공간적 모델링이 가능해져 여러 평가 지표에서 성능이 향상되었습니다.

Wan 2.1의 장점

최첨단 비디오 생성

Wan 2.1은 복잡한 동작과 자연스러운 객체를 사용하여 사실적인 비디오를 생성하는 측면에서 기존의 오픈소스 모델을 능가합니다.

높은 계산 효율

최적화된 아키텍처는 효율적인 GPU 활용을 보장하며, 소비자용 하드웨어에서도 고품질 비디오 콘텐츠를 생성할 수 있습니다.

다양한 응용 가능성

텍스트-비디오(T2V) 및 이미지-비디오(I2V) 생성을 지원하므로 미디어, 마케팅, 교육, 게임 등 다양한 산업에 매우 적합합니다.

오픈 소스 접근성

Wan 2.1은 Apache 2.0 라이선스에 따라 제공되어 혁신을 촉진하고 AI 연구자와 개발자 사이에서 더 폭넓은 채택을 가능하게 합니다.

기술 지표

벤치마크 성능

  • VBench 랭킹: 다중 객체 상호작용 및 동작 복잡성 부문에서 지속적으로 최고 점수를 달성합니다.
  • 추론 속도: 더 작은 모델 변형(1.3B)은 양자화와 같은 최적화 기술이 필요 없이 RTX 5에서 480분 안에 4초짜리 4090p 비디오를 생성합니다.
  • 메모리 활용: 효율적인 처리를 위해 8.19GB의 VRAM만 필요하므로 다양한 사용자가 이용할 수 있습니다.

응용 프로그램 시나리오

광고 및 마케팅 브랜드가 고품질 홍보 영상을 빠르게 제작할 수 있어 제작 비용과 일정이 단축됩니다.

교육과 훈련 역동적인 교육 콘텐츠 개발을 촉진하여 참여와 학습 경험을 향상시킵니다.

엔터테인먼트 및 콘텐츠 제작 AI 지원 비디오 제작 도구를 통해 영화 제작자, 애니메이터 및 콘텐츠 제작자에게 역량을 제공합니다.

가상 현실(VR) 및 증강 현실(AR) AI가 생성한 비디오 자산을 통해 몰입형 디지털 경험 제작을 지원합니다.

관련 주제:3년 최고의 2025가지 AI 음악 생성 모델

결론

Wan 2.1은 AI 기반 비디오 생성에서 큰 진전을 나타내며 품질, 효율성 및 접근성에 대한 새로운 벤치마크를 설정합니다. 최첨단 머신 러닝 아키텍처, 높은 계산 효율성 및 오픈 소스 가용성의 조합은 다양한 산업에서 귀중한 도구가 됩니다. AI가 창의성과 자동화의 경계를 계속 넓히면서 디지털 콘텐츠 생성을 재구성하는 생성 모델의 잠재력을 보여줍니다.

CometAPI에서 Wan 2.1 API를 호출하는 방법

1.로그인코메타피닷컴. 아직 당사 사용자가 아니신 경우 먼저 등록해 주시기 바랍니다.

2.액세스 자격 증명 API 키 가져오기 인터페이스의. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키: sk-xxxxx를 가져와 제출합니다.

  1. 이 사이트의 url을 얻으세요: https://api.cometapi.com/

  2. API 요청을 보낼 Wan 2.1 엔드포인트를 선택하고 요청 본문을 설정합니다. 요청 메서드와 요청 본문은 다음에서 가져옵니다. 우리 웹사이트 API 문서. 저희 웹사이트는 귀하의 편의를 위해 Apifox 테스트도 제공합니다.

  3. API 응답을 처리하여 생성된 답변을 얻습니다. API 요청을 보낸 후 생성된 완료를 포함하는 JSON 객체를 받게 됩니다.

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인