Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

입력:$0.48/M
출력:$2.88/M
Qwen3.5 시리즈 397B-A17B 네이티브 비전-언어 모델은 선형 어텐션 메커니즘과 희소 Mixture-of-Experts 모델을 통합한 하이브리드 아키텍처를 기반으로 구축되어 더 높은 추론 효율을 달성한다.
새로운
상업적 사용
Playground
개요
기능
가격
API

Qwen3.5-397B-A17B의 기술 사양

항목Qwen3.5-397B-A17B (오픈 웨이트 사후 학습)
모델 계열Qwen3.5 (Tongyi Qwen 시리즈, Alibaba)
아키텍처하이브리드 Mixture-of-Experts(MoE) + Gated DeltaNet; 얼리 퓨전 멀티모달 학습
총 파라미터~397 billion (총계)
활성 파라미터 (A17B)토큰당 ~17 billion 활성(스파스 라우팅)
입력 유형텍스트, 이미지, 비디오(멀티모달 얼리 퓨전)
출력 유형텍스트(대화, 코드, RAG 출력), 이미지-텍스트, 멀티모달 응답
네이티브 컨텍스트 윈도우262,144 토큰(네이티브 ISL)
확장 가능한 컨텍스트플랫폼에 따라 YaRN/ RoPE 스케일링으로 ~1,010,000 토큰까지
최대 출력 토큰프레임워크/서빙 의존(가이드 예시 81,920–131,072)
언어200+ 개의 언어 및 방언
출시일2026년 2월 16일(오픈 웨이트 릴리스)
라이선스Apache‑2.0(Hugging Face / ModelScope에 오픈 웨이트)

Qwen3.5-397B-A17B란 무엇인가

Qwen3.5-397B-A17B는 Alibaba의 Qwen3.5 패밀리에서 최초로 공개된 오픈 웨이트 릴리스로, 에이전트형 워크플로우에 최적화된 대규모 멀티모달 Mixture‑of‑Experts 파운데이션 모델이다. 이 모델은 스파스 라우팅(“A17B” 접미사)을 사용하여 토큰당 ~17B 파라미터만 활성화하면서도 397B 파라미터 아키텍처의 전체 용량을 활용—지식 용량과 추론 효율의 균형을 제공한다.

이 릴리스는 긴 컨텍스트 추론, 시각 이해, 검색 증강/에이전트형 애플리케이션이 가능한 오픈·배포형 멀티모달 파운데이션 모델을 필요로 하는 연구자와 엔지니어링 팀을 대상으로 한다.


Qwen3.5-397B-A17B의 주요 특징

  • 스파스 MoE의 활성 파라미터 효율: 거대 글로벌 용량(397B)과 17B Dense 모델에 준하는 토큰당 활성으로, 지식 다양성을 유지하며 토큰당 FLOPS를 절감.
  • 네이티브 멀티모달(얼리 퓨전): 통합 토크나이제이션과 인코더 전략으로 텍스트·이미지·비디오를 학습하여 크로스모달 추론 지원.
  • 매우 긴 컨텍스트 지원: 262K 토큰 네이티브 입력 시퀀스 길이와, RoPE/YARN 스케일링을 통한 ~1M+ 토큰 확장 경로 문서화(검색·장문 파이프라인에 유리).
  • 사고 모드 및 에이전트 도구: 내부 추론 트레이스와 에이전트형 실행 패턴 지원; 예시로 툴 호출과 코드 인터프리터 통합.
  • 오픈 웨이트 및 광범위 호환성: Apache‑2.0으로 Hugging Face와 ModelScope에 공개, Transformers·vLLM·SGLang 및 커뮤니티 프레임워크용 일차 가이드 제공.
  • 엔터프라이즈 친화적 언어 커버리지: 200+ 언어에 대한 광범위 학습과, 대규모 배포 레시피 제공.

Qwen3.5-397B-A17B vs 선택 모델

모델컨텍스트 윈도우(네이티브)강점일반적 트레이드오프
Qwen3.5-397B-A17B262K (네이티브)멀티모달 MoE, 오픈 웨이트, 397B 용량과 17B 활성대형 아티팩트, 최적 성능에는 분산 호스팅 필요
GPT-5.2 (대표적 클로즈드)~400K(일부 변형 보고)단일 Dense 모델의 높은 추론 정확도웨이트 비공개, 대규모 스케일에서 높은 추론 비용
LLaMA‑스타일 Dense 70B~128K(가변)더 단순한 추론 스택, Dense 런타임의 낮은 VRAM 요구MoE 대비 글로벌 지식 파라미터 용량이 작음

알려진 제한 사항 및 운영 고려사항

  • 메모리 풋프린트: 스파스 MoE라도 큰 가중치 파일 저장이 필요하며, 17B Dense 클론과 비교해도 호스팅 시 저장소와 디바이스 메모리 요구가 큼.
  • 엔지니어링 복잡도: 최적 처리량을 위해 텐서/파이프라인 병렬화와 vLLM, SGLang 같은 프레임워크가 필요; 단일 GPU의 단순 호스팅은 비현실적.
  • 토큰 경제성: 토큰당 연산은 줄었지만, 매우 긴 컨텍스트는 I/O, KV 캐시 크기, 매니지드 제공업체 과금이 증가.
  • 안전 및 가드레일: 오픈 웨이트는 유연성을 높이지만, 안전 필터링·모니터링·배포 가드레일의 책임이 운영자에게 전가됨.

대표적인 사용 사례

  1. 연구 및 모델 분석: 오픈 웨이트로 재현 가능한 연구와 커뮤니티 주도 평가.
  2. 온프레미스 멀티모달 서비스: 데이터 레지던시가 필요한 엔터프라이즈가 비전+텍스트 워크로드를 로컬에서 운영.
  3. RAG 및 장문 파이프라인: 네이티브 긴 컨텍스트로 대규모 말뭉치의 단일 패스 추론에 유리.
  4. 코드 인텔리전스 및 에이전트 도구: 모노레포 분석, 패치 생성, 통제된 환경의 에이전트형 툴 호출 루프.
  5. 다국어 애플리케이션: 글로벌 제품을 위한 광범위 언어 지원.

Qwen3.5-397B-A17B 액세스 및 통합 방법

1단계: API 키 가입

cometapi.com에 로그인하세요. 아직 사용자라면 먼저 등록하세요. CometAPI 콘솔에 로그인합니다. 인터페이스의 액세스 자격 증명 API 키를 받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭하여 토큰 키(sk-xxxxx)를 받고 제출합니다.

2단계: Qwen3.5-397B-A17B API로 요청 전송

API 요청을 보낼 엔드포인트로 “Qwen3.5-397B-A17B”를 선택하고 요청 본문을 설정합니다. 요청 메서드와 요청 본문은 당사 웹사이트 API 문서에서 확인할 수 있습니다. 편의를 위해 Apifox 테스트도 제공합니다. 계정의 CometAPI 키로 <YOUR_API_KEY>를 실제 키로 교체하세요. 호출 위치: Chat 형식.

질문이나 요청을 content 필드에 넣습니다—모델이 해당 내용에 응답합니다. API 응답을 처리하여 생성된 답변을 얻습니다.

3단계: 결과 조회 및 검증

API 응답을 처리하여 생성된 답변을 얻습니다. 처리 후, API는 작업 상태와 출력 데이터를 응답합니다.

자주 묻는 질문

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

qwen3.5-397b-a17b의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

qwen3.5-397b-a17b 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.
코멧 가격 (USD / M Tokens)공식 가격 (USD / M Tokens)할인
입력:$0.48/M
출력:$2.88/M
입력:$0.6/M
출력:$3.6/M
-20%

qwen3.5-397b-a17b의 샘플 코드 및 API

[모델 이름]의 포괄적인 샘플 코드와 API 리소스에 액세스하여 통합 프로세스를 간소화하세요. 자세한 문서는 단계별 가이드를 제공하여 프로젝트에서 [모델 이름]의 모든 잠재력을 활용할 수 있도록 돕습니다.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

더 많은 모델