Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

Entrada:$0.48/M
Saída:$2.88/M
O modelo nativo de visão-linguagem Qwen3.5 series 397B-A17B é baseado em uma arquitetura híbrida que integra um mecanismo de atenção linear com um modelo de mistura esparsa de especialistas, proporcionando maior eficiência de inferência.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas do Qwen3.5-397B-A17B

ItemQwen3.5-397B-A17B (pesos abertos pós-treinados)
Model familyQwen3.5 (série Tongyi Qwen, Alibaba)
ArchitectureMistura de Especialistas (MoE) híbrida + Gated DeltaNet; treinamento multimodal de fusão precoce
Total parameters~397 bilhões (total)
Active parameters (A17B)~17 bilhões ativos por token (roteamento esparso)
Input typesTexto, Imagem, Vídeo (fusão precoce multimodal)
Output typesTexto (chat, código, saídas de RAG), image-to-text, respostas multimodais
Native context window262,144 tokens (ISL nativo)
Extensible contextAté ~1,010,000 tokens via escalonamento YaRN/ RoPE (dependente da plataforma)
Max output tokensDependente do framework/serviço (exemplos mostram 81,920–131,072 nos guias)
Languages200+ idiomas e dialetos
Release date16 de fevereiro de 2026 (lançamento de pesos abertos)
LicenseApache‑2.0 (pesos abertos no Hugging Face / ModelScope)

O que é Qwen3.5-397B-A17B

Qwen3.5-397B-A17B é o primeiro lançamento de pesos abertos da família Qwen3.5 da Alibaba: um grande modelo base multimodal com mistura de especialistas, treinado com objetivos de visão‑linguagem de fusão precoce e otimizado para fluxos de trabalho orientados a agentes. O modelo expõe a capacidade total de uma arquitetura de 397B parâmetros enquanto utiliza roteamento esparso (o sufixo “A17B”), de modo que apenas ~17B parâmetros ficam ativos por token—proporcionando equilíbrio entre capacidade de conhecimento e eficiência de inferência.

Este lançamento é destinado a pesquisadores e equipes de engenharia que precisam de um modelo base aberto, implantável e multimodal, capaz de raciocínio em contexto longo, compreensão visual e aplicações com recuperação aumentada/orientadas a agentes.


Principais recursos do Qwen3.5-397B-A17B

  • Sparse MoE com eficiência de parâmetros ativos: Grande capacidade global (397B) com atividade por token comparável a um modelo denso de 17B, reduzindo FLOPS por token enquanto preserva diversidade de conhecimento.
  • Multimodalidade nativa (fusão precoce): Treinado para lidar com texto, imagens e vídeo via estratégia unificada de tokenização e codificação para raciocínio intermodal.
  • Suporte a contexto muito longo: Comprimento de sequência de entrada nativo de 262K tokens e caminhos documentados para estender a ~1M+ tokens usando escalonamento RoPE/YARN para pipelines de recuperação e documentos longos.
  • Modo de pensamento e ferramentas de agente: Suporte a rastros internos de raciocínio e padrão de execução agêntico; exemplos incluem habilitar chamadas de ferramentas e integração com interpretador de código.
  • Pesos abertos e ampla compatibilidade: Lançado sob Apache‑2.0 no Hugging Face e ModelScope, com guias de integração oficiais para Transformers, vLLM, SGLang e frameworks da comunidade.
  • Cobertura de idiomas adequada a empresas: Treinamento multilíngue extenso (200+ idiomas), além de instruções e receitas para implantação em escala.

Qwen3.5-397B-A17B vs Modelos selecionados

ModelContext window (native)StrengthTypical trade-offs
Qwen3.5-397B-A17B262K (nativa)MoE multimodal, pesos abertos, capacidade de 397B com 17B ativosArtefatos de modelo grandes, requer hospedagem distribuída para desempenho pleno
GPT-5.2 (representative closed)~400K (reportado para alguns variantes)Alta precisão de raciocínio denso em modelo únicoPesos fechados, maior custo de inferência em escala
LLaMA‑style dense 70B~128K (varia)Pilha de inferência mais simples, menor VRAM para runtimes densosMenor capacidade de parâmetros em relação ao conhecimento global de MoE

Limitações conhecidas e considerações operacionais

  • Pegada de memória: MoE esparso ainda exige armazenamento de arquivos de pesos grandes; a hospedagem demanda armazenamento e memória de dispositivo significativos em comparação com um clone denso de 17B.
  • Complexidade de engenharia: Throughput ideal requer paralelismo cuidadoso (tensor/pipeline) e frameworks como vLLM ou SGLang; hospedagem ingênua em GPU única é impraticável.
  • Economia de tokens: Embora o compute por token seja reduzido, contextos muito longos ainda aumentam E/S, tamanho do cache de KV e faturamento para provedores gerenciados.
  • Segurança e guardrails: Pesos abertos aumentam a flexibilidade, mas transferem ao operador a responsabilidade por filtragem de segurança, monitoramento e guardrails de implantação.

Casos de uso representativos

  1. Pesquisa e análise de modelos: Pesos abertos permitem pesquisa reprodutível e avaliação impulsionada pela comunidade.
  2. Serviços multimodais on‑premise: Empresas que precisam de residência de dados podem implantar e executar cargas de trabalho de visão+texto localmente.
  3. Pipelines de RAG e documentos longos: Suporte nativo a contexto longo facilita raciocínio em passagem única sobre grandes corpora.
  4. Inteligência de código e ferramentas de agente: Analisar monorepos, gerar patches e executar loops de chamadas de ferramentas em ambientes controlados.
  5. Aplicações multilíngues: Cobertura ampla de idiomas para produtos globais.

Como acessar e integrar o Qwen3.5-397B-A17B

Etapa 1: Inscreva-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API Qwen3.5-397B-A17B

Selecione o endpoint “Qwen3.5-397B-A17B” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API do site. Nosso site também fornece teste Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real do CometAPI da sua conta. Onde chamar: formato [Chat].

Insira sua pergunta ou solicitação no campo de conteúdo—é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

Recursos para qwen3.5-397b-a17b

Explore os principais recursos do qwen3.5-397b-a17b, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para qwen3.5-397b-a17b

Explore preços competitivos para qwen3.5-397b-a17b, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como qwen3.5-397b-a17b pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.48/M
Saída:$2.88/M
Entrada:$0.6/M
Saída:$3.6/M
-20%

Código de exemplo e API para qwen3.5-397b-a17b

Acesse código de exemplo abrangente e recursos de API para qwen3.5-397b-a17b para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do qwen3.5-397b-a17b em seus projetos.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Mais modelos