Especificações técnicas do Qwen3.5-397B-A17B

Item	Qwen3.5-397B-A17B (pesos abertos pós-treinados)
Model family	Qwen3.5 (série Tongyi Qwen, Alibaba)
Architecture	Mistura de Especialistas (MoE) híbrida + Gated DeltaNet; treinamento multimodal de fusão precoce
Total parameters	~397 bilhões (total)
Active parameters (A17B)	~17 bilhões ativos por token (roteamento esparso)
Input types	Texto, Imagem, Vídeo (fusão precoce multimodal)
Output types	Texto (chat, código, saídas de RAG), image-to-text, respostas multimodais
Native context window	262,144 tokens (ISL nativo)
Extensible context	Até ~1,010,000 tokens via escalonamento YaRN/ RoPE (dependente da plataforma)
Max output tokens	Dependente do framework/serviço (exemplos mostram 81,920–131,072 nos guias)
Languages	200+ idiomas e dialetos
Release date	16 de fevereiro de 2026 (lançamento de pesos abertos)
License	Apache‑2.0 (pesos abertos no Hugging Face / ModelScope)

O que é Qwen3.5-397B-A17B

Qwen3.5-397B-A17B é o primeiro lançamento de pesos abertos da família Qwen3.5 da Alibaba: um grande modelo base multimodal com mistura de especialistas, treinado com objetivos de visão‑linguagem de fusão precoce e otimizado para fluxos de trabalho orientados a agentes. O modelo expõe a capacidade total de uma arquitetura de 397B parâmetros enquanto utiliza roteamento esparso (o sufixo “A17B”), de modo que apenas ~17B parâmetros ficam ativos por token—proporcionando equilíbrio entre capacidade de conhecimento e eficiência de inferência.

Este lançamento é destinado a pesquisadores e equipes de engenharia que precisam de um modelo base aberto, implantável e multimodal, capaz de raciocínio em contexto longo, compreensão visual e aplicações com recuperação aumentada/orientadas a agentes.

Principais recursos do Qwen3.5-397B-A17B

Sparse MoE com eficiência de parâmetros ativos: Grande capacidade global (397B) com atividade por token comparável a um modelo denso de 17B, reduzindo FLOPS por token enquanto preserva diversidade de conhecimento.
Multimodalidade nativa (fusão precoce): Treinado para lidar com texto, imagens e vídeo via estratégia unificada de tokenização e codificação para raciocínio intermodal.
Suporte a contexto muito longo: Comprimento de sequência de entrada nativo de 262K tokens e caminhos documentados para estender a ~1M+ tokens usando escalonamento RoPE/YARN para pipelines de recuperação e documentos longos.
Modo de pensamento e ferramentas de agente: Suporte a rastros internos de raciocínio e padrão de execução agêntico; exemplos incluem habilitar chamadas de ferramentas e integração com interpretador de código.
Pesos abertos e ampla compatibilidade: Lançado sob Apache‑2.0 no Hugging Face e ModelScope, com guias de integração oficiais para Transformers, vLLM, SGLang e frameworks da comunidade.
Cobertura de idiomas adequada a empresas: Treinamento multilíngue extenso (200+ idiomas), além de instruções e receitas para implantação em escala.

Qwen3.5-397B-A17B vs Modelos selecionados

Model	Context window (native)	Strength	Typical trade-offs
Qwen3.5-397B-A17B	262K (nativa)	MoE multimodal, pesos abertos, capacidade de 397B com 17B ativos	Artefatos de modelo grandes, requer hospedagem distribuída para desempenho pleno
GPT-5.2 (representative closed)	~400K (reportado para alguns variantes)	Alta precisão de raciocínio denso em modelo único	Pesos fechados, maior custo de inferência em escala
LLaMA‑style dense 70B	~128K (varia)	Pilha de inferência mais simples, menor VRAM para runtimes densos	Menor capacidade de parâmetros em relação ao conhecimento global de MoE

Limitações conhecidas e considerações operacionais

Pegada de memória: MoE esparso ainda exige armazenamento de arquivos de pesos grandes; a hospedagem demanda armazenamento e memória de dispositivo significativos em comparação com um clone denso de 17B.
Complexidade de engenharia: Throughput ideal requer paralelismo cuidadoso (tensor/pipeline) e frameworks como vLLM ou SGLang; hospedagem ingênua em GPU única é impraticável.
Economia de tokens: Embora o compute por token seja reduzido, contextos muito longos ainda aumentam E/S, tamanho do cache de KV e faturamento para provedores gerenciados.
Segurança e guardrails: Pesos abertos aumentam a flexibilidade, mas transferem ao operador a responsabilidade por filtragem de segurança, monitoramento e guardrails de implantação.

Casos de uso representativos

Pesquisa e análise de modelos: Pesos abertos permitem pesquisa reprodutível e avaliação impulsionada pela comunidade.
Serviços multimodais on‑premise: Empresas que precisam de residência de dados podem implantar e executar cargas de trabalho de visão+texto localmente.
Pipelines de RAG e documentos longos: Suporte nativo a contexto longo facilita raciocínio em passagem única sobre grandes corpora.
Inteligência de código e ferramentas de agente: Analisar monorepos, gerar patches e executar loops de chamadas de ferramentas em ambientes controlados.
Aplicações multilíngues: Cobertura ampla de idiomas para produtos globais.

Como acessar e integrar o Qwen3.5-397B-A17B

Etapa 1: Inscreva-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API Qwen3.5-397B-A17B

Selecione o endpoint “Qwen3.5-397B-A17B” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API do site. Nosso site também fornece teste Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real do CometAPI da sua conta. Onde chamar: formato [Chat].

Insira sua pergunta ou solicitação no campo de conteúdo—é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.