Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

Entrée:$0.48/M
Sortie:$2.88/M
Le modèle vision-langage natif Qwen3.5 series 397B-A17B repose sur une architecture hybride qui intègre un mécanisme d’attention linéaire et un modèle à mélange d’experts clairsemé, offrant une efficacité d’inférence supérieure.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de Qwen3.5-397B-A17B

ÉlémentQwen3.5-397B-A17B (open-weight post-trained)
Famille de modèlesQwen3.5 (série Tongyi Qwen, Alibaba)
ArchitectureMixture-of-Experts (MoE) hybride + Gated DeltaNet ; entraînement multimodal à fusion précoce
Nombre total de paramètres~397 milliards (au total)
Paramètres actifs (A17B)~17 milliards actifs par jeton (routage parcimonieux)
Types d’entréeTexte, Image, Vidéo (multimodal à fusion précoce)
Types de sortieTexte (chat, code, sorties RAG), image‑vers‑texte, réponses multimodales
Fenêtre de contexte native262 144 jetons (ISL native)
Contexte extensibleJusqu’à ~1 010 000 jetons via mise à l’échelle YaRN/ RoPE (dépend de la plateforme)
Jetons de sortie maxDépend du framework/de l’infrastructure (les guides indiquent 81 920–131 072)
Langues200+ langues et dialectes
Date de sortie16 février 2026 (publication open‑weight)
LicenceApache‑2.0 (poids ouverts sur Hugging Face / ModelScope)

Qu’est-ce que Qwen3.5-397B-A17B

Qwen3.5-397B-A17B est la première publication en open‑weight de la famille Qwen3.5 d’Alibaba : un grand modèle fondation multimodal à mélange d’experts, entraîné avec des objectifs vision–langage à fusion précoce et optimisé pour les workflows agentiques. Le modèle expose la pleine capacité d’une architecture à 397 B paramètres tout en utilisant un routage parcimonieux (suffixe « A17B ») de sorte qu’environ 17 B de paramètres seulement sont actifs par jeton — offrant un équilibre entre capacité de connaissances et efficacité d’inférence.

Cette version s’adresse aux chercheurs et équipes d’ingénierie qui ont besoin d’un modèle fondation ouvert, déployable et multimodal, capable de raisonnement sur long contexte, de compréhension visuelle, et d’applications avec RAG/outils agentiques.


Principales caractéristiques de Qwen3.5-397B-A17B

  • MoE parcimonieux avec efficacité des paramètres actifs : Grande capacité globale (397 B) avec activité par jeton comparable à un modèle dense 17 B, réduisant les FLOPS par jeton tout en préservant la diversité des connaissances.
  • Multimodalité native (fusion précoce) : Entraîné pour traiter texte, images et vidéo via une stratégie unifiée de tokenisation et d’encodeur pour le raisonnement inter‑modal.
  • Prise en charge de très longs contextes : Longueur de séquence d’entrée native de 262K jetons et voies documentées pour étendre à ~1M+ jetons via mise à l’échelle RoPE/YARN pour le retraitement et les pipelines de longs documents.
  • Mode de réflexion et outils d’agent : Prise en charge de traces de raisonnement internes et d’un schéma d’exécution agentique ; exemples incluant l’activation d’appels d’outils et l’intégration d’un interpréteur de code.
  • Poids ouverts et large compatibilité : Publié sous Apache‑2.0 sur Hugging Face et ModelScope, avec des guides d’intégration officiels pour Transformers, vLLM, SGLang et les frameworks communautaires.
  • Couverture linguistique adaptée aux entreprises : Entraînement multilingue étendu (200+ langues), plus des instructions et recettes pour un déploiement à l’échelle.

Qwen3.5-397B-A17B vs modèles sélectionnés

ModèleFenêtre de contexte (native)AtoutCompromis typiques
Qwen3.5-397B-A17B262K (native)MoE multimodal, poids ouverts, capacité 397B avec 17B actifsArtefacts de grand modèle, nécessite un hébergement distribué pour des performances optimales
GPT-5.2 (fermé représentatif)~400K (signalé pour certaines variantes)Haute précision de raisonnement dense d’un modèle uniquePoids fermés, coût d’inférence plus élevé à l’échelle
Dense 70B de style LLaMA~128K (variable)Pile d’inférence plus simple, VRAM plus faible pour les runtimes densesCapacité en paramètres moindre par rapport à la connaissance globale d’un MoE

Limitations connues et considérations opérationnelles

  • Empreinte mémoire : Le MoE parcimonieux nécessite tout de même de stocker de gros fichiers de poids ; l’hébergement exige un stockage et une mémoire appareil significatifs comparés à un clone dense 17 B.
  • Complexité d’ingénierie : Un débit optimal requiert un parallélisme soigné (tensoriel/pipeline) et des frameworks comme vLLM ou SGLang ; un hébergement naïf sur un seul GPU est impraticable.
  • Économie des jetons : Bien que le calcul par jeton soit réduit, des contextes très longs augmentent toujours les E/S, la taille du cache KV et la facturation chez les prestataires managés.
  • Sécurité et garde‑fous : Les poids ouverts accroissent la flexibilité mais transfèrent à l’opérateur la responsabilité du filtrage de sécurité, du monitoring et des garde‑fous de déploiement.

Cas d’utilisation représentatifs

  1. Recherche et analyse de modèles : Les poids ouverts permettent une recherche reproductible et une évaluation pilotée par la communauté.
  2. Services multimodaux on‑premise : Les entreprises ayant des exigences de résidence des données peuvent déployer et exécuter des charges vision+texte localement.
  3. Pipelines RAG et longs documents : La prise en charge native des longs contextes facilite un raisonnement en un seul passage sur de vastes corpus.
  4. Intelligence de code et outils d’agent : Analyser des monorepos, générer des patches et exécuter des boucles d’appels d’outils en environnements contrôlés.
  5. Applications multilingues : Couverture linguistique élevée pour des produits globaux.

Comment accéder à et intégrer Qwen3.5-397B-A17B

Étape 1 : Inscrivez‑vous pour obtenir une clé API

Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre console CometAPI. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur “Add Token” dans la section des jetons API du centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

Étape 2 : Envoyez des requêtes à l’API Qwen3.5-397B-A17B

Sélectionnez l’endpoint “Qwen3.5-397B-A17B” pour envoyer la requête API et définissez le corps de requête. La méthode et le corps de requête sont disponibles dans la documentation API de notre site Web. Notre site propose également un test Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte. Où l’appeler : format Chat.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérez et vérifiez les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie le statut de la tâche et les données de sortie.

FAQ

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

Fonctionnalités pour qwen3.5-397b-a17b

Découvrez les fonctionnalités clés de qwen3.5-397b-a17b, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour qwen3.5-397b-a17b

Découvrez des tarifs compétitifs pour qwen3.5-397b-a17b, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment qwen3.5-397b-a17b peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$0.48/M
Sortie:$2.88/M
Entrée:$0.6/M
Sortie:$3.6/M
-20%

Exemple de code et API pour qwen3.5-397b-a17b

Accédez à des exemples de code complets et aux ressources API pour qwen3.5-397b-a17b afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de qwen3.5-397b-a17b dans vos projets.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Plus de modèles