Spécifications techniques de Qwen3.5-397B-A17B

Élément	Qwen3.5-397B-A17B (open-weight post-trained)
Famille de modèles	Qwen3.5 (série Tongyi Qwen, Alibaba)
Architecture	Mixture-of-Experts (MoE) hybride + Gated DeltaNet ; entraînement multimodal à fusion précoce
Nombre total de paramètres	~397 milliards (au total)
Paramètres actifs (A17B)	~17 milliards actifs par jeton (routage parcimonieux)
Types d’entrée	Texte, Image, Vidéo (multimodal à fusion précoce)
Types de sortie	Texte (chat, code, sorties RAG), image‑vers‑texte, réponses multimodales
Fenêtre de contexte native	262 144 jetons (ISL native)
Contexte extensible	Jusqu’à ~1 010 000 jetons via mise à l’échelle YaRN/ RoPE (dépend de la plateforme)
Jetons de sortie max	Dépend du framework/de l’infrastructure (les guides indiquent 81 920–131 072)
Langues	200+ langues et dialectes
Date de sortie	16 février 2026 (publication open‑weight)
Licence	Apache‑2.0 (poids ouverts sur Hugging Face / ModelScope)

Qu’est-ce que Qwen3.5-397B-A17B

Qwen3.5-397B-A17B est la première publication en open‑weight de la famille Qwen3.5 d’Alibaba : un grand modèle fondation multimodal à mélange d’experts, entraîné avec des objectifs vision–langage à fusion précoce et optimisé pour les workflows agentiques. Le modèle expose la pleine capacité d’une architecture à 397 B paramètres tout en utilisant un routage parcimonieux (suffixe « A17B ») de sorte qu’environ 17 B de paramètres seulement sont actifs par jeton — offrant un équilibre entre capacité de connaissances et efficacité d’inférence.

Cette version s’adresse aux chercheurs et équipes d’ingénierie qui ont besoin d’un modèle fondation ouvert, déployable et multimodal, capable de raisonnement sur long contexte, de compréhension visuelle, et d’applications avec RAG/outils agentiques.

Principales caractéristiques de Qwen3.5-397B-A17B

MoE parcimonieux avec efficacité des paramètres actifs : Grande capacité globale (397 B) avec activité par jeton comparable à un modèle dense 17 B, réduisant les FLOPS par jeton tout en préservant la diversité des connaissances.
Multimodalité native (fusion précoce) : Entraîné pour traiter texte, images et vidéo via une stratégie unifiée de tokenisation et d’encodeur pour le raisonnement inter‑modal.
Prise en charge de très longs contextes : Longueur de séquence d’entrée native de 262K jetons et voies documentées pour étendre à ~1M+ jetons via mise à l’échelle RoPE/YARN pour le retraitement et les pipelines de longs documents.
Mode de réflexion et outils d’agent : Prise en charge de traces de raisonnement internes et d’un schéma d’exécution agentique ; exemples incluant l’activation d’appels d’outils et l’intégration d’un interpréteur de code.
Poids ouverts et large compatibilité : Publié sous Apache‑2.0 sur Hugging Face et ModelScope, avec des guides d’intégration officiels pour Transformers, vLLM, SGLang et les frameworks communautaires.
Couverture linguistique adaptée aux entreprises : Entraînement multilingue étendu (200+ langues), plus des instructions et recettes pour un déploiement à l’échelle.

Qwen3.5-397B-A17B vs modèles sélectionnés

Modèle	Fenêtre de contexte (native)	Atout	Compromis typiques
Qwen3.5-397B-A17B	262K (native)	MoE multimodal, poids ouverts, capacité 397B avec 17B actifs	Artefacts de grand modèle, nécessite un hébergement distribué pour des performances optimales
GPT-5.2 (fermé représentatif)	~400K (signalé pour certaines variantes)	Haute précision de raisonnement dense d’un modèle unique	Poids fermés, coût d’inférence plus élevé à l’échelle
Dense 70B de style LLaMA	~128K (variable)	Pile d’inférence plus simple, VRAM plus faible pour les runtimes denses	Capacité en paramètres moindre par rapport à la connaissance globale d’un MoE

Limitations connues et considérations opérationnelles

Empreinte mémoire : Le MoE parcimonieux nécessite tout de même de stocker de gros fichiers de poids ; l’hébergement exige un stockage et une mémoire appareil significatifs comparés à un clone dense 17 B.
Complexité d’ingénierie : Un débit optimal requiert un parallélisme soigné (tensoriel/pipeline) et des frameworks comme vLLM ou SGLang ; un hébergement naïf sur un seul GPU est impraticable.
Économie des jetons : Bien que le calcul par jeton soit réduit, des contextes très longs augmentent toujours les E/S, la taille du cache KV et la facturation chez les prestataires managés.
Sécurité et garde‑fous : Les poids ouverts accroissent la flexibilité mais transfèrent à l’opérateur la responsabilité du filtrage de sécurité, du monitoring et des garde‑fous de déploiement.

Cas d’utilisation représentatifs

Recherche et analyse de modèles : Les poids ouverts permettent une recherche reproductible et une évaluation pilotée par la communauté.
Services multimodaux on‑premise : Les entreprises ayant des exigences de résidence des données peuvent déployer et exécuter des charges vision+texte localement.
Pipelines RAG et longs documents : La prise en charge native des longs contextes facilite un raisonnement en un seul passage sur de vastes corpus.
Intelligence de code et outils d’agent : Analyser des monorepos, générer des patches et exécuter des boucles d’appels d’outils en environnements contrôlés.
Applications multilingues : Couverture linguistique élevée pour des produits globaux.

Comment accéder à et intégrer Qwen3.5-397B-A17B

Étape 1 : Inscrivez‑vous pour obtenir une clé API

Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre console CometAPI. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur “Add Token” dans la section des jetons API du centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

Étape 2 : Envoyez des requêtes à l’API Qwen3.5-397B-A17B

Sélectionnez l’endpoint “Qwen3.5-397B-A17B” pour envoyer la requête API et définissez le corps de requête. La méthode et le corps de requête sont disponibles dans la documentation API de notre site Web. Notre site propose également un test Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte. Où l’appeler : format Chat.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérez et vérifiez les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie le statut de la tâche et les données de sortie.