Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Oui. Les poids de Qwen3.5-397B-A17B sont publiés sous licence Apache-2.0 sur Hugging Face et ModelScope, et le projet fournit des recettes de déploiement pour Transformers, vLLM et SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indique que l’architecture à routage clairsemé du modèle utilise environ 17 milliards de paramètres actifs par jeton (experts actifs), tandis que la capacité globale du modèle est de ~397 milliards de paramètres.

What is the native context window and can I extend it for very long documents?

Le modèle est livré avec une longueur de séquence d’entrée native de 262,144 jetons et inclut des méthodes documentées pour étendre le contexte jusqu’à ~1,010,000 jetons via la mise à l’échelle YaRN/RoPE, selon le framework de service.

Which input modalities does Qwen3.5-397B-A17B support?

Il s’agit d’un modèle vision-langage unifié entraîné avec une fusion précoce ; les entrées prises en charge comprennent le texte, les images et des jetons vidéo pour le raisonnement et la génération multimodales.

How does inference efficiency compare to a 17B dense model?

Le calcul d’inférence par jeton est similaire à celui des modèles denses de classe 17B grâce au routage MoE clairsemé, mais les artefacts du modèle et les exigences en mémoire sont plus importants, car l’ensemble des poids doit être stocké et réparti entre les appareils.

API qwen3.5-397b-a17b Abordable | text-to-text

Spécifications techniques de Qwen3.5-397B-A17B

Élément	Qwen3.5-397B-A17B (post‑entraîné à poids ouverts)
Famille de modèles	Qwen3.5 (série Tongyi Qwen, Alibaba)
Architecture	Mixture-of-Experts (MoE) hybride + Gated DeltaNet ; entraînement multimodal à fusion précoce
Paramètres totaux	~397 milliards (total)
Paramètres actifs (A17B)	~17 milliards actifs par jeton (routage clairsemé)
Types d’entrée	Texte, Image, Vidéo (fusion précoce multimodale)
Types de sortie	Texte (chat, code, sorties RAG), image‑vers‑texte, réponses multimodales
Fenêtre de contexte native	262,144 jetons (ISL natif)
Contexte extensible	Jusqu’à ~1,010,000 jetons via le scaling YaRN/ RoPE (dépend de la plateforme)
Jetons de sortie max	Dépend du framework/serveur (des exemples dans les guides indiquent 81,920–131,072)
Langues	200+ langues et dialectes
Date de sortie	16 février 2026 (version à poids ouverts)
Licence	Apache‑2.0 (poids ouverts sur Hugging Face / ModelScope)

Qu’est‑ce que Qwen3.5-397B-A17B

Qwen3.5-397B-A17B est la première version à poids ouverts de la famille Qwen3.5 d’Alibaba : un grand modèle fondation multimodal à mélange d’experts, entraîné avec des objectifs vision‑langage à fusion précoce et optimisé pour des flux de travail pilotés par des agents. Le modèle expose la pleine capacité d’une architecture à 397B paramètres tout en utilisant un routage clairsemé (suffixe « A17B ») de sorte qu’environ 17B paramètres seulement sont actifs par jeton — offrant un équilibre entre capacité de connaissances et efficacité d’inférence.

Cette version est destinée aux chercheurs et aux équipes d’ingénierie qui ont besoin d’un modèle fondation multimodal, ouvert et déployable, capable de raisonnement sur long contexte, de compréhension visuelle et d’applications de type RAG/agents.

Principales caractéristiques de Qwen3.5-397B-A17B

MoE clairsemé avec efficacité des paramètres actifs : Grande capacité globale (397B) avec une activité par jeton comparable à un modèle dense 17B, réduisant les FLOPS par jeton tout en préservant la diversité des connaissances.
Multimodalité native (fusion précoce) : Entraîné pour traiter texte, images et vidéo via une stratégie unifiée de tokenisation et d’encodeurs pour le raisonnement intermodal.
Prise en charge de très longs contextes : Longueur de séquence d’entrée native de 262K jetons et voies documentées pour l’étendre à ~1M+ jetons via RoPE/YARN, pour la recherche et les pipelines de documents longs.
Mode de réflexion & outillage d’agent : Prise en charge de traces de raisonnement internes et d’un schéma d’exécution piloté par des agents ; exemples incluant l’activation d’appels d’outils et l’intégration d’un interprète de code.
Poids ouverts & large compatibilité : Publié sous Apache‑2.0 sur Hugging Face et ModelScope, avec des guides d’intégration officiels pour Transformers, vLLM, SGLang et des frameworks communautaires.
Couverture linguistique adaptée aux entreprises : Entraînement multilingue étendu (200+ langues), plus des instructions et recettes pour un déploiement à l’échelle.

Qwen3.5-397B-A17B vs modèles sélectionnés

Modèle	Fenêtre de contexte (native)	Atout	Compromis typiques
Qwen3.5-397B-A17B	262K (native)	MoE multimodal, poids ouverts, capacité 397B avec 17B actifs	Artéfacts de modèle volumineux, nécessite un hébergement distribué pour des performances complètes
GPT-5.2 (fermé représentatif)	~400K (rapporté pour certaines variantes)	Haute précision de raisonnement d’un modèle dense unique	Poids fermés, coût d’inférence plus élevé à l’échelle
Dense type LLaMA 70B	~128K (variable)	Pile d’inférence plus simple, VRAM moindre pour des runtimes denses	Capacité en paramètres moindre par rapport à la connaissance globale d’un MoE

Limites connues et considérations opérationnelles

Empreinte mémoire : Le MoE clairsemé nécessite tout de même de stocker de grands fichiers de poids ; l’hébergement exige un stockage et une mémoire appareil importants par rapport à un clone dense 17B.
Complexité d’ingénierie : Un débit optimal requiert un parallélisme soigné (tensor/pipeline) et des frameworks comme vLLM ou SGLang ; un hébergement naïf sur un seul GPU est impraticable.
Économie des jetons : Bien que le calcul par jeton soit réduit, des contextes très longs augmentent l’E/S, la taille du cache KV et la facturation chez les fournisseurs managés.
Sécurité & garde‑fous : Les poids ouverts augmentent la flexibilité mais transfèrent la responsabilité du filtrage de sécurité, du monitoring et des garde‑fous de déploiement à l’opérateur.

Cas d’usage représentatifs

Recherche & analyse de modèles : Les poids ouverts permettent une recherche reproductible et des évaluations pilotées par la communauté.
Services multimodaux on‑premise : Les entreprises ayant des exigences de résidence des données peuvent déployer et exécuter des charges vision+texte en local.
RAG et pipelines de documents longs : La prise en charge native des longs contextes aide au raisonnement en un seul passage sur de grands corpus.
Intelligence de code & outillage d’agent : Analyser des monorepos, générer des correctifs et exécuter des boucles d’appels d’outils pilotées par des agents dans des environnements contrôlés.
Applications multilingues : Grande couverture linguistique pour des produits globaux.

Comment accéder à et intégrer Qwen3.5-397B-A17B

Étape 1 : S’inscrire pour obtenir une clé API

Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre CometAPI console. Obtenez la clé API d’accès de l’interface. Cliquez sur “Add Token” au niveau du jeton API dans le centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

Étape 2 : Envoyer des requêtes à l’API Qwen3.5-397B-A17B

Sélectionnez le point de terminaison “Qwen3.5-397B-A17B” pour envoyer la requête API et définissez le corps de la requête. La méthode de requête et le corps de la requête sont disponibles dans la documentation de notre site. Notre site propose également un test Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte. Où l’appeler : format Chat.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.

qwen3.5-397b-a17b