Le lancement de Qwen3, le dernier modèle de raisonnement hybride en langage large (LLM) d'Alibaba, a une fois de plus redéfini les contours de la recherche et des applications en IA. Derrière ses capacités remarquables se cache un processus d'apprentissage méticuleusement conçu, qui comprend un pré-apprentissage massif sur des données diverses, des innovations architecturales et un pipeline post-apprentissage en plusieurs étapes. Cet article détaille comment Qwen3 s'entraîne, explorant chaque phase, de l'ingestion des données brutes au réglage fin du raisonnement et du déploiement, en répondant aux questions clés qui guident sa conception et ses performances.
Quelles données alimentent la pré-formation de Qwen3 ?
Augmentation du nombre de jetons : de milliers à des dizaines de milliers de milliards
La fondation de Qwen3 repose sur un corpus sans précédent :plus de 36 billions de jetons Couvrant plus de 119 langues et dialectes, cela représente près du double du volume de jetons utilisé par son prédécesseur, Qwen2.5, qui s'entraînait sur 18 3 milliards de jetons. En augmentant la taille des données, QwenXNUMX ingère un ensemble plus riche de modèles linguistiques, de connaissances mondiales et de contenus spécifiques à un domaine.
Exploiter diverses sources de données : Web, PDF et contenu synthétique
Pour assembler cet ensemble de données colossal, Alibaba a combiné des explorations Web avec Documents de type PDF Les données ont été traitées via Qwen2.5-VL, garantissant une extraction de haute qualité de textes techniques et de supports académiques. De plus, la génération ciblée de données synthétiques, exploitant Qwen2.5-Math et Qwen2.5-Coder, a enrichi le corpus de millions de solutions de problèmes mathématiques et d'extraits de code, renforçant ainsi la maîtrise des STEM et de la programmation.
Comment est structuré le processus de pré-formation de Qwen3 ?
Étape 1 : Élaboration des connaissances fondamentales
In Étape 1 (S1), Qwen3 est formé sur plus de 30 billions de jetons En utilisant une infrastructure Transformer standard 4K. Cette étape permet d'acquérir une compréhension linguistique de base et des connaissances générales, comparables à l'apprentissage de l'alphabet pour l'alphabétisation humaine.
Étape 2 : Enrichir les capacités à forte intensité de connaissances
Emménager dans Étape 2 (S2), l'ensemble de données est rééquilibré pour mettre l'accent contenu à forte intensité de connaissances—Textes STEM, défis de codage et tâches de raisonnement. Un complément 5 XNUMX milliards de jetons sont ingérés, ce qui renforce la capacité du modèle à s'attaquer à des problèmes académiques et techniques complexes.
Étape 3 : Extension de la longueur du contexte
Enfin, un étape de pré-formation à contexte long exploite des documents de haute qualité pour étendre la fenêtre de contexte native de Qwen3 à 32 XNUMX jetons, lui permettant de traiter et de raisonner sur de longues entrées telles que des documents de recherche ou des instructions en plusieurs étapes.
Quelles innovations architecturales permettent les performances de Qwen3 ?
Modèles denses et modèles mixtes d'experts (MoE)
Qwen3 offre les deux dense et Mélange d'experts (MoE) variantes. Les modèles denses vont de 0.6 B à 32 B de paramètres, tandis que les versions MoE n'activent qu'une petite fraction d'experts (par exemple, 8 sur 128) par jeton, réduisant le calcul actif jusqu'à 90 % sans sacrifier les performances.
Améliorations de l'attention et de la normalisation
Des nouveautés telles que normalisation QK par tête et des biais d'attention repensés renforcent la stabilité à grande échelle. Ces améliorations permettent aux modèles plus profonds (jusqu'à 94 couches dans Qwen3-235B-A22B) de converger efficacement, garantissant des gains constants avec une capacité accrue.
Comment Qwen3 implémente-t-il le raisonnement hybride ?
Mode de pensée vs. mode de non-pensée
Une caractéristique distinctive de Qwen3 est son raisonnement hybride:
- Mode de réflexion: Engage le raisonnement par chaîne de pensée (CoT), en décomposant les problèmes en étapes intermédiaires avant de produire une réponse finale.
- Mode non-pensée: Fournit des réponses rapides sans raisonnement intermédiaire explicite.
Les utilisateurs peuvent basculer entre les modes via leenable_thinkingdrapeau ou balises en ligne (/think,/no_think), en adaptant l’inférence à la complexité de la tâche.
Contrôler les budgets de raisonnement
En allouant des « budgets de calcul » aux étapes de raisonnement, Qwen3 garantit un équilibre coût-qualité. Les tâches les plus complexes peuvent déclencher un raisonnement plus approfondi (plus de calcul), tandis que les requêtes plus simples restent rapides, offrant ainsi contrôle précis des compromis d'inférence .
En quoi consiste le pipeline post-formation de Qwen3 ?
Réglage fin avec démarrage à froid par chaîne de pensée
La première étape post-formation peaufine Qwen3 sur diverses données CoT longues, couvrant les mathématiques, les énigmes logiques et les problèmes de codage. Cette phase de « démarrage à froid » stimule les capacités de raisonnement explicite du modèle avant l'apprentissage par renforcement.
Apprentissage par renforcement pour le raisonnement
L'étape 2 augmente la capacité de calcul pour apprentissage par renforcement basé sur des règles (RL), en utilisant des fonctions de récompense personnalisées pour guider l'exploration des chemins de raisonnement. Cela améliore la capacité du modèle à générer des étapes intermédiaires cohérentes sans dériver hors de la tâche.
Fusion des modes de pensée et RL général
À l’étape 3, le raisonnement et les données adaptées aux instructions sont fusionnés.fusion du mode de pensée— pour combiner raisonnement approfondi et suivi d'instructions générales. Enfin, l'étape 4 applique l'apprentissage par renforcement à plus de 20 tâches générales (par exemple, respect du format, fonctions agentiques), corrigeant les comportements indésirables et améliorant la fluidité.
En quoi Qwen3 diffère-t-il de Qwen2.5 ?
Alors que Qwen2.5 a établi le leadership d'Alibaba dans les LLM ouverts, Qwen3 apporte plusieurs améliorations essentielles :
| Fonctionnalité | Qwen2.5 | Qwen3 |
|---|---|---|
| Échelles de paramètres | Jusqu'à 72B (dense) | Jusqu'à 235B (MoE) + options denses |
| Fenêtre contextuelle | 16 XNUMX jetons | 128 XNUMX jetons (la plupart des variantes) |
| Couverture linguistique | 29 langues | 119 langues et dialectes |
| Intégration du raisonnement | Modèle de raisonnement séparé | Modes de pensée/non-pensée unifiés |
| Disponibilité en poids ouvert | Oui (Apache 2.0) | Oui (Apache 2.0) |
Ces mises à niveau se traduisent par des modèles plus polyvalents, plus précis et plus accessibles à l’échelle mondiale.
Comment Qwen3 est-il optimisé pour un déploiement en temps réel ?
Au-delà de la formation, l'ingénierie de Qwen3 met l'accent sur l'inférence à faible latence et le déploiement évolutif pour prendre en charge les agents et les copilotes de niveau production.
Accélération matérielle sur Cerebras
Cerebras a démontré un raisonnement en temps réel avec Qwen3-32B, fournissant des réponses en 1.2 seconde, soit jusqu'à 60 fois plus rapidement que les modèles de raisonnement comparables, en exploitant son moteur à l'échelle de la plaquette et ses noyaux d'inférence spécialisés optimisés pour l'architecture de Qwen3.
Déploiement dans le cloud et préparation des API
Alibaba Cloud propose Qwen3 via sa suite d'API, avec des clusters GPU à mise à l'échelle automatique et des nœuds CPU optimisés pour l'inférence. Les développeurs peuvent affiner et déployer les variantes de Qwen3 grâce à la prise en charge intégrée de LoRA afin de réduire la consommation de ressources, rendant ainsi les services d'IA à grande échelle rentables et accessibles.
Comment les développeurs peuvent-ils tirer parti de Qwen3 ?
Alibaba a lancé Qwen3 sous le Apache 2.0 licence, invitant la communauté mondiale de recherche et les développeurs d'entreprise à adopter, adapter et étendre la famille de modèles pour des applications spécialisées.
Quelles variantes sont disponibles ?
- Modèles denses (0.6B, 3B, 22B, 32B)
Idéales pour les déploiements sur site et les scénarios de périphérie, ces variantes offrent des capacités robustes avec une intégration simple. - Modèles MoE (235 milliards de paramètres au total ; 22 milliards actifs)
Conçues pour les services cloud à haut débit, ces configurations plus grandes offrent une profondeur de raisonnement maximale et une fluidité multilingue avec une utilisation optimisée des ressources.
En quoi les options API et sur site diffèrent-elles ?
Les développeurs peuvent choisir entre :
- API Alibaba Cloud:Un point de terminaison géré avec mise à l'échelle automatique, permettant un prototypage rapide et une distribution mondiale.
- Déploiement auto-hébergé: Des conteneurs Docker et des manifestes Kubernetes sont fournis, facilitant les scénarios exigeants en matière de conformité où la résidence et la sécurité des données sont primordiales.
- API Comet: Les développeurs peuvent accéder Qwen 3 API via API Comet. CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA.
Quel soutien communautaire et écosystémique existe-t-il ?
- Dépôt Open Source:Le GitHub Qwen héberge des pondérations de modèles, des scripts de formation et des boîtes à outils de réglage fin, encourageant l'innovation axée sur la communauté.
- Intégrations prédéfinies:Les plugins pour les frameworks ML populaires (TensorFlow, PyTorch) et les plateformes tierces (LangChain, Hugging Face) accélèrent le délai de rentabilisation.
- Collaboration de recherche:Alibaba a publié le rapport technique complet Qwen3 sur arXiv, offrant une transparence sur les décisions architecturales et les méthodologies de formation.
Grâce à un pré-entraînement massif en plusieurs étapes, à des avancées architecturales et à un pipeline post-entraînement sophistiqué, Qwen3 établit une nouvelle référence en matière de raisonnement hybride. Ses modes de pensée flexibles, ses variantes de MoE efficaces et son riche écosystème de déploiement le positionnent à l'avant-garde de l'IA open source, permettant aux chercheurs et aux développeurs de créer la prochaine génération d'agents intelligents.
Pour commencer
CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA sous un point de terminaison cohérent, avec gestion intégrée des clés API, des quotas d'utilisation et des tableaux de bord de facturation. Plus besoin de jongler avec plusieurs URL et identifiants de fournisseurs.
Les développeurs peuvent accéder Qwen 3 API via API CometPour commencer, explorez les capacités du modèle dans le Playground et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.
