De training van Qwen3 decoderen: een diepgaande duik

CometAPI
AnnaMay 28, 2025
De training van Qwen3 decoderen: een diepgaande duik

De lancering van Qwen3, Alibaba's nieuwste hybride redeneringsmodel (LLM), heeft de contouren van AI-onderzoek en -toepassing opnieuw vormgegeven. Achter de opmerkelijke mogelijkheden schuilt een zorgvuldig ontworpen trainingsproces dat een uitgebreide pre-training op diverse data, architecturale innovaties en een meerfasenpijplijn na de training omvat. Dit artikel legt uit hoe hoe Qwen3 traintwaarbij elke fase wordt onderzocht, van het opnemen van ruwe data tot het verfijnen van de redenering en implementatie, en waarbij de belangrijkste vragen worden beantwoord die het ontwerp en de prestaties bepalen.

Welke gegevens worden gebruikt voor de pre-training van Qwen3?

Uitbreiding van het aantal tokens: van biljoenen naar tientallen biljoenen

De basis van Qwen3 is gebouwd op een ongekend corpus—meer dan 36 biljoen tokens Het beslaat meer dan 119 talen en dialecten. Dit is bijna het dubbele van het tokenvolume van zijn voorganger, Qwen2.5, die trainde op 18 biljoen tokens. Door de datagrootte te schalen, verwerkt Qwen3 een rijkere verzameling linguïstische patronen, wereldkennis en domeinspecifieke content.

Het benutten van diverse gegevensbronnen: web, pdf's en synthetische content

Om deze kolossale dataset samen te stellen, combineerde Alibaba webcrawls met PDF-achtige documenten Verwerkt via Qwen2.5-VL, wat zorgt voor hoogwaardige extractie van technische teksten en academisch materiaal. Bovendien heeft gerichte synthetische datageneratie – met behulp van Qwen2.5-Math en Qwen2.5-Coder – het corpus uitgebreid met miljoenen oplossingen voor wiskundige problemen en codefragmenten, wat de STEM- en programmeervaardigheid heeft verbeterd.

Hoe is het pre-trainingsproces van Qwen3 gestructureerd?

Fase 1: Fundamentele kennis opbouwen

In Fase 1 (S1), Qwen3 is getraind op meer dan 30 biljoen tokens Met behulp van een standaard 4K-context Transformer-backbone. In deze fase wordt basiskennis van de taal en algemene domeinkennis bijgebracht, vergelijkbaar met het 'leren van het alfabet' voor menselijke geletterdheid.

Fase 2: Verrijking van kennisintensieve capaciteiten

verhuizen naar Fase 2 (S2), de dataset is opnieuw in evenwicht gebracht om te benadrukken kennisintensieve inhoud—STEM-teksten, programmeeruitdagingen en redeneeropdrachten. Een extra 5 biljoen tokens worden opgenomen, waardoor het model beter in staat is om complexe academische en technische problemen aan te pakken.

Fase 3: De contextlengte uitbreiden

Eindelijk, a pre-trainingsfase met lange context maakt gebruik van documenten van hoge kwaliteit om het native contextvenster van Qwen3 uit te breiden naar 32 penningen, waardoor het systeem in staat is om uitgebreide informatie, zoals onderzoeksrapporten of instructies met meerdere stappen, te verwerken en erover te redeneren.

Welke architectonische innovaties bevorderen de prestaties van Qwen3?

Dichte versus Mixture-of-Experts (MoE) modellen

Qwen3 biedt beide dicht en Mix-of-Experts (MoE) Varianten. Dichte modellen variëren van 0.6 miljard tot 32 miljard parameters, terwijl MoE-versies slechts een klein deel van de experts (bijv. 8 van de 128) per token activeren, waardoor de actieve rekenkracht met wel 90% wordt verlaagd zonder dat dit ten koste gaat van de prestaties.

Verbeteringen in aandacht en normalisatie

Innovaties zoals: per-hoofd QK-normalisatie en herontworpen aandachtsbias verhogen de stabiliteit op schaal. Deze verfijningen zorgen ervoor dat diepere modellen (tot 94 lagen in Qwen3-235B-A22B) efficiënt convergeren, wat zorgt voor consistente winst met extra capaciteit.

Hoe implementeert Qwen3 hybride redenering?

Denkmodus versus niet-denkenmodus

Een kenmerk van Qwen3 is zijn hybride redenering:

  • Denkmodus: Maakt gebruik van een gedachteketenredenering (CoT) en verdeelt problemen in tussenstappen voordat er een definitief antwoord wordt gegeven.
  • Niet-denkende modus: Geeft snelle antwoorden zonder expliciete tussenliggende redeneringen.
    Gebruikers kunnen tussen modi schakelen via de enable_thinking vlag of inline tags (/think, /no_think), waarbij de gevolgtrekking wordt afgestemd op de complexiteit van de taak.

Het beheersen van de redeneringsbudgetten

Door "rekenbudgetten" toe te wijzen aan redeneerstappen, zorgt Qwen3 voor een evenwicht tussen kosten en kwaliteit. Moeilijkere taken kunnen leiden tot diepere redeneringen (meer rekenkracht), terwijl eenvoudigere query's snel blijven en meer tijd bieden. fijnmazige controle over afwegingen bij inferentie .

Wat houdt de post-training-pijplijn van Qwen3 in?

Fine-tuning met een koude start van de gedachteketen

Het eerste fase na de training verfijnt Qwen3 op diverse lange CoT-gegevens, variërend van wiskunde, logische puzzels tot programmeerproblemen. Deze 'koude start'-fase geeft het expliciete redeneervermogen van het model een boost vóór reinforcement learning.

Reinforcement learning voor redeneren

Fase 2 schaalt de rekenkracht op voor regelgebaseerd versterkingsleren (RL), met behulp van handgemaakte beloningsfuncties om de verkenning van redeneerpaden te begeleiden. Dit verbetert het vermogen van het model om coherente tussenstappen te genereren zonder af te dwalen van de taak.

Denkmodusfusie en algemeen RL

In fase 3 worden redeneer- en instructiegerichte gegevens samengevoegd –denkmodusfusie—om diepgaand redeneren te combineren met het volgen van algemene instructies. Ten slotte past Fase 4 RL toe op meer dan 20 taken in het algemene domein (bijv. format-adherentie, agentische functies), waarbij ongewenst gedrag wordt gecorrigeerd en de vloeiendheid wordt verbeterd.

Waarin verschilt Qwen3 van Qwen2.5?

Terwijl Qwen2.5 Alibaba's leidende positie op het gebied van open LLM's vestigde, brengt Qwen3 een aantal belangrijke verbeteringen met zich mee:

KenmerkQwen2.5Qwen3
ParameterschalenTot 72B (dicht)Tot 235B (MoE) + dichte opties
Contextvenster16 penningen128K tokens (meeste varianten)
Taaldekking29 talen119 talen en dialecten
Integratie van redeneringenApart redeneermodelGeünificeerde denk-/niet-denkende modi
Beschikbaarheid in open gewichtJa (Apache 2.0)Ja (Apache 2.0)

Deze upgrades resulteren in veelzijdigere, nauwkeurigere en wereldwijd toegankelijke modellen.

Hoe is Qwen3 geoptimaliseerd voor realtime-implementatie?

Naast training legt Qwen3 bij zijn engineering de nadruk op lage-latentie-inferentie en schaalbare implementatie ter ondersteuning van agenten en copiloten van productiekwaliteit.

Hardwareversnelling op Cerebras

Cerebras heeft realtime redeneren gedemonstreerd met Qwen3-32B, waarbij binnen 1.2 seconden reacties worden geleverd - tot 60× sneller dan vergelijkbare redeneermodellen - door gebruik te maken van de wafer-scale engine en gespecialiseerde inferentiekernels die zijn geoptimaliseerd voor de architectuur van Qwen3.

Cloud-implementatie en API-gereedheid

Alibaba Cloud biedt Qwen3 aan via zijn API-suite, met automatisch schaalbare GPU-clusters en inferentie-geoptimaliseerde CPU-nodes. Ontwikkelaars kunnen Qwen3-varianten verfijnen en implementeren met ingebouwde LoRA-ondersteuning om het resourceverbruik te verminderen en grootschalige AI-services kosteneffectief en toegankelijk te maken.

Hoe kunnen ontwikkelaars Qwen3 optimaal benutten?

Alibaba heeft Qwen3 uitgebracht onder de naam Apache 2.0 licentie, waarmee de wereldwijde onderzoeksgemeenschap en bedrijfsontwikkelaars worden uitgenodigd om de modelfamilie te adopteren, aan te passen en uit te breiden voor gespecialiseerde toepassingen.

Welke varianten zijn beschikbaar?

  • Dichte modellen (0.6B, 3B, 22B, 32B)
    Deze varianten zijn ideaal voor on-premise implementaties en edge-scenario's en bieden robuuste mogelijkheden met eenvoudige integratie.
  • MoE-modellen (235B totale parameters; 22B actief)
    Deze grotere configuraties zijn ontworpen voor cloudservices met een hoge doorvoersnelheid en bieden maximale redeneerdiepte en meertalige vaardigheden met geoptimaliseerd resourcegebruik.

Wat is het verschil tussen API- en on-premise-opties?

Ontwikkelaars kunnen kiezen tussen:

  • Alibaba Cloud API: Een beheerd eindpunt met automatische schaalbaarheid, waardoor snelle prototyping en wereldwijde distributie mogelijk zijn.
  • Zelf-gehoste implementatie:Docker-containers en Kubernetes-manifesten worden meegeleverd, waardoor nalevingsintensieve scenario's worden vereenvoudigd, waarbij gegevensresidentie en beveiliging van het grootste belang zijn.
  • KomeetAPI:Ontwikkelaars hebben toegang tot Qwen 3 API via KomeetAPICometAPI biedt een uniforme REST-interface die honderden AI-modellen samenvoegt.

Welke gemeenschaps- en ecosysteemondersteuning bestaat er?

  • Open-source repository:De Qwen GitHub host modelgewichten, trainingsscripts en toolkits voor het verfijnen van functies, waarmee innovatie door de community wordt gestimuleerd.
  • Vooraf gebouwde integraties: Plugins voor populaire ML-frameworks (TensorFlow, PyTorch) en platforms van derden (LangChain, Hugging Face) versnellen de time-to-value.
  • Onderzoek samenwerkingAlibaba heeft het volledige technische rapport over Qwen3 op arXiv gepubliceerd en biedt transparantie in architectuurbeslissingen en trainingsmethodologieën.

Dankzij grootschalige, meerfasen pre-training, architecturale doorbraken en een geavanceerde post-trainingspijplijn bereikt Qwen3 een nieuwe standaard in hybride redeneren. De flexibele denkmodi, efficiënte MoE-varianten en het rijke implementatie-ecosysteem positioneren het aan de voorhoede van open-source AI en stellen onderzoekers en ontwikkelaars in staat de volgende generatie intelligente agents te bouwen.

Beginnen

CometAPI biedt een uniforme REST-interface die honderden AI-modellen samenvoegt onder één consistent eindpunt, met ingebouwd API-sleutelbeheer, gebruiksquota's en factureringsdashboards. Dit in plaats van te jongleren met meerdere leveranciers-URL's en inloggegevens.

Ontwikkelaars hebben toegang tot Qwen 3 API via KomeetAPIOm te beginnen kunt u de mogelijkheden van het model in de Playground verkennen en de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.

Lees Meer

500+ modellen in één API

Tot 20% korting