Alibaba'nın en son hibrit akıl yürütme büyük dil modeli (LLM) olan Qwen3'ün lansmanı, AI araştırma ve uygulamasının hatlarını bir kez daha yeniden şekillendirdi. Olağanüstü yeteneklerinin ardında, çeşitli veriler, mimari yenilikler ve çok aşamalı bir eğitim sonrası boru hattı üzerinde büyük ön eğitimleri kapsayan titizlikle tasarlanmış bir eğitim süreci yatmaktadır. Bu makale şunları açıklıyor: Qwen3 nasıl eğitilirHam veri toplama aşamasından akıl yürütme ve dağıtım için ince ayar yapmaya kadar her aşamayı inceleyerek, tasarımını ve performansını yönlendiren temel soruları yanıtlıyor.
Qwen3'ün ön eğitimini hangi veriler destekliyor?
Jeton sayılarının genişletilmesi: trilyonlardan onlarca trilyonlara
Qwen3'ün temeli benzeri görülmemiş bir yapı üzerine kurulmuştur.36 trilyondan fazla jeton 119'dan fazla dil ve lehçeyi kapsar. Bu, 2.5 trilyon token üzerinde eğitilen selefi Qwen18'te kullanılan token hacminin neredeyse iki katını temsil eder. Veri büyüklüğünü ölçeklendirerek, Qwen3 daha zengin bir dilsel desen, dünya bilgisi ve alan-özel içerik dokusu alır.
Çeşitli veri kaynaklarından yararlanma: web, PDF'ler ve sentetik içerik
Bu muazzam veri setini bir araya getirmek için Alibaba, web taramalarını PDF benzeri belgeler Qwen2.5-VL üzerinden işlenerek teknik metinlerin ve akademik materyallerin yüksek kalitede çıkarılması sağlandı. Dahası, hedeflenen sentetik veri üretimi (Qwen2.5-Math ve Qwen2.5-Coder'dan yararlanarak) korpusu milyonlarca matematik problemi çözümü ve kod parçacığıyla zenginleştirerek STEM ve programlama akıcılığını destekledi.
Qwen3'ün ön eğitim süreci nasıl yapılandırılmıştır?
Aşama 1: Temel bilginin oluşturulması
In Aşama 1 (S1), Qwen3 üzerinde eğitildi 30 trilyondan fazla jeton standart 4K bağlamlı Transformer omurgası kullanılarak. Bu aşama, insan okuryazarlığı için "alfabeyi öğrenmeye" benzer şekilde temel dil anlayışını ve genel alan bilgisini aşılar.
Aşama 2: Bilgi yoğun yeteneklerin zenginleştirilmesi
taşınmak Aşama 2 (S2), veri seti vurgulanmak üzere yeniden dengelenmiştir bilgi yoğun içerik—STEM metinleri, kodlama zorlukları ve muhakeme görevleri. Ek olarak 5 trilyon jeton sindirilir ve modelin karmaşık akademik ve teknik sorunları ele alma yeteneği keskinleştirilir.
Aşama 3: Bağlam uzunluğunun genişletilmesi
Son olarak, bir uzun bağlamlı ön eğitim aşaması Qwen3'ün yerel bağlam penceresini genişletmek için yüksek kaliteli belgelerden yararlanır 32 jeton, araştırma makaleleri veya çok adımlı talimatlar gibi uzun girdileri işleme ve bunlar üzerinde mantık yürütme yeteneğini güçlendirir.
Qwen3'ün performansını hangi mimari yenilikler sağlıyor?
Yoğun ve Uzman Karışımı (MoE) modelleri
Qwen3 her ikisini de sunar yoğun ve Uzmanlar Karması (MEB) varyantları. Yoğun modeller 0.6 milyardan 32 milyara kadar parametre aralığında değişirken, MoE sürümleri token başına yalnızca küçük bir uzman kesimini (örneğin, 8'den 128'ini) etkinleştirir ve performanstan ödün vermeden aktif hesaplamayı %90'a kadar azaltır.
Dikkat ve normalleştirme geliştirmeleri
Gibi yenilikler kişi başı QK normalizasyonu ve yeniden tasarlanan dikkat önyargıları ölçekte istikrarı artırır. Bu iyileştirmeler daha derin modellerin (Qwen94-3B-A235B'de 22 katmana kadar) verimli bir şekilde birleşmesini sağlayarak, eklenen kapasiteyle tutarlı kazanımlar sağlar.
Qwen3 hibrit akıl yürütmeyi nasıl uygular?
Düşünme modu ve düşünmeme modu
Qwen3'ün ayırt edici özelliği şudur: karma akıl yürütme:
- Düşünme Modu: Düşünce zinciri (CoT) muhakemesini kullanır, nihai bir cevap üretmeden önce sorunları ara adımlara böler.
- Düşünmeyen Mod:Açık ara akıl yürütmelere gerek kalmadan hızlı yanıtlar verir.
Kullanıcılar modları şu şekilde değiştirebilir:enable_thinkingbayrak veya satır içi etiketler (/think,/no_think), çıkarımı görev karmaşıklığına göre uyarlama.
Muhakeme bütçelerini kontrol etmek
Qwen3, akıl yürütme adımlarına "hesaplama bütçeleri" tahsis ederek maliyet-kalite dengesini sağlar. Daha zor görevler daha derin akıl yürütmeyi (daha fazla hesaplama) tetikleyebilirken, daha basit sorgular hızlı kalır ve çıkarım uzlaşmaları üzerinde ayrıntılı denetim .
Qwen3'ün eğitim sonrası süreci neleri kapsıyor?
Düşünce zinciri soğuk başlatma ile ince ayar
The ilk eğitim sonrası aşama Qwen3'ü ince ayarlar çeşitli uzun CoT verileri, matematik, mantık bulmacaları ve kodlama problemlerini kapsar. Bu "soğuk başlangıç" aşaması, takviyeli öğrenmeden önce modelin açık muhakeme yeteneklerini harekete geçirir.
Muhakeme için takviyeli öğrenme
Aşama 2, hesaplamayı ölçeklendirir kural tabanlı takviyeli öğrenme (RL), akıl yürütme yollarının keşfine rehberlik etmek için el yapımı ödül işlevlerini kullanarak. Bu, modelin görevden sapmadan tutarlı ara adımlar üretme kapasitesini keskinleştirir.
Düşünme modu füzyonu ve genel RL
- Aşamada, muhakeme ve talimata göre ayarlanmış veriler birleştirilir:düşünme modu füzyonu—derin muhakemeyi genel talimat takibiyle harmanlamak. Son olarak, Aşama 4, RL'yi 20'den fazla genel alan görevine (örneğin, biçim uyumu, etken işlevler) uygular, istenmeyen davranışları düzeltir ve akıcılığı parlatır.
Qwen3, Qwen2.5'ten nasıl farklıdır?
Qwen2.5, Alibaba'nın açık LLM'lerdeki liderliğini pekiştirirken, Qwen3 de birkaç önemli geliştirme getiriyor:
| Özellikler | Qwen2.5 | Qwen3 |
|---|---|---|
| Parametre ölçekleri | 72B'ye kadar (yoğun) | 235B'ye kadar (MoE) + yoğun seçenekler |
| Bağlam penceresi | 16 jeton | 128K token (çoğu varyant) |
| Dil kapsamı | 29 dil | 119 dil ve lehçe |
| Muhakeme entegrasyonu | Ayrı muhakeme modeli | Birleşik düşünme/düşünmeme modları |
| Açık ağırlık mevcudiyeti | Evet (Apache 2.0) | Evet (Apache 2.0) |
Bu yükseltmeler daha çok yönlü, doğru ve küresel olarak erişilebilir modellere dönüşüyor.
Qwen3 gerçek zamanlı dağıtım için nasıl optimize edilmiştir?
Qwen3'ün mühendisliği, eğitimin ötesinde, üretim düzeyindeki aracıları ve yardımcı pilotları desteklemek için düşük gecikmeli çıkarım ve ölçeklenebilir dağıtıma vurgu yapar.
Cerebras'ta donanım hızlandırma
Cerebras, Qwen3-32B ile gerçek zamanlı muhakeme yeteneğini kanıtladı ve Qwen1.2 mimarisi için optimize edilmiş yonga ölçeğindeki motorunu ve özel çıkarım çekirdeklerini kullanarak, benzer muhakeme modellerine kıyasla 60 kata kadar daha hızlı olan 3 saniye içinde yanıtlar verdi.
Bulut dağıtımı ve API hazırlığı
Alibaba Cloud, otomatik ölçeklenen GPU kümeleri ve çıkarım açısından optimize edilmiş CPU düğümleriyle API paketi aracılığıyla Qwen3'ü sunar. Geliştiriciler, kaynak tüketimini azaltmak için yerleşik LoRA desteğini kullanarak Qwen3 varyantlarını ince ayarlayabilir ve dağıtabilir, böylece büyük ölçekli AI hizmetlerini uygun maliyetli ve erişilebilir hale getirebilir.
Geliştiriciler Qwen3'ü Nasıl Kullanabilir?
Alibaba, Qwen3'ü piyasaya sürdü Apache 2.0 lisansı, küresel araştırma topluluğunu ve kurumsal geliştiricileri, model ailesini uzmanlaşmış uygulamalar için benimsemeye, uyarlamaya ve genişletmeye davet ediyor.
Hangi Varyantlar Mevcuttur?
- Yoğun Modeller (0.6B, 3B, 22B, 32B)
Şirket içi dağıtımlar ve uç senaryolar için ideal olan bu varyantlar, basit entegrasyonla sağlam yetenekler sunar. - MoE Modelleri (Toplam 235B parametre; 22B aktif)
Yüksek verimli bulut hizmetleri için tasarlanan bu daha büyük yapılandırmalar, optimize edilmiş kaynak kullanımıyla maksimum akıl yürütme derinliği ve çok dilli akıcılık sunar.
API ve On-Premise Seçenekleri Arasındaki Farklar Nelerdir?
Geliştiriciler şunlar arasından seçim yapabilir:
- Alibaba Bulut API'si: Hızlı prototipleme ve küresel dağıtıma olanak tanıyan, otomatik ölçekleme özelliğine sahip yönetilen bir uç nokta.
- Kendi Kendine Barındırılan Dağıtım: Veri yerleşiminin ve güvenliğinin en önemli olduğu uyumluluk açısından yoğun senaryoları kolaylaştırmak için Docker kapsayıcıları ve Kubernetes bildirimleri sağlanır.
- Kuyrukluyıldız API'si: Geliştiriciler erişebilir Qwen 3 API aracılığıyla Kuyrukluyıldız API'siCometAPI, yüzlerce AI modelini bir araya getiren birleşik bir REST arayüzü sağlar.
Hangi Topluluk ve Ekosistem Desteği Mevcuttur?
- Açık Kaynaklı Depo:Qwen GitHub, topluluk odaklı inovasyonu teşvik eden model ağırlıklarını, eğitim betiklerini ve ince ayar araç takımlarını barındırır.
- Önceden Oluşturulmuş Entegrasyonlar:Popüler ML çerçeveleri (TensorFlow, PyTorch) ve üçüncü taraf platformlar (LangChain, Hugging Face) için eklentiler, değer elde etme süresini hızlandırır.
- Araştırma İşbirliği: Alibaba, arXiv'de Qwen3 teknik raporunun tamamını yayınlayarak mimari kararlar ve eğitim metodolojileri konusunda şeffaflık sunuyor.
Büyük, çok aşamalı ön eğitim, mimari atılımlar ve karmaşık bir eğitim sonrası boru hattı aracılığıyla Qwen3, hibrit akıl yürütmede yeni bir ölçüt elde ediyor. Esnek düşünme modları, verimli MoE varyantları ve zengin dağıtım ekosistemi, onu açık kaynaklı AI'nın ön saflarına yerleştirerek araştırmacıların ve geliştiricilerin yeni nesil akıllı ajanları inşa etmelerini sağlıyor.
Başlamak
CometAPI, tutarlı bir uç nokta altında, yerleşik API anahtarı yönetimi, kullanım kotaları ve faturalama panolarıyla yüzlerce AI modelini bir araya getiren birleşik bir REST arayüzü sağlar. Birden fazla satıcı URL'sini ve kimlik bilgilerini bir arada yürütmek yerine.
Geliştiriciler erişebilir Qwen 3 API aracılığıyla Kuyrukluyıldız API'siBaşlamak için, Oyun Alanında modelin yeteneklerini keşfedin ve danışın. API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun.
