Pelancaran Qwen3, model bahasa besar (LLM) penaakulan hibrid terbaru Alibaba, sekali lagi telah membentuk semula kontur penyelidikan dan aplikasi AI. Di sebalik keupayaan luar biasanya terdapat proses latihan yang direka dengan teliti yang merangkumi pra-latihan besar-besaran pada data yang pelbagai, inovasi seni bina dan saluran paip pasca latihan berbilang peringkat. Artikel ini membongkar bagaimana Qwen3 berlatih, meneroka setiap fasa daripada pengingesan data mentah kepada penalaan halus untuk penaakulan dan penggunaan, menjawab soalan utama yang mendorong reka bentuk dan prestasinya.
Apakah data yang menguatkan pra-latihan Qwen3?
Mengembangkan kiraan token: daripada trilion kepada puluhan trilion
Asas Qwen3 dibina di atas korpus yang belum pernah berlaku sebelum ini—lebih 36 trilion token merangkumi lebih daripada 119 bahasa dan dialek. Ini mewakili hampir dua kali ganda volum token yang digunakan dalam pendahulunya, Qwen2.5, yang melatih 18 trilion token. Dengan menskalakan magnitud data, Qwen3 menggunakan corak linguistik, pengetahuan dunia dan kandungan khusus domain yang lebih kaya.
Memanfaatkan sumber data yang pelbagai: web, PDF dan kandungan sintetik
Untuk memasang set data yang sangat besar ini, Alibaba menggabungkan rangkak web dengan Dokumen seperti PDF diproses melalui Qwen2.5-VL, memastikan pengekstrakan teks teknikal dan bahan akademik berkualiti tinggi. Selain itu, penjanaan data sintetik yang disasarkan—memanfaatkan Qwen2.5-Math dan Qwen2.5-Coder—meningkatkan korpus dengan berjuta-juta penyelesaian masalah matematik dan coretan kod, memperkukuh STEM dan kelancaran pengaturcaraan.
Bagaimanakah proses pra-latihan Qwen3 distrukturkan?
Peringkat 1: Membina pengetahuan asas
In Peringkat 1 (S1), Qwen3 dilatih tentang lebih 30 trilion token menggunakan tulang belakang Transformer konteks 4K standard. Peringkat ini menerapkan pemahaman bahasa asas dan pengetahuan domain umum, sama seperti "pembelajaran abjad" untuk celik manusia .
Peringkat 2: Memperkayakan keupayaan berintensif pengetahuan
Bergerak ke Peringkat 2 (S2), set data diimbangi semula untuk ditekankan kandungan intensif pengetahuan—Teks STEM, cabaran pengekodan dan tugas penaakulan. Tambahan 5 trilion token ditelan, mempertajam keupayaan model untuk menangani masalah akademik dan teknikal yang kompleks.
Peringkat 3: Memanjangkan panjang konteks
Akhirnya, a peringkat pra-latihan konteks panjang memanfaatkan dokumen berkualiti tinggi untuk meregangkan tetingkap konteks asli Qwen3 32K token, memperkasakannya untuk memproses dan menaakul input yang panjang seperti kertas penyelidikan atau arahan berbilang langkah .
Apakah inovasi seni bina yang membolehkan prestasi Qwen3?
Model Padat lwn. Campuran Pakar (KPM).
Qwen3 menawarkan kedua-duanya padat and Campuran Pakar (KPM) varian. Model padat terdiri daripada parameter 0.6B hingga 32B, manakala versi MoE hanya mengaktifkan sebahagian kecil pakar (cth, 8 daripada 128) bagi setiap token, mengurangkan pengiraan aktif sehingga 90% tanpa mengorbankan prestasi.
Perhatian dan peningkatan normalisasi
Inovasi seperti normalisasi QK setiap kepala dan bias perhatian yang direka bentuk semula meningkatkan kestabilan pada skala. Penambahbaikan ini membolehkan model yang lebih mendalam (sehingga 94 lapisan dalam Qwen3-235B-A22B) menumpu dengan cekap, memastikan keuntungan yang konsisten dengan kapasiti tambahan.
Bagaimanakah Qwen3 melaksanakan penaakulan hibrid?
Mod berfikir vs mod tidak berfikir
Ciri khas Qwen3 ialah penaakulan hibrid:
- Mod Berfikir: Melibatkan penaakulan rantaian pemikiran (CoT), memecahkan masalah kepada langkah perantaraan sebelum menghasilkan jawapan muktamad.
- Mod Tidak Berfikir: Menyampaikan respons pantas tanpa alasan perantaraan yang jelas.
Pengguna boleh menogol mod melaluienable_thinkingbendera atau tag sebaris (/think,/no_think), menyesuaikan inferens kepada kerumitan tugas.
Mengawal belanjawan penaakulan
Dengan memperuntukkan "belanjawan pengiraan" kepada langkah penaakulan, Qwen3 memastikan keseimbangan kualiti kos. Tugas yang lebih sukar boleh mencetuskan penaakulan yang lebih mendalam (lebih banyak pengiraan), manakala pertanyaan yang lebih mudah kekal pantas, menawarkan kawalan halus ke atas pertukaran inferens .
Apakah yang melibatkan saluran paip pasca latihan Qwen3?
Penalaan halus dengan permulaan dingin rantaian pemikiran
. peringkat pertama selepas latihan memperhalusi Qwen3 dihidupkan data CoT panjang yang pelbagai, merangkumi matematik, teka-teki logik dan masalah pengekodan. Fasa "permulaan dingin" ini memulakan kebolehan penaakulan eksplisit model sebelum pembelajaran pengukuhan.
Pembelajaran pengukuhan untuk penaakulan
Peringkat 2 skala naik mengira untuk pembelajaran pengukuhan berasaskan peraturan (RL), menggunakan fungsi ganjaran buatan tangan untuk membimbing penerokaan laluan penaakulan. Ini mengasah keupayaan model untuk menjana langkah perantaraan yang koheren tanpa meleset dari tugas.
Gabungan mod berfikir dan RL am
Dalam Peringkat 3, data penaakulan dan arahan-talaan digabungkan—gabungan mod pemikiran-untuk menggabungkan penaakulan yang mendalam dengan arahan am yang berikut. Akhir sekali, Peringkat 4 menggunakan RL merentas 20+ tugas domain umum (cth, pematuhan format, fungsi agen), membetulkan tingkah laku yang tidak diingini dan kelancaran menggilap.
Bagaimanakah Qwen3 berbeza daripada Qwen2.5?
Walaupun Qwen2.5 menubuhkan kepimpinan Alibaba dalam LLM terbuka, Qwen3 membawa beberapa peningkatan penting:
| Ciri | Qwen2.5 | Qwen3 |
|---|---|---|
| Skala parameter | Sehingga 72B (padat) | Sehingga 235B (MoE) + pilihan padat |
| Tetingkap konteks | 16K token | 128K token (kebanyakan varian) |
| Liputan bahasa | Bahasa 29 | 119 bahasa dan dialek |
| Integrasi penaakulan | Model penaakulan berasingan | Mod pemikiran/bukan pemikiran bersatu |
| Ketersediaan berat terbuka | Ya (Apache 2.0) | Ya (Apache 2.0) |
Peningkatan ini diterjemahkan kepada model yang lebih serba boleh, tepat dan boleh diakses secara global .
Bagaimanakah Qwen3 dioptimumkan untuk penggunaan masa nyata?
Di luar latihan, kejuruteraan Qwen3 menekankan inferens kependaman rendah dan penggunaan berskala untuk menyokong ejen gred pengeluaran dan copilot.
Pecutan perkakasan pada Cerebras
Cerebras telah menunjukkan penaakulan masa nyata dengan Qwen3-32B, memberikan respons dalam masa 1.2 saat—sehingga 60x lebih pantas daripada model penaakulan setanding—dengan memanfaatkan enjin skala wafer dan inti inferens khusus yang dioptimumkan untuk seni bina Qwen3 .
Penerapan awan dan kesediaan API
Alibaba Cloud menawarkan Qwen3 melalui suite APInya, dengan kluster GPU penskalaan automatik dan nod CPU yang dioptimumkan inferens. Pembangun boleh memperhalusi dan menggunakan varian Qwen3 menggunakan sokongan LoRA terbina dalam untuk mengurangkan penggunaan sumber, menjadikan perkhidmatan AI berskala besar menjimatkan kos dan boleh diakses.
Bagaimanakah Pembangun Boleh Memanfaatkan Qwen3?
Alibaba telah mengeluarkan Qwen3 di bawah Apache 2.0 memberi lesen, menjemput komuniti penyelidikan global dan pembangun perusahaan untuk menerima pakai, menyesuaikan dan melanjutkan keluarga model untuk aplikasi khusus.
Apakah Varian Yang Tersedia?
- Model Padat (0.6B, 3B, 22B, 32B)
Sesuai untuk penempatan di premis dan senario kelebihan, varian ini memberikan keupayaan yang mantap dengan penyepaduan yang mudah. - Model KPM (jumlah parameter 235B; 22B aktif)
Direka bentuk untuk perkhidmatan awan berkemampuan tinggi, konfigurasi yang lebih besar ini menawarkan kedalaman penaakulan maksimum dan kefasihan berbilang bahasa dengan penggunaan sumber yang dioptimumkan.
Bagaimanakah API dan Pilihan Di Premis Berbeza?
Pembangun boleh memilih antara:
- API Awan Alibaba: Titik akhir terurus dengan penskalaan automatik, membolehkan prototaip pantas dan pengedaran global.
- Penerapan Dihoskan Sendiri: Bekas docker dan manifes Kubernetes disediakan, memudahkan senario pematuhan yang berat di mana pemastautinan data dan keselamatan adalah yang terpenting .
- CometAPI: Pembangun boleh mengakses Qwen 3 API melalui CometAPI. CometAPI menyediakan antara muka REST bersatu yang mengagregatkan ratusan model AI.
Apakah Sokongan Komuniti dan Ekosistem Wujud?
- Repositori Sumber Terbuka: Qwen GitHub mengehoskan pemberat model, skrip latihan dan kit alat penalaan halus, menggalakkan inovasi dipacu komuniti.
- Integrasi Prabina: Pemalam untuk rangka kerja ML popular (TensorFlow, PyTorch) dan platform pihak ketiga (LangChain, Hugging Face) mempercepatkan masa untuk menilai.
- Kerjasama Penyelidikan: Alibaba telah menerbitkan laporan teknikal penuh Qwen3 tentang arXiv, menawarkan ketelusan dalam keputusan seni bina dan metodologi latihan .
Melalui pra-latihan berbilang peringkat, kejayaan seni bina dan saluran paip pasca latihan yang canggih, Qwen3 mencapai penanda aras baharu dalam penaakulan hibrid. Mod pemikirannya yang fleksibel, varian MoE yang cekap dan ekosistem penggunaan yang kaya meletakkannya di barisan hadapan AI sumber terbuka, memperkasakan penyelidik dan pembangun untuk membina ejen pintar generasi seterusnya.
Bermula
CometAPI menyediakan antara muka REST bersatu yang mengagregatkan ratusan model AI—di bawah titik akhir yang konsisten, dengan pengurusan kunci API terbina dalam, kuota penggunaan dan papan pemuka pengebilan. Daripada menyesuaikan berbilang URL vendor dan bukti kelayakan.
Pembangun boleh mengakses Qwen 3 API melalui CometAPI.Untuk bermula, terokai keupayaan model di Taman Permainan dan rujuk Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.
