Peluncuran Qwen3, model bahasa besar (LLM) penalaran hibrida terbaru Alibaba, sekali lagi telah membentuk kembali kontur penelitian dan penerapan AI. Di balik kemampuannya yang luar biasa terdapat proses pelatihan yang dirancang dengan cermat yang mencakup pra-pelatihan besar-besaran pada beragam data, inovasi arsitektur, dan alur kerja pasca-pelatihan multi-tahap. Artikel ini mengupas bagaimana Qwen3 berlatih, menjelajahi setiap fase dari penyerapan data mentah hingga penyempurnaan untuk penalaran dan penerapan, menjawab pertanyaan-pertanyaan utama yang mendorong desain dan kinerjanya.
Data apa yang mendukung pra-pelatihan Qwen3?
Memperluas jumlah token: dari triliunan menjadi puluhan triliun
Fondasi Qwen3 dibangun di atas korpus yang belum pernah ada sebelumnya—lebih dari 36 triliun token mencakup lebih dari 119 bahasa dan dialek. Ini mewakili hampir dua kali lipat volume token yang digunakan dalam pendahulunya, Qwen2.5, yang dilatih pada 18 triliun token. Dengan menskalakan besaran data, Qwen3 menyerap pola linguistik, pengetahuan dunia, dan konten khusus domain yang lebih kaya.
Memanfaatkan berbagai sumber data: web, PDF, dan konten sintetis
Untuk mengumpulkan kumpulan data kolosal ini, Alibaba menggabungkan perayapan web dengan Dokumen seperti PDF diproses melalui Qwen2.5-VL, memastikan ekstraksi teks teknis dan materi akademis berkualitas tinggi. Selain itu, pembuatan data sintetis yang ditargetkan—memanfaatkan Qwen2.5-Math dan Qwen2.5-Coder—menambah korpus dengan jutaan solusi masalah matematika dan potongan kode, memperkuat kelancaran STEM dan pemrograman.
Bagaimana proses pra-pelatihan Qwen3 terstruktur?
Tahap 1: Membangun pengetahuan dasar
In **Tahap 1 (S1)**Qwen3 dilatih pada lebih dari 30 triliun token menggunakan kerangka kerja Transformer konteks 4K standar. Tahap ini menanamkan pemahaman bahasa dasar dan pengetahuan domain umum, yang serupa dengan “belajar alfabet” untuk literasi manusia.
Tahap 2: Memperkaya kemampuan yang intensif pengetahuan
pindah ke Tahap 2 (S2), kumpulan data diseimbangkan kembali untuk menekankan konten yang padat pengetahuan—Teks STEM, tantangan pengkodean, dan tugas penalaran. 5 triliun token diserap, mempertajam kemampuan model untuk mengatasi masalah akademis dan teknis yang rumit.
Tahap 3: Memperluas durasi konteks
Akhirnya, a tahap pra-pelatihan konteks panjang memanfaatkan dokumen berkualitas tinggi untuk memperluas jendela konteks asli Qwen3 ke 32 ribu token, memberdayakannya untuk memproses dan menalar masukan yang panjang seperti makalah penelitian atau instruksi multi-langkah.
Inovasi arsitektur apa yang memungkinkan kinerja Qwen3?
Model Padat vs. Model Campuran-Pakar (MoE)
Qwen3 menawarkan keduanya padat dan Campuran Pakar (MoE) varian. Model padat berkisar dari 0.6B hingga 32B parameter, sementara versi MoE hanya mengaktifkan sebagian kecil pakar (misalnya, 8 dari 128) per token, memangkas komputasi aktif hingga 90% tanpa mengorbankan kinerja.
Peningkatan perhatian dan normalisasi
Inovasi seperti normalisasi QK per kepala dan bias perhatian yang didesain ulang meningkatkan stabilitas dalam skala besar. Penyempurnaan ini memungkinkan model yang lebih dalam (hingga 94 lapisan dalam Qwen3-235B-A22B) untuk menyatu secara efisien, memastikan perolehan yang konsisten dengan kapasitas tambahan.
Bagaimana Qwen3 mengimplementasikan penalaran hibrida?
Mode berpikir vs. mode tidak berpikir
Ciri khas Qwen3 adalah penalaran hibrida:
- Mode Berpikir: Melibatkan penalaran berantai (CoT), memecah masalah menjadi langkah-langkah perantara sebelum menghasilkan jawaban akhir.
- Mode Tidak Berpikir: Memberikan respons cepat tanpa alasan perantara yang eksplisit.
Pengguna dapat mengubah mode melaluienable_thinkingbendera atau tag sebaris (/think,/no_think), menyesuaikan inferensi dengan kompleksitas tugas.
Mengendalikan anggaran penalaran
Dengan mengalokasikan “anggaran komputasi” ke langkah-langkah penalaran, Qwen3 memastikan keseimbangan biaya-kualitas. Tugas yang lebih sulit dapat memicu penalaran yang lebih mendalam (lebih banyak komputasi), sementara kueri yang lebih sederhana tetap cepat, menawarkan kontrol yang lebih rinci atas trade-off inferensi .
Apa saja yang termasuk dalam tahap pasca pelatihan Qwen3?
Penyetelan halus dengan start dingin berantai
The tahap pasca pelatihan pertama menyempurnakan Qwen3 di beragam data CoT panjang, yang mencakup matematika, teka-teki logika, dan masalah pengkodean. Fase "mulai dingin" ini memulai kemampuan penalaran eksplisit model sebelum pembelajaran penguatan.
Pembelajaran penguatan untuk penalaran
Tahap 2 meningkatkan komputasi untuk pembelajaran penguatan berbasis aturan (RL), menggunakan fungsi penghargaan yang dibuat sendiri untuk memandu eksplorasi jalur penalaran. Hal ini mengasah kapasitas model untuk menghasilkan langkah-langkah perantara yang koheren tanpa menyimpang dari tugas.
Penggabungan mode berpikir dan RL umum
Pada Tahap 3, data penalaran dan instruksi digabungkan—fusi mode berpikir—untuk memadukan penalaran mendalam dengan mengikuti instruksi umum. Terakhir, Tahap 4 menerapkan RL di lebih dari 20 tugas domain umum (misalnya, kepatuhan format, fungsi agen), mengoreksi perilaku yang tidak diinginkan, dan menyempurnakan kelancaran.
Apa yang membedakan Qwen3 dengan Qwen2.5?
Sementara Qwen2.5 memantapkan kepemimpinan Alibaba dalam LLM terbuka, Qwen3 menghadirkan beberapa peningkatan penting:
| Fitur | Qwen2.5 | Qwen3 |
|---|---|---|
| Skala parameter | Hingga 72B (padat) | Hingga 235B (MoE) + opsi padat |
| Jendela konteks | 16 ribu token | 128K token (sebagian besar varian) |
| Cakupan bahasa | Bahasa 29 | 119 bahasa dan dialek |
| Integrasi penalaran | Model penalaran terpisah | Mode berpikir/tidak berpikir terpadu |
| Ketersediaan bobot terbuka | Ya (Apache 2.0) | Ya (Apache 2.0) |
Peningkatan ini menghasilkan model yang lebih serba guna, akurat, dan dapat diakses secara global.
Bagaimana Qwen3 dioptimalkan untuk penerapan waktu nyata?
Selain pelatihan, rekayasa Qwen3 menekankan inferensi latensi rendah dan penerapan yang dapat diskalakan untuk mendukung agen dan kopilot tingkat produksi.
Akselerasi perangkat keras pada Cerebras
Cerebras telah menunjukkan penalaran waktu nyata dengan Qwen3-32B, memberikan respons dalam 1.2 detik—hingga 60x lebih cepat daripada model penalaran sejenis—dengan memanfaatkan mesin skala wafer dan kernel inferensi khusus yang dioptimalkan untuk arsitektur Qwen3.
Penerapan cloud dan kesiapan API
Alibaba Cloud menawarkan Qwen3 melalui rangkaian API-nya, dengan kluster GPU yang dapat diskalakan secara otomatis dan node CPU yang dioptimalkan untuk inferensi. Pengembang dapat menyempurnakan dan menerapkan varian Qwen3 menggunakan dukungan LoRA bawaan untuk mengurangi konsumsi sumber daya, sehingga layanan AI berskala besar menjadi hemat biaya dan mudah diakses.
Bagaimana Pengembang Dapat Memanfaatkan Qwen3?
Alibaba telah merilis Qwen3 di bawah Apache 2.0 lisensi, yang mengundang komunitas penelitian global dan pengembang perusahaan untuk mengadopsi, mengadaptasi, dan memperluas keluarga model untuk aplikasi khusus.
Varian apa saja yang tersedia?
- Model Padat (0.6B, 3B, 22B, 32B)
Ideal untuk penerapan di lokasi dan skenario tepi, varian ini menghadirkan kemampuan tangguh dengan integrasi langsung. - Model MoE (total 235B parameter; 22B aktif)
Dirancang untuk layanan cloud berthroughput tinggi, konfigurasi yang lebih besar ini menawarkan kedalaman penalaran maksimal dan kefasihan multibahasa dengan pemanfaatan sumber daya yang dioptimalkan.
Apa Perbedaan Antara Opsi API dan Opsi Lokal?
Pengembang dapat memilih antara:
- API Awan Alibaba: Titik akhir terkelola dengan penskalaan otomatis, memungkinkan pembuatan prototipe cepat dan distribusi global.
- Penerapan yang Dihosting Sendiri: Kontainer Docker dan manifes Kubernetes disediakan, memfasilitasi skenario yang sangat memperhatikan kepatuhan di mana tempat tinggal dan keamanan data menjadi yang terpenting.
- API Komet:Pengembang dapat mengakses Qwen 3 API melalui API KometCometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI.
Dukungan Komunitas dan Ekosistem Apa yang Ada?
- Repositori Sumber Terbuka: Qwen GitHub menampung bobot model, skrip pelatihan, dan perangkat penyempurnaan, yang mendorong inovasi berbasis komunitas.
- Integrasi yang sudah dibangun sebelumnya: Plugin untuk kerangka kerja ML populer (TensorFlow, PyTorch) dan platform pihak ketiga (LangChain, Hugging Face) mempercepat waktu untuk mendapatkan nilai.
- Kolaborasi Penelitian: Alibaba telah menerbitkan laporan teknis Qwen3 lengkap di arXiv, menawarkan transparansi ke dalam keputusan arsitektur dan metodologi pelatihan.
Melalui pra-pelatihan multi-tahap yang masif, terobosan arsitektur, dan alur kerja pasca-pelatihan yang canggih, Qwen3 mencapai tolok ukur baru dalam penalaran hibrida. Mode berpikirnya yang fleksibel, varian MoE yang efisien, dan ekosistem penerapan yang kaya memposisikannya di garis depan AI sumber terbuka, memberdayakan para peneliti dan pengembang untuk membangun agen cerdas generasi berikutnya.
Mulai
CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.
Pengembang dapat mengakses Qwen 3 API melalui API KometUntuk memulai, jelajahi kemampuan model di Playground dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.
