Menguraikan Pelatihan Qwen3: Penyelaman Mendalam

Peluncuran Qwen3, model bahasa besar (LLM) penalaran hibrida terbaru Alibaba, sekali lagi telah membentuk kembali kontur penelitian dan penerapan AI. Di balik kemampuannya yang luar biasa terdapat proses pelatihan yang dirancang dengan cermat yang mencakup pra-pelatihan besar-besaran pada beragam data, inovasi arsitektur, dan alur kerja pasca-pelatihan multi-tahap. Artikel ini mengupas bagaimana Qwen3 berlatih, menjelajahi setiap fase dari penyerapan data mentah hingga penyempurnaan untuk penalaran dan penerapan, menjawab pertanyaan-pertanyaan utama yang mendorong desain dan kinerjanya.

Data apa yang mendukung pra-pelatihan Qwen3?

Memperluas jumlah token: dari triliunan menjadi puluhan triliun

Fondasi Qwen3 dibangun di atas korpus yang belum pernah ada sebelumnya—lebih dari 36 triliun token mencakup lebih dari 119 bahasa dan dialek. Ini mewakili hampir dua kali lipat volume token yang digunakan dalam pendahulunya, Qwen2.5, yang dilatih pada 18 triliun token. Dengan menskalakan besaran data, Qwen3 menyerap pola linguistik, pengetahuan dunia, dan konten khusus domain yang lebih kaya.

Memanfaatkan berbagai sumber data: web, PDF, dan konten sintetis

Untuk mengumpulkan kumpulan data kolosal ini, Alibaba menggabungkan perayapan web dengan Dokumen seperti PDF diproses melalui Qwen2.5-VL, memastikan ekstraksi teks teknis dan materi akademis berkualitas tinggi. Selain itu, pembuatan data sintetis yang ditargetkan—memanfaatkan Qwen2.5-Math dan Qwen2.5-Coder—menambah korpus dengan jutaan solusi masalah matematika dan potongan kode, memperkuat kelancaran STEM dan pemrograman.

Bagaimana proses pra-pelatihan Qwen3 terstruktur?

Tahap 1: Membangun pengetahuan dasar

In **Tahap 1 (S1)**Qwen3 dilatih pada lebih dari 30 triliun token menggunakan kerangka kerja Transformer konteks 4K standar. Tahap ini menanamkan pemahaman bahasa dasar dan pengetahuan domain umum, yang serupa dengan “belajar alfabet” untuk literasi manusia.

Tahap 2: Memperkaya kemampuan yang intensif pengetahuan

pindah ke Tahap 2 (S2), kumpulan data diseimbangkan kembali untuk menekankan konten yang padat pengetahuan—Teks STEM, tantangan pengkodean, dan tugas penalaran. 5 triliun token diserap, mempertajam kemampuan model untuk mengatasi masalah akademis dan teknis yang rumit.

Tahap 3: Memperluas durasi konteks

Akhirnya, a tahap pra-pelatihan konteks panjang memanfaatkan dokumen berkualitas tinggi untuk memperluas jendela konteks asli Qwen3 ke 32 ribu token, memberdayakannya untuk memproses dan menalar masukan yang panjang seperti makalah penelitian atau instruksi multi-langkah.

Inovasi arsitektur apa yang memungkinkan kinerja Qwen3?

Model Padat vs. Model Campuran-Pakar (MoE)

Qwen3 menawarkan keduanya padat dan Campuran Pakar (MoE) varian. Model padat berkisar dari 0.6B hingga 32B parameter, sementara versi MoE hanya mengaktifkan sebagian kecil pakar (misalnya, 8 dari 128) per token, memangkas komputasi aktif hingga 90% tanpa mengorbankan kinerja.

Peningkatan perhatian dan normalisasi

Inovasi seperti normalisasi QK per kepala dan bias perhatian yang didesain ulang meningkatkan stabilitas dalam skala besar. Penyempurnaan ini memungkinkan model yang lebih dalam (hingga 94 lapisan dalam Qwen3-235B-A22B) untuk menyatu secara efisien, memastikan perolehan yang konsisten dengan kapasitas tambahan.

Bagaimana Qwen3 mengimplementasikan penalaran hibrida?

Mode berpikir vs. mode tidak berpikir

Ciri khas Qwen3 adalah penalaran hibrida:

Mode Berpikir: Melibatkan penalaran berantai (CoT), memecah masalah menjadi langkah-langkah perantara sebelum menghasilkan jawaban akhir.
Mode Tidak Berpikir: Memberikan respons cepat tanpa alasan perantara yang eksplisit.
Pengguna dapat mengubah mode melalui enable_thinking bendera atau tag sebaris (/think, /no_think), menyesuaikan inferensi dengan kompleksitas tugas.

Mengendalikan anggaran penalaran

Dengan mengalokasikan “anggaran komputasi” ke langkah-langkah penalaran, Qwen3 memastikan keseimbangan biaya-kualitas. Tugas yang lebih sulit dapat memicu penalaran yang lebih mendalam (lebih banyak komputasi), sementara kueri yang lebih sederhana tetap cepat, menawarkan kontrol yang lebih rinci atas trade-off inferensi .

Apa saja yang termasuk dalam tahap pasca pelatihan Qwen3?

Penyetelan halus dengan start dingin berantai

The tahap pasca pelatihan pertama menyempurnakan Qwen3 di beragam data CoT panjang, yang mencakup matematika, teka-teki logika, dan masalah pengkodean. Fase "mulai dingin" ini memulai kemampuan penalaran eksplisit model sebelum pembelajaran penguatan.

Pembelajaran penguatan untuk penalaran

Tahap 2 meningkatkan komputasi untuk pembelajaran penguatan berbasis aturan (RL), menggunakan fungsi penghargaan yang dibuat sendiri untuk memandu eksplorasi jalur penalaran. Hal ini mengasah kapasitas model untuk menghasilkan langkah-langkah perantara yang koheren tanpa menyimpang dari tugas.

Penggabungan mode berpikir dan RL umum

Pada Tahap 3, data penalaran dan instruksi digabungkan—fusi mode berpikir—untuk memadukan penalaran mendalam dengan mengikuti instruksi umum. Terakhir, Tahap 4 menerapkan RL di lebih dari 20 tugas domain umum (misalnya, kepatuhan format, fungsi agen), mengoreksi perilaku yang tidak diinginkan, dan menyempurnakan kelancaran.

Apa yang membedakan Qwen3 dengan Qwen2.5?

Sementara Qwen2.5 memantapkan kepemimpinan Alibaba dalam LLM terbuka, Qwen3 menghadirkan beberapa peningkatan penting:

Fitur	Qwen2.5	Qwen3
Skala parameter	Hingga 72B (padat)	Hingga 235B (MoE) + opsi padat
Jendela konteks	16 ribu token	128K token (sebagian besar varian)
Cakupan bahasa	Bahasa 29	119 bahasa dan dialek
Integrasi penalaran	Model penalaran terpisah	Mode berpikir/tidak berpikir terpadu
Ketersediaan bobot terbuka	Ya (Apache 2.0)	Ya (Apache 2.0)

Peningkatan ini menghasilkan model yang lebih serba guna, akurat, dan dapat diakses secara global.

Bagaimana Qwen3 dioptimalkan untuk penerapan waktu nyata?

Selain pelatihan, rekayasa Qwen3 menekankan inferensi latensi rendah dan penerapan yang dapat diskalakan untuk mendukung agen dan kopilot tingkat produksi.

Akselerasi perangkat keras pada Cerebras

Cerebras telah menunjukkan penalaran waktu nyata dengan Qwen3-32B, memberikan respons dalam 1.2 detik—hingga 60x lebih cepat daripada model penalaran sejenis—dengan memanfaatkan mesin skala wafer dan kernel inferensi khusus yang dioptimalkan untuk arsitektur Qwen3.

Penerapan cloud dan kesiapan API

Alibaba Cloud menawarkan Qwen3 melalui rangkaian API-nya, dengan kluster GPU yang dapat diskalakan secara otomatis dan node CPU yang dioptimalkan untuk inferensi. Pengembang dapat menyempurnakan dan menerapkan varian Qwen3 menggunakan dukungan LoRA bawaan untuk mengurangi konsumsi sumber daya, sehingga layanan AI berskala besar menjadi hemat biaya dan mudah diakses.

Bagaimana Pengembang Dapat Memanfaatkan Qwen3?

Alibaba telah merilis Qwen3 di bawah Apache 2.0 lisensi, yang mengundang komunitas penelitian global dan pengembang perusahaan untuk mengadopsi, mengadaptasi, dan memperluas keluarga model untuk aplikasi khusus.

Varian apa saja yang tersedia?

Model Padat (0.6B, 3B, 22B, 32B)
Ideal untuk penerapan di lokasi dan skenario tepi, varian ini menghadirkan kemampuan tangguh dengan integrasi langsung.
Model MoE (total 235B parameter; 22B aktif)
Dirancang untuk layanan cloud berthroughput tinggi, konfigurasi yang lebih besar ini menawarkan kedalaman penalaran maksimal dan kefasihan multibahasa dengan pemanfaatan sumber daya yang dioptimalkan.

Apa Perbedaan Antara Opsi API dan Opsi Lokal?

Pengembang dapat memilih antara:

API Awan Alibaba: Titik akhir terkelola dengan penskalaan otomatis, memungkinkan pembuatan prototipe cepat dan distribusi global.
Penerapan yang Dihosting Sendiri: Kontainer Docker dan manifes Kubernetes disediakan, memfasilitasi skenario yang sangat memperhatikan kepatuhan di mana tempat tinggal dan keamanan data menjadi yang terpenting.
API Komet:Pengembang dapat mengakses Qwen 3 API melalui API KometCometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI.

Dukungan Komunitas dan Ekosistem Apa yang Ada?

Repositori Sumber Terbuka: Qwen GitHub menampung bobot model, skrip pelatihan, dan perangkat penyempurnaan, yang mendorong inovasi berbasis komunitas.
Integrasi yang sudah dibangun sebelumnya: Plugin untuk kerangka kerja ML populer (TensorFlow, PyTorch) dan platform pihak ketiga (LangChain, Hugging Face) mempercepat waktu untuk mendapatkan nilai.
Kolaborasi Penelitian: Alibaba telah menerbitkan laporan teknis Qwen3 lengkap di arXiv, menawarkan transparansi ke dalam keputusan arsitektur dan metodologi pelatihan.

Melalui pra-pelatihan multi-tahap yang masif, terobosan arsitektur, dan alur kerja pasca-pelatihan yang canggih, Qwen3 mencapai tolok ukur baru dalam penalaran hibrida. Mode berpikirnya yang fleksibel, varian MoE yang efisien, dan ekosistem penerapan yang kaya memposisikannya di garis depan AI sumber terbuka, memberdayakan para peneliti dan pengembang untuk membangun agen cerdas generasi berikutnya.

Mulai

CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.

Pengembang dapat mengakses Qwen 3 API melalui API KometUntuk memulai, jelajahi kemampuan model di Playground dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.