Seiring terus berkembangnya kecerdasan buatan, Qwen 2.5 besutan Alibaba muncul sebagai pesaing tangguh di ranah model bahasa besar (LLM). Dirilis pada awal tahun 2025, Qwen 2.5 menawarkan berbagai peningkatan signifikan dibandingkan pendahulunya, dengan menawarkan serangkaian fitur yang memenuhi beragam aplikasi—mulai dari pengembangan perangkat lunak dan pemecahan masalah matematika hingga pembuatan konten multibahasa dan seterusnya.
Artikel ini membahas seluk-beluk Qwen 2.5, memberikan gambaran mendetail tentang arsitektur, kemampuan, dan aplikasi praktisnya. Baik Anda seorang pengembang, peneliti, atau profesional bisnis, memahami cara memanfaatkan Qwen 2.5 dapat membuka kemungkinan baru dalam pekerjaan Anda.
Apa itu Qwen 2.5?
Qwen 2.5 adalah keluarga model bahasa besar generasi 2025 milik Alibaba Cloud yang mencakup parameter 1.5 B hingga 72 B (dan saudaranya yang dioptimalkan untuk penalaran 32 B) dan kini mendukung produk komersial, penelitian, dan konsumen seperti Qwen Chat, DashScope, dan gateway API yang kompatibel dengan OpenAI. Dibandingkan dengan Qwen 2, lini 2.5 memperkenalkan (i) inti Campuran Pakar (MoE) untuk efisiensi, (ii) pelatihan pada token ~20 T, (iii) mengikuti instruksi, pengodean, dan penalaran multibahasa yang lebih kuat, (iv) varian bahasa visi (VL) dan "Omni" yang sepenuhnya multimodal, dan (v) opsi penerapan mulai dari Alibaba Cloud hingga hosting mandiri melalui GitHub, Hugging Face, ModelScope, dan Docker/OLLAMA.
Semua ukuran memiliki kesamaan resep pra-pelatihan tapi berbeda dalam hal instruksi‑penyempurnaan lapisan: Qwen‑Chat (untuk dialog terbuka) dan Qwen‑Base (untuk penyempurnaan hilir). Titik pemeriksaan yang lebih besar juga mencakup Qwen 2.5‑Maks, edisi Campuran‑Pakar (MoE) yang jarang yang mengaktifkan 2.7 B parameter per token untuk biaya inferensi yang jauh lebih rendah pada GPU.
Sorotan arsitektur Qwen 2.5
Pergeseran arsitektur
Qwen 2.5 merupakan lompatan signifikan dalam pengembangan model AI, terutama karena pelatihannya yang ekstensif dan arsitekturnya yang disempurnakan. Model tersebut telah dilatih sebelumnya pada kumpulan data kolosal yang terdiri dari 18 triliun token, peningkatan substansial dari 7 triliun token yang digunakan pada pendahulunya, Qwen 2. Kumpulan data pelatihan yang luas ini meningkatkan pemahaman model terhadap bahasa, penalaran, dan pengetahuan khusus domain.
Qwen 2.5 mengadopsi tulang punggung Mixture‑of‑Experts (MoE) yang jarang: hanya sebagian kecil subset pakar yang aktif per token, yang memungkinkan kapasitas efektif yang lebih tinggi tanpa pertumbuhan biaya linear Qwen. Pelatihan menggunakan ~20 token T dan kurikulum data yang disempurnakan dengan fine‑tuning yang diawasi (SFT) plus RLHF. Tolok ukur yang diterbitkan oleh tim menunjukkan perolehan besar pada MMLU, matematika GSM8K, dan pemahaman lintas bahasa multibahasa relatif terhadap Qwen 2 dan baseline peer 7 B/70 B.
Keluarga model Qwen 2.5
| Edisi | Ukuran | Pengandaian | Tujuan & fitur judul |
|---|---|---|---|
| Qwen 2.5‑1.5B‑Instruksikan | 1.5 Miliar | Teks | Perangkat edge/chatbot yang memorinya terbatas |
| Qwen 2.5‑7B‑Instruksikan | 7 Miliar | Teks | LLM sumber terbuka andalan dengan konteks 32k, cakupan 29 bahasa |
| Qwen 2.5‑Omni‑7B | 7 Miliar | Multimoda (teks + gambar + audio + video) | Penggabungan modalitas ujung ke ujung |
| Qwen 2.5‑VL‑3B/7B/72B‑Instruksikan | 3–72B | Bahasa penglihatan | Keterangan padat, Tanya Jawab dokumen, OCR, analisis bagan |
| QwQ‑32B | 32 Miliar | Teks (penalaran) | MoE mengkhususkan diri dalam matematika/pengodean; paritas dengan DeepSeek R1 671 B dengan biaya 5% |
| Qwen 2.5‑Maks | tidak diungkapkan (multi-pakar) | Teks | Pemimpin benchmark internal, tersedia melalui API dan Qwen Chat |
Kemampuan utama dan tolok ukur
Instruksi berikut & jangkauan multibahasa
Dokumen internal menunjukkan Qwen 2.5‑7B melampaui Llama‑3 8B pada AlpacaEval (92 vs 89) dan mencapai 79% win‑rate terhadap GPT‑3.5‑Turbo pada MT‑Bench Tiongkok. Bahasa yang didukung meliputi Turki, Indonesia, Jerman, Arab, dan Swahili. Jendela konteks 32 k dengan enkode posisional tali geser menyediakan ringkasan PDF 200 halaman tanpa fragmentasi.
Pengkodean dan penalaran
QwQ‑32B memperoleh skor 50.4% pada GSM8K (5‑shot) dan 74% pada HumanEval‑Plus, setara dengan DeepSeek R1 dengan jumlah parameter seperduapuluh. Uji komunitas awal menunjukkan model 7 B dapat mengompilasi dan men-debug cuplikan C++ menggunakan g++‑13 di dalam sandbox Docker dengan halusinasi minimal.
Kekuatan multimoda
Qwen 2.5‑VL‑72B mencapai 62.7% pada MMMU dan 73.4% pada TextVQA, mengungguli Gemini 1.5‑Pro dalam tugas OCR tabel (menurut blog Qwen di bulan Januari). Omni‑7B memperluasnya ke transkripsi spektrum audio dan pengambilan sampel bingkai MP4 melalui tokeniser bersama.
Perizinan, keselamatan dan tata kelola
Alibaba mempertahankan kode/lisensi Apache 2.0 dengan tambahan “Qian‑Wen AI yang Bertanggung Jawab” pengendara:
- Terlarang: konten teroris, disinformasi, ekstraksi data pribadi.
- Diperlukan: pengembang harus menerapkan filter konten dan tanda air di aplikasi hilir.
Lisensi ini mengizinkan penggunaan komersial tetapi mewajibkan pengungkapan kartu model jika bobot dimodifikasi dan disebarkan ulang. Di Alibaba Cloud, moderasi diberlakukan di sisi server; host mandiri harus mengintegrasikan filter gradien kebijakan sumber terbuka (tertaut dalam repo).
Peta jalan menuju Qwen 3
Bloomberg dan PYMNTS melaporkan Alibaba akan meluncurkan Qwen 3 "secepatnya akhir April 2025," kemungkinan melonjak ke >100 parameter padat B dan kemampuan penggunaan alat asli. Orang dalam menyarankan kluster GPU 4×2048 pada ASIC Hanguang 800+ dan kernel Triton‑Flash‑Attention v3 sedang dalam pengujian. Qwen 2.5 akan tetap menjadi cabang sumber terbuka, sementara Qwen 3 mungkin memulai debutnya di bawah lisensi yang lebih ketat mirip dengan Llama 3‑Commercial milik Meta.
Tips praktis untuk pengembang
- Penghitungan token: Qwen menggunakan Tokenisasi Qwen; token khususnya sama dengan
<|im_end|>dalam perintah bergaya OpenAI. - Pesan sistem: Bungkus dengan
<|im_start|>system … <|im_end|>untuk menjaga hierarki dan menghindari penyebab bobot delta. - Penyetelan halus: Terapkan peringkat LoRA‑64 pada lapisan 20‑24 saja; LoRA lapisan‑awal menghasilkan perolehan yang dapat diabaikan karena kelangkaan MoE.
- Streaming: Dengan DashScope, aktifkan
X-DashScope-Stream: true; ukuran potongan adalah 20 token. - Masukan Qwen‑VL: Kodekan byte gambar sebagai base64; lewati melalui
inputs=.
Kesimpulan
Qwen 2.5 memperkuat posisi Alibaba Cloud dalam perlombaan LLM sumber terbuka global dengan memadukan efisiensi MoE dengan lisensi yang permisif dan berbagai rute akses—mulai dari Qwen Chat sekali klik hingga Ollama di laptop dan titik akhir DashScope kelas perusahaan. Bagi para peneliti, korpus pelatihannya yang transparan dan paritas bahasa Mandarin-Inggris yang kuat mengisi celah yang ditinggalkan oleh seri Llama Meta. Bagi para pembangun, API yang kompatibel dengan OpenAI memangkas hambatan migrasi, sementara cabang VL/Omni multimoda mengantisipasi masa depan yang dekat di mana teks, visi, audio, dan video bertemu di bawah ruang token yang terpadu. Saat Qwen 3 muncul akhir bulan ini, Qwen 2.5 berfungsi sebagai tempat pembuktian dan model produksi yang kuat—yang telah membentuk kembali kalkulus kompetitif AI skala besar pada tahun 2025.
Untuk Pengembang: Akses API
API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda mengintegrasikan Qwen API, dan Anda akan mendapatkan $1 di akun Anda setelah mendaftar dan masuk! Selamat datang untuk mendaftar dan mencoba CometAPI.
CometAPI bertindak sebagai hub terpusat untuk API beberapa model AI terkemuka, menghilangkan kebutuhan untuk bekerja sama dengan beberapa penyedia API secara terpisah.
Silakan lihat API Qwen 2.5 Max untuk detail integrasi.CometAPI telah memperbarui yang terbaru API QwQ-32BUntuk informasi Model lebih lanjut di Comet API silakan lihat Dokumen API.


