Spesifikasi teknis Qwen3.5-397B-A17B
| Item | Qwen3.5-397B-A17B (bobot terbuka, pasca-pelatihan) |
|---|---|
| Model family | Qwen3.5 (seri Tongyi Qwen, Alibaba) |
| Architecture | Hybrid Mixture-of-Experts (MoE) + Gated DeltaNet; pelatihan multimodal early-fusion |
| Total parameters | ~397 miliar (total) |
| Active parameters (A17B) | ~17 miliar aktif per-token (routing sparse) |
| Input types | Teks, Gambar, Video (early-fusion multimodal) |
| Output types | Teks (chat, kode, keluaran RAG), gambar-ke-teks, respons multimodal |
| Native context window | 262,144 token (ISL native) |
| Extensible context | Hingga ~1,010,000 token melalui penskalaan YaRN/ RoPE (bergantung platform) |
| Max output tokens | Bergantung framework/serving (contoh menunjukkan 81,920–131,072 di panduan) |
| Languages | 200+ bahasa dan dialek |
| Release date | 16 Februari 2026 (rilis bobot terbuka) |
| License | Apache‑2.0 (bobot terbuka di Hugging Face / ModelScope) |
Apa itu Qwen3.5-397B-A17B
Qwen3.5-397B-A17B adalah rilis bobot terbuka pertama dalam keluarga Qwen3.5 milik Alibaba: sebuah model fondasi multimodal berukuran besar dengan mixture‑of‑experts yang dilatih menggunakan objektif visi–bahasa early‑fusion dan dioptimalkan untuk alur kerja agentic. Model ini mengekspos kapasitas penuh arsitektur 397B parameter sambil menggunakan sparse routing (akhiran “A17B”), sehingga hanya ~17B parameter yang aktif per token—memberikan keseimbangan antara kapasitas pengetahuan dan efisiensi inferensi.
Rilis ini ditujukan bagi peneliti dan tim rekayasa yang memerlukan model fondasi multimodal, terbuka, dan dapat dideploy, yang mampu melakukan penalaran konteks panjang, pemahaman visual, serta aplikasi retrieval‑augmented/agentic.
Fitur utama Qwen3.5-397B-A17B
- MoE sparse dengan efisiensi parameter aktif: Kapasitas global besar (397B) dengan aktivitas per-token yang sebanding dengan model dense 17B, menurunkan FLOPS per token sambil mempertahankan keragaman pengetahuan.
- Multimodal native (early fusion): Dilatih untuk menangani teks, gambar, dan video melalui strategi tokenisasi dan encoder terpadu untuk penalaran lintas‑modal.
- Dukungan konteks sangat panjang: Panjang urutan input native 262K token dan jalur terdokumentasi untuk memperluas hingga ~1M+ token menggunakan penskalaan RoPE/YARN untuk retrieval dan pipeline dokumen panjang.
- Thinking mode & tooling agen: Mendukung jejak penalaran internal dan pola eksekusi agentic; contoh termasuk mengaktifkan pemanggilan tool dan integrasi code interpreter.
- Bobot terbuka & kompatibilitas luas: Dirilis di bawah Apache‑2.0 di Hugging Face dan ModelScope, dengan panduan integrasi pihak pertama untuk Transformers, vLLM, SGLang, dan kerangka komunitas.
- Cakupan bahasa ramah enterprise: Pelatihan multibahasa yang ekstensif (200+ bahasa), beserta instruksi dan resep untuk deployment skala besar.
Qwen3.5-397B-A17B vs Model terpilih
| Model | Jendela konteks (native) | Kekuatan | Kompromi khas |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (native) | Multimodal MoE, bobot terbuka, kapasitas 397B dengan 17B aktif | Artefak model besar, memerlukan hosting terdistribusi untuk performa penuh |
| GPT-5.2 (representative closed) | ~400K (dilaporkan untuk beberapa varian) | Akurasi penalaran dense model tunggal yang tinggi | Bobot tertutup, biaya inferensi lebih tinggi pada skala |
| LLaMA‑style dense 70B | ~128K (bervariasi) | Stack inferensi lebih sederhana, VRAM lebih rendah untuk runtime dense | Kapasitas parameter lebih sedikit relatif terhadap pengetahuan global MoE |
Keterbatasan yang diketahui & pertimbangan operasional
- Jejak memori: MoE sparse tetap memerlukan penyimpanan berkas bobot besar; hosting menuntut ruang simpan dan memori perangkat signifikan dibandingkan klon dense 17B.
- Kompleksitas rekayasa: Throughput optimal memerlukan paralelisme yang cermat (tensor/pipeline) dan kerangka seperti vLLM atau SGLang; hosting GPU tunggal yang naif tidak praktis.
- Ekonomi token: Meski komputasi per token berkurang, konteks sangat panjang tetap meningkatkan I/O, ukuran KV cache, dan penagihan pada penyedia terkelola.
- Keamanan & guardrails: Bobot terbuka meningkatkan fleksibilitas namun mengalihkan tanggung jawab penyaringan keamanan, pemantauan, dan guardrails deployment kepada operator.
Use case representatif
- Riset & analisis model: Bobot terbuka memungkinkan riset yang dapat direproduksi dan evaluasi yang didorong komunitas.
- Layanan multimodal on‑premise: Perusahaan yang membutuhkan residensi data dapat mendepoy dan menjalankan beban kerja visi+teks secara lokal.
- RAG dan pipeline dokumen panjang: Dukungan konteks panjang native membantu penalaran sekali lewat atas korpus besar.
- Kecerdasan kode & tooling agen: Menganalisis monorepo, menghasilkan patch, dan menjalankan loop pemanggilan tool agentic di lingkungan terkontrol.
- Aplikasi multibahasa: Cakupan bahasa luas untuk produk global.
Cara mengakses dan mengintegrasikan Qwen3.5-397B-A17B
Langkah 1: Daftar untuk API Key
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console. Dapatkan kredensial akses API key dari antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx dan kirimkan.
Langkah 2: Kirim Permintaan ke API Qwen3.5-397B-A17B
Pilih endpoint “Qwen3.5-397B-A17B” untuk mengirim permintaan API dan atur request body. Metode permintaan dan request body diperoleh dari dokumen API di situs kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan CometAPI key aktual dari akun Anda. Di mana memanggilnya: format Chat.
Masukkan pertanyaan atau permintaan Anda ke bidang content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasikan Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data keluaran.