Spesifikasi teknis Qwen3.5-397B-A17B
| Item | Qwen3.5-397B-A17B (bobot terbuka pasca-pelatihan) |
|---|---|
| Model family | Qwen3.5 (seri Tongyi Qwen, Alibaba) |
| Architecture | Hybrid Mixture-of-Experts (MoE) + Gated DeltaNet; pelatihan multimodal early-fusion |
| Total parameters | ~397 miliar (total) |
| Active parameters (A17B) | ~17 miliar aktif per token (sparse routing) |
| Input types | Teks, Gambar, Video (multimodal early-fusion) |
| Output types | Teks (chat, code, output RAG), image-to-text, respons multimodal |
| Native context window | 262.144 token (ISL native) |
| Extensible context | Hingga ~1.010.000 token melalui penskalaan YaRN/RoPE (bergantung platform) |
| Max output tokens | Bergantung pada framework/serving (contoh menunjukkan 81.920–131.072 dalam panduan) |
| Languages | 200+ bahasa dan dialek |
| Release date | 16 Februari 2026 (rilis bobot terbuka) |
| License | Apache‑2.0 (bobot terbuka di Hugging Face / ModelScope) |
Apa itu Qwen3.5-397B-A17B
Qwen3.5-397B-A17B adalah rilis bobot terbuka pertama dalam keluarga Qwen3.5 milik Alibaba: model fondasi mixture-of-experts multimodal berskala besar yang dilatih dengan tujuan vision-language early-fusion dan dioptimalkan untuk alur kerja agentic. Model ini menghadirkan kapasitas penuh dari arsitektur berparameter 397B sambil menggunakan sparse routing (akhiran “A17B”), sehingga hanya ~17B parameter yang aktif per token—memberikan keseimbangan antara kapasitas pengetahuan dan efisiensi inferensi.
Rilis ini ditujukan bagi peneliti dan tim engineering yang membutuhkan model fondasi terbuka, dapat di-deploy, dan multimodal yang mampu melakukan penalaran konteks panjang, pemahaman visual, serta aplikasi retrieval-augmented/agentic.
Fitur utama Qwen3.5-397B-A17B
- Sparse MoE dengan efisiensi parameter aktif: Kapasitas global besar (397B) dengan aktivitas per token yang sebanding dengan model dense 17B, menurunkan FLOPS per token sambil mempertahankan keragaman pengetahuan.
- Multimodal native (early fusion): Dilatih untuk menangani teks, gambar, dan video melalui tokenisasi terpadu dan strategi encoder untuk penalaran lintas modal.
- Dukungan konteks sangat panjang: Panjang urutan input native 262K token dan jalur terdokumentasi untuk memperluas hingga ~1M+ token menggunakan penskalaan RoPE/YARN untuk retrieval dan pipeline dokumen panjang.
- Thinking mode & agent tooling: Dukungan untuk jejak penalaran internal dan pola eksekusi agentic; contohnya termasuk mengaktifkan pemanggilan alat dan integrasi code interpreter.
- Bobot terbuka & kompatibilitas luas: Dirilis di bawah Apache‑2.0 di Hugging Face dan ModelScope, dengan panduan integrasi pihak pertama untuk Transformers, vLLM, SGLang, dan framework komunitas.
- Cakupan bahasa ramah enterprise: Pelatihan multibahasa yang luas (200+ bahasa), ditambah instruksi dan resep untuk deployment dalam skala besar.
Qwen3.5-397B-A17B vs model terpilih
| Model | Context window (native) | Strength | Typical trade-offs |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (native) | MoE multimodal, bobot terbuka, kapasitas 397B dengan 17B aktif | Artefak model besar, memerlukan hosting terdistribusi untuk performa penuh |
| GPT-5.2 (representative closed) | ~400K (dilaporkan untuk beberapa varian) | Akurasi penalaran dense model tunggal yang tinggi | Bobot tertutup, biaya inferensi lebih tinggi dalam skala besar |
| LLaMA‑style dense 70B | ~128K (bervariasi) | Stack inferensi lebih sederhana, VRAM lebih rendah untuk runtime dense | Kapasitas parameter lebih rendah dibanding pengetahuan global MoE |
Keterbatasan yang diketahui & pertimbangan operasional
- Jejak memori: Sparse MoE tetap memerlukan penyimpanan file bobot yang besar; hosting menuntut penyimpanan dan memori perangkat yang signifikan dibandingkan klon dense 17B.
- Kompleksitas engineering: Throughput optimal memerlukan paralelisme yang cermat (tensor/pipeline) dan framework seperti vLLM atau SGLang; hosting naif pada satu GPU tidak praktis.
- Ekonomi token: Meskipun komputasi per token berkurang, konteks yang sangat panjang tetap meningkatkan I/O, ukuran cache KV, dan biaya untuk penyedia terkelola.
- Safety & guardrails: Bobot terbuka meningkatkan fleksibilitas tetapi mengalihkan tanggung jawab untuk penyaringan keselamatan, pemantauan, dan guardrail deployment kepada operator.
Kasus penggunaan representatif
- Riset & analisis model: Bobot terbuka memungkinkan riset yang dapat direproduksi dan evaluasi yang didorong komunitas.
- Layanan multimodal on-premise: Enterprise yang membutuhkan residensi data dapat men-deploy dan menjalankan beban kerja vision+text secara lokal.
- RAG dan pipeline dokumen panjang: Dukungan konteks panjang native membantu penalaran sekali jalan atas korpus besar.
- Code intelligence & agent tooling: Menganalisis monorepo, menghasilkan patch, dan menjalankan loop pemanggilan alat agentic di lingkungan terkontrol.
- Aplikasi multibahasa: Dukungan bahasa dengan cakupan tinggi untuk produk global.
Cara mengakses dan mengintegrasikan Qwen3.5-397B-A17B
Langkah 1: Daftar untuk API Key
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke konsol CometAPI Anda. Dapatkan kredensial akses API key dari antarmuka. Klik “Add Token” pada API token di pusat personal, dapatkan token key: sk-xxxxx lalu kirimkan.
Langkah 2: Kirim Permintaan ke API Qwen3.5-397B-A17B
Pilih endpoint “Qwen3.5-397B-A17B” untuk mengirim permintaan API dan atur request body. Metode permintaan dan request body diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. Tempat memanggilnya: format Chat.
Masukkan pertanyaan atau permintaan Anda ke dalam field content—ini adalah isi yang akan ditanggapi oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data output.