Spesifikasi teknikal Qwen3.5-397B-A17B
| Item | Qwen3.5-397B-A17B (bobot terbuka pasca-latihan) |
|---|---|
| Keluarga model | Qwen3.5 (siri Tongyi Qwen, Alibaba) |
| Seni bina | Hybrid Mixture-of-Experts (MoE) + Gated DeltaNet; latihan multimodal gabungan awal |
| Jumlah parameter | ~397 bilion (jumlah) |
| Parameter aktif (A17B) | ~17 bilion aktif per token (penghalaan jarang) |
| Jenis input | Teks, Imej, Video (multimodal gabungan awal) |
| Jenis output | Teks (chat, kod, output RAG), imej-ke-teks, respons multimodal |
| Tetingkap konteks asli | 262,144 token (ISL asli) |
| Konteks boleh dilanjutkan | Sehingga ~1,010,000 token melalui penskalaan YaRN/ RoPE (bergantung pada platform) |
| Token output maksimum | Bergantung pada rangka kerja/pelayan (contoh menunjukkan 81,920–131,072 dalam panduan) |
| Bahasa | 200+ bahasa dan dialek |
| Tarikh keluaran | 16 Februari 2026 (keluaran bobot terbuka) |
| Lesen | Apache‑2.0 (bobot terbuka di Hugging Face / ModelScope) |
Apakah itu Qwen3.5-397B-A17B
Qwen3.5-397B-A17B ialah keluaran bobot terbuka pertama dalam keluarga Qwen3.5 Alibaba: sebuah model asas campuran pakar multimodal berskala besar yang dilatih dengan objektif visi–bahasa gabungan awal dan dioptimumkan untuk aliran kerja ejen. Model ini mendedahkan kapasiti penuh seni bina 397B parameter sambil menggunakan penghalaan jarang (akhiran “A17B”) supaya hanya ~17B parameter aktif bagi setiap token—memberikan keseimbangan antara kapasiti pengetahuan dan kecekapan inferens.
Keluaran ini ditujukan kepada penyelidik dan pasukan kejuruteraan yang memerlukan model asas terbuka, boleh diguna atur, dan multimodal yang mampu melakukan penaakulan konteks panjang, pemahaman visual, serta aplikasi retrieval-augmented/berorientasikan ejen.
Ciri utama Qwen3.5-397B-A17B
- MoE jarang dengan kecekapan parameter aktif: Kapasiti global besar (397B) dengan aktiviti per token yang setanding dengan model padat 17B, mengurangkan FLOPS per token sambil mengekalkan kepelbagaian pengetahuan.
- Multimodal asli (gabungan awal): Dilatih untuk mengendalikan teks, imej, dan video melalui strategi tokenisasi dan pengekod bersatu untuk penaakulan rentas modal.
- Sokongan konteks sangat panjang: Panjang jujukan input asli 262K token dan laluan yang didokumenkan untuk dilanjutkan kepada ~1M+ token menggunakan penskalaan RoPE/YARN bagi saluran pengambilan dan dokumen panjang.
- Mod berfikir & peralatan ejen: Sokongan untuk jejak penaakulan dalaman dan corak pelaksanaan berorientasikan ejen; contoh termasuk mengaktifkan panggilan alat dan integrasi penterjemah kod.
- Bobot terbuka & keserasian luas: Dikeluarkan di bawah Apache‑2.0 di Hugging Face dan ModelScope, dengan panduan integrasi pihak pertama untuk Transformers, vLLM, SGLang dan rangka kerja komuniti.
- Liputan bahasa mesra perusahaan: Latihan berbilang bahasa yang luas (200+ bahasa), ditambah arahan dan resipi untuk penggunaan pada skala besar.
Qwen3.5-397B-A17B berbanding model terpilih
| Model | Tetingkap konteks (asli) | Kekuatan | Timbang tukar biasa |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (asli) | MoE multimodal, bobot terbuka, kapasiti 397B dengan 17B aktif | Artifak model besar, memerlukan pengehosan teragih untuk prestasi penuh |
| GPT-5.2 (tertutup mewakili) | ~400K (dilaporkan untuk beberapa varian) | Ketepatan penaakulan padat model tunggal yang tinggi | Bobot tertutup, kos inferens lebih tinggi pada skala |
| LLaMA-style dense 70B | ~128K (berbeza-beza) | Tindanan inferens lebih mudah, VRAM lebih rendah untuk runtime padat | Kapasiti parameter lebih rendah berbanding pengetahuan global MoE |
Had yang diketahui & pertimbangan operasi
- Jejak memori: MoE jarang masih memerlukan penyimpanan fail bobot besar; pengehosan menuntut storan dan memori peranti yang ketara berbanding klon padat 17B.
- Kerumitan kejuruteraan: Throughput optimum memerlukan paralelisme yang teliti (tensor/salur paip) dan rangka kerja seperti vLLM atau SGLang; pengehosan naif GPU tunggal adalah tidak praktikal.
- Ekonomi token: Walaupun pengiraan per token dikurangkan, konteks yang sangat panjang masih meningkatkan I/O, saiz cache KV, dan pengebilan bagi penyedia terurus.
- Keselamatan & pagar pelindung: Bobot terbuka meningkatkan fleksibiliti tetapi mengalihkan tanggungjawab untuk penapisan keselamatan, pemantauan, dan pagar pelindung penggunaan kepada pengendali.
Kes penggunaan perwakilan
- Penyelidikan & analisis model: Bobot terbuka membolehkan penyelidikan yang boleh dihasilkan semula dan penilaian dipacu komuniti.
- Perkhidmatan multimodal di premis: Perusahaan yang memerlukan residensi data boleh menggunakan dan menjalankan beban kerja visi+teks secara setempat.
- Saluran RAG dan dokumen panjang: Sokongan konteks panjang asli membantu penaakulan sekali lalu ke atas korpus besar.
- Kecerdasan kod & peralatan ejen: Menganalisis monorepo, menjana tampalan, dan menjalankan gelung panggilan alat berorientasikan ejen dalam persekitaran terkawal.
- Aplikasi berbilang bahasa: Sokongan liputan bahasa tinggi untuk produk global.
Cara mengakses dan menyepadukan Qwen3.5-397B-A17B
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI anda. Dapatkan kelayakan akses kunci API antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.
Langkah 2: Hantar Permintaan ke API Qwen3.5-397B-A17B
Pilih endpoint “Qwen3.5-397B-A17B” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumentasi API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar anda daripada akaun anda. Tempat untuk memanggilnya: format Chat.
Masukkan soalan atau permintaan anda ke dalam medan content—ini ialah perkara yang akan dibalas oleh model . Proses respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan yang dijana. Selepas diproses, API membalas dengan status tugas dan data output.