Spesifikasi teknikal Qwen3.5-397B-A17B
| Perkara | Qwen3.5-397B-A17B (berat terbuka pasca-latihan) |
|---|---|
| Keluarga model | Qwen3.5 (siri Tongyi Qwen, Alibaba) |
| Seni bina | Campuran Pakar Hibrid (MoE) + Gated DeltaNet; latihan multimodal penggabungan awal |
| Jumlah parameter | ~397 bilion (jumlah) |
| Parameter aktif (A17B) | ~17 bilion aktif setiap token (perutean jarang) |
| Jenis input | Teks, Imej, Video (penggabungan awal multimodal) |
| Jenis output | Teks (sembang, kod, output RAG), imej-ke-teks, respons multimodal |
| Tetingkap konteks natif | 262,144 token (ISL natif) |
| Konteks boleh diperluas | Sehingga ~1,010,000 token melalui penskalaan YaRN/ RoPE (bergantung pada platform) |
| Maksimum token output | Bergantung pada rangka kerja/perkhidmatan (contoh menunjukkan 81,920–131,072 dalam panduan) |
| Bahasa | 200+ bahasa dan dialek |
| Tarikh keluaran | 16 Februari 2026 (keluaran berat terbuka) |
| Lesen | Apache‑2.0 (berat terbuka di Hugging Face / ModelScope) |
Apakah Qwen3.5-397B-A17B
Qwen3.5-397B-A17B ialah keluaran berat terbuka pertama dalam keluarga Qwen3.5 milik Alibaba: model asas campuran pakar multimodal berskala besar yang dilatih dengan objektif penglihatan–bahasa penggabungan awal dan dioptimumkan untuk aliran kerja berorientasikan agen. Model ini mendedahkan kapasiti penuh seni bina 397B parameter sambil menggunakan perutean jarang (akhiran “A17B”) supaya hanya ~17B parameter aktif bagi setiap token—memberikan keseimbangan antara kapasiti pengetahuan dan kecekapan inferens.
Keluaran ini ditujukan kepada penyelidik dan pasukan kejuruteraan yang memerlukan model asas multimodal yang terbuka dan boleh ditempatkan, mampu melakukan penaakulan konteks panjang, pemahaman visual, serta aplikasi berpengambilan dipertingkat/berorientasikan agen.
Ciri utama Qwen3.5-397B-A17B
- MoE jarang dengan kecekapan parameter aktif: Kapasiti global besar (397B) dengan aktiviti setiap token yang setanding dengan model tumpat 17B, mengurangkan FLOPS per token sambil mengekalkan kepelbagaian pengetahuan.
- Multimodal natif (penggabungan awal): Dilatih untuk mengendalikan teks, imej dan video melalui strategi tokenisasi dan pengekod bersatu bagi penaakulan rentas modal.
- Sokongan konteks sangat panjang: Panjang urutan input natif sebanyak 262K token dan laluan terdokumen untuk diperluas sehingga ~1M+ token menggunakan penskalaan RoPE/YARN bagi pengambilan semula dan pipeline dokumen panjang.
- Mod pemikiran & peralatan agen: Menyokong jejak penaakulan dalaman dan corak pelaksanaan beragen; contoh termasuk mengaktifkan panggilan alat dan integrasi penafsir kod.
- Berat terbuka & keserasian luas: Dikeluarkan di bawah Apache‑2.0 di Hugging Face dan ModelScope, dengan panduan integrasi pihak pertama untuk Transformers, vLLM, SGLang dan rangka kerja komuniti.
- Liputan bahasa mesra perusahaan: Latihan berbilang bahasa yang meluas (200+ bahasa), serta arahan dan resipi untuk penempatan pada skala.
Qwen3.5-397B-A17B vs Model terpilih
| Model | Tetingkap konteks (natif) | Kekuatan | Kompromi tipikal |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (natif) | MoE multimodal, berat terbuka, kapasiti 397B dengan 17B aktif | Artifak model besar, memerlukan penempatan teragih untuk prestasi penuh |
| GPT-5.2 (contoh tertutup) | ~400K (dilaporkan bagi sesetengah varian) | Ketepatan penaakulan tinggi bagi model tumpat tunggal | Berat tertutup, kos inferens lebih tinggi pada skala |
| LLaMA‑style dense 70B | ~128K (berubah-ubah) | Tindanan inferens lebih ringkas, VRAM lebih rendah untuk masa jalan tumpat | Kapasiti parameter lebih kecil berbanding pengetahuan global MoE |
Had yang diketahui & pertimbangan operasi
- Jejak memori: MoE jarang masih memerlukan penyimpanan fail berat yang besar; penempatan memerlukan storan dan memori peranti yang signifikan berbanding klon tumpat 17B.
- Kekompleksan kejuruteraan: Throughput optimum memerlukan paralelisme yang teliti (tensor/pipeline) dan rangka kerja seperti vLLM atau SGLang; hos GPU tunggal secara naif adalah tidak praktikal.
- Ekonomi token: Walaupun komputasi setiap token dikurangkan, konteks yang sangat panjang tetap meningkatkan I/O, saiz cache KV, dan bil untuk penyedia terurus.
- Keselamatan & penghad: Berat terbuka meningkatkan fleksibiliti tetapi mengalihkan tanggungjawab penapisan keselamatan, pemantauan, dan penghad penempatan kepada operator.
Kes penggunaan representatif
- Penyelidikan & analisis model: Berat terbuka membolehkan penyelidikan boleh diulang dan penilaian yang didorong komuniti.
- Perkhidmatan multimodal di premis: Perusahaan yang memerlukan kediaman data boleh melaksanakan dan menjalankan beban kerja visi+teks secara setempat.
- RAG dan rangkaian dokumen panjang: Sokongan konteks natif panjang membantu penaakulan laluan tunggal ke atas korpus besar.
- Kecerdasan kod & peralatan agen: Menganalisis monorepo, menjana tampalan, dan menjalankan gelung panggilan alat beragen dalam persekitaran terkawal.
- Aplikasi berbilang bahasa: Sokongan bahasa liputan tinggi untuk produk global.
Cara mengakses dan mengintegrasi Qwen3.5-397B-A17B
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Masuk ke konsol CometAPI. Dapatkan kunci API kelayakan akses untuk antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.
Langkah 2: Hantar Permintaan ke API Qwen3.5-397B-A17B
Pilih titik akhir “Qwen3.5-397B-A17B” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. Tempat untuk memanggilnya: Chat format.
Masukkan soalan atau permintaan anda ke dalam medan kandungan—ini ialah apa yang akan dijawab oleh model. Proses respons API untuk mendapatkan jawapan yang dihasilkan.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan yang dihasilkan. Selepas pemprosesan, API akan membalas dengan status tugas dan data output.