Spesifikasi teknis (tabel referensi cepat)
| Item | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (yang di-host) |
|---|---|---|---|---|
| Skala parameter | ~122B (menengah-besar) | ~27B (padat) | ~35B (MoE / hibrida A3B) | Sesuai dengan bobot 35B-A3B (yang di-host) |
| Catatan arsitektur | Hibrida (gated delta + atensi MoE dalam keluarga) | Transformer padat | Varian Sparse / Mixture-of-Experts (A3B) | Arsitektur sama seperti 35B-A3B, fitur produksi |
| Modalitas input/output | Teks, visi-bahasa (token multimodal fusi dini); I/O gaya chat | Teks, dukungan V+L | Teks + visi (pemanggilan alat agen didukung) | Teks + visi; integrasi alat resmi & keluaran API |
| Konteks maksimum baku (lokal/standar) | Dapat dikonfigurasi (besar) โ keluarga mendukung konteks sangat panjang | Dapat dikonfigurasi | 262,144 token (contoh konfigurasi lokal standar) | 1,000,000 token (default untuk Flash yang di-host). |
| Penyajian / API | Kompatibel dengan chat completions gaya OpenAI; vLLM / SGLang / Transformers direkomendasikan | Sama | Sama (contoh perintah CLI / vLLM di kartu model) | API yang di-host (Alibaba Cloud Model Studio / Qwen Chat); observabilitas & penskalaan produksi tambahan. |
| Kasus penggunaan umum | Agen, penalaran, bantuan pengkodean, tugas dokumen panjang, asisten multimodal | Inferensi ringan / single-GPU, tugas agen dengan jejak lebih kecil | Penerapan agen produksi, tugas multimodal dengan konteks panjang | SaaS agen produksi: konteks panjang, penggunaan alat, inferensi terkelola |
Apa itu Qwen-3.5 Flash
Qwen-3.5 Flash adalah penawaran produksi/yang di-host dari keluarga Qwen3.5 yang memetakan ke bobot terbuka 35B-A3B tetapi menambahkan kapabilitas produksi: konteks default yang diperluas (diiklankan hingga 1M token untuk produk yang di-host), integrasi alat resmi, dan endpoint inferensi terkelola untuk menyederhanakan alur kerja agen dan penskalaan. Singkatnya: Flash = varian 35B A3B yang di-host di cloud, siap produksi, dengan rekayasa tambahan untuk konteks panjang, penggunaan alat, dan throughput.
Seri Qwen-3.5 Flash adalah bagian dari Qwen 3.5 โMedium model seriesโ, yang mencakup beberapa model seperti:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
Di dalam jajaran ini, Qwen3.5-Flash adalah versi API produksiโpada dasarnya versi 35B yang cepat dan dapat diterapkan yang dioptimalkan untuk pengembang dan perusahaan. ๐ Flash pada dasarnya adalah โlapisan runtime enterpriseโ yang dibangun di atas model 35B-A3B.
Fitur utama Qwen-3.5 Flash
- Fondasi visi-bahasa terpadu โ dilatih dengan token multimodal fusi dini sehingga teks dan gambar diproses dalam aliran yang koheren (meningkatkan penalaran dan tugas agen visual).
- Arsitektur hibrida/efisien โ jaringan delta bergate + pola Mixture-of-Experts (MoE) yang sparse pada beberapa ukuran (A3B menandai varian sparse), memberikan kompromi kemampuan per komputasi yang tinggi.
- Dukungan konteks panjang โ keluarga mendukung konteks lokal yang sangat panjang (konfigurasi contoh menunjukkan hingga 262,144 token secara lokal) dan produk Flash yang di-host menggunakan default konteks 1,000,000 token untuk alur kerja produksi. Ini disetel untuk rantai agen, tanya jawab dokumen, dan sintesis multi-dokumen.
- Penggunaan alat agen โ dukungan native dan parser untuk pemanggilan alat, pipeline penalaran, dan โthinkingโ atau speculative sampling yang memungkinkan model merencanakan dan memanggil API atau alat eksternal secara terstruktur.
Kinerja benchmark Qwen-3.5 Flash
| Benchmark / Kategori | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash selaras dengan 35B-A3B) |
|---|---|---|---|---|
| MMLU-Pro (pengetahuan) | 86.7 | 86.1 | 85.3 (35B) | Flash โ profil 35B-A3B yang dipublikasikan. |
| C-Eval (ujian bahasa Tionghoa) | 91.9 | 90.5 | 90.2 | |
| IFEval (mengikuti instruksi) | 93.4 | 95.0 | 91.9 | |
| AA-LCR (penalaran konteks panjang) | 66.9 | 66.1 | 58.5 | (konfigurasi lokal menunjukkan setelan konteks panjang hingga 262k token; Flash mengiklankan default 1M). |
Ringkasan: varian Qwen3.5 menengah dan lebih kecil (mis. 27B, 122B A10B) memperkecil jarak dengan model frontier pada banyak benchmark pengetahuan dan instruksi, sementara 35B-A3B (dan Flash) menargetkan trade-off produksi (throughput + konteks panjang) dengan skor MMLU/C-Eval yang kompetitif dibandingkan model yang lebih besar.
๐ Bagaimana Qwen-3.5 Flash Berada dalam Keluarga Qwen 3.5
Bayangkan seri ini seperti berikut:
| Model | Peran |
|---|---|
| Qwen3.5-Flash | โก API produksi cepat |
| Qwen3.5-35B-A3B | ๐ง Model inti seimbang |
| Qwen3.5-122B-A10B | ๐ Daya nalar lebih tinggi |
| Qwen3.5-27B | ๐ป Model lokal yang lebih kecil dan efisien |
๐ Flash = tingkat kecerdasan yang sama dengan 35B, tetapi dioptimalkan untuk penerapan.
Kapan Menggunakan Qwen-3.5 Flash
Gunakan jika Anda memerlukan:
- AI real-time (chatbot, asisten)
- Agen AI dengan alat (pencarian, API, automasi)
- Analisis dokumen atau kode berskala besar
- API produksi skala tinggi
Cara mengakses API Qwen-3.5 Flash
Langkah 1: Daftar untuk Kunci API
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console. Dapatkan kunci API kredensial akses untuk antarmuka. Klik โAdd Tokenโ pada API token di pusat pribadi, dapatkan kunci token: sk-xxxxx dan kirim.

Langkah 2: Kirim Permintaan ke API Qwen-3.5 Flash
Pilih endpoint โqwen3.5-flashโ untuk mengirim permintaan API dan atur body permintaan. Metode permintaan dan body permintaan diperoleh dari dok API situs web kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. URL dasar adalah Chat Completions
Masukkan pertanyaan atau permintaan Anda ke bidang contentโitulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data keluaran.