Spesifikasi teknis (tabel referensi cepat)
| Item | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (hosted) |
|---|---|---|---|---|
| Skala parameter | ~122B (menengah-besar) | ~27B (dense) | ~35B (MoE / hibrida A3B) | Sesuai dengan bobot 35B-A3B (hosted) |
| Catatan arsitektur | Hibrida (gated delta + perhatian MoE dalam keluarga model) | Transformer dense | Varian sparse / Mixture-of-Experts (A3B) | Arsitektur yang sama dengan 35B-A3B, dengan fitur produksi |
| Modalitas input / output | Teks, vision-language (token multimodal early fusion); I/O bergaya chat | Teks, dukungan V+L | Teks + vision (panggilan alat agentik didukung) | Teks + vision; integrasi alat resmi & output API |
| Konteks maksimum default (lokal / standar) | Dapat dikonfigurasi (besar) — keluarga ini mendukung konteks yang sangat panjang | Dapat dikonfigurasi | 262.144 token (contoh konfigurasi lokal standar) | 1.000.000 token (default untuk Flash hosted). |
| Serving / API | Kompatibel dengan chat completions bergaya OpenAI; vLLM / SGLang / Transformers direkomendasikan | Sama | Sama (contoh perintah CLI / vLLM di model card) | API hosted (Alibaba Cloud Model Studio / Qwen Chat); observabilitas dan penskalaan produksi tambahan. |
| Kasus penggunaan umum | Agent, penalaran, bantuan coding, tugas dokumen panjang, asisten multimodal | Inferensi ringan / single-GPU, tugas agentik dengan jejak yang lebih kecil | Deployment agent produksi, tugas multimodal berkonteks panjang | SaaS agent produksi: konteks panjang, penggunaan alat, inferensi terkelola |
Apa itu Qwen-3.5 Flash
Qwen-3.5 Flash adalah penawaran produksi / hosted dari keluarga Qwen3.5 yang dipetakan ke bobot terbuka 35B-A3B, tetapi menambahkan kapabilitas produksi: konteks default yang diperluas (diiklankan hingga 1 juta token untuk produk hosted), integrasi alat resmi, dan endpoint inferensi terkelola untuk menyederhanakan workflow agentik dan penskalaan. Singkatnya: Flash = varian 35B A3B yang di-host di cloud, siap produksi, dengan rekayasa tambahan untuk konteks panjang, penggunaan alat, dan throughput.
Qwen-3.5 Flash Series adalah bagian dari Qwen 3.5 “Medium model series” yang lebih luas, yang mencakup beberapa model seperti:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
Dalam jajaran ini, Qwen3.5-Flash adalah versi API produksi—pada dasarnya versi 35B yang cepat dan siap deployment yang dioptimalkan untuk developer dan enterprise. 👉 Flash pada dasarnya adalah “lapisan runtime enterprise” yang dibangun di atas model 35B-A3B.
Fitur utama Qwen-3.5 Flash
- Fondasi vision-language terpadu — dilatih dengan token multimodal early fusion sehingga teks dan gambar diproses dalam satu aliran yang koheren (meningkatkan penalaran dan tugas agentik visual).
- Arsitektur hibrida / efisien — gated delta networks + pola sparse Mixture-of-Experts (MoE) pada beberapa ukuran (A3B menandakan varian sparse), memberikan tradeoff kapabilitas tinggi per komputasi.
- Dukungan konteks panjang — keluarga ini mendukung konteks lokal yang sangat panjang (contoh konfigurasi menunjukkan hingga 262.144 token secara lokal) dan produk Flash hosted secara default menyediakan konteks 1.000.000 token untuk workflow produksi. Ini disetel untuk rantai agentik, QA dokumen, dan sintesis multi-dokumen.
- Penggunaan alat agentik — dukungan native dan parser untuk tool-calls, reasoning pipeline, dan “thinking” atau speculative sampling yang memungkinkan model merencanakan dan memanggil API atau alat eksternal secara terstruktur.
Performa benchmark Qwen-3.5 Flash
| Benchmark / Kategori | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash selaras dengan 35B-A3B) |
|---|---|---|---|---|
| MMLU-Pro (pengetahuan) | 86.7 | 86.1 | 85.3 (35B) | Flash ≈ profil yang dipublikasikan untuk 35B-A3B. |
| C-Eval (ujian bahasa Mandarin) | 91.9 | 90.5 | 90.2 | |
| IFEval (mengikuti instruksi) | 93.4 | 95.0 | 91.9 | |
| AA-LCR (penalaran konteks panjang) | 66.9 | 66.1 | 58.5 | (konfigurasi lokal menunjukkan setup konteks panjang hingga 262k token; Flash mengiklankan default 1M). |
Ringkasan: varian menengah dan lebih kecil Qwen3.5 (misalnya, 27B, 122B A10B) memperkecil kesenjangan dengan model frontier pada banyak benchmark pengetahuan dan instruksi, sementara 35B-A3B (dan Flash) ditujukan untuk tradeoff produksi (throughput + konteks panjang) dengan skor MMLU/C-Eval yang kompetitif dibandingkan model yang lebih besar.
🆚 Bagaimana Qwen-3.5 Flash Cocok dalam Keluarga Qwen 3.5
Bayangkan seri ini seperti berikut:
| Model | Peran |
|---|---|
| Qwen3.5-Flash | ⚡ API produksi cepat |
| Qwen3.5-35B-A3B | 🧠 Model inti yang seimbang |
| Qwen3.5-122B-A10B | 🏆 Daya penalaran lebih tinggi |
| Qwen3.5-27B | 💻 Model lokal yang lebih kecil dan efisien |
👉 Flash = tingkat kecerdasan yang sama dengan 35B, tetapi dioptimalkan untuk deployment.
Kapan Menggunakan Qwen-3.5 Flash
Gunakan jika Anda membutuhkan:
- AI real-time (chatbot, asisten)
- Agent AI dengan alat (pencarian, API, otomasi)
- Analisis dokumen besar atau kode
- API produksi berskala tinggi
Cara mengakses API Qwen-3.5 Flash
Langkah 1: Daftar untuk API Key
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console Anda. Dapatkan kredensial akses API key untuk antarmuka tersebut. Klik “Add Token” pada API token di pusat personal, dapatkan token key: sk-xxxxx lalu kirimkan.

Langkah 2: Kirim Request ke API Qwen-3.5 Flash
Pilih endpoint “qwen3.5-flash” untuk mengirim request API dan atur request body. Metode request dan request body diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. Base URL adalah Chat Completions
Masukkan pertanyaan atau permintaan Anda ke dalam field content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API akan merespons dengan status tugas dan data output.

