Pada malam Tahun Baru Imlek (16–17 Feb 2026), Alibaba Group merilis model generasi berikutnya, Qwen 3.5 — model multimodal dengan kemampuan agen yang diposisikan untuk apa yang disebut perusahaan sebagai era “AI agentik”. Liputan industri menyoroti klaim lonjakan besar dalam efisiensi dan biaya, serta dukungan cepat dari vendor perangkat keras dan cloud. CometAPI adalah opsi bagi pengembang yang menginginkan akses API terkelola atau integrasi yang kompatibel dengan OpenAI, sementara AMD mengumumkan dukungan GPU Day-0 untuk model ini pada lini Instinct. ByteDance adalah salah satu pesaing domestik utama yang merilis peningkatan pada jendela liburan yang sama. OpenAI tetap menjadi titik acuan untuk perbandingan dalam tolok ukur dan gaya integrasi.
Apa itu Qwen 3.5?
Qwen 3.5 milik Alibaba adalah generasi terbaru model bahasa besar multimodal (LLM) yang diposisikan untuk era “AI agentik” — model yang tidak hanya menjawab pertanyaan tetapi juga dapat mengorkestrasi alur kerja multi-langkah, memanggil alat, bekerja dengan gambar/video, dan bertindak lintas batas aplikasi. Model ini diumumkan secara publik selama periode Tahun Baru Imlek (jendela rilis dilaporkan sekitar 16 Februari 2026), tanggal strategis untuk publisitas produk di Tiongkok dan untuk menangkap perhatian pengguna saat lonjakan liburan. Qwen 3.5 menghadirkan peningkatan biaya dan throughput yang signifikan dibanding pendahulunya sambil berfokus pada konteks panjang dan otomatisasi bergaya agen.
Sekilas, klaim teknis dan bisnis yang membedakan Qwen 3.5 adalah:
- Arsitektur multimodal native yang mendukung input dan output teks, gambar, dan video (alur kerja agentik). Kapabilitas baru dalam model untuk memanggil alat, bertindak pada konten browser, dan merantai langkah (perilaku agentik). Fitur-fitur tersebut membuka otomatisasi—pengisian formulir, alur kerja end-to-end—namun menuntut kontrol keamanan yang lebih kuat.
- Arsitektur campuran-pakar (Mixture-of-Experts) hibrida dengan jumlah parameter total sangat besar tetapi hanya sebagian kecil yang aktif per forward pass — catatan teknis publik menunjukkan arsitektur seperti “397B total / 17B aktif” untuk salah satu varian Qwen3.5 yang digunakan dalam penyajian efisien. Desain ini menghasilkan kapabilitas tinggi dengan efisiensi inferensi yang lebih baik.
- Tolok ukur kompetitif terhadap model global sumber tertutup terkemuka, dengan Alibaba mengklaim keunggulan biaya dan paritas atau hasil yang lebih baik pada banyak tugas praktis.
Edisi yang akan Anda temui
- qwen3.5-397b-a17b(Rilis bobot terbuka): checkpoint yang dapat diunduh dan fork komunitas (untuk deployment lokal dan kustom). Lihat repositori proyek resmi dan mirror.
- qwen3.5-plus (Varian “Plus” terkelola): sepenuhnya dikelola di Alibaba Cloud Model Studio dengan jendela konteks terbesar dan alat bawaan (pemanggilan alat, asisten kode, ekstraksi web). Ini adalah versi yang kemungkinan besar akan dipanggil pelanggan enterprise melalui API untuk keandalan dan skala.
Apa saja fitur utama Qwen-3.5?
Arsitektur & sorotan pelatihan
Di bawah ini adalah tabel fitur ringkas pada rilis:
| Fitur | Qwen-3.5 (detail publik) | Dampak praktis |
|---|---|---|
| Arsitektur | Hibrida: atensi linear + MoE jarang (sparse) + tulang punggung transformer padat. | Throughput decoding dan efisiensi penskalaan lebih baik vs model padat murni. |
| Multimodalitas | Kemampuan visi–bahasa native yang bersifat agentik (melakukan aksi lintas UI). | Memungkinkan kontrol aplikasi/agen multi-langkah, bukan hanya tanya jawab teks–gambar. |
| Seri model & bobot terbuka | Rilis publik setidaknya satu varian “open-weights” (mis., Qwen3.5-397B-A17B). | Memungkinkan fine-tuning on-prem dan pihak ketiga; mempercepat evaluasi komunitas. |
| Bahasa | >200 bahasa & dialek (klaim rilis). | Cakupan internasional luas untuk lokaliasi dan agen multibahasa. |
| RL / agen | Penskalaan lingkungan RL berskala besar dan pipeline pelatihan agen. | Meningkatkan perencanaan horizon panjang dan pengurutan aksi pada tugas nyata. |
Multimodalitas & aksi agentik
Qwen-3.5 direkayasa secara eksplisit untuk alur kerja agentik — artinya model dirancang bukan hanya untuk menjawab, tetapi untuk merencanakan, merantai aksi (API, interaksi UI, operasi file), dan mengintegrasikan input visual (screenshot, UI DOM, gambar) ke dalam loop keputusannya. Alibaba menyoroti fusi visi–bahasa native dan kait kontrol yang lebih ketat untuk mengeksekusi tugas di aplikasi seluler dan desktop.
Arsitektur hibrida (fokus efisiensi)
Materi Alibaba dan ringkasan industri menyebut Qwen-3.5 menggunakan hibrida mekanisme atensi linear dengan perutean Mixture-of-Experts (MoE) jarang sehingga parameter yang aktif secara efektif untuk prompt umum jauh lebih rendah daripada angka utama. Manfaat praktisnya: kapabilitas lebih tinggi per unit komputasi dan biaya inferensi lebih rendah — perusahaan mengklaim hingga ~60% biaya deployment lebih rendah relatif terhadap rilis sebelumnya.
Jendela konteks & dukungan multibahasa
Catatan publik menunjukkan jendela konteks yang diperluas (256k token disebutkan untuk beberapa varian bobot terbuka di keluarga Qwen) dan cakupan bahasa yang lebih luas (Alibaba secara bertahap memperluas dukungan bahasa/dialek di setiap generasi Qwen). Hasilnya: tugas dokumen panjang dan agen lintas bahasa yang lebih baik.
Bagaimana cara mengakses Qwen 3.5 melalui CometAPI?
CometAPI menyediakan gateway terpadu yang kompatibel dengan OpenAI untuk 500+ model (termasuk Qwen yang di-host atau endpoint pihak ketiga). Abstraksi ini memungkinkan kode Anda berpindah penyedia dengan friksi minimal sementara CometAPI menormalkan respons dan menawarkan analitik penggunaan serta penagihan pay-as-you-go.
Langkah demi langkah: alur dasar memanggil Qwen 3.5 melalui CometAPI
- Daftar & dapatkan API key dari dashboard CometAPI.
- Pilih varian Qwen 3.5 di daftar model CometAPI (mis.,
qwen3.5-plusatauqwen3.5-397b-a17b). CometAPI biasanya mengekspos nama model spesifik penyedia sebagai string yang Anda lewatkan di fieldmodel. - Buat permintaan Chat Completion menggunakan endpoint yang kompatibel dengan OpenAI mereka (contoh base URL:
https://api.cometapi.com/v1). Anda dapat menggunakan SDK OpenAI atau HTTP mentah. Dokumentasi CometAPI menampilkan kedua pendekatan dan merekomendasikan mengikat base URL pustaka Anda ke endpoint CometAPI agar kode OpenAI yang ada bekerja dengan sedikit atau tanpa perubahan.
Contoh minimal
cURL (panggilan chat sederhana)
export COMETAPI_KEY="sk-xxxx"
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $COMETAPI_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5-plus",
"messages":[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Summarize the tradeoffs between retrieval-augmented generation and fine-tuning."}
],
"max_tokens": 512
}'
Python (klien OpenAI dengan override base_url)
# Using the OpenAI-compatible client pattern many API hubs support:
from openai import OpenAI
client = OpenAI(api_key="YOUR_COMETAPI_KEY", base_url="https://api.cometapi.com/v1")
resp = client.chat.completions.create(
model="qwen3.5-plus",
messages=[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Explain how to implement streaming responses in production (short)."}
],
max_tokens=400
)
print(resp.choices[0].message.content)
Catatan: CometAPI menormalkan banyak perbedaan antar vendor; lihat daftar model CometAPI untuk memilih string nama yang tepat bagi setiap varian Qwen.
Memanggil kemampuan gambar/multimodal melalui gateway
Jika Anda ingin menggunakan fitur visi (gambar + teks), CometAPI biasanya mengekspos kapabilitas vendor melalui satu API tetapi mungkin memerlukan lampiran data biner/gambar atau URL bertanda tangan. Pola umum adalah menyertakan input_image (atau parameter spesifik vendor) dan menetapkan model ke varian Qwen-3.5 multimodal yang sesuai.
Berapa biaya Qwen 3.5?
Harga API dan Token Aliyun
| Model | Input tokens per request | Input price (per 1M tokens) | Output price (per 1M tokens) | Free quota (Note) | |
|---|---|---|---|---|---|
| Non-thinking mode | Thinking mode (CoT + response) | ||||
| qwen3.5-plus | 0<Token≤256K | $0.4 | $2.4 | $2.4 | 1 million tokens eachValidity: 90 days after activating Model Studio |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 | ||
| qwen3.5-plus-2026-02-15 | 0<Token≤256K | $0.4 | $2.4 | $2.4 | |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 |
Harga untuk qwen3.5-plus di CometAPI
CometAPI menawarkan penagihan pay-as-you-go dan membantu memusatkan penagihan lintas penyedia; biaya per token yang tepat bergantung pada penyedia hulu dan margin/diskon CometAPI yang diterapkan. Dalam praktiknya, menggunakan gateway seperti CometAPI menyederhanakan perpindahan penyedia dan analitik penggunaan dengan biaya tambahan kecil — berguna bagi tim yang menginginkan redundansi multi-vendor atau ingin membandingkan kinerja vs. harga tanpa rekayasa ulang.
Jelajahi harga kompetitif untuk qwen3.5-plus, dirancang agar sesuai dengan berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar sesuai pemakaian, memudahkan skala saat kebutuhan Anda bertambah. Temukan bagaimana qwen3.5-plus dapat meningkatkan proyek Anda sekaligus menjaga biaya tetap terkendali.
| Harga Comet (USD / M Token) | Harga Resmi (USD / M Token) | Diskon |
|---|---|---|
| Input:$0.32/M; Output:$1.92/M | Input:$0.4/M; Output:$2.4/M | -20% |
Bisakah saya menjalankan Qwen 3.5 di lokasi (on-prem) atau di infrastruktur kustom?
Ya, tetapi dengan catatan:
- Varian besar (ratusan miliar parameter) memerlukan perangkat keras khusus (banyak A100/H100 atau kluster AMD Instinct). dukungan Day-0 untuk Qwen 3.5 pada GPU AMD Instinct; proyek komunitas (vLLM, HF) menyediakan resep untuk menerapkan tumpukan inferensi yang dioptimalkan. Harapkan upaya rekayasa substansial dan biaya perangkat keras tinggi untuk skala produksi.
- Varian keluarga Qwen yang lebih ringan (set parameter lebih kecil, bobot mirip Qwen-Turbo) lebih mudah di-host dan berguna untuk banyak tugas produksi dengan trade-off kualitas/biaya yang dapat diterima.
Jika kepatuhan atau residensi data mengharuskan deployment on-premise, pertimbangkan pendekatan hibrida: jalankan embedding dan retrieval secara lokal, dan panggil Qwen terkelola untuk tugas multimodal atau agentik yang kompleks.
Opsi cloud atau terkelola apa yang tersedia?
- Alibaba Cloud Model Studio: menyediakan endpoint Qwen terkelola, antarmuka kompatibel OpenAI, dan alat integrasi (RAG, toolkits). Cocok untuk tim yang sudah menggunakan Alibaba Cloud.
- API pihak ketiga (CometAPI, dll.): cepat untuk eksperimen multi-model, perpindahan vendor yang agnostik, dan perbandingan biaya.
- Bobot terbuka / self-host: jika Anda memerlukan lokalitas data penuh, unduh bobot terbuka dan layani di kluster Anda (stack NCCL/ROCm atau CUDA).
Perangkat keras: GPU dan stack apa?
- Dukungan AMD Day-0: AMD mengumumkan tooling ROCm Day-0 dan container untuk Qwen 3.5 pada GPU Instinct — berguna jika Anda menerapkan pada perangkat keras AMD. Untuk lingkungan NVIDIA, container yang dioptimalkan dan dukungan Triton kemungkinan akan segera hadir.
- Optimisasi inferensi: kuantisasi (INT8/4), pemotongan tensor, dan penyesuaian perutean MoE menurunkan kebutuhan memori dan komputasi; pilih ukuran model sesuai kebutuhan. Untuk agen real-time, prioritaskan model berparameter lebih rendah dengan batching agresif dan lebar beam kecil.
Praktik terbaik saat mengintegrasikan Qwen 3.5
Di bawah ini adalah aturan praktis dan pola rekayasa — diringkas dari dokumen vendor, ulasan awal, dan praktik standar rekayasa LLM — untuk membangun sistem yang andal, skalabel, dan hemat biaya.
Kebersihan prompting & system message
- Gunakan pesan system eksplisit untuk menetapkan persona, anggaran token, dan format output.
- Lebih suka prompt pendek dan terstruktur untuk JSON atau output fungsi yang dapat diprediksi; gunakan prompt rantai-pikir (chain-of-thought) yang panjang hanya bila perlu (biayanya lebih tinggi dan dapat meningkatkan latensi). “Thinking” vs “Non-Thinking” — pilih “Non-Thinking” untuk respons biasa yang deterministik dan beralih ke “Thinking” untuk penalaran berat.
Manajemen token dan konteks (kritis dengan jendela 1M)
- Potong dokumen panjang dan gunakan retrieval augmentation untuk menjaga konteks aktif tetap kecil; meskipun Qwen Plus mendukung 1M token, mengirim konteks besar setiap panggilan itu mahal. Sebagai gantinya: indeks dokumen, ambil potongan relevan, dan sertakan hanya cuplikan yang diperlukan.
- Gunakan embedding + basis data vektor untuk retrieval terlebih dahulu; lalu panggil model dengan konteks yang diambil plus instruksi ringkas. Pola RAG ini mengurangi biaya token dan latensi.
Strategi optimisasi biaya
- Kendalikan ukuran output dengan
max_tokensdan instruksi eksplisit “jawab dalam N kata”. - Gunakan mode non-thinking untuk template dan jawaban pendek; gunakan chain-of-thought hanya jika peningkatan kualitas membenarkan biayanya. Dokumen Alibaba secara eksplisit memetakan mode thinking hibrida ke trade-off biaya/kinerja.
- Batch permintaan bila memungkinkan (beberapa prompt dalam satu permintaan) untuk mengamortisasi overhead pada beban kerja berorientasi throughput.
- Lacak token per permintaan dan latensi dengan analitik penyedia (CometAPI menyediakan dashboard penggunaan). Pantau top-N prompt berdasarkan biaya untuk menemukan target optimisasi.
Keandalan dan rate limiting
- Terapkan exponential backoff + jitter untuk error 429/503.
- Gunakan gateway (CometAPI) atau dashboard vendor untuk memantau kuota dan menetapkan peringatan. CometAPI menyediakan analitik penggunaan yang dapat membantu mendeteksi lonjakan biaya dengan cepat.
Pemanggilan fungsi / alat / desain agen
Perlakukan pemanggilan alat sebagai tahap terpisah: model menyarankan alat + argumen, Anda memvalidasi/mengotorisasi lalu mengeksekusi alat di sisi server. Jangan pernah mengeksekusi instruksi alat yang tidak tepercaya secara membabi buta. Qwen 3.5 mengiklankan pola alat bawaan; terapkan validasi input yang ketat dan kontrol akses.
Penutup: apa yang perlu diperhatikan selanjutnya
Rilis Qwen 3.5 saat Tahun Baru Imlek bersifat strategis: mengemas fitur agentik lanjutan, penanganan konteks besar, dan biaya operasi lebih rendah ke dalam penawaran bobot terbuka maupun terkelola. Cerita pengembang langsung kuat: banyak cara untuk mencoba model (API terkelola seperti CometAPI, hosting cloud via Alibaba Cloud, atau bobot self-host) dan dukungan perangkat keras cepat (AMD).
Pengembang dapat mengakses Qwen 3.5 API melalui CometAPI sekarang. Untuk memulai, jelajahi kapabilitas model di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh API key. CometAPI menawarkan harga jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap jalan? → Daftar untuk Qwen-3.5 hari ini!
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X, dan Discord!
