技術仕様(クイックリファレンステーブル)
| 項目 | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash(ホステッド) |
|---|---|---|---|---|
| パラメータ規模 | ~122B(ミッド〜ラージ) | ~27B(デンス) | ~35B(MoE / A3B ハイブリッド) | 35B-A3B ウェイトに対応(ホステッド) |
| アーキテクチャ注記 | ハイブリッド(Gated Delta + MoE アテンションを系統で採用) | デンス Transformer | スパース/Mixture-of-Experts バリアント(A3B) | 35B-A3B と同一アーキテクチャ、プロダクション機能付き |
| 入出力モダリティ | テキスト、ビジョン-ランゲージ(アーリーフュージョンのマルチモーダルトークン);チャット形式の入出力 | テキスト、V+L サポート | テキスト+ビジョン(エージェント的ツール呼び出しに対応) | テキスト+ビジョン;公式ツール統合と API 出力 |
| 既定の最大コンテキスト(ローカル/標準) | 設定可能(大)— ファミリーとして超長コンテキスト対応 | 設定可能 | 262,144 トークン(標準ローカル構成例) | 1,000,000 トークン(ホステッド版 Flash の既定値)。 |
| 提供 / API | OpenAI スタイルの Chat Completions 互換;vLLM / SGLang / Transformers 推奨 | 同様 | 同様(モデルカードに CLI / vLLM コマンド例あり) | ホステッド API(Alibaba Cloud Model Studio / Qwen Chat);本番向けの可観測性とスケーリングを追加 |
| 代表的なユースケース | エージェント、推論、コーディング支援、長文タスク、マルチモーダルアシスタント | 軽量/単一 GPU での推論、小さなフットプリントでのエージェント的タスク | 本番のエージェント導入、長コンテキストのマルチモーダルタスク | 本番エージェント SaaS:長コンテキスト、ツール利用、マネージド推論 |
Qwen-3.5 Flash とは
Qwen-3.5 Flash は、Qwen3.5 ファミリーのプロダクション/ホステッド提供で、35B-A3B のオープンウェイトに対応しつつ、プロダクション機能を追加しています:既定で拡張されたコンテキスト(ホステッド製品では最大 1M トークンを謳う)、公式ツール統合、そしてエージェントワークフローとスケーリングを簡素化するマネージド推論エンドポイントです。要するに、Flash = 長コンテキスト、ツール利用、スループットに関する追加のエンジニアリングを施した、クラウドホスト型でプロダクション対応の 35B A3B バリアントです。
Qwen-3.5 Flash Series は、より広い Qwen 3.5 “Medium model series” の一部で、以下の複数モデルを含みます:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
このラインナップの中で、Qwen3.5-Flash はプロダクション API 版であり、本質的には開発者と企業向けに最適化された、35B モデルの高速でデプロイ容易なバージョンです。👉 Flash は本質的に、35B-A3B モデルの上に構築された**「エンタープライズランタイムレイヤー」**です。
Qwen-3.5 Flash の主な特長
- 統合ビジョン-ランゲージ基盤 — アーリーフュージョンのマルチモーダルトークンで学習され、テキストと画像を一貫したストリームとして処理(推論やビジュアルなエージェントタスクを改善)。
- ハイブリッド/効率的アーキテクチャ — Gated Delta ネットワーク+スパース Mixture-of-Experts(MoE)パターンを一部サイズで採用(A3B はスパースバリアントを示す)し、計算当たり能力の高いトレードオフを実現。
- 長コンテキスト対応 — ファミリーとして非常に長いローカルコンテキストに対応(例:ローカル構成で最大 262,144 トークン)、ホステッド製品の Flash は本番ワークフロー向けに既定で 1,000,000 トークンのコンテキストを提供。エージェントチェーン、ドキュメント QA、複数ドキュメント統合に最適化。
- エージェント的ツール利用 — ツール呼び出し、推論パイプライン、およびモデルが外部 API やツールを計画・呼び出すための「思考」やスペキュレーティブサンプリングを構造化して扱えるネイティブサポートとパーサー。
Qwen-3.5 Flash のベンチマーク性能
| ベンチマーク / カテゴリ | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash は 35B-A3B に整合) |
|---|---|---|---|---|
| MMLU-Pro(知識) | 86.7 | 86.1 | 85.3(35B) | Flash ≈ 35B-A3B 公開プロファイル相当。 |
| C-Eval(中国語試験) | 91.9 | 90.5 | 90.2 | |
| IFEval(命令追従) | 93.4 | 95.0 | 91.9 | |
| AA-LCR(長コンテキスト推論) | 66.9 | 66.1 | 58.5 | (ローカル構成では最大 262k トークンの長コンテキスト設定を確認;Flash は既定 1M を謳う)。 |
要約: Qwen3.5 のミドル〜小型バリアント(例:27B、122B A10B)は、多くの知識系や命令系ベンチマークでフロンティアモデルとの差を縮めつつ、35B-A3B(および Flash)は本番でのスループットと長コンテキストを重視したトレードオフを採りつつ、より大きなモデルに対して競争力のある MMLU / C-Eval スコアを示します。
🆚 Qwen 3.5 ファミリーにおける Qwen-3.5 Flash の位置づけ
| モデル | 役割 |
|---|---|
| Qwen3.5-Flash | ⚡ 高速な本番 API |
| Qwen3.5-35B-A3B | 🧠 バランス重視のコアモデル |
| Qwen3.5-122B-A10B | 🏆 より高い推論力 |
| Qwen3.5-27B | 💻 小規模で効率的なローカルモデル |
👉 Flash = 知能レベルは 35B と同等だが、デプロイに最適化。
Qwen-3.5 Flash を使うべき場面
- リアルタイム AI(チャットボット、アシスタント)
- ツール連携 AI エージェント(検索、API、自動化)
- 大型ドキュメントやコード解析
- 大規模本番 API
Qwen-3.5 Flash API へのアクセス方法
ステップ 1: API キーを取得する
cometapi.com にログインしてください。未登録の場合は先に登録を完了してください。CometAPI コンソール にサインインします。インターフェース用のアクセス認証である API キーを取得します。パーソナルセンターの API トークンで「Add Token」をクリックし、トークンキー:sk-xxxxx を取得して送信します。

ステップ 2: Qwen-3.5 Flash API にリクエストを送る
“qwen3.5-flash” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントに記載されています。利便性のため、当社サイトでは Apifox テストも提供しています。<YOUR_API_KEY> をアカウントで発行された実際の CometAPI キーに置き換えてください。ベース URL は Chat Completions です。
質問やリクエストを content フィールドに挿入します—モデルはこの内容に応答します。API レスポンスを処理して生成結果を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。