技術仕様(クイックリファレンス表)
| 項目 | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash(ホステッド) |
|---|---|---|---|---|
| パラメータ規模 | ~122B(中〜大規模) | ~27B(Dense) | ~35B(MoE / A3B ハイブリッド) | 35B-A3B の重み(ホステッド)に相当 |
| アーキテクチャ注記 | ハイブリッド(ファミリー内で gated delta + MoE アテンション) | Dense Transformer | Sparse/Mixture-of-Experts 変種(A3B) | 35B-A3B と同一アーキテクチャ、本番機能を追加 |
| 入出力モダリティ | テキスト、ビジョン-ランゲージ(早期融合のマルチモーダルトークン);チャット形式の入出力 | テキスト、V+L 対応 | テキスト+ビジョン(エージェント的なツール呼び出しに対応) | テキスト+ビジョン;公式ツール統合と API 出力 |
| 既定の最大コンテキスト(ローカル/標準) | 設定可能(大)— ファミリーとして超長コンテキストに対応 | 設定可能 | 262,144 トークン(標準ローカル構成例) | 1,000,000 トークン(ホステッド版 Flash のデフォルト)。 |
| 提供/API | OpenAI 形式の Chat Completions と互換;vLLM/SGLang/Transformers 推奨 | 同様 | 同様(モデルカードに CLI/vLLM コマンド例) | ホステッド API(Alibaba Cloud Model Studio/Qwen Chat);本番観測性とスケーリングを追加。 |
| 主なユースケース | エージェント、推論、コーディング支援、長文書タスク、マルチモーダルアシスタント | 軽量/単一 GPU での推論、より小さなフットプリントでのエージェントタスク | 本番エージェントのデプロイ、長コンテキストのマルチモーダルタスク | 本番エージェント SaaS:長コンテキスト、ツール利用、マネージド推論 |
Qwen-3.5 Flash とは
Qwen-3.5 Flash は、Qwen3.5 ファミリーの本番運用向け/ホステッド提供で、35B-A3B のオープンウェイトに対応しつつ、拡張既定コンテキスト(ホステッド製品では公称で最大 1M トークン)、公式ツール統合、マネージド推論エンドポイントなどの本番機能を追加したものです。要するに、Flash = 長コンテキスト、ツール利用、スループット向上のためのエンジニアリングを備えた、クラウドホステッドで本番対応の 35B A3B 変種です。
Qwen-3.5 Flash Series は、より広い Qwen 3.5「Medium モデルシリーズ」 の一部で、以下の複数モデルを含みます:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
このラインナップの中で、Qwen3.5-Flash はプロダクション API バージョンであり、実質的には開発者と企業向けに最適化された、35B モデルの高速でデプロイ可能なバージョンです。👉 Flash は本質的に、35B-A3B モデルの上に構築された**「エンタープライズ向けランタイムレイヤー」**です。
Qwen-3.5 Flash の主な機能
- 統合ビジョン-ランゲージ基盤 — 早期融合のマルチモーダルトークンで学習され、テキストと画像を一貫したストリームとして処理(推論や視覚タスクにおけるエージェント性の向上)。
- ハイブリッド/高効率アーキテクチャ — 一部サイズで gated delta ネットワーク+Sparse Mixture-of-Experts(MoE)パターン(A3B は Sparse 変種を示す)により、計算あたりの能力を高めるトレードオフを実現。
- 長コンテキスト対応 — ファミリーとして非常に長いローカルコンテキストをサポート(ローカル例で最大 262,144 トークン)。Flash のホステッド製品は本番ワークフロー向けに 1,000,000 トークンの既定コンテキストを提供。エージェントチェーン、ドキュメント QA、複数文書の統合に最適化。
- エージェント的なツール利用 — ツールコール、推論パイプライン、および「思考」やスペキュレイティブサンプリングのためのネイティブ対応とパーサを備え、モデルが外部 API/ツールを構造化された方法で計画・呼び出し可能。
Qwen-3.5 Flash のベンチマーク性能
| ベンチマーク/カテゴリ | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash は 35B-A3B に整合) |
|---|---|---|---|---|
| MMLU-Pro(知識) | 86.7 | 86.1 | 85.3(35B) | Flash ≈ 35B-A3B 公開プロファイル。 |
| C-Eval(中国語試験) | 91.9 | 90.5 | 90.2 | |
| IFEval(指示追従) | 93.4 | 95.0 | 91.9 | |
| AA-LCR(長コンテキスト推論) | 66.9 | 66.1 | 58.5 | (ローカル構成では最大 262k トークンの長コンテキスト設定;Flash はデフォルト 1M をアドバタイズ)。 |
要約: Qwen3.5 の中〜小規模(例:27B、122B A10B)は、多くの知識・指示系ベンチマークで最前線モデルとの差を縮小しつつ、35B-A3B(および Flash)は、本番におけるスループットと長コンテキストのトレードオフを狙い、より大きなモデルと比べても競争力のある MMLU/C-Eval スコアを目指しています。
🆚 Qwen 3.5 ファミリーにおける Qwen-3.5 Flash の位置づけ
このシリーズは次のように捉えられます:
| モデル | 役割 |
|---|---|
| Qwen3.5-Flash | ⚡ 高速な本番 API |
| Qwen3.5-35B-A3B | 🧠 バランスの取れた中核モデル |
| Qwen3.5-122B-A10B | 🏆 高い推論能力 |
| Qwen3.5-27B | 💻 小型で効率的なローカルモデル |
👉 Flash = 知能レベルは 35B と同等だが、デプロイに最適化。
Qwen-3.5 Flash を使うべき場面
次の用途に適しています:
- リアルタイム AI(チャットボット、アシスタント)
- ツール連携する AI エージェント(検索、API、自動化)
- 大規模ドキュメントやコード解析
- 大規模本番 API
Qwen-3.5 Flash API の利用方法
ステップ 1: API キーの取得
cometapi.com にログインしてください。まだユーザーでない場合は、まず登録をお願いします。CometAPI console にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API トークンで「Add Token」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。

ステップ 2: Qwen-3.5 Flash API にリクエストを送信
“qwen3.5-flash” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社ウェブサイトの API ドキュメントから取得できます。ウェブサイトでは Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。ベース URL は Chat Completions です。
質問やリクエストを content フィールドに挿入します—モデルはこの内容に応答します。API レスポンスを処理して生成された回答を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。