Qwen3.5-397B-A17B の技術仕様
| 項目 | Qwen3.5-397B-A17B(オープンウェイト/ポストトレーニング済み) |
|---|---|
| モデルファミリー | Qwen3.5(Tongyi Qwen シリーズ、Alibaba) |
| アーキテクチャ | ハイブリッド Mixture‑of‑Experts(MoE)+ Gated DeltaNet;早期融合マルチモーダル学習 |
| 総パラメータ数 | ~397 billion(総計) |
| アクティブパラメータ(A17B) | トークンごとに ~17 billion がアクティブ(スパースルーティング) |
| 入力タイプ | テキスト、画像、動画(マルチモーダル早期融合) |
| 出力タイプ | テキスト(チャット、コード、RAG 出力)、画像→テキスト、マルチモーダル応答 |
| ネイティブコンテキストウィンドウ | 262,144 トークン(ネイティブ ISL) |
| 拡張可能なコンテキスト | YaRN/ RoPE スケーリングにより最大 ~1,010,000 トークン(プラットフォーム依存) |
| 最大出力トークン数 | フレームワーク/サービング依存(ガイドの例では 81,920–131,072) |
| 対応言語 | 200+ の言語と方言 |
| リリース日 | 2026年2月16日(オープンウェイト公開) |
| ライセンス | Apache‑2.0(Hugging Face / ModelScope でオープンウェイト) |
Qwen3.5-397B-A17B とは
Qwen3.5-397B-A17B は Alibaba の Qwen3.5 ファミリーにおける初のオープンウェイト公開であり、早期融合の視覚–言語目標で学習されたマルチモーダル Mixture‑of‑Experts 基盤モデルで、エージェント的ワークフロー向けに最適化されています。スパースルーティング(“A17B” サフィックス)により、397B パラメータのアーキテクチャ能力を活かしつつ、トークンごとに ~17B のパラメータのみがアクティブとなり、知識容量と推論効率のバランスを実現します。
このリリースは、長コンテキスト推論、視覚理解、RAG/エージェント型アプリケーションに対応する、オープンでデプロイ可能なマルチモーダル基盤モデルを必要とする研究者およびエンジニアリングチームを対象としています。
Qwen3.5-397B-A17B の主な特長
- アクティブパラメータ効率に優れたスパース MoE:グローバル容量(397B)が大きく、トークンごとのアクティブ数は 17B の密モデルに匹敵。知識の多様性を維持しつつ、トークンあたりの FLOPS を低減。
- ネイティブなマルチモーダル(早期融合):統一されたトークン化とエンコーダ戦略によりテキスト・画像・動画を扱えるよう学習され、クロスモーダル推論に対応。
- 超長コンテキスト対応:ネイティブの入力シーケンス長は 262K トークン。RoPE/YARN スケーリングにより約 1M+ トークンまで拡張する手順も文書化されており、検索や長文書パイプラインに有用。
- 思考モード&エージェント用ツール群:内部推論トレースとエージェント的実行パターンをサポート。ツールコールやコードインタープリタ統合などの例を提供。
- オープンウェイト&広範な互換性:Hugging Face と ModelScope で Apache‑2.0 の下に公開。Transformers、vLLM、SGLang およびコミュニティフレームワーク向けの公式統合ガイドを提供。
- エンタープライズに適した言語カバレッジ:広範な多言語学習(200+ 言語)に加え、スケール展開のための手順とレシピを提供。
Qwen3.5-397B-A17B と選定モデルの比較
| モデル | コンテキストウィンドウ(ネイティブ) | 強み | 典型的なトレードオフ |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K(ネイティブ) | マルチモーダル MoE、オープンウェイト、397B 容量で 17B アクティブ | 大規模アーティファクト、フル性能には分散ホスティングが必要 |
| GPT-5.2(代表的クローズド) | ~400K(一部のバリアントで報告) | 単一モデルの高精度な密推論 | ウェイト非公開、スケール時の推論コストが高い |
| LLaMA‑style dense 70B | ~128K(可変) | より単純な推論スタック、密ランタイムで必要な VRAM が少ない | MoE のグローバル知識に比べてパラメータ容量が小さい |
既知の制約と運用上の考慮事項
- メモリフットプリント:スパース MoE でも大規模な重みファイルの保存が必要。17B の密クローンと比べて、ホスティングには多くのストレージとデバイスメモリが要求される。
- エンジニアリングの複雑さ:最適なスループットには綿密な並列化(テンソル/パイプライン)と vLLM や SGLang といったフレームワークが必要。単純な単一 GPU ホスティングは非現実的。
- トークンの経済性:トークンあたりの計算は削減される一方、非常に長いコンテキストは I/O、KV キャッシュサイズ、マネージドプロバイダの課金を増大させる。
- セーフティとガードレール:オープンウェイトは柔軟性を高める一方で、セーフティフィルタリング、モニタリング、デプロイ時のガードレールの責任は運用者に移る。
代表的なユースケース
- 研究とモデル分析:オープンウェイトにより再現可能な研究とコミュニティ主導の評価が可能。
- オンプレミスのマルチモーダルサービス:データレジデンシーが必要な企業が、視覚+テキストのワークロードをローカルにデプロイ・実行。
- RAG と長文書パイプライン:ネイティブな長コンテキストにより、大規模コーパスに対する単一パス推論を支援。
- コードインテリジェンス&エージェントツール:モノレポ解析、パッチ生成、制御環境でのエージェント的ツールコールループの実行。
- 多言語アプリケーション:グローバル製品向けの高カバレッジな言語対応。
Qwen3.5-397B-A17B の利用と統合方法
手順 1: API キーの取得
cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI コンソール にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API トークンで「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信します。
手順 2: Qwen3.5-397B-A17B API にリクエストを送信
“Qwen3.5-397B-A17B” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエスト方法とリクエストボディは当社サイトの API ドキュメントから取得できます。利便性のため Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。呼び出し先: Chat 形式。
質問またはリクエストを content フィールドに挿入します—モデルはこの内容に応答します。API レスポンスを処理して生成された回答を取得します。
手順 3: 結果の取得と検証
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。