Qwen3.5-397B-A17B の技術仕様
| 項目 | Qwen3.5-397B-A17B(オープンウェイトの後学習済み) |
|---|---|
| モデルファミリー | Qwen3.5(Tongyi Qwen シリーズ、Alibaba) |
| アーキテクチャ | ハイブリッド Mixture-of-Experts(MoE)+Gated DeltaNet;早期融合型マルチモーダル学習 |
| 総パラメータ数 | ~397 billion(合計) |
| アクティブパラメータ(A17B) | ~17 billion(トークンごとにアクティブ、スパースルーティング) |
| 入力タイプ | テキスト、画像、動画(マルチモーダル早期融合) |
| 出力タイプ | テキスト(チャット、コード、RAG 出力)、画像からテキスト、マルチモーダル応答 |
| ネイティブコンテキストウィンドウ | 262,144 トークン(ネイティブ ISL) |
| 拡張可能なコンテキスト | YaRN/ RoPE スケーリングにより最大 ~1,010,000 トークン(プラットフォーム依存) |
| 最大出力トークン数 | フレームワーク/サービング依存(ガイドでは 81,920–131,072 の例) |
| 言語 | 200以上の言語と方言 |
| リリース日 | 2026年2月16日(オープンウェイトリリース) |
| ライセンス | Apache‑2.0(Hugging Face/ModelScope でオープンウェイト) |
Qwen3.5-397B-A17B とは
Qwen3.5-397B-A17B は Alibaba の Qwen3.5 ファミリーにおける初のオープンウェイトリリースであり、早期融合の視覚・言語目標で学習されたマルチモーダル Mixture‑of‑Experts の大規模基盤モデルで、エージェント型ワークフロー向けに最適化されています。スパースルーティング(末尾の「A17B」)によりトークンごとに約 17B のみがアクティブになる一方、397B パラメータのアーキテクチャの全容量を利用でき、知識容量と推論効率のバランスを実現します。
このリリースは、長文脈推論、視覚理解、検索拡張/エージェント型アプリケーションに対応する、オープンでデプロイ可能なマルチモーダル基盤モデルを必要とする研究者やエンジニアリングチームを対象としています。
Qwen3.5-397B-A17B の主な特徴
- アクティブパラメータ効率を備えたスパース MoE: グローバル容量(397B)を持ちつつ、トークンごとのアクティブ数は 17B の密モデル相当で、FLOPS/トークンを抑えつつ知識の多様性を維持。
- ネイティブなマルチモーダル(早期融合): 統一されたトークナイゼーションとエンコーダ戦略により、テキスト/画像/動画を横断した推論に対応。
- 超長コンテキスト対応: ネイティブの入力シーケンス長は 262K トークンで、RoPE/YARN スケーリングにより 〜1M+ トークンへの拡張手法が文書化され、検索や長文書パイプラインに適用可能。
- 思考モードとエージェントツール群: 内部推論トレースとエージェント的実行パターンをサポート;ツール呼び出しやコードインタープリタ統合の例を提供。
- オープンウェイトと幅広い互換性: Apache‑2.0 で Hugging Face と ModelScope に公開され、Transformers、vLLM、SGLang などのファーストパーティ統合ガイドやコミュニティフレームワークに対応。
- エンタープライズ向けの言語カバレッジ: 200以上の言語にわたる広範な多言語学習に加え、大規模展開向けの手順やレシピを提供。
Qwen3.5-397B-A17B と主要モデルの比較
| モデル | コンテキストウィンドウ(ネイティブ) | 強み | 一般的なトレードオフ |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K(ネイティブ) | マルチモーダル MoE、オープンウェイト、397B 容量で 17B アクティブ | モデルアーティファクトが大きく、フル性能のためには分散ホスティングが必要 |
| GPT-5.2(代表的なクローズド) | ~400K(一部のバリアントで報告) | 単一の密モデルにおける高い推論精度 | クローズドウェイト、スケール時の推論コストが高い |
| LLaMA‑スタイル密 70B | ~128K(変動) | 推論スタックが簡素、密ランタイムでの VRAM 要件が低い | MoE のグローバルな知識容量に比べてパラメータ容量が少ない |
既知の制約と運用上の考慮事項
- メモリフットプリント: スパース MoE でも大容量の重みファイルの保存が必要;17B の密クローンと比べ、ホスティングには大きなストレージとデバイスメモリが求められます。
- エンジニアリングの複雑性: 最適なスループットには(テンソル/パイプライン)並列の慎重な設計と vLLM や SGLang などのフレームワークが必要;単純な単一 GPU ホスティングは非現実的です。
- トークン経済性: トークンあたりの計算は削減される一方で、超長コンテキストは I/O、KV キャッシュサイズ、マネージドプロバイダの課金を増加させます。
- 安全性とガードレール: オープンウェイトは柔軟性を高める一方で、安全フィルタリング、モニタリング、導入時のガードレールの責任がオペレーターに移ります。
代表的なユースケース
- 研究・モデル分析: オープンウェイトにより再現可能な研究やコミュニティ主導の評価が可能。
- オンプレミスのマルチモーダルサービス: データレジデンシーが必要な企業が、視覚+テキストのワークロードをローカルに展開・実行。
- RAG と長文書パイプライン: ネイティブな長コンテキスト対応により、大規模コーパスの単一パス推論を支援。
- コードインテリジェンスとエージェントツール: モノレポ解析、パッチ生成、制御環境でのエージェント的なツールコールループの実行。
- 多言語アプリケーション: グローバル製品向けの高カバレッジな言語サポート。
Qwen3.5-397B-A17B へのアクセスと統合方法
ステップ 1:API キーを取得
cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI コンソール にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API トークンで “Add Token” をクリックし、トークンキー:sk-xxxxx を取得して送信します。
ステップ 2:Qwen3.5-397B-A17B API にリクエストを送信
API リクエストを送信するエンドポイントとして “Qwen3.5-397B-A17B” を選択し、リクエストボディを設定します。リクエスト方法とリクエストボディは当社ウェブサイトの API ドキュメントから取得できます。当社ウェブサイトでは利便性のため Apifox のテストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。呼び出し先:Chat 形式。
質問や依頼を content フィールドに挿入します—モデルはこの内容に応答します。API レスポンスを処理して生成された回答を取得します。
ステップ 3:結果の取得と検証
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。