Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

入力:$0.48/M
出力:$2.88/M
Qwen3.5シリーズの397B-A17Bネイティブ視覚言語モデルは、線形アテンション機構とスパースMixture-of-Experts(MoE)モデルを統合したハイブリッドアーキテクチャに基づいて構築されており、より高い推論効率を実現しています。
新着
商用利用
Playground
概要
機能
料金プラン
API

Qwen3.5-397B-A17B の技術仕様

項目Qwen3.5-397B-A17B(オープンウェイトの後学習済み)
モデルファミリーQwen3.5(Tongyi Qwen シリーズ、Alibaba)
アーキテクチャハイブリッド Mixture-of-Experts(MoE)+Gated DeltaNet;早期融合型マルチモーダル学習
総パラメータ数~397 billion(合計)
アクティブパラメータ(A17B)~17 billion(トークンごとにアクティブ、スパースルーティング)
入力タイプテキスト、画像、動画(マルチモーダル早期融合)
出力タイプテキスト(チャット、コード、RAG 出力)、画像からテキスト、マルチモーダル応答
ネイティブコンテキストウィンドウ262,144 トークン(ネイティブ ISL)
拡張可能なコンテキストYaRN/ RoPE スケーリングにより最大 ~1,010,000 トークン(プラットフォーム依存)
最大出力トークン数フレームワーク/サービング依存(ガイドでは 81,920–131,072 の例)
言語200以上の言語と方言
リリース日2026年2月16日(オープンウェイトリリース)
ライセンスApache‑2.0(Hugging Face/ModelScope でオープンウェイト)

Qwen3.5-397B-A17B とは

Qwen3.5-397B-A17B は Alibaba の Qwen3.5 ファミリーにおける初のオープンウェイトリリースであり、早期融合の視覚・言語目標で学習されたマルチモーダル Mixture‑of‑Experts の大規模基盤モデルで、エージェント型ワークフロー向けに最適化されています。スパースルーティング(末尾の「A17B」)によりトークンごとに約 17B のみがアクティブになる一方、397B パラメータのアーキテクチャの全容量を利用でき、知識容量と推論効率のバランスを実現します。

このリリースは、長文脈推論、視覚理解、検索拡張/エージェント型アプリケーションに対応する、オープンでデプロイ可能なマルチモーダル基盤モデルを必要とする研究者やエンジニアリングチームを対象としています。


Qwen3.5-397B-A17B の主な特徴

  • アクティブパラメータ効率を備えたスパース MoE: グローバル容量(397B)を持ちつつ、トークンごとのアクティブ数は 17B の密モデル相当で、FLOPS/トークンを抑えつつ知識の多様性を維持。
  • ネイティブなマルチモーダル(早期融合): 統一されたトークナイゼーションとエンコーダ戦略により、テキスト/画像/動画を横断した推論に対応。
  • 超長コンテキスト対応: ネイティブの入力シーケンス長は 262K トークンで、RoPE/YARN スケーリングにより 〜1M+ トークンへの拡張手法が文書化され、検索や長文書パイプラインに適用可能。
  • 思考モードとエージェントツール群: 内部推論トレースとエージェント的実行パターンをサポート;ツール呼び出しやコードインタープリタ統合の例を提供。
  • オープンウェイトと幅広い互換性: Apache‑2.0 で Hugging Face と ModelScope に公開され、Transformers、vLLM、SGLang などのファーストパーティ統合ガイドやコミュニティフレームワークに対応。
  • エンタープライズ向けの言語カバレッジ: 200以上の言語にわたる広範な多言語学習に加え、大規模展開向けの手順やレシピを提供。

Qwen3.5-397B-A17B と主要モデルの比較

モデルコンテキストウィンドウ(ネイティブ)強み一般的なトレードオフ
Qwen3.5-397B-A17B262K(ネイティブ)マルチモーダル MoE、オープンウェイト、397B 容量で 17B アクティブモデルアーティファクトが大きく、フル性能のためには分散ホスティングが必要
GPT-5.2(代表的なクローズド)~400K(一部のバリアントで報告)単一の密モデルにおける高い推論精度クローズドウェイト、スケール時の推論コストが高い
LLaMA‑スタイル密 70B~128K(変動)推論スタックが簡素、密ランタイムでの VRAM 要件が低いMoE のグローバルな知識容量に比べてパラメータ容量が少ない

既知の制約と運用上の考慮事項

  • メモリフットプリント: スパース MoE でも大容量の重みファイルの保存が必要;17B の密クローンと比べ、ホスティングには大きなストレージとデバイスメモリが求められます。
  • エンジニアリングの複雑性: 最適なスループットには(テンソル/パイプライン)並列の慎重な設計と vLLM や SGLang などのフレームワークが必要;単純な単一 GPU ホスティングは非現実的です。
  • トークン経済性: トークンあたりの計算は削減される一方で、超長コンテキストは I/O、KV キャッシュサイズ、マネージドプロバイダの課金を増加させます。
  • 安全性とガードレール: オープンウェイトは柔軟性を高める一方で、安全フィルタリング、モニタリング、導入時のガードレールの責任がオペレーターに移ります。

代表的なユースケース

  1. 研究・モデル分析: オープンウェイトにより再現可能な研究やコミュニティ主導の評価が可能。
  2. オンプレミスのマルチモーダルサービス: データレジデンシーが必要な企業が、視覚+テキストのワークロードをローカルに展開・実行。
  3. RAG と長文書パイプライン: ネイティブな長コンテキスト対応により、大規模コーパスの単一パス推論を支援。
  4. コードインテリジェンスとエージェントツール: モノレポ解析、パッチ生成、制御環境でのエージェント的なツールコールループの実行。
  5. 多言語アプリケーション: グローバル製品向けの高カバレッジな言語サポート。

Qwen3.5-397B-A17B へのアクセスと統合方法

ステップ 1:API キーを取得

cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI コンソール にサインインします。インターフェースのアクセス認証 API キーを取得します。パーソナルセンターの API トークンで “Add Token” をクリックし、トークンキー:sk-xxxxx を取得して送信します。

ステップ 2:Qwen3.5-397B-A17B API にリクエストを送信

API リクエストを送信するエンドポイントとして “Qwen3.5-397B-A17B” を選択し、リクエストボディを設定します。リクエスト方法とリクエストボディは当社ウェブサイトの API ドキュメントから取得できます。当社ウェブサイトでは利便性のため Apifox のテストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。呼び出し先:Chat 形式。

質問や依頼を content フィールドに挿入します—モデルはこの内容に応答します。API レスポンスを処理して生成された回答を取得します。

ステップ 3:結果の取得と検証

API レスポンスを処理して生成された回答を取得します。処理後、API はタスクステータスと出力データを返します。

よくある質問

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

qwen3.5-397b-a17bの機能

qwen3.5-397b-a17bのパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

qwen3.5-397b-a17bの料金

qwen3.5-397b-a17bの競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。qwen3.5-397b-a17bがコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
入力:$0.48/M
出力:$2.88/M
入力:$0.6/M
出力:$3.6/M
-20%

qwen3.5-397b-a17bのサンプルコードとAPI

qwen3.5-397b-a17bの包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでqwen3.5-397b-a17bの潜在能力を最大限に活用できるよう支援します。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

その他のモデル