| フィールド | 値 / 注記 |
|---|---|
| モデル名 | Qwen3-VL-32B(Instruct / Thinking バリアントを利用可能)。 |
| モデルファミリー / アーキテクチャ | Qwen3-VL — Vision-Language Transformer。ViT スタイルのビジュアルエンコーダー + LLM 融合レイヤーを備えたマルチモーダルバックボーン。 |
| パラメータ数 | 「32B」クラス(公開情報では、dense 32B バリアントは約 ~32–33B パラメータ規模とされる)。 |
| バリアント | Dense: 2B / 4B / 8B / 32B;MoE: 30B-A3B, 235B-A22B(より大規模な MoE バリアントも公開済み)。 |
| ネイティブコンテキスト長 | 256K トークン(ネイティブなインターリーブ型マルチモーダルコンテキスト)。一部のデプロイメントでは、拡張モード / 技術により最大 ~1M トークンまで対応可能。 |
| 入力モダリティ | テキスト + 画像(高解像度)+ 長尺動画(時間モデリング / タイムスタンプ)+ OCR(多言語)。 |
| 出力モダリティ | テキスト(自然言語)、構造化抽出(OCR / 表 / グラフ抽出)、動画向けタイムスタンプ / セグメント要約;ツール利用 / エージェント呼び出しをサポート。 |
Qwen3-VL-32B とは
Qwen3-VL-32B は、Alibaba の Qwen3 ビジョンランゲージモデルファミリーに属する、320億パラメータの dense バリアントです。これは、統合的な知覚、長文脈推論、堅牢な OCR とビジュアルグラウンディング、そしてエージェント的 / ツール化ワークフロー向けに設計されたマルチモーダル(ビジョン + 言語 + 動画)Transformer です。
主な特徴
- 大規模マルチモーダルコンテキスト — 256K のインターリーブトークン(テキスト + 画像参照)をネイティブにサポートし、長文書や長尺動画向けに実効コンテキストを ~1M トークンまで拡張するためのアーキテクチャ上のフック / ツールも備えています。これにより、文書横断・メディア横断の検索および推論が可能です。
- 統合された視覚 + 言語事前学習 — 初期段階から共同学習を行うことで、視覚入力に対する言語のグラウンディングを改善し、より強力なクロスモーダル表現を実現します(VQA、OCR、図解推論に有利)。
- 動画理解と時間的アラインメント — タイムスタンプ付きテキストとの対応付けを備えたネイティブな動画処理に対応し、細かな時間粒度で長尺動画ストリームを要約またはインデックス化できます。
- 多言語 OCR と文書解析 — 多言語にわたる高品質 OCR と、表・グラフ抽出用途における堅牢な文書 / レイアウト理解を提供します。
- Instruct と Thinking の各バリアント — アプリケーション要件に応じて、指示追従性に最適化されたビルド(Instruct)と、深い内部 chain-of-thought / 推論スループットに最適化されたビルド(Thinking)が用意されています(安全性 / 簡潔性 vs. 段階的推論)。
- スケーリングのための MoE オプション — 極端な容量 / カバレッジが必要な場合には、MoE バリアント(30B-A3B、235B-A22B)があり、エキスパートルーティングによって推論計算量の抑制を図りつつ表現能力を高めます。
Qwen3-VL-32B が適している用途
- 大規模な文書およびフォーム抽出 — 多言語に対応した堅牢な OCR、表・グラフ抽出、長大なレポートの意味的要約。
- 複雑な画像に対する Visual Question Answering — 医療 / 工学図、注釈付き写真、または視覚的証拠と段階的なテキスト推論の統合を要するビジュアルトラブルシューティング。
- 長尺動画のインデックス化と要約 — 数時間に及ぶ録画や監視 / 動画アーカイブ向けに、検索可能な文字起こし、秒単位のインデックス、要約を生成。
- マルチモーダルエージェント / ツールチェーン — 視覚ペイロードの抽出(例:OCR→検索→アクション)を必要とするツール呼び出しをオーケストレーションし、知覚と行動を組み合わせるエージェントフレームワークに適しています。
- STEM ビジュアル推論およびチュータリングツール — 画像 / グラフとテキスト説明を組み合わせた、図式的な数学や段階的解法(教育用途では、出力の正確性を検証する必要がある点に留意)。
Qwen3 VL-32B API へのアクセス方法
ステップ 1: API キーを登録する
cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。CometAPI console にサインインします。インターフェース用のアクセス認証情報である API キーを取得します。個人センターの API token で「Add Token」をクリックし、トークンキー sk-xxxxx を取得して送信します。
ステップ 2: Qwen3 VL-32B API にリクエストを送信する
API リクエストの送信先として「Qwen3-VL-32B」エンドポイントを選択し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社ウェブサイトの API ドキュメントで確認できます。当社ウェブサイトでは、利便性のために Apifox テストも提供しています。<YOUR_API_KEY> を、アカウントで発行された実際の CometAPI キーに置き換えてください。base url は Chat です。
質問またはリクエストを content フィールドに入力してください。モデルはこの内容に対して応答します。API レスポンスを処理して生成された回答を取得します。
ステップ 3: 結果を取得して検証する
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。