Q

qwen3-vl-235b-a22b

入力:$0.24/M
出力:$0.96/M
文脈:2M
最大出力:30K
qwen3-vl-235b-a22b は、画像および動画の視覚理解と強力なテキスト生成を統合したマルチモーダルモデルです。その Instruct 版は、一般的なマルチモーダルタスクにおける指示追従を最適化しています。実世界および合成のカテゴリ認識、2D/3D の空間的グラウンディング、長尺の視覚コンテンツ理解に優れ、マルチモーダルのベンチマークで競争力のある結果を達成しています。
新着
商用利用