Q

qwen3-vl-235b-a22b

Entrada:$0.24/M
Saída:$0.96/M
Contexto:2M
Saída Máxima:30K
qwen3-vl-235b-a22b é um modelo multimodal que unifica uma geração de texto robusta com compreensão visual para imagens e vídeos. Sua variante Instruct otimiza o seguimento de instruções para tarefas multimodais gerais. Destaca-se na percepção de categorias do mundo real/sintéticas, na ancoragem espacial 2D/3D e na compreensão visual de formato longo, alcançando resultados competitivos em benchmarks multimodais.
Novo
Uso comercial