Q

qwen3-vl-235b-a22b

Entrada:$0.24/M
Salida:$0.96/M
Contexto:2M
Salida Máxima:30K
qwen3-vl-235b-a22b es un modelo multimodal que unifica una potente generación de texto con comprensión visual para imágenes y videos. Su variante Instruct optimiza el seguimiento de instrucciones para tareas multimodales generales. Destaca en la percepción de categorías del mundo real y sintéticas, el anclaje espacial 2D/3D y la comprensión visual de largo formato, logrando resultados competitivos en benchmarks multimodales.
Nuevo
Uso comercial