ModelosPreciosEmpresa
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Empresa
Sobre nosotrosEmpresa
Recursos
Modelos de IABlogRegistro de cambiosSoporte
Términos de ServicioPolítica de Privacidad
© 2026 CometAPI · All rights reserved
Home/Models/Aliyun/qwen3-vl-32b
Q

qwen3-vl-32b

Entrada:$0.24/M
Salida:$0.96/M
Qwen3-VL-32B es la variante densa de 32 mil millones de parámetros en la familia de modelos de visión y lenguaje Qwen3 de Alibaba. Es un transformador multimodal (visión + lenguaje + video) diseñado para percepción unificada, razonamiento en contextos largos, OCR robusto y anclaje visual, y flujos de trabajo basados en agentes/con herramientas.
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API
CampoValor / Notas
Nombre del modeloQwen3-VL-32B (variantes Instruct / Thinking disponibles).
Familia / arquitectura del modeloQwen3-VL — transformador visión-lenguaje; backbone multimodal con codificador visual de estilo ViT + capas de fusión con LLM.
Número de parámetrosClase denominada “32B” (las fuentes públicas indican una escala de ~32–33B parámetros para la variante densa de 32B).
VariantesDensas: 2B / 4B / 8B / 32B; MoE: 30B-A3B, 235B-A22B (también se han publicado variantes MoE más grandes).
Longitud de contexto nativa256K tokens (contexto multimodal intercalado nativo), con modos/técnicas de extensión diseñados que permiten hasta ~1M tokens en algunas implementaciones.
Modalidades de entradaTexto + imágenes (alta resolución) + video largo (modelado temporal/marcas de tiempo) + OCR (multilingüe).
Modalidades de salidaTexto (lenguaje natural), extracción estructurada (OCR/extracción de tablas y gráficos), marcas de tiempo/resúmenes por segmentos para video; admite uso de herramientas / llamadas de agente.

Qué es Qwen3-VL-32B

Qwen3-VL-32B es la variante densa de 32 mil millones de parámetros de la familia de modelos visión-lenguaje Qwen3 de Alibaba. Es un transformador multimodal (visión + lenguaje + video) diseñado para percepción unificada, razonamiento de contexto largo, OCR sólido y grounding visual, así como flujos de trabajo agentivos/con herramientas.

Características principales

  1. Gran contexto multimodal — Soporte nativo para 256K tokens intercalados (texto + referencias de imagen) y ganchos arquitectónicos / herramientas para extender el contexto efectivo hasta ~1M tokens en documentos y videos largos; permite recuperación y razonamiento entre documentos y medios.
  2. Preentrenamiento unificado visual + lingüístico — Entrenamiento conjunto desde etapas tempranas que mejora el anclaje del lenguaje a las entradas visuales, lo que conduce a representaciones intermodales más sólidas (beneficioso para VQA, OCR y razonamiento sobre diagramas).
  3. Comprensión de video y alineación temporal — Manejo nativo de video con alineación de texto mediante marcas de tiempo y capacidad para resumir o indexar flujos de video largos con granularidad temporal fina.
  4. OCR multilingüe y análisis de documentos — OCR de alta calidad en muchos idiomas y comprensión sólida de documentos/diseño para casos de uso de extracción de tablas y gráficos.
  5. Variantes Instruct vs Thinking — Compilaciones separadas optimizadas para cumplimiento de instrucciones (Instruct) frente a mayor capacidad interna de cadena de pensamiento / razonamiento (Thinking) para ajustarse a distintas necesidades de aplicación (seguridad/concisón frente a razonamiento paso a paso).
  6. Opciones MoE para escalado — Para capacidad/cobertura extremas existen variantes MoE (30B-A3B, 235B-A22B) que incrementan la capacidad de representación mientras intentan controlar el cómputo de inferencia mediante enrutamiento de expertos.

Para qué casos Qwen3-VL-32B es más adecuado

  1. Extracción de documentos y formularios a escala — OCR sólido en varios idiomas, extracción de tablas y gráficos, y resumen semántico de informes extensos.
  2. Respuesta visual a preguntas para imágenes complejas — diagramas médicos/de ingeniería, fotos anotadas o resolución visual de problemas que requieren integrar evidencia visual con razonamiento textual paso a paso.
  3. Indexación y resumen de videos largos — generación de transcripciones consultables, indexación a nivel de segundos y resúmenes para grabaciones de varias horas o archivos de vigilancia/video.
  4. Agentes multimodales / cadenas de herramientas — orquestación de llamadas a herramientas que requieren extraer cargas visuales (p. ej., OCR→búsqueda→acción), adecuado para marcos de agentes que combinan percepción y acción.
  5. Razonamiento visual STEM y herramientas de tutoría — matemáticas con diagramas y soluciones paso a paso que incorporan imágenes/gráficos y explicación textual (teniendo en cuenta que las salidas deben verificarse para garantizar su corrección en entornos educativos).

Cómo acceder a la API de Qwen3 VL-32B

Paso 1: Registrarse para obtener una clave API

Inicie sesión en cometapi.com. Si aún no es nuestro usuario, regístrese primero. Inicie sesión en su consola de CometAPI. Obtenga la credencial de acceso, la clave API de la interfaz. Haga clic en “Add Token” en la sección de token API del centro personal, obtenga la clave del token: sk-xxxxx y envíela.

Paso 2: Enviar solicitudes a la API de Qwen3 VL-32B

Seleccione el endpoint “Qwen3-VL-32B” para enviar la solicitud API y configure el cuerpo de la solicitud. El método de solicitud y el cuerpo de la solicitud se obtienen de la documentación API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para su comodidad. Sustituya <YOUR_API_KEY> por su clave real de CometAPI de su cuenta. La base url es Chat

Inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo. Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recuperar y verificar los resultados

Procese la respuesta de la API para obtener la respuesta generada. Después del procesamiento, la API responde con el estado de la tarea y los datos de salida.

Precios para qwen3-vl-32b

Explora precios competitivos para qwen3-vl-32b, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo qwen3-vl-32b puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$0.24/M
Salida:$0.96/M
Entrada:$0.3/M
Salida:$1.2/M
-20%

Código de ejemplo y API para qwen3-vl-32b

Accede a código de muestra completo y recursos de API para qwen3-vl-32b para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de qwen3-vl-32b en tus proyectos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3-vl-32b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3-vl-32b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "qwen3-vl-32b",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "qwen3-vl-32b",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'