ModelliPrezziAzienda
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Azienda
Chi siamoAzienda
Risorse
Modelli di Intelligenza ArtificialeBlogRegistro delle modificheSupporto
Termini di ServizioInformativa sulla Privacy
© 2026 CometAPI · All rights reserved
Home/Models/Aliyun/qwen3-vl-235b-a22b
Q

qwen3-vl-235b-a22b

Ingresso:$0.24/M
Uscita:$0.96/M
Contesto:2M
Uscita Massima:30K
qwen3-vl-235b-a22b è un modello multimodale che unisce una potente generazione di testo alla comprensione visiva per immagini e video. La sua variante Instruct ottimizza la capacità di seguire le istruzioni per compiti multimodali generali. Eccelle nella percezione di categorie del mondo reale/sintetiche, nel grounding spaziale 2D/3D e nella comprensione visiva di contenuti estesi, ottenendo risultati competitivi nei benchmark multimodali.
Nuovo
Uso commerciale
Playground
Panoramica
Caratteristiche
Prezzi
API
Versioni

Che cos’è Qwen3-VL-235B-A22B

Qwen3-VL-235B-A22B è un LLM multimodale ad alta capacità della famiglia Qwen (Alibaba). Combina un ampio backbone transformer MoE con encoder visivi cross-modali e nuove tecniche di codifica posizionale/temporale per gestire input multi-immagine e video di lunga durata, ed eseguire attività come visual question answering (VQA), OCR di documenti lunghi, grounding spaziale/3D, generazione di codice multimodale e controllo agentico della GUI. La release include sia le varianti Instruct (ottimizzate per task/few-shot e per seguire istruzioni) sia Thinking (con supporto aggiuntivo al ragionamento e modalità interna “think”).


Caratteristiche principali (cosa rende distintivo Qwen3-VL-235B-A22B)

  • Ampia architettura MoE con elevata capacità attiva: uno stack MoE che attiva un sottoinsieme di esperti per richiesta (≈22B attivi) per fornire più calcolo quando necessario, controllando al contempo il costo di inferenza.
  • Contesto nativo molto lungo (256K) e scalabile fino a ~1M: pensato per documenti della lunghezza di un libro, ore di video e flussi di lavoro multi-documento senza chunking aggressivo.
  • Ragionamento visivo avanzato (spaziale e temporale): moduli Interleaved-MRoPE e DeepStack per l’allineamento dei timestamp e una fusione immagine-testo a grana fine, che abilitano query sulla timeline video e grounding 3D.
  • OCR e parsing dei documenti migliorati: supporto OCR esteso per le lingue (pubblicizzate ~32 lingue), maggiore robustezza a sfocatura/inclinazione/scarsa illuminazione e parsing della struttura di documenti lunghi e multipagina.
  • Agente visivo + automazione GUI: capacità agentiche esplicite per identificare elementi della GUI, invocare funzioni o strumenti ed eseguire attività di automazione su interfacce PC/mobile.
  • Coding visivo e sintesi di programmi multimodale: può tradurre immagini/video/bozze di UI in Draw.io/HTML/CSS/JS e assistere nel debugging della UI.

Come Qwen3-VL-235B-A22B si confronta con altri modelli

Di seguito sono riportati confronti ad alto livello con modelli contemporanei; numeri e limiti sono tratti da pagine pubbliche di provider/modelli e da riepiloghi di aggregatori.

  • Google Gemini 3 Pro — Gemini pone l’accento su ragionamento multimodale su larga scala e uso agentico degli strumenti; Google pubblicizza modalità di contesto da 1M token e profonde integrazioni di prodotto. Gemini è posizionato come leader generale nella multimodalità agentica (closed-source / proprietario) e spesso supera i modelli open pubblicamente disponibili su alcuni benchmark di prodotto. Qwen3-VL compete più direttamente come alternativa open-weight ad alta capacità, ottimizzata per OCR, allineamento della timeline video e compromessi di costo MoE.
  • Grok-4 Heavy (xAI) — Grok-4 è un’altra famiglia di modelli a lungo contesto e alto ragionamento; alcune varianti di Grok indicano finestre di contesto da ~256K e solide prestazioni in coding/matematica. Qwen3-VL e Grok-4 puntano entrambi al ragionamento su testi lunghi; Qwen3-VL si differenzia per il forte focus su strumenti visivi/video/OCR e sullo scaling MoE.
  • DeepSeek-R1 / famiglia DeepSeek — DeepSeek R1 enfatizza training efficiente e prestazioni di ragionamento competitive a costo di inferenza inferiore; viene spesso usato come alternativa open per attività di ragionamento/codice. Qwen3-VL mira a capacità multimodali e spaziali/video più forti rispetto al focus principale di R1 sul ragionamento testuale.

Casi d’uso rappresentativi

  • Parsing di documenti e OCR su larga scala — fatture lunghe e multipagina, libri, documenti storici con testo multilingue.
  • Comprensione video e query sulla timeline — riassumere ore di video registrato, localizzare eventi nel tempo, allineare testo ai timestamp del video.
  • Visual question answering e assistenti multimodali — dialoghi multi-turno con immagine + testo (supporto clienti con screenshot, note di imaging medico).
  • Automazione GUI / agenti visivi — rilevare elementi dell’interfaccia e guidare flussi su PC/mobile (automazione, testing, agenti assistivi).
  • Generazione di codice multimodale e prototipazione UI — convertire mockup / immagini in HTML/CSS/JS o diagrammi Draw.io.
  • Ricerca e analisi di documenti di grandi dimensioni — riassunto a livello di libro, sintesi multi-documento con un unico contesto.

Come accedere all’API di Qwen3 VL-235B-A22B

Passaggio 1: registrarsi per ottenere una chiave API

Accedi a cometapi.com. Se non sei ancora un nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la credenziale di accesso API key dell’interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e inviala.

Passaggio 2: inviare richieste all’API di Qwen3 VL-235B-A22B

Seleziona l’endpoint “Qwen3-VL-235B-A22B” per inviare la richiesta API e imposta il body della richiesta. Il metodo della richiesta e il body della richiesta sono disponibili nella documentazione API sul nostro sito web. Il nostro sito web fornisce anche test Apifox per tua comodità. Sostituisci <YOUR_API_KEY> con la tua effettiva chiave CometAPI del tuo account. La base url è Chat

Inserisci la tua domanda o richiesta nel campo content: è ciò a cui il modello risponderà. Elabora la risposta API per ottenere la risposta generata.

Passaggio 3: recuperare e verificare i risultati

Elabora la risposta API per ottenere la risposta generata. Dopo l’elaborazione, l’API restituisce lo stato dell’attività e i dati di output.

Prezzi per qwen3-vl-235b-a22b

Esplora i prezzi competitivi per qwen3-vl-235b-a22b, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come qwen3-vl-235b-a22b può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$0.24/M
Uscita:$0.96/M
Ingresso:$0.3/M
Uscita:$1.2/M
-20%

Codice di esempio e API per qwen3-vl-235b-a22b

Accedi a codice di esempio completo e risorse API per qwen3-vl-235b-a22b per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di qwen3-vl-235b-a22b nei tuoi progetti.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3-vl-235b-a22b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3-vl-235b-a22b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "qwen3-vl-235b-a22b",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "qwen3-vl-235b-a22b",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Versioni di qwen3-vl-235b-a22b

Il motivo per cui qwen3-vl-235b-a22b dispone di più snapshot può includere fattori potenziali come variazioni nell'output dopo aggiornamenti che richiedono snapshot precedenti per coerenza, offrire agli sviluppatori un periodo di transizione per l'adattamento e la migrazione, e diversi snapshot corrispondenti a endpoint globali o regionali per ottimizzare l'esperienza utente. Per le differenze dettagliate tra le versioni, si prega di fare riferimento alla documentazione ufficiale.
Nome del modellodescrizione
qwen3-vl-235b-a22bstandard
qwen3-vl-235b-a22b-thinkingversione thinking