Alibaba Cloud rilascia il modello multimodale Qwen-VLo, aggiornamento delle capacità di immagine

La divisione AI di Alibaba Cloud è stata lanciata ufficialmente Qwen‑VLo, l'ultima iterazione della serie di modelli multimodali Qwen, che segna un significativo progresso nelle capacità unificate di visione e linguaggio. Annunciato il 28 giugno 2025, Qwen-VLo offre funzionalità sia di comprensione che di generazione, estendendosi ben oltre i suoi predecessori e includendo la creazione e l'editing di immagini ad alta risoluzione, guidate da prompt in linguaggio naturale e input visivi.

Basandosi su versioni precedenti come Qwen‑VL e Qwen2.5‑VL, Qwen‑VLo rappresenta ciò che Alibaba descrive come un "aggiornamento completo" nell'IA multimodale. Mentre Qwen‑VL si concentrava principalmente sull'interpretazione delle informazioni visive e Qwen2.5‑VL migliorava la comprensione di contesti a lungo termine, Qwen‑VLo integra questi punti di forza in un unico framework in grado di gestire compiti bidirezionali di visione e linguaggio. Supporta istruzioni aperte, diverse lingue, tra cui cinese e inglese, e perfeziona i suoi output per competere con quelli degli artisti umani.

Funzionalità principali

Generazione di immagini progressive

Qwen-VLo costruisce le immagini in modo graduale, da sinistra a destra e dall'alto verso il basso, perfezionando iterativamente il contenuto previsto per garantire coerenza e armonia visiva. Questo meccanismo migliora sia l'efficienza di generazione che il controllo dell'utente sul processo creativo.

Supporto dinamico alla risoluzione

Grazie all'addestramento dinamico alla risoluzione, il modello può gestire risoluzioni di input/output e proporzioni arbitrarie. Gli utenti possono generare contenuti personalizzati per diversi scenari, come banner web, copertine per i social media o poster ad alta risoluzione, senza essere vincolati da formati fissi.

Modifica delle istruzioni aperte

Attraverso prompt in linguaggio naturale, Qwen VLo può eseguire modifiche avanzate come trasferimenti di stile ("Applica uno stile Van Gogh"), trasformazioni composite ("Aggiungi un cielo soleggiato") e modifiche multifattoriali in un'unica istruzione. Supporta anche l'estrazione e la modifica di segnali visivi tradizionali come mappe di profondità, maschere di segmentazione e contorni.

Interazione multilingue

Il modello accetta comandi in più lingue (attualmente supporta cinese e inglese), soddisfacendo così una base di utenti globale e abbattendo le barriere linguistiche nei flussi di lavoro creativi.

Disponibilità e accesso

Qwen‑VLo è attualmente disponibile in anteprima tramite la piattaforma Qwen Chat all'indirizzo chat.qwen.aiAlibaba Cloud ha segnalato che, trattandosi di una versione di anteprima, gli utenti potrebbero riscontrare occasionali incongruenze o inesattezze fattuali durante la generazione. Il team di sviluppo sta lavorando attivamente per risolvere queste limitazioni prima di un'implementazione più ampia.

Sotto il cofano, gli ingegneri AI di Alibaba hanno ottimizzato Qwen-VLo per l'implementazione in ambienti cloud ed edge. Sfruttando la quantizzazione a precisione mista e nuove tecniche di fine-tuning parametricamente efficienti, il modello mantiene prestazioni elevate con un ingombro di elaborazione ridotto. Alibaba ha inoltre integrato pipeline di inferenza adattiva per bilanciare latenza e qualità, garantendo che Qwen-VLo possa supportare applicazioni sensibili alla latenza, come strumenti di progettazione interattiva, scalando al contempo verso carichi di lavoro di livello enterprise su Alibaba Cloud.

Confrontare con Qwen-VL-Plus/Max

Funzione Dimensione	Qwen-VL-Plus/Max	Qwen VLo
Comprensione delle immagini	Classificazione di base, descrizione	Riconoscimento di strutture multidimensionali, comprensione contestuale migliorata
Generazione di immagini	Supporto di stile limitato	Alta precisione, generazione progressiva, forti capacità di controllo dello stile
Capacità multitasking	Richiede input specifici per l'attività	Multitasking unificato, supporta istruzioni linguistiche complesse
Interazione multilingue	Supporto limitato	Supporto nativo per cinese e inglese, controllo del linguaggio naturale più fluido
Capacità di conservazione dei dettagli	Possibile perdita di dettagli nella generazione	Identificazione e ricostruzione accurate delle strutture chiave e della semantica

Iniziamo

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

Per iniziare, esplora le capacità dei modelli in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.

L'ultima integrazione dell'API Qwen‑VLo apparirà presto su CometAPI, quindi rimanete sintonizzati! Mentre finalizziamo il caricamento del modello Qwen‑VLo, esplorate i nostri altri modelli su Pagina dei modelli oppure provali nel Parco giochi AIL'ultimo modello di Qwen in CometAPI è API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.