Alla vigilia del Capodanno lunare (16–17 febbraio 2026), Alibaba Group ha rilasciato il suo modello di nuova generazione, Qwen 3.5 — un modello multimodale con capacità agentiche, posizionato per quella che l’azienda definisce un’era dell’“IA agentica”. La copertura del settore ha evidenziato dichiarazioni di grandi guadagni in efficienza e costo, e supporto rapido da parte di vendor hardware e cloud. CometAPI è un’opzione per gli sviluppatori che desiderano accesso API ospitato o un’integrazione compatibile con OpenAI, mentre AMD ha annunciato supporto GPU Day-0 per il modello sulla linea Instinct. ByteDance è uno dei principali concorrenti domestici che ha rilasciato aggiornamenti nello stesso periodo festivo. OpenAI rimane un punto di riferimento per il confronto in benchmark e stile di integrazione.
Che cos’è Qwen 3.5?
Qwen 3.5 di Alibaba è la più recente generazione di modello linguistico di grandi dimensioni (LLM) multimodale dell’azienda, posizionato per la cosiddetta era dell’“IA agentica” — modelli che non solo rispondono alle domande ma possono orchestrare flussi di lavoro multi-step, chiamare strumenti, lavorare con immagini/video e agire attraverso i confini applicativi. Il modello è stato annunciato pubblicamente durante il periodo del Capodanno lunare (la finestra di rilascio riportata intorno al 16 febbraio 2026), una data strategica per la visibilità del prodotto in Cina e per catturare l’attenzione degli utenti durante i picchi festivi. Qwen 3.5 offre significativi miglioramenti in costo e throughput rispetto ai suoi predecessori, concentrandosi su contesti lunghi e automazione in stile agente.
A colpo d’occhio, le affermazioni tecniche e di business distintive su Qwen 3.5 sono:
- Un’architettura nativamente multimodale che supporta input e output di testo, immagini e video (flussi di lavoro agentici). Nuove funzionalità in-modello per chiamare strumenti, agire sui contenuti del browser e concatenare passaggi (comportamento agentico). Queste funzionalità abilitano l’automazione — compilazione di moduli, flussi end-to-end — ma richiedono controlli di sicurezza più robusti.
- Un’architettura ibrida Mixture-of-Experts con un numero totale di parametri molto grande ma con un sottoinsieme più piccolo attivo per passaggio forward — note tecniche pubbliche indicano architetture come “397B totali / 17B attivi” per una variante Qwen3.5 usata in serving efficiente. Questo design produce alta capacità con efficienza d’inferenza migliorata.
- Benchmark competitivi rispetto ai principali modelli globali closed-source, con Alibaba che rivendica vantaggi di costo e parità o risultati migliori su molti compiti pratici.
Edizioni che troverai
- qwen3.5-397b-a17b (rilascio dei pesi aperti): checkpoint scaricabili e fork della community (per deployment locali e personalizzati). Vedi i repository ufficiali del progetto e i mirror.
- qwen3.5-plus (Variante “Plus” ospitata): completamente gestita su Alibaba Cloud Model Studio con la finestra di contesto più ampia e strumenti integrati (tool calling, assistente di codice, estrazione web). Questa è la versione che i clienti enterprise probabilmente chiameranno via API per affidabilità e scalabilità.
Quali sono le caratteristiche principali di Qwen-3.5?
Architettura e punti salienti dell’addestramento
Di seguito una tabella sintetica delle caratteristiche al rilascio:
| Caratteristica | Qwen-3.5 (dettagli pubblici) | Impatto pratico |
|---|---|---|
| Architettura | Ibrida: attenzione lineare + MoE sparso + backbone transformer densi. | Miglior throughput di decodifica e efficienza di scalabilità vs modelli puramente densi. |
| Multimodalità | Capacità agentiche native visione–linguaggio (azioni attraverso le UI). | Abilita controllo app/agenti multi-step, non solo QA testo-immagine. |
| Serie di modelli & pesi open | Rilascio pubblico di almeno una variante “open-weights” (es. Qwen3.5-397B-A17B). | Consente fine tuning on-prem e di terze parti; accelera la valutazione della community. |
| Lingue | >200 lingue e dialetti (dichiarazioni di rilascio). | Ampia copertura internazionale per localizzazione e agenti multilingue. |
| RL / agenti | Scalabilità su larga scala di ambienti RL e pipeline di addestramento per agenti. | Migliora la pianificazione di lungo periodo e la sequenza di azioni in compiti reali. |
Multimodalità e azioni agentiche
Qwen-3.5 è esplicitamente progettato per i flussi di lavoro agentici — significa che il modello è progettato non solo per rispondere, ma per pianificare, concatenare azioni (API, interazioni UI, operazioni su file) e integrare input visivi (screenshot, DOM delle UI, immagini) nel proprio ciclo decisionale. Alibaba evidenzia una fusione nativa visione–linguaggio e hook di controllo più stretti per eseguire compiti su mobile e desktop oltre i confini delle app.
Architettura ibrida (focus sull’efficienza)
I materiali di Alibaba e i riassunti del settore indicano che Qwen-3.5 utilizza un ibrido di meccanismi di attenzione lineare con routing sparse Mixture-of-Experts (MoE), così che l’attivazione di parametri “effettiva” per prompt comuni sia molto inferiore al numero di facciata. Il beneficio pratico: maggiore capacità per unità di calcolo e inferenza a costo più basso — l’azienda dichiara fino a ~60% di riduzione del costo di distribuzione rispetto alle versioni precedenti.
Finestra di contesto e supporto multilingue
Note pubbliche indicano finestre di contesto espanse (vengono menzionati 256k token per alcune varianti open weights nella famiglia Qwen) e una copertura linguistica più ampia (Alibaba ha ampliato costantemente il supporto a lingue/dialetti attraverso le generazioni Qwen). Il risultato: migliore gestione di documenti lunghi e compiti agent cross-lingua.
Come accedere a Qwen 3.5 tramite CometAPI?
CometAPI fornisce un gateway unificato, compatibile con OpenAI, a oltre 500 modelli (inclusi endpoint Qwen ospitati o di terze parti). Questa astrazione consente al tuo codice di cambiare provider con minima frizione mentre CometAPI normalizza le risposte e offre analytics d’uso e fatturazione pay-as-you-go.
Passo per passo: flusso di base per chiamare Qwen 3.5 tramite CometAPI
- Registrati e ottieni una chiave API dalla dashboard di CometAPI.
- Scegli la variante Qwen 3.5 nella lista modelli di CometAPI (es.
qwen3.5-plusoqwen3.5-397b-a17b). CometAPI in genere espone il nome modello specifico del provider come stringa da passare nel campomodel. - Effettua una richiesta di Chat Completion usando il loro endpoint compatibile con OpenAI (esempi di base URL:
https://api.cometapi.com/v1). Puoi usare l’SDK di OpenAI o HTTP raw. La documentazione di CometAPI mostra entrambi gli approcci e consiglia di vincolare il base URL della tua libreria all’endpoint CometAPI così che il codice esistente per OpenAI funzioni con poche o nessuna modifica.
Esempi minimi
cURL (chiamata chat semplice)
export COMETAPI_KEY="sk-xxxx"
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $COMETAPI_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5-plus",
"messages":[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Summarize the tradeoffs between retrieval-augmented generation and fine-tuning."}
],
"max_tokens": 512
}'
Python (client OpenAI con override di base_url)
# Using the OpenAI-compatible client pattern many API hubs support:
from openai import OpenAI
client = OpenAI(api_key="YOUR_COMETAPI_KEY", base_url="https://api.cometapi.com/v1")
resp = client.chat.completions.create(
model="qwen3.5-plus",
messages=[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Explain how to implement streaming responses in production (short)."}
],
max_tokens=400
)
print(resp.choices[0].message.content)
Nota: CometAPI normalizza molte differenze tra vendor; consulta la lista modelli di CometAPI per scegliere il nome stringa esatto di ciascuna variante Qwen.
Utilizzo delle funzionalità immagine/multimodali tramite il gateway
Se vuoi usare funzionalità di visione (immagine + testo), CometAPI in genere espone le capacità dei vendor tramite una singola API ma può richiedere di allegare dati binari/immagini o URL firmati. Lo schema generale è includere un input_image (o parametro specifico del vendor) e impostare model sulla variante Qwen-3.5 multimodale appropriata.
Quanto costa Qwen 3.5?
Prezzi API e token di Aliyun
| Modello | Token di input per richiesta | Prezzo input (per 1M token) | Prezzo output (per 1M token) | Quota gratuita (Nota) | |
|---|---|---|---|---|---|
| Modalità non-pensante | Modalità di pensiero (CoT + risposta) | ||||
| qwen3.5-plus | 0<Token≤256K | $0.4 | $2.4 | $2.4 | 1 milione di token ciascuno Validità: 90 giorni dopo l’attivazione di Model Studio |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 | ||
| qwen3.5-plus-2026-02-15 | 0<Token≤256K | $0.4 | $2.4 | $2.4 | |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 |
Prezzi per qwen3.5-plus in CometAPI
CometAPI offre fatturazione pay-as-you-go e aiuta a centralizzare la fatturazione tra provider; le sue tariffe per token dipendono dal provider upstream e da eventuali margini/sconti applicati da CometAPI. In pratica, usare un gateway come CometAPI semplifica il cambio di provider e gli analytics d’uso a un piccolo costo aggiuntivo — utile per team che vogliono ridondanza multi-vendor o confrontare prestazioni vs prezzo senza reingegnerizzare.
Scopri prezzi competitivi per qwen3.5-plus, progettati per adattarsi a vari budget ed esigenze d’uso. I nostri piani flessibili assicurano che tu paghi solo ciò che utilizzi, rendendo facile scalare man mano che crescono i requisiti. Scopri come qwen3.5-plus può migliorare i tuoi progetti mantenendo i costi gestibili.
| Prezzo Comet (USD / M token) | Prezzo ufficiale (USD / M token) | Sconto |
|---|---|---|
| Input:$0.32/M; Output:$1.92/M | Input:$0.4/M; Output:$2.4/M | -20% |
Posso eseguire Qwen 3.5 on-prem o su infrastruttura personalizzata?
Sì, ma con riserve:
- Varianti grandi (centinaia di miliardi di parametri) richiedono hardware specializzato (cluster multipli A100/H100 o AMD Instinct). Supporto Day-0 per Qwen 3.5 su GPU AMD Instinct; progetti community (vLLM, HF) forniscono ricette per distribuire stack di inferenza ottimizzati. Aspettati notevole sforzo ingegneristico e alti costi hardware per scala di produzione.
- Varianti più leggere della famiglia Qwen (set di parametri più piccoli, pesi tipo Qwen-Turbo) sono più semplici da ospitare e utili per molti compiti di produzione con trade-off qualità/costo accettabili.
Se conformità o residenza dei dati richiedono deployment on-premise, considera un approccio ibrido: esegui embeddings e retrieval localmente e chiama Qwen ospitato per compiti multimodali o agentici complessi.
Quali opzioni cloud o ospitate esistono?
- Alibaba Cloud Model Studio: fornisce endpoint Qwen ospitati, interfacce compatibili con OpenAI e strumenti d’integrazione (RAG, toolkit). Buono per team che usano già Alibaba Cloud.
- API di terze parti (CometAPI, ecc.): soluzione rapida per esperimenti multi-modello, switching vendor-agnostico e confronto dei costi.
- Pesi open / self-host: se richiedi piena località dei dati, scarica i pesi open e servili sul tuo cluster (stack NCCL/ROCm o CUDA).
Hardware: quali GPU e stack?
- Supporto Day-0 AMD: AMD ha annunciato tooling ROCm Day-0 e container per Qwen 3.5 su GPU Instinct — utile se distribuisci su hardware AMD. Per ambienti NVIDIA, container ottimizzati e supporto Triton probabilmente arriveranno rapidamente.
- Ottimizzazioni di inferenza: quantizzazione (INT8/4), slicing dei tensori e ottimizzazioni del routing MoE riducono memoria e calcolo; scegli la dimensione del modello di conseguenza. Per agenti real-time, preferisci modelli con meno parametri con batching aggressivo e ampiezze di beam ridotte.
Best practice per integrare Qwen 3.5
Di seguito regole pratiche e pattern ingegneristici — distillati da documentazione dei vendor, prime recensioni e pratica standard nell’ingegneria LLM — per costruire sistemi robusti, scalabili ed efficienti in termini di costi.
Prompt e igiene dei messaggi di sistema
- Usa messaggi system espliciti per definire persona, budget di token e formati di output.
- Preferisci prompt brevi e strutturati per output prevedibili (JSON o funzioni); riserva prompt di chain-of-thought lunghi solo quando necessari (costano di più e possono aumentare la latenza). “Thinking” vs “Non-Thinking” — scegli “Non-Thinking” per risposte deterministiche semplici e passa a “Thinking” per ragionamenti pesanti.
Gestione di token e contesto (critica con finestre da 1M)
- Segmenta documenti lunghi e usa retrieval augmentation per mantenere piccolo il contesto attivo; anche se Qwen Plus supporta 1M token, passare contesti enormi a ogni chiamata è costoso. Invece: indicizza i documenti, recupera i segmenti rilevanti e includi solo gli snippet necessari.
- Usa embeddings + database vettoriali per il retrieval innanzitutto; poi chiama il modello con il contesto recuperato e un’istruzione concisa. Questo pattern RAG riduce costi di token e latenza.
Strategie di ottimizzazione dei costi
- Controlla la dimensione dell’output con
max_tokense istruzioni esplicite “rispondi in N parole”. - Usa la modalità non-thinking per template e risposte brevi; riserva la chain-of-thought solo quando i guadagni di qualità giustificano il costo. La documentazione di Alibaba mappa esplicitamente le modalità di pensiero ibride ai trade-off costi/prestazioni.
- Batcha le richieste dove possibile (prompt multipli in una richiesta) per ammortizzare overhead su carichi orientati al throughput.
- Traccia token per richiesta e latenza con analytics del provider (CometAPI fornisce dashboard d’uso). Monitora i prompt top-N per costo per identificare target di ottimizzazione.
Affidabilità e limitazione del rate
- Implementa backoff esponenziale + jitter per errori 429/503.
- Usa il gateway (CometAPI) o la dashboard del vendor per monitorare quote e impostare alert. CometAPI fornisce analytics d’uso che aiutano a individuare rapidamente picchi di costo.
Chiamata di funzioni / strumenti / progettazione di agenti
Tratta le chiamate a strumenti come una fase distinta: il modello suggerisce uno strumento + argomenti, tu convalidi/autorizzi e poi esegui lo strumento lato server. Non eseguire mai alla cieca istruzioni di strumenti non fidati. Qwen 3.5 pubblicizza pattern di strumenti integrati; adotta una rigorosa validazione dell’input e controlli di accesso.
Prospettiva finale: cosa osservare prossimamente
Il rilascio di Qwen 3.5 per il Capodanno lunare è strategico: impacchetta funzionalità agentiche avanzate, gestione di grandi contesti e costi operativi più bassi in offerte sia con pesi open sia ospitate. La storia immediata per gli sviluppatori è solida: più modi per provare il modello (API ospitate come CometAPI, hosting cloud tramite Alibaba Cloud o pesi self-hosted) e supporto hardware rapido (AMD).
Gli sviluppatori possono accedere all’API Qwen 3.5 tramite CometAPI ora. Per iniziare, esplora le funzionalità del modello nel Playground e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e ottenuto la chiave API. CometAPI offre un prezzo molto inferiore rispetto al prezzo ufficiale per aiutarti a integrare.
Pronti a partire?→ Iscriviti a Qwen-3.5 oggi !
Se vuoi conoscere altri suggerimenti, guide e notizie sull’IA seguici su VK, X e Discord!
