Qwen 2.5: cos'è, architettura e benchmark

CometAPI
AnnaDec 4, 2025
Qwen 2.5: cos'è, architettura e benchmark

Con la continua evoluzione dell'intelligenza artificiale, Qwen 2.5 di Alibaba emerge come un formidabile contendente nel campo dei modelli linguistici di grandi dimensioni (LLM). Rilasciato all'inizio del 2025, Qwen 2.5 vanta significativi miglioramenti rispetto ai suoi predecessori, offrendo una suite di funzionalità adatte a una vasta gamma di applicazioni, dallo sviluppo software alla risoluzione di problemi matematici, fino alla generazione di contenuti multilingue e oltre.

Questo articolo approfondisce le complessità di Qwen 2.5, fornendo una panoramica dettagliata della sua architettura, delle sue funzionalità e delle sue applicazioni pratiche. Che siate sviluppatori, ricercatori o professionisti, capire come sfruttare Qwen 2.5 può aprire nuove possibilità nel vostro lavoro.

Che cos'è Qwen 2.5?

Qwen 2.5 è la famiglia di modelli linguistici di Alibaba Cloud di generazione 2025, che comprende parametri da 1.5 a 72 miliardi di bit (e un modello equivalente ottimizzato per il ragionamento da 32 miliardi di bit) e ora supporta prodotti commerciali, di ricerca e di consumo come Qwen Chat, DashScope e un gateway API compatibile con OpenAI. Rispetto a Qwen 2, la versione 2.5 introduce (i) un core Mixture-of-Experts (MoE) per l'efficienza, (ii) un training su token di circa 20 T, (iii) un migliore controllo delle istruzioni, una migliore codifica e un ragionamento multilingue, (iv) varianti di linguaggio di visione (VL) e "Omni" completamente multimodali, e (v) opzioni di distribuzione che spaziano da Alibaba Cloud all'auto-hosting tramite GitHub, Hugging Face, ModelScope e Docker/OLLAMA.

Tutte le dimensioni condividono un comune ricetta pre-allenamento ma divergono nella loro istruzione-fine-tune livelli: Qwen-Chat (per il dialogo aperto) e Qwen-Base (per la messa a punto a valle). I checkpoint più grandi includono inoltre Qwen 2.5‑Max, un'edizione sparsa Mixture-of-Experts (MoE) che attiva 2.7 miliardi di parametri per token per un costo di inferenza molto più basso sulle GPU.

Punti salienti architettonici di Qwen 2.5

Cambiamento architettonico

Qwen 2.5 rappresenta un significativo passo avanti nello sviluppo di modelli di intelligenza artificiale, principalmente grazie al suo addestramento completo e alla sua architettura raffinata. Il modello è stato pre-addestrato su un colossale set di dati composto da 18 trilioni di token, un aumento sostanziale rispetto ai 7 trilioni di token utilizzati nel suo predecessore, Qwen 2. Questo ampio set di dati di addestramento migliora la comprensione del modello di linguaggio, ragionamento e conoscenze specifiche di dominio.

Qwen 2.5 adotta un backbone sparso basato su un mix di esperti (MoE): solo un piccolo sottoinsieme di esperti si attiva per token, consentendo una maggiore capacità effettiva senza una crescita lineare dei costi di Qwen. L'addestramento ha utilizzato circa 20 T token e un curriculum di dati raffinato con fine-tuning supervisionato (SFT) e RLHF. I benchmark pubblicati dal team mostrano notevoli miglioramenti in MMLU, matematica GSM8K e comprensione multilingue interlinguistica rispetto alle basi di Qwen 2 e peer 7 B/70 B.

La famiglia di modelli Qwen 2.5

EdizioneTagliaModalitàScopo e titolo principale
Qwen 2.5‑1.5B‑Istruzione1.5 miliardiTestoDispositivi edge/chatbot in cui la memoria è scarsa
Qwen 2.5‑7B‑Istruzione7 miliardiTestoLLM open source di punta con 32 k di contesto e copertura di 29 lingue
Qwen 2.5‑Omni‑7B7 miliardimultimodale (testo + immagine + audio + video)Fusione di modalità end-to-end
Qwen 2.5‑VL‑3B/7B/72B‑Istruzione3–72 anni dopoVisione-linguaggioSottotitoli densi, controllo qualità dei documenti, riconoscimento ottico dei caratteri (OCR), analisi dei grafici
QwQ‑32B32 miliardiTesto (ragionamento)MoE specializzato per matematica/codifica; parità con DeepSeek R1 671 B al 5% di costo
Qwen 2.5‑Maxnon divulgato (multi-esperto)TestoLeader di riferimento interno, disponibile tramite API e Qwen Chat

Capacità e parametri di riferimento chiave

Seguendo le istruzioni e raggiungendo più persone

Documenti interni mostrano che Qwen 2.5‑7B supera Llama‑3 8B su AlpacaEval (92 contro 89) e raggiunge il 79% di percentuale di vittorie contro GPT‑3.5‑Turbo su MT‑Bench cinese. Le lingue supportate includono turco, indonesiano, tedesco, arabo e swahili. Una finestra di contesto da 32 kB con codifiche posizionali a scorrimento fornisce un riepilogo PDF di 200 pagine senza frammentazione.

Codifica e ragionamento

QwQ‑32B ottiene un punteggio del 50.4% su GSM8K (5-shot) e del 74% su HumanEval‑Plus, alla pari con DeepSeek R1 con un ventesimo del numero di parametri. I primi test della community mostrano che il modello 7B può compilare e debuggare frammenti C++ utilizzando g++‑13 all'interno di una sandbox Docker con allucinazioni minime.

Punti di forza multimodali

Qwen 2.5‑VL‑72B raggiunge il 62.7% su MMMU e il 73.4% su TextVQA, superando Gemini 1.5‑Pro nelle attività OCR su tabelle (come riportato nel blog di Qwen di gennaio). Omni‑7B estende questo risultato alla trascrizione spettrale audio e al campionamento di frame MP4 tramite un tokenizzatore condiviso.


Licenze, sicurezza e governance

Alibaba mantiene il codice/licenza Apache 2.0 con un'ulteriore “Qian-Wen AI responsabile” cavaliere:

  • Vietato: contenuti terroristici, disinformazione, estrazione di dati personali.
  • richiesto: Gli sviluppatori devono implementare filtri sui contenuti e filigrane nelle app downstream.

La licenza consente l'uso commerciale ma impone divulgazione della carta modello Se i pesi vengono modificati e ridistribuiti. Su Alibaba Cloud, la moderazione è applicata lato server; gli host indipendenti devono integrare il filtro gradiente della policy open source (linkato nel repository).


Roadmap verso Qwen 3

Bloomberg e PYMNTS riferiscono che Alibaba svelerà Qwen 3 "già a fine aprile 2025", probabilmente con un salto di qualità a parametri con densità >100 B e capacità di utilizzo di strumenti nativi. Gli addetti ai lavori suggeriscono che cluster GPU 4×2048 su ASIC Hanguang 800+ e un kernel Triton-Flash-Attention v3 siano in fase di test. Qwen 2.5 rimarrà la versione open source, mentre Qwen 3 potrebbe debuttare con una licenza più restrittiva, simile a Llama 3-Commercial di Meta.


Consigli pratici per gli sviluppatori

  1. Conteggio dei token: Qwen usa QwenTokenizer; il suo token speciale è uguale a <|im_end|> nei prompt in stile OpenAI.
  2. Messaggi di sistema: Avvolgere con <|im_start|>system … <|im_end|> per preservare la gerarchia ed evitare i colpevoli del peso delta.
  3. Ritocchi: Applicare LoRA rank-64 solo sui livelli 20-24; LoRA dei livelli iniziali produce guadagni trascurabili a causa della scarsità di MoE.
  4. Streaming: Con DashScope, abilita X-DashScope-Stream: true; la dimensione del blocco è 20 token.
  5. Ingresso Qwen‑VL: Codifica i byte dell'immagine come base64; passa tramite inputs=.

Conclusione

Qwen 2.5 consolida la posizione di Alibaba Cloud nella corsa globale agli LLM open source, coniugando l'efficienza del Ministero dell'Istruzione (MoE) con una licenza permissiva e una vasta gamma di percorsi di accesso: da Qwen Chat con un clic a Ollama su laptop, fino agli endpoint DashScope di livello enterprise. Per i ricercatori, il suo corpus di formazione trasparente e la solida parità tra cinese e inglese colmano una lacuna lasciata dalla serie Llama di Meta. Per i costruttori, l'API compatibile con OpenAI riduce gli attriti nella migrazione, mentre le diramazioni VL/Omni multimodali anticipano un futuro prossimo in cui testo, visione, audio e video convergono in un unico spazio token unificato. Con l'arrivo di Qwen 3 alla fine di questo mese, Qwen 2.5 funge sia da banco di prova che da robusto modello di produzione, che sta già rimodellando il calcolo competitivo dell'IA su larga scala nel 2025.

Per gli sviluppatori: accesso API

CometaAPI Offre un prezzo molto più basso del prezzo ufficiale per aiutarti a integrare le API Qwen, e riceverai 1$ sul tuo account dopo la registrazione e l'accesso! Benvenuto per registrarti e provare CometAPI.

CometAPI funge da hub centralizzato per le API di diversi modelli di intelligenza artificiale leader, eliminando la necessità di interagire separatamente con più fornitori di API.

Si prega di fare riferimento a API massima di Qwen 2.5 per i dettagli sull'integrazione. CometAPI ha aggiornato l'ultima versione API QwQ-32BPer ulteriori informazioni sul modello in Comet API, vedere Documento API.

SHARE THIS BLOG

500+ Modelli in Una API

Fino al 20% di sconto