Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Sì. I pesi di Qwen3.5-397B-A17B sono rilasciati con licenza Apache-2.0 su Hugging Face e ModelScope, e il progetto fornisce ricette di serving per Transformers, vLLM e SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indica che il design a instradamento sparso del modello utilizza circa 17 miliardi di parametri attivi per token (esperti attivi), mentre la capacità globale del modello è di ~397 miliardi di parametri.

What is the native context window and can I extend it for very long documents?

Il modello viene fornito con una lunghezza nativa della sequenza di input di 262,144 token e include metodi documentati per estendere il contesto fino a ~1,010,000 token tramite scaling YaRN/RoPE, a seconda del framework di serving.

Which input modalities does Qwen3.5-397B-A17B support?

È un modello visione-linguaggio unificato addestrato con early-fusion; gli input supportati includono testo, immagini e token video per il ragionamento e la generazione multimodali.

How does inference efficiency compare to a 17B dense model?

Il calcolo d'inferenza per token è simile a quello dei modelli densi da 17B grazie all'instradamento MoE sparso, ma gli artefatti del modello e i requisiti di memoria sono maggiori perché i pesi completi devono essere archiviati e distribuiti tra i dispositivi.

API qwen3.5-397b-a17b Conveniente | text-to-text

Specifiche tecniche di Qwen3.5-397B-A17B

Voce	Qwen3.5-397B-A17B (open-weight post-trained)
Famiglia di modelli	Qwen3.5 (serie Tongyi Qwen, Alibaba)
Architettura	Mixture-of-Experts (MoE) ibrido + Gated DeltaNet; addestramento multimodale a fusione precoce
Parametri totali	~397 miliardi (totale)
Parametri attivi (A17B)	~17 miliardi attivi per token (instradamento sparso)
Tipi di input	Testo, Immagine, Video (multimodale a fusione precoce)
Tipi di output	Testo (chat, codice, output RAG), image-to-text, risposte multimodali
Finestra di contesto nativa	262.144 token (ISL nativo)
Contesto estendibile	Fino a ~1.010.000 token tramite scaling YaRN/ RoPE (dipende dalla piattaforma)
Token di output massimi	Dipende da framework/serving (le guide mostrano esempi 81,920–131,072)
Lingue	200+ lingue e dialetti
Data di rilascio	16 febbraio 2026 (rilascio open‑weight)
Licenza	Apache‑2.0 (pesi aperti su Hugging Face / ModelScope)

Che cos’è Qwen3.5-397B-A17B

Qwen3.5-397B-A17B è il primo rilascio a pesi aperti della famiglia Qwen3.5 di Alibaba: un ampio modello foundation multimodale Mixture‑of‑Experts addestrato con obiettivi visione‑linguaggio a fusione precoce e ottimizzato per flussi di lavoro agentici. Il modello espone la piena capacità di un’architettura da 397B parametri utilizzando l’instradamento sparso (il suffisso “A17B”), così che solo ~17B parametri siano attivi per token—offrendo un equilibrio tra capacità di conoscenza ed efficienza d’inferenza.

Questo rilascio è destinato a ricercatori e team di ingegneria che necessitano di un modello foundation multimodale, aperto e distribuibile, capace di ragionamento su lunghi contesti, comprensione visiva e applicazioni di tipo retrieval‑augmented/agentiche.

Funzionalità principali di Qwen3.5-397B-A17B

MoE sparso con efficienza dei parametri attivi: Grande capacità globale (397B) con attività per‑token paragonabile a un modello denso da 17B, riducendo i FLOPS per token preservando la diversità della conoscenza.
Multimodalità nativa (fusione precoce): Addestrato a gestire testo, immagini e video tramite una strategia unificata di tokenizzazione ed encoder per il ragionamento cross‑modale.
Supporto per contesti molto lunghi: Lunghezza di sequenza in input nativa di 262K token e percorsi documentati per estendere a ~1M+ token usando scaling RoPE/YARN per retrieval e pipeline su documenti lunghi.
Modalità di pensiero e strumenti per agenti: Supporta tracce di ragionamento interne e un pattern di esecuzione agentico; esempi includono abilitazione di chiamate a strumenti e integrazione con interprete di codice.
Pesi aperti e ampia compatibilità: Rilasciato sotto Apache‑2.0 su Hugging Face e ModelScope, con guide di integrazione ufficiali per Transformers, vLLM, SGLang e framework della community.
Copertura linguistica adatta alle imprese: Addestramento multilingue esteso (200+ lingue), oltre a istruzioni e ricette per la distribuzione su larga scala.

Qwen3.5-397B-A17B vs Modelli selezionati

Modello	Finestra di contesto (nativa)	Punti di forza	Compromessi tipici
Qwen3.5-397B-A17B	262K (nativa)	MoE multimodale, pesi aperti, capacità 397B con 17B attivi	Artefatti di grandi dimensioni, richiede hosting distribuito per massime prestazioni
GPT-5.2 (chiuso rappresentativo)	~400K (riportato per alcune varianti)	Elevata accuratezza di ragionamento di modello denso singolo	Pesi chiusi, costo di inferenza più elevato su larga scala
Denso stile LLaMA 70B	~128K (varia)	Stack di inferenza più semplice, minore VRAM per runtime densi	Minore capacità di parametri rispetto alla conoscenza globale di un MoE

Limitazioni note e considerazioni operative

Impronta di memoria: Anche con MoE sparso occorre archiviare file di pesi di grandi dimensioni; l’hosting richiede notevole storage e memoria del dispositivo rispetto a un clone denso da 17B.
Complessità ingegneristica: Un throughput ottimale richiede parallelismo accurato (tensor/pipeline) e framework come vLLM o SGLang; un hosting semplice su singola GPU è impraticabile.
Economia dei token: Sebbene il compute per token sia ridotto, contesti molto lunghi aumentano I/O, dimensione della cache KV e fatturazione presso provider gestiti.
Sicurezza e guardrail: I pesi aperti aumentano la flessibilità ma spostano sull’operatore la responsabilità per filtri di sicurezza, monitoraggio e guardrail di distribuzione.

Casi d’uso rappresentativi

Ricerca e analisi dei modelli: I pesi aperti consentono ricerca riproducibile e valutazione guidata dalla community.
Servizi multimodali on‑premise: Le aziende che necessitano di residenza dei dati possono distribuire ed eseguire carichi visione+testo in locale.
RAG e pipeline su documenti lunghi: Il supporto nativo a contesti lunghi aiuta il ragionamento in singolo passaggio su grandi corpora.
Intelligenza del codice e strumenti per agenti: Analizza monorepo, genera patch ed esegue cicli di chiamata agli strumenti in ambienti controllati.
Applicazioni multilingue: Ampia copertura linguistica per prodotti globali.

Come accedere e integrare Qwen3.5-397B-A17B

Passaggio 1: Registrati per ottenere la chiave API

Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua CometAPI console. Ottieni la chiave API di accesso dell’interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e invia.

Passaggio 2: Invia richieste all’API Qwen3.5-397B-A17B

Seleziona l’endpoint “Qwen3.5-397B-A17B” per inviare la richiesta API e imposta il body della richiesta. Il metodo e il body della richiesta sono disponibili nella documentazione API del nostro sito web. Il nostro sito fornisce anche test Apifox per tua comodità. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva dal tuo account. Dove chiamarla: formato Chat.

Inserisci la tua domanda o richiesta nel campo content—è a questo che il modello risponderà. Elabora la risposta dell’API per ottenere la risposta generata.

Passaggio 3: Recupera e verifica i risultati

Elabora la risposta dell’API per ottenere la risposta generata. Dopo l’elaborazione, l’API risponde con lo stato dell’attività e i dati di output.

qwen3.5-397b-a17b