Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

Indtast:$0.48/M
Output:$2.88/M
Den native vision-sprogmodel Qwen3.5 series 397B-A17B er bygget på en hybridarkitektur, der integrerer en lineær opmærksomhedsmekanisme med en sparsom mixture-of-experts-model, hvilket giver højere inferenseffektivitet.
Ny
Kommersiel brug
Playground
Oversigt
Funktioner
Priser
API

Tekniske specifikationer for Qwen3.5-397B-A17B

PunktQwen3.5-397B-A17B (open‑weight post‑trænet)
ModelfamilieQwen3.5 (Tongyi Qwen‑serien, Alibaba)
ArkitekturHybrid Mixture‑of‑Experts (MoE) + Gated DeltaNet; tidlig‑fusion multimodal træning
Samlet antal parametre~397 milliarder (samlet)
Aktive parametre (A17B)~17 milliarder aktive pr. token (sparsom routing)
InputtyperTekst, Billede, Video (multimodal tidlig fusion)
OutputtyperTekst (chat, kode, RAG‑output), billede‑til‑tekst, multimodale svar
Native kontekstvindue262,144 tokens (native ISL)
Udvidelig kontekstOp til ~1,010,000 tokens via YaRN/ RoPE skalering (platformafhængig)
Maks output‑tokensAfhænger af framework/serving (eksempler viser 81,920–131,072 i vejledninger)
Sprog200+ sprog og dialekter
Udgivelsesdato16. februar 2026 (open‑weight udgivelse)
LicensApache‑2.0 (åbne vægte på Hugging Face / ModelScope)

Hvad er Qwen3.5-397B-A17B

Qwen3.5-397B-A17B er den første open‑weight udgivelse i Alibabas Qwen3.5‑familie: en stor, multimodal Mixture‑of‑Experts grundmodel trænet med vision‑sprog‑mål med tidlig fusion og optimeret til agentbaserede arbejdsgange. Modellen udnytter den fulde kapacitet af en 397B‑parameterarkitektur, mens den bruger sparsom routing (suffikset “A17B”), så kun ~17B parametre er aktive pr. token — hvilket giver en balance mellem videnskapacitet og inferens‑effektivitet.

Denne udgivelse er beregnet til forskere og ingeniørteams, der har brug for en åben, deployerbar og multimodal grundmodel, der kan langkontekst‑ræsonnere, forstå visuelt indhold og understøtte retrieval‑augmented/agentiske applikationer.


Hovedfunktioner i Qwen3.5-397B-A17B

  • Sparsom MoE med effektivitet for aktive parametre: Stor global kapacitet (397B) med aktivitet pr. token på niveau med en 17B dens model, hvilket sænker FLOPS pr. token samtidig med at vidensdiversitet bevares.
  • Indbygget multimodalitet (tidlig fusion): Trænet til at håndtere tekst, billeder og video via en samlet tokeniserings‑ og encoderstrategi for tværmodal ræsonnering.
  • Meget lang kontekstunderstøttelse: Indbygget inputsekvenslængde på 262K tokens og dokumenterede veje til udvidelse til ~1M+ tokens ved hjælp af RoPE/YARN‑skalering for retrieval og langdokument‑pipelines.
  • Thinking mode & agentværktøjer: Understøttelse af interne ræsonneringsspor og et agentisk eksekveringsmønster; eksempler omfatter aktivering af tool‑calls og integration af kodefortolker.
  • Open‑weight & bred kompatibilitet: Udgivet under Apache‑2.0 på Hugging Face og ModelScope, med førsteparts integrationsvejledninger til Transformers, vLLM, SGLang og community‑frameworks.
  • Virksomhedsvenlig sprogdækning: Omfattende flersproget træning (200+ sprog) samt instruktioner og procedurer for implementering i stor skala.

Qwen3.5-397B-A17B vs udvalgte modeller

ModelKontekstvindue (indbygget)StyrkerTypiske kompromiser
Qwen3.5-397B-A17B262K (indbygget)Multimodal MoE, åbne vægte, 397B kapacitet med 17B aktiveStore modelartefakter, kræver distribueret hosting for fuld ydeevne
GPT-5.2 (repræsentativ lukket)~400K (rapporteret for nogle var.)Høj ræsonneringsnøjagtighed i en enkelt, dens modelLukkede vægte, højere inferensomkostning i skala
LLaMA‑style dens 70B~128K (varierer)Simplere inferens‑stack, lavere VRAM for dens runtimesMindre parameterkapacitet relativt til MoE’s globale viden

Kendte begrænsninger og driftsmæssige hensyn

  • Hukommelsesaftryk: Sparsom MoE kræver stadig lagring af store vægtfiler; hosting kræver betydelig lagerplads og enhedshukommelse sammenlignet med en 17B dens klon.
  • Ingeniørmæssig kompleksitet: Optimal throughput kræver omhyggelig parallelisering (tensor/pipeline) og frameworks som vLLM eller SGLang; naiv single‑GPU hosting er upraktisk.
  • Token‑økonomi: Selvom beregning pr. token reduceres, øger meget lange kontekster stadig I/O, KV‑cachestørrelse og fakturering hos administrerede udbydere.
  • Sikkerhed og værn: Åbne vægte øger fleksibilitet, men flytter ansvaret for sikkerhedsfiltrering, overvågning og deployeringsværn til operatøren.

Repræsentative anvendelsestilfælde

  1. Forskning og modelanalyse: Åbne vægte muliggør reproducerbar forskning og fællesskabsdrevet evaluering.
  2. On‑premise multimodale tjenester: Virksomheder med krav om datalokation kan implementere og køre vision+tekst‑arbejdsbelastninger lokalt.
  3. RAG og langdokument‑pipelines: Indbygget understøttelse af lang kontekst hjælper enkelt‑pass‑ræsonnering over store korpora.
  4. Kodeintelligens og agentværktøjer: Analysér monorepos, generér patches, og kør agentiske tool‑call‑sløjfer i kontrollerede miljøer.
  5. Flersprogede applikationer: Høj sprogdækning til globale produkter.

Sådan får du adgang til og integrerer Qwen3.5-397B-A17B

Trin 1: Tilmeld dig for API‑nøgle

Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, skal du registrere dig først. Log ind på din CometAPI console. Hent adgangslegitimationens API‑nøgle til interfacet. Klik på “Add Token” ved API token i det personlige center, få token‑nøglen: sk-xxxxx og indsend.

Trin 2: Send forespørgsler til Qwen3.5-397B-A17B API

Vælg “Qwen3.5-397B-A17B” endpoint for at sende API‑anmodningen og angiv request‑body. Request‑metode og request‑body hentes fra vores websteds API‑dokumentation. Vores websted tilbyder også Apifox‑test for din bekvemmelighed. Erstat <YOUR_API_KEY> med din faktiske CometAPI‑nøgle fra din konto. Hvor du kalder den: [Chat] format.

Indsæt dit spørgsmål eller din anmodning i content‑feltet — det er dette, modellen vil svare på . Behandl API‑svaret for at få det genererede svar.

Trin 3: Hent og verificér resultater

Behandl API‑svaret for at få det genererede svar. Efter behandling svarer API’et med opgavestatus og outputdata.

FAQ

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

Funktioner til qwen3.5-397b-a17b

Udforsk de vigtigste funktioner i qwen3.5-397b-a17b, designet til at forbedre ydeevne og brugervenlighed. Opdag hvordan disse muligheder kan gavne dine projekter og forbedre brugeroplevelsen.

Priser for qwen3.5-397b-a17b

Udforsk konkurrencedygtige priser for qwen3.5-397b-a17b, designet til at passe til forskellige budgetter og brugsbehov. Vores fleksible planer sikrer, at du kun betaler for det, du bruger, hvilket gør det nemt at skalere, efterhånden som dine krav vokser. Opdag hvordan qwen3.5-397b-a17b kan forbedre dine projekter, mens omkostningerne holdes håndterbare.
Comet-pris (USD / M Tokens)Officiel Pris (USD / M Tokens)Rabat
Indtast:$0.48/M
Output:$2.88/M
Indtast:$0.6/M
Output:$3.6/M
-20%

Eksempelkode og API til qwen3.5-397b-a17b

Få adgang til omfattende eksempelkode og API-ressourcer for qwen3.5-397b-a17b for at strømline din integrationsproces. Vores detaljerede dokumentation giver trin-for-trin vejledning, der hjælper dig med at udnytte det fulde potentiale af qwen3.5-397b-a17b i dine projekter.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Flere modeller