Alibaba AI stellt Qwen3-Max vor: Qwen-Modell mit Billionen Parametern, CometAPI unterstützt

Alibabas Qwen-Team hat veröffentlicht Qwen3-Max-Vorschau (Anweisung) — das bisher größte Modell des Unternehmens mit mehr als 1 Billion Parameter – und stellte es sofort über Qwen Chat, Alibaba Cloud Model Studio (API) und Drittanbieter-Marktplätze wie CometAPI zur Verfügung. Die Vorschau zielt auf logisches Denken, Codieren und Workflows mit langen Dokumenten ab, indem sie extreme Skalierbarkeit mit einem sehr großen Kontextfenster und Kontext-Caching kombiniert, um die Latenz bei langen Sitzungen gering zu halten.

Wichtige technische Highlights

Riesige Anzahl an Parametern (über Billionen): Der Wechsel zu einem Modell mit über einer Billion Parametern soll die Kapazität für komplexes Musterlernen (mehrstufiges Denken, Codesynthese, tiefes Dokumentenverständnis) erhöhen. Erste von Qwen veröffentlichte Benchmarks deuten auf verbesserte Ergebnisse bei Denken, Codierung und Benchmark-Suiten im Vergleich zu den bisherigen Topmodellen von Qwen hin.
Ultralanger Kontext und Caching: Die 262 Token Mit dem Fenster können Teams ganze lange Berichte, Codebasen mit mehreren Dateien oder lange Chatverläufe in einem einzigen Durchgang einspeisen. Die Unterstützung des Kontext-Cachings reduziert wiederholte Berechnungen für wiederkehrende Kontexte und kann Latenz und Kosten für längere Sitzungen senken.
Mehrsprachigkeit + Programmierkenntnisse: Die Qwen3-Familie legt Wert auf zweisprachige (Chinesisch/Englisch) und umfassende mehrsprachige Unterstützung sowie stärkere Codierung und strukturierte Ausgabeverarbeitung – nützlich für Codeassistenten, die automatisierte Berichterstellung und Textanalysen im großen Maßstab.
Auf Geschwindigkeit und Qualität ausgelegt. Nutzer der Vorschau berichten von einer „rasanten“ Reaktionsgeschwindigkeit und einer verbesserten Befehlsbefolgung und Argumentation im Vergleich zu früheren Qwen3-Varianten. Alibaba positioniert das Modell als Flaggschiff mit hohem Durchsatz für Produktions-, Agenten- und Entwicklerszenarien.

Verfügbarkeit und Zugriff

Gebühren von Alibaba Cloud abgestuft, tokenbasiert Preise für Qwen3-Max-Preview (separate Eingabe- und Ausgaberaten). Die Abrechnung erfolgt pro Million Token und wird auf die tatsächlich verbrauchten Token nach Abzug etwaiger Freikontingente angewendet.

Die von Alibaba veröffentlichten Vorschaupreise (USD) sind je nach Anfrage gestaffelt Varianten des Eingangssignals: Token-Volumen (die gleichen Stufen bestimmen, welche Einheitspreise gelten):

0–32 Eingabetoken: 0.861 $ / 1 Mio. Eingabetoken kombiniert mit einem nachhaltigen Materialprofil. 3.441 $ / 1 Mio. Ausgabe-Token.
32–128 Eingabetoken: 1.434 $ / 1 Mio. Eingabetoken kombiniert mit einem nachhaltigen Materialprofil. 5.735 $ / 1 Mio. Ausgabe-Token.
128–252 Eingabetoken: 2.151 $ / 1 Mio. Eingabetoken kombiniert mit einem nachhaltigen Materialprofil. 8.602 $ / 1 Mio. Ausgabe-Token.

CometAPI bietet einen offiziellen Rabatt von 20%, um Benutzern beim Aufrufen der API zu helfen. Details finden Sie unter Qwen3-Max-Vorschau:


Eingabetoken	$0.24
Ausgabetoken	$2.42

Qwen3-Max erweitert die Qwen3-Familie (die in früheren Versionen Hybriddesigns wie Mixture-of-Experts-Varianten und mehrere aktive Parameterebenen verwendet hat). Alibabas frühere Qwen3-Versionen konzentrierten sich sowohl auf den Denkmodus (schrittweises Denken) als auch auf den Anweisungsmodus. Qwen3-Max positioniert sich als neue Top-Instruct-Variante dieser Produktlinie und übertrifft damit das bisher leistungsstärkste Produkt des Unternehmens, Qwen3-235B-A22B-2507. Dies zeigt, dass das 1T-Parametermodell in einer Reihe von Tests die Nase vorn hat.

Bei SuperGPQA, AIME25, LiveCodeBench v6, Arena-Hard v2 und LiveBench (20241125) liegt Qwen3-Max-Preview durchweg vor Claude Opus 4, Kimi K2 und Deepseek-V3.1.

Alibaba AI stellt Qwen3-Max vor: Qwen-Modell mit Billionen Parametern, CometAPI unterstützt

Zugriff auf und Verwendung von Qwen3-Max (praktische Anleitung)

1) Probieren Sie es im Browser (Qwen Chat)

Besuchen Sie Qwen-Chat (offizielle Qwen-Web-/Chat-Oberfläche) und wählen Sie die Qwen3-Max-Vorschau (Instruct)-Modell, wenn in der Modellauswahl angezeigt. Dies ist der schnellste Weg, Konversations- und Instruktionsaufgaben visuell auszuwerten.

2) Zugang über Alibaba-Wolke (Model Studio / Cloud-API)

Bei Alibaba Cloud anmelden → Modelstudio / Modelservice. Erstellen Sie eine Inferenzinstanz oder wählen Sie den gehosteten Modellendpunkt für qwen3-max-Vorschau (oder die gekennzeichnete Vorschauversion).
Authentifizieren Sie sich mit Ihrem Alibaba Cloud Access Key/RAM-Rollen und rufen Sie den Inferenzendpunkt mit einer POST-Anfrage auf, die Ihre Eingabeaufforderung und alle Generierungsparameter (Temperatur, maximale Token usw.) enthält.

3) Nutzung durch Drittanbieter-Hosts/Aggregatoren

Laut Bericht ist die Vorschau über CometAPI und andere API-Aggregatoren erreichbar, die es Entwicklern ermöglichen, mehrere gehostete Modelle mit einem einzigen API-Schlüssel aufzurufen. Dies kann das Testen über verschiedene Anbieter hinweg vereinfachen, aber auch Latenz, regionale Verfügbarkeit und Datenverarbeitungsrichtlinien für jeden Host überprüfen.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Fazit

Mit Qwen3-Max-Preview gehört Alibaba zu den Unternehmen, die Billionenmodelle an Kunden ausliefern. Die Kombination aus extremer Kontextlänge und einer OpenAI-kompatiblen API senkt die Integrationsbarriere für Unternehmen, die lange Dokumentanalysen, Code-Automatisierung oder Agenten-Orchestrierung benötigen. Kosten und Vorschaustabilität sind die wichtigsten Faktoren für die Einführung: Unternehmen sollten Caching, Streaming und Batch-Aufrufe testen, um Latenz und Preise zu verwalten.