MiniMax M2 ist ein Open-Source, agentennativ Großes Sprachmodell (LLM), das von MiniMax veröffentlicht wurde am 27. Oktober 2025Es wurde speziell dafür entwickelt. Verschlüsselung kombiniert mit einem nachhaltigen Materialprofil. Agenten-Workflows (Toolaufruf, mehrstufige Automatisierung), Priorisierung Low Latency kombiniert mit einem nachhaltigen Materialprofil. kostengünstiger Dienst am Geschehen bei gleichzeitig ausgeprägten Fähigkeiten zum logischen Denken und zum Umgang mit Werkzeugen.
Hauptmerkmale:
Highlights — Spezialisierung im Bereich Programmierung, Agenten-Workflows, geringer Bedarf an aktiven Parametern, Unterstützung für lange Kontexte, OpenAI-kompatible APIMiniMax-Positionen Minimax M2 als ein schnelles, einsatzfreundliches MoE-Modell Für mehrstufige Agenten, Codegenerierung und -reparatur, Terminal-/IDE-Workflows und Toolaufrufe vorgesehen.
Wichtigste Punkte (kurzgefasst):
- Die Architektur: Mixture-of-Experts (MoE) mit einer sehr großen Gesamtzahl an Parametern und einer kleinen aktiviert Parametersatz pro Vorwärtsdurchlauf.
- Aktivierungs-Fußabdruck: ~10 Milliarden aktive Parameter (pro Token).
- Gesamtparameter (berichtete Daten): berichtet zwischen ~200 Mrd. – 230 Mrd. abhängig von Quelle/Metrik (siehe Technische Details).
- Kontextfenster: Langzeitkontext im Unternehmensmaßstab; 204,800-Token maximaler Kontext.
- Primäre Modalität: Text (Toolaufrufe / Funktionsaufrufe werden unterstützt).
- Agentennativ: Konzipiert für den mehrstufigen Aufruf von Tools (Shell, Browser, Python-Interpreter, MCP-Tools).
- Programmierfokus: Optimiert für die Bearbeitung mehrerer Dateien, Run-Fix-Schleifen und CI/IDE-Aufgaben.
Technische Details (Architektur & Spezifikationen)
Architektur — Expertenmix (MoE): Minimax M2 Die API verwendet eine MoE-Strategie, damit das Modell eine haben kann sehr große Gesamtzahl an Parametern wobei nur ein Bruchteil pro Inferenzschritt aktiviert wird. Dies führt zu einer verbesserten Recheneffizienz, Durchsatz und Kosten pro Token für interaktive Agenten und Codierungsschleifen.
Präzision & Quantisierung — Die Modelldateien und Provider-Stacks listen die Formate FP32/BF16 und FP8 sowie mehrere quantisierte Builds (Safetensoren, FP8/E4M3 usw.) auf, was lokale Bereitstellung und Effizienz-Kompromisse ermöglicht.
Kontext & Ein-/Ausgabe — Die eingesetzten Anbieter veröffentlichen 204,800 Token Kontextunterstützung und hohe maximale Ausgabeeinstellungen. M2 ist nur Text vorerst (viele Open-Weight-Releases aus China haben den Schwerpunkt auf Text-/Agentenfunktionen gelegt, während Multimodalität weiterhin das Gebiet anderer Releases ist).
Laufzeitempfehlungen / Besondere Anweisungen — Minimax M2 Die API verwendet eine „verschachteltes Denken“ Ausgabeformat, das die interne Argumentation des Modells umschließt <think>...</think> MiniMax' Anfrage, diese Denkinhalte intakt zu halten und sie im historischen Kontext zurückzugeben, um die Leistung bei Agenten-Workflows mit mehreren Runden zu erhalten.
Benchmark-Leistung
Benchmarks für zusammengesetzte Intelligenz und Agenten — Unabhängige Benchmark-Studien von Artificial Analysis berichten, dass **MiniMax-M2 erzielt einen erstklassigen Intelligenzindex unter den offenen Gewichtsklassenmodellen.**und zählt zu den Top-Open-Source-Modelle auf der Grundlage zusammengesetzter Intelligenzkennzahlen, insbesondere in Werkzeuggebrauch, Befolgen von Anweisungen und agentische AufgabenKünstliche Analyse hebt die Eigenschaften des Modells hervor. Effizienz (sehr wenige aktive Parameter) als Hauptfaktor für seine Platzierung.

Minimax M2 erklärt starke Ergebnisse bei Codierungs- und Agentensuiten (Terminal-Bench, SWE-Bench, BrowseComp, LiveCodeBench Aufgabentypen), wobei die Architektur und das Aktivierungsbudget Planung → Aktion → Überprüfung Schleifen begünstigen (Kompilierungs-/Ausführungs-/Testzyklen, Bearbeitungen mehrerer Dateien und Toolchains).

Vergleich: MiniMax M2 im Vergleich zu anderen aktuellen Modellen
Im Vergleich zu anderen Anbietern mit offenen Gewichtungen (DeepSeek, Qwen3, Kimi usw.) — Minimax M2 wird dargestellt als besonders effizient auf Basis des aktiven Parameterbudgets (≈10B), was zu einem starken Intelligenz-pro-aktivem-Parameter-Verhältnis führt; andere offene Modelle haben möglicherweise eine höhere Anzahl aktiver Parameter, aber eine ähnliche oder höhere Gesamtparameteranzahl.
Im Vergleich zu kommerziellen Spitzenmodellen (OpenAI / Anthropic / Google / xAI) — Meldeorte M2 unterhalb der Top-Modelle anhand einiger allgemeiner Kennzahlen, aber konkurrenzfähig oder vorn auf vielen Benchmarks für Agenten und Codierung in seiner Preisklasse.
Abwägung zwischen Kosten und Geschwindigkeit — Die Kosten pro Token betragen nur 8 % von Anthropic Claude Sonnet und die Geschwindigkeit ist etwa doppelt so hoch.
Einschränkungen und Risiken
Einschränkungen — Ausführlichkeit (hoher Tokenverbrauch), reiner Textmodus, aufgabenspezifische Schwächenund die üblichen Risiken von LLM (Halluzinationen, Selbstüberschätzung, Verzerrungen durch Datensätze). Sowohl Artificial Analysis als auch MiniMax weisen darauf hin, dass M2 bei bestimmten offenen Aufgaben hinter einigen großen Generalistenmodellen zurückbleiben kann, obwohl es bei agentenbasierten und Codierungs-Workflows hervorragende Ergebnisse liefert. Da es auf MoE basiert, Einsatzüberlegungen (Experten-Routing-, Quantisierungs- und Inferenz-Frameworks) sind wichtig.
Betriebliche Einschränkungen — Minimax M2 verschachteltes Denken Das Format erfordert die Beibehaltung spezieller Merkmale <think>...</think> Tokens aus dem gesamten Verlauf für optimale Leistung; das Entfernen dieser Inhalte kann das Verhalten des Agenten beeinträchtigen. Außerdem, weil Minimax M2 ist ausführlich, die Kosten pro Aufgabe sind eine Funktion von beidem Preis pro Token kombiniert mit einem nachhaltigen Materialprofil. Gesamtzahl der generierten Token.
Primäre Anwendungsfälle
- Agentenorchestrierung & lange Workflows — mehrstufige Werkzeugketten, Durchsuchen→Abrufen→Ausführen-Zyklen, Fehlerbehebung und Nachweisbarkeit bei Agentenläufen.
- Produktivitätssteigerung für Entwickler & Programmierassistenten — Kompilier-Ausführungs-Test-Schleifen, Bearbeitung mehrerer Dateien, geprüfte Reparaturen und IDE-Integration (Es gibt Beispiele für Claude Code, Cursor, Codex und Grok CLI).
- Agentenflotten mit hohem Durchsatz / Produktionsbots — woher Kosten pro Inferenz kombiniert mit einem nachhaltigen Materialprofil. Parallelität Aufgrund des geringen Aktivierungsparameterbedarfs von M2 können die Infrastrukturkosten gesenkt werden.
Wie man anruft Minimax M2 API von CometAPI
minimax-m2 API-Preise in CometAPI, 20 % Rabatt auf den offiziellen Preis:
- Eingabe-Token: 0.24 Mio. $ Token
- Ausgabe-Token: 0.96 $/M Token
Erforderliche Schritte
- Einloggen in cometapi.com. Wenn Sie noch kein Benutzer bei uns sind, registrieren Sie sich bitte zuerst.
- Melden Sie sich in Ihrem CometAPI-Konsole.
- Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.

Methode verwenden
- Wählen Sie den Endpunkt „minimax-m2“ aus, um die API-Anfrage zu senden, und legen Sie den Anfragetext fest. Die Anfragemethode und der Anfragetext sind unserer API-Dokumentation auf unserer Website zu entnehmen. Dort finden Sie auch einen Apifox-Test.
- Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
- Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
- . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.
CometAPI bietet eine vollständig kompatible REST-API für eine nahtlose Migration. Wichtige Details zu API-Dokument:
- Basis-URL: https://api.cometapi.com/v1/chat/completions
- Modellnamen: "
minimax-m2" - Authentifizierung:
Bearer YOUR_CometAPI_API_KEYKopfzeile - Content-Type:
application/json.
API-Integration und Beispiele
Unten ist eine Python Snippet, das zeigt, wie GLM‑4.6 über die API von CometAPI aufgerufen wird. Ersetzen Sie <API_KEY> kombiniert mit einem nachhaltigen Materialprofil. <PROMPT> entsprechend:
import requests
API_URL = "https://api.cometapi.com/v1/chat/completions"
headers = {
"Authorization": "Bearer <API_KEY>",
"Content-Type": "application/json"
}
payload = {
"model": "minimax-m2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "<PROMPT>"}
],
"max_tokens": 512,
"temperature": 0.7
}
response = requests.post(API_URL, json=payload, headers=headers)
print(response.json())
Web Link Claude Haiku 4.5 API
