MiniMax M2.5: Benchmarktests for kodning, priser og brugervejledning

En omfattende opgraderet generel model kaldet MiniMax M2.5, annonceret af MiniMax og positioneret som en model bygget specifikt til agent-baserede workflows, kodegenerering og “produktivitet i den virkelige verden.” Selskabet beskriver M2.5 som resultatet af omfattende reinforcement learning-træning i hundredtusinder af komplekse miljøer, hvilket leverer markante forbedringer i kode-benchmarks, værktøjsbrug og ræsonnement over lange kontekster, samtidig med at inferens-effektivitet og omkostningseffektivitet forbedres.

Du kan allerede se MiniMax M2.5 på CometAPI. Prisen er 20% af den officielle pris i CometAPI.

What is MiniMax M2.5 and why does it matter?

MiniMax M2.5 er den nyeste større udgivelse fra MiniMax, en modelfamilie positioneret omkring høj gennemstrømning, agent-baserede workflows og — frem for alt — kodeproduktivitet. Annonceret i midten af februar 2026 udvider M2.5 selskabets tidligere M-serie med et større kontekstvindue, strammere primitiv-integration for værktøjer og en træningsfokus på “AI-native arbejdsrum”, hvor modellen aktivt orkestrerer browsersøgninger, API-kald og kodekørselstrin frem for blot at returnere tekst. Lanceringen framer M2.5 ikke kun som en generel samtaleopgradering, men som et platformstrin: den er tiltænkt at accelerere udviklerproduktivitet, automatisere gentagne ingeniøropgaver og fungere som motor for agent-drevne produkter.

Hvorfor dette er vigtigt i dag, er todelt. For det første rammer modellen et sæt praktiske benchmarks og gennemstrømningsmål, der gør den attraktiv til produktionssystemer (ikke kun forskningsdemoer). For det andet signalerer udgivelsen, hvordan leverandører prioriterer integreret værktøjsbrug og tokeneffektivitet: M2.5 er eksplicit tunet til at reducere antallet af værktøjskald-runder og token-spild under flertrinsopgaver, hvilket direkte oversættes til lavere omkostninger og latenstid i virkelige implementeringer.

How Does MiniMax M2.5 Perform in Coding Benchmarks?

Overview of Coding Performance

MiniMax M2.5 har hurtigt fået opmærksomhed for sin ydeevne på standard kode-benchmarks, der bruges i hele AI-branchen til at evaluere praktisk kodegenerering og ræsonnement:

Benchmark Suite	M2.5 Result	Explanation
SWE-Bench Verified	80.2%	Måler evnen til at fikse reelle GitHub-issues; tæt på toppræstation.
Multi-SWE-Bench	51.3%	Evaluerer pålidelighed ved multi-fil og kryds-repo kodning.
SWE-Bench Pro	55.4%	Mere krævende kodningstest fra den virkelige verden.

Benchmarkingdata antyder, at M2.5’s kodningsstyrke matcher højt rangerede proprietære modeller såsom Anthropic’s Claude Opus 4.6 og OpenAI’s GPT-5.2, hvilket placerer M2.5 blandt de bedste kandidater til produktionsopgaver inden for software engineering. En score over 80% i denne benchmark indikerer, at M2.5 er i stand til praktisk software engineering-assistance — ikke kun teoretisk kodegenerering. Det gør den særligt værdifuld for virksomheds-workflows, hvor korrekthed, pålidelighed og vedligeholdelighed er topprioriteter.

Disse tal viser, at M2.5 opererer på branchens førende niveauer uden den ekstreme prisbyrde, der er typisk for mange lukkede proprietære systemer — et punkt der direkte udfordrer den nylige opfattelse i branchen om, at høj ydeevne nødvendigvis korrelerer med høj pris.

How does M2.5 behave on real engineering workflows?

Ud over rå tal er det bemærkelsesværdigt, hvordan M2.5 er arkitektet til agent-baserede pipelines. Modellen inkluderer primitiver for “interleaved thinking” (intern overvejelse mellem værktøjskald), stærkere multi-turn kode-ræsonnement og en strategi for kontekststyring i lange kodebaser. I tidlige tests rapporterede anmeldere, at M2.5 genererede en stor andel af commit-klar kode for visse typer opgaver og krævede færre menneskelige rettelser end tidligere MiniMax-versioner. Den kombination — stærkere korrekthed i første forsøg og færre frem-og-tilbage-cykler — er det, der gør M2.5 attraktiv til kodeassistance og CI-automationsroller.

Search and Tool calling of MiniMax M2.5

Selvom kodeydeevne ofte er en central metric for udviklerorienterede LLM’er, er M2.5 designet til bredere produktivitet:

Task Type	Benchmark	M2.5 Score
Web Search & Context	BrowseComp	76.3%
Tool-Use Reasoning	BFCL Multi-Turn	76.8%
Workflow Orchestration	MEWC (Multi-Expert)	74.4%
Office Productivity	VIBE-Pro Suite	54.2%

Disse metrics fremhæver, at M2.5’s kapaciteter strækker sig ind i tæt, flertrins ræsonnement, effektiv søgning i lagret kontekst og langtidshorisont-værktøjsinteraktioner — nøglekompetencer for robuste multimodale AI-assistenter og agenter.

Can it find and use tools effectively?

En af de overskriftsmæssige forbedringer i M2.5 er værktøjsintegration. Modellens interne “interleaved thinking”-kapacitet gør den i stand til at reflektere før og efter hvert værktøjskald, beslutte om den har brug for en ny søgning eller et andet værktøj, og syntetisere forskellige værktøjsoutput til næste koherente skridt. Praktisk reducerer dette antallet af værktøjskald-runder, der kræves for at løse en flertrinsopgave (søg → hent → analyser → udfør). Platformdokumentation og praktiske anmeldelser rapporterer cirka 20% færre værktøjskald-runder og en markant stigning i “beslutningsmodenhed”, hvilket betyder at modellen laver færre redundante eller for tidlige værktøjskald.

Benchmarks der fokuserer på browsing og værktøjs-workflows (BrowseComp, BFCL) placerer M2.5 nær toppen for agentiske opgaver. BrowseComp-scorer i midt-70’erne blev rapporteret, og BFCL-stil værktøjskaldtests viser høj præcision i flertrins orkestrering af værktøjer. Disse resultater er vigtige for ethvert produkt, der forventer, at en model kan syntetisere live webdata, kalde domænespecifikke API’er eller aktivt manipulere filer og kode på brugerens vegne.

What does this mean for integrations?

For ingeniører der bygger assistenter, bots eller automationspipelines, er takeaway, at M2.5 ikke bare er “bedre til søgninger” — den er bedre til beslutningstagning om søgninger. Det betyder færre ture frem og tilbage, mindre token-spild og simplere orkestreringskode i mange tilfælde.

What Are MiniMax M2.5’s Efficiency and Speed Characteristics?

En af M2.5’s overskriftsmæssige egenskaber er dens hastighed og inferens-effektivitet — en kritisk overvejelse for reel brug, hvor gennemstrømning påvirker både pris og latenstid.

Efficiency Metrics

Metric	Value
Speed Improvement vs M2.1	+37%
Standard Output Speed	50 tokens/second
Lightning Output Speed	100 tokens/second
Typical Tokens/Task	~3.52M tokens for complex tasks

Lightning-varianten matcher gennemstrømningen hos modeller som Claude Opus 4.6 — men afgørende nok til en brøkdel af prisen. Dette gør det muligt for M2.5 at understøtte kontinuerede agent-baserede workflows uden uoverkommelige token-udgifter over lange sessioner eller højvolumen drift.

Engineering Implications

Højere gennemstrømning korrelerer direkte med hurtigere realtidsinteraktion i udviklingssløjfer og automatiserede workflows.
Bedre tokeneffektivitet reducerer de samlede omkostninger i langformede, flertrinsopgaver som dokumentationsgenerering, fejlfinding og integration på tværs af systemer.
Kombineret med M2.5’s stærke ræsonnements-benchmarks betyder denne effektivitet bedre resultater til lavere samlet køretidsomkostning sammenlignet med konkurrerende frontmodeller.

What Does MiniMax M2.5 Cost? — Pricing Breakdown

En af de mest disruptive aspekter ved M2.5 er prissætningen — positioneret som et omkostningseffektivt alternativ til proprietære LLM’er. Hvilke prisindstillinger tilbyder MiniMax?

MiniMax tilbyder nogle forskellige forbrugs- og abonnementsmuligheder målrettet udviklere og virksomheder. Selskabets offentlige materialer skitserer to faktureringsmetoder for tekstmodeller i produktion: et Coding Plan-abonnement (rettet mod udviklere, der kører en stabil mængde kode-relaterede prompts) og Pay-As-You-Go til fleksibel, målbar brug. Coding Plan er eksplicit designet til at tilbyde en billig månedlig mulighed for udviklerteams, mens pay-as-you-go-modellen opkræver pr. token eller efter den valgte gennemstrømningsprofil.

How does the Coding Plan work?

Coding Plan præsenteres som et månedligt abonnement, der pakker et fast antal “prompts” eller sessioner over et tidsinterval (eksempler i dokumentation inkluderer niveauer som starter/plus/max med forskellige prompt-tilladelser hver 5. time). Den angivne begrundelse er at tilbyde en forudsigelig, udviklervenlig omkostningsstruktur for teams, der er afhængige af mange korte, hyppige kode-assistentsessioner snarere end højvolumen enkeltafgivelser.

	Starter	Plus	Max
Price	$10 /month	$20 /month	$50 /month
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

	Starter	Plus	Max
Price	$100 /year 120	$200 /year 240	$500 /year 600
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

Token Pricing Structure

Variant	Input Price	Output Price	TPS (Tokens/sec)	Notes
M2.5-Standard	$0.15/M	$1.20/M	50	Omkostningsoptimeret variant.
M2.5-Lightning	$0.30/M	$2.40/M	100	Hastighedsoptimeret variant.

Disse tokenpriser demokratiserer effektivt AI-agent-økonomien, hvilket gør det muligt at køre modeller kontinuerligt i virksomhedsskala uden de omkostningsbarrierer, som mange proprietære systemer står med, hvor outputtokens prises 10×–30× højere.

Hourly Operational Cost

Ved brug af Lightning-varianten (100 TPS) giver stabil kontinuerlig output cirka:

360,000 tokens genereret pr. time
Output cost = 360,000/1M × $2.40 ≈ $0.86
Input cost tilføjer en brøkdel mere for ~$1/hour samlet kontinuerlig outputomkostning

Dette er størrelsesordener billigere end typiske frontmodeller, hvilket gør altid-aktive agentiske operationer økonomisk levedygtige for virksomheder.

Looking for a cheaper way to use M2.5

Nyd en rabat på Minimax-M2.5 ved brug af CometAPI:

Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
Input:$0.24/M; Output:$0.96/M	Input:$0.3/M; Output:$1.2/M	-20%

How do you get started with MiniMax M2.5

Where can developers access the model?

MiniMax udgiver dokumentation og platformsguides til at integrere M2.5 via sin API (platformsdokumenter inkluderer guides til tekst, kodning og værktøjsdrevne flows). Modellen findes også i nogle tredjeparts modellbiblioteker og registre (for eksempel har flere platformbiblioteker gjort M2.5-varianter tilgængelige til cloud-brug og lokal eksperimentering). Det betyder, at udviklere enten kan kalde M2.5 gennem MiniMax’ officielle API-endpoints eller bruge understøttet tredjeparts-værktøj, hvor det er tilgængeligt.

Common integration patterns

IDE-/editor-assistent — tilslut M2.5 til et IDE-plugin for at levere fuldførelser, forklaringer og generering af testcases. Brug et ‘Coding Plan’-abonnement, hvis du forventer mange korte udviklersessioner.
Agent-orkestrering — indlejr M2.5 som beslutningshjernen i et multi-værktøjs orkestreringssystem; udnyt dens stærke værktøjskald-adfærd til at styre eksterne handlinger (API’er, databaseforespørgsler, testrunners). Sørg for eksplicitte skemakontrakter for API-payloads for at minimere hallucinationer.
Søgning + retrieval-forstærkning — kombiner et lille retrieval-lag (vektorstore + reranker) for at begrænse kontekttoken-forbrug samtidig med at relevans bevares for lange dokumentforespørgsler. M2.5’s stærke søge-benchmarks gør den til et naturligt match for retrieval-augmented generation.
Batch-kodetransformation — udnyt modellen til bulkrefaktorisering eller automatiseret testgenerering ved at køre batchjobs, hvor omkostning pr. time og gennemstrømningsindstillinger er særligt vigtige for modeløkonomien.

Practical tips for better results

Brug få-shot eksempler, der spejler udviklerflowet (input, ønsket outputform, fejleksempler) for at forbedre korrekthed ved kodning eller værktøjskald-prompts.
Lås værktøjsgrænseflader ned med skemavalidering, så når M2.5 udsteder et API-kald, accepterer systemet kun validerede payloads.
Overvåg tokenforbrug og sæt værn (hårde token-grænser pr. kald) for at undgå løbske regninger.
Mål succesrater (f.eks. test-pas-rate for genereret kode) frem for udelukkende at basere dig på subjektive kvalitetsmålinger.

Conclusion

MiniMax M2.5 repræsenterer et pragmatisk skridt fremad i “agent + kodning”-nichen af store modeller: den kombinerer stærke kode-benchmarks, eksplicit støtte til indskudt værktøjsbrug og driftsmæssige forbedringer, der sigter mod at reducere token- og tidsomkostninger i virkelige workflows. For teams med fokus på automatisering af udviklerproduktivitet, kodegenerering og orkestrering af flere værktøjer er M2.5 værd at pilotteste — især hvor omkostningseffektivitet er en prioritet. For teams der kræver det absolut nyeste i hver niche-benchmark uanset pris, kan premiumtilbud stadig vise inkrementelle fordele; men cost/perf-afvejningerne gør M2.5 overbevisende til produktionsimplementering i mange virkelige scenarier.

Developers can access MInimax-M2.5 via CometAPI now.To begin, explore the model’s capabilities in the Playground and consult the API guide for detailed instructions. Before accessing, please make sure you have logged in to CometAPI and obtained the API key. CometAPI offer a price far lower than the official price to help you integrate.

Ready to Go?→ Tilmeld dig glm-5 i dag !

If you want to know more tips, guides and news on AI follow us on VK, X and Discord!