MiniMax-M1: Den første hybridopmærksomhedsinferensmodel med åben vægt

Den 17. juni blev Shanghai AI-enhjørningen MiniMax officielt tilgængelig som open source MiniMax-M1, verdens første åbne, storskala hybridopmærksomhedsinferensmodel. Ved at kombinere en Mixture-of-Experts (MoE)-arkitektur med den nye Lightning Attention-mekanisme leverer MiniMax-M1 store gevinster inden for inferenshastighed, håndtering af ultralang kontekst og ydeevne af komplekse opgaver.

Baggrund og evolution

Bygger på fundamentet af MiniMax-Tekst-01, som introducerede lynnedslag i et Mixture-of-Experts (MoE) framework for at opnå 1 million token-kontekster under træning og op til 4 millioner tokens ved inferens, repræsenterer MiniMax-M1 den næste generation af MiniMax-01-serien. Forgængermodellen, MiniMax-Text-01, indeholdt 456 milliarder parametre i alt med 45.9 milliarder aktiverede pr. token, hvilket demonstrerer en ydeevne på niveau med top-LLM'er, samtidig med at kontekstfunktionerne blev udvidet betydeligt.

Nøglefunktioner ved MiniMax-M1

Hybrid MoE + Lightning AttentionMiniMax-M1 kombinerer et sparsomt Mixture-of-Experts-design – 456 milliarder parametre i alt, men kun 45.9 milliarder aktiverede pr. token – med Lightning Attention, en lineær kompleksitetsopmærksomhed optimeret til meget lange sekvenser.
Ultralang kontekst: Understøtter op til 1 millioner inputtokens – cirka otte gange grænsen på 128 K for DeepSeek-R1 – hvilket muliggør dyb forståelse af massive dokumenter.
Overlegen effektivitetNår der genereres 100 tokens, kræver MiniMax-M1's Lightning Attention kun ~25-30% af den beregning, der bruges af DeepSeek-R1.

Modelvarianter

MiniMax‑M1‑40K1 M token-kontekst, 40 K token-inferensbudget
MiniMax‑M1‑80K1 M token-kontekst, 80 K token-inferensbudget
I scenarier med brug af TAU-bænkværktøj overgik 40K-varianten alle modeller med åben vægt – inklusive Gemini 2.5 Pro – og demonstrerede dermed dens agentfunktioner.

Træningsomkostninger og opsætning

MiniMax-M1 blev trænet fra start til slut ved hjælp af storstilet reinforcement learning (RL) på tværs af en bred vifte af opgaver – fra avanceret matematisk ræsonnement til sandkassebaserede softwareudviklingsmiljøer. En ny algoritme, CISPO (Clipped Importance Sampling for Policy Optimization) forbedrer yderligere træningseffektiviteten ved at klippe vigtighedssamplingvægte i stedet for opdateringer på tokenniveau. Denne tilgang, kombineret med modellens lynhurtige opmærksomhed, gjorde det muligt at gennemføre fuld RL-træning på 512 H800 GPU'er på bare tre uger til en samlet lejepris på 534,700 dollars.

Tilgængelighed og prisfastsættelse

MiniMax-M1 er udgivet under Apache 2.0 open source-licens og er umiddelbart tilgængelig via:

GitHub repository, herunder modelvægte, træningsscripts og evalueringsbenchmarks.
SiliconCloud hosting, der tilbyder to varianter — 40 K-token (“M1-40K”) og 80 K-token (“M1-80K”) — med planer om at aktivere hele 1 M-token-tragten.
Prisen er i øjeblikket fastsat til 4 ¥ pr. million tokens til input og 16 ¥ pr. million tokens til output, med mængderabatter tilgængelige for virksomhedskunder.

Udviklere og organisationer kan integrere MiniMax-M1 via standard API'er, finjustere domænespecifikke data eller implementere lokalt til følsomme arbejdsbelastninger.

Ydeevne på opgaveniveau

Opgavekategori	Fremhæv	Relativ ydeevne
Matematik og logik	AIME 2024: 86.0%	> Qwen 3, DeepSeek-R1; næsten lukket kildekode
Lang kontekstforståelse	Lineal (4 K–1 M brikker): Stabil topklasse	Overgår GPT-4 ud over en tokenlængde på 128 K
Software Engineering	SWE-bench (rigtige GitHub-fejl): 56%	Bedst blandt åbne modeller; næst førende lukkede
Brug af agent og værktøj	TAU-bench (API-simulering)	62–63.5 % vs. Gemini 2.5, Claude 4
Dialog og assistent	Multiudfordring: 44.7%	Matcher Claude 4, DeepSeek-R1
Fakta QA	SimpleQA: 18.5%	Område til fremtidig forbedring

Bemærk: Procenter og benchmarks fra officielle MiniMax-oplysninger og uafhængige nyhedsrapporter

MiniMax-M1: Den første hybridopmærksomhedsinferensmodel med åben vægt

Tekniske innovationer

Hybrid opmærksomhedsstak: Lyn opmærksomhed lag (lineær omkostning) interleaved med periodisk Softmax Attention (kvadratisk, men mere udtryksfuld) for at balancere effektivitet og modelleringskraft.
Sparsom MoE-routing32 ekspertmoduler; hver token aktiverer kun ~10% af de samlede parametre, hvilket reducerer inferensomkostningerne og samtidig bevarer kapaciteten.
CISPO ForstærkningslæringEn ny "Clipped IS-weight Policy Optimization"-algoritme, der bevarer sjældne, men afgørende tokens i læringssignalet, hvilket accelererer RL-stabilitet og -hastighed.

MiniMax-M1's åbne udgivelse åbner op for ultralang kontekst, højeffektiv inferens for alle – og bygger bro mellem forskning og implementeringsbar storskala AI.

Kom godt i gang

CometAPI leverer en samlet REST-grænseflade, der samler hundredvis af AI-modeller – inklusive ChatGPT-familien – under et ensartet slutpunkt med indbygget API-nøglestyring, brugskvoter og faktureringsdashboards. I stedet for at jonglere med flere leverandør-URL'er og legitimationsoplysninger.

Til at begynde med, udforsk modellernes muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen.

Den seneste integration med MiniMax-M1 API vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør upload af MiniMax-M1-modellen, kan du udforske vores andre modeller på Modeller side eller prøv dem i AI LegepladsMiniMax' seneste model i CometAPI er Minimax ABAB7-Preview API og MiniMax Video-01 API ,se til:

MiniMax-M1: Den første hybridopmærksomhedsinferensmodel med åben vægt

Baggrund og evolution

Nøglefunktioner ved MiniMax-M1

Modelvarianter

Træningsomkostninger og opsætning

Tilgængelighed og prisfastsættelse

Ydeevne på opgaveniveau

Tekniske innovationer

Kom godt i gang

Læs mere

500+ modeller i én API