MiniMax-M1: Den første hybride oppmerksomhetsinferensmodellen med åpen vekt

CometAPI
AnnaJun 19, 2025
MiniMax-M1: Den første hybride oppmerksomhetsinferensmodellen med åpen vekt
  1. juni ble Shanghai AI-enhjørningen MiniMax offisielt tilgjengelig for åpen kildekode MiniMax‑M1, verdens første åpne, storskala hybridoppmerksomhetsinferensmodell. Ved å kombinere en Mixture-of-Experts (MoE)-arkitektur med den nye Lightning Attention-mekanismen, leverer MiniMax-M1 store gevinster i inferenshastighet, håndtering av ultralang kontekst og ytelse for kompleks oppgave.

Bakgrunn og evolusjon

Bygger på grunnlaget for MiniMax-Tekst-01, som introduserte lynnedslag på et Mixture-of-Experts (MoE)-rammeverk for å oppnå 1 million token-kontekster under trening og opptil 4 millioner tokens ved inferens, representerer MiniMax-M1 neste generasjon av MiniMax-01-serien. Forgjengermodellen, MiniMax-Text-01, inneholdt 456 milliarder parametere totalt med 45.9 milliarder aktiverte per token, noe som demonstrerer ytelse på nivå med toppnivå LLM-er, samtidig som kontekstfunksjonene utvides betraktelig.

Viktige funksjoner i MiniMax-M1

  • Hybrid MoE + Lightning-oppmerksomhetMiniMax-M1 kombinerer et sparsomt Mixture-of-Experts-design – 456 milliarder parametere totalt, men bare 45.9 milliarder aktivert per token – med Lightning Attention, en lineær kompleksitetsoppmerksomhet optimalisert for svært lange sekvenser.
  • Ultralang kontekst: Støtter opptil 1 million input-tokens – omtrent åtte ganger grensen på 128 K for DeepSeek-R1 – som muliggjør dyp forståelse av massive dokumenter.
  • Overlegen effektivitetNår 100 1 tokener genereres, krever MiniMax-M25s Lightning Attention bare ~30–1 % av beregningskapasiteten som brukes av DeepSeek-RXNUMX.

Modellvarianter

  • MiniMax‑M1‑40K1 M tokenkontekst, 40 K tokeninferensbudsjett
  • MiniMax‑M1‑80K1 M tokenkontekst, 80 K tokeninferensbudsjett
    I bruksscenarier med TAU-benkverktøy overgikk 40K-varianten alle modeller med åpen vekt – inkludert Gemini 2.5 Pro – og demonstrerte dermed dens agentegenskaper.

Opplæringskostnader og oppsett

MiniMax-M1 ble trent ende-til-ende ved hjelp av storskala forsterkningslæring (RL) på tvers av et mangfoldig sett med oppgaver – fra avansert matematisk resonnement til sandkassebaserte programvareutviklingsmiljøer. En ny algoritme, CISPO (Clipped Importance Sampling for Policy Optimization) forbedrer opplæringseffektiviteten ytterligere ved å klippe ut viktighetssamplingvekter i stedet for oppdateringer på tokennivå. Denne tilnærmingen, kombinert med modellens lynraske oppmerksomhet, tillot full RL-opplæring på 512 H800 GPU-er å fullføres på bare tre uker til en total leiekostnad på 534,700 XNUMX dollar.

Tilgjengelighet og priser

MiniMax-M1 er utgitt under Apache 2.0 åpen kildekode-lisens og er umiddelbart tilgjengelig via:

  • GitHub repository, inkludert modellvekter, treningsskript og evalueringsbenchmarks.
  • SiliconCloud hosting, som tilbyr to varianter – 40 K-token («M1‑40K») og 80 K-token («M1‑80K») – med planer om å aktivere hele 1 M-token-trakten.
  • Prisen er for øyeblikket satt til 4 yen per million tokens for input og 16 yen per million tokener for utdata, med volumrabatter tilgjengelig for bedriftskunder.

Utviklere og organisasjoner kan integrere MiniMax-M1 via standard API-er, finjustere domenespesifikke data eller distribuere lokale løsninger for sensitive arbeidsbelastninger.

Ytelse på oppgavenivå

OppgavekategoriUthevRelativ ytelse
Matematikk og logikkAIME 2024: 86.0 %> Qwen 3, DeepSeek-R1; nesten lukket kildekode
Lang kontekstforståelseLinjal (4 K–1 M brikker): Stabil toppnivåOvergår GPT-4 utover 128 K tokenlengde
Engineering programvareSWE-bench (ekte GitHub-feil): 56 %Best blant åpne modeller; nest ledende blant lukkede
Agent- og verktøybrukTAU-bench (API-simulering)62–63.5 % vs. Gemini 2.5, Claude 4
Dialog og assistentMultiutfordring: 44.7 %Matcher Claude 4, DeepSeek-R1
Faktaspørsmål og spørsmålEnkel QA: 18.5 %Område for fremtidig forbedring

Merk: prosenter og referansetall fra offisiell MiniMax-avsløring og uavhengige nyhetsrapporter

MiniMax-M1: Den første hybride oppmerksomhetsinferensmodellen med åpen vekt

Tekniske innovasjoner

  1. Hybrid oppmerksomhetsstabel: Lyn oppmerksomhet lag (lineær kostnad) flettet sammen med periodisk Softmax Attention (kvadratisk, men mer uttrykksfull) for å balansere effektivitet og modelleringskraft.
  2. Sparsom MoE-ruting32 ekspertmoduler; hver token aktiverer bare ~10 % av de totale parameterne, noe som reduserer inferenskostnadene samtidig som kapasiteten bevares.
  3. CISPO forsterkningslæringEn ny «Clipped IS-weight Policy Optimization»-algoritme som beholder sjeldne, men viktige tokens i læringssignalet, og akselererer RL-stabilitet og -hastighet.

MiniMax-M1s åpne vektutgivelse låser opp ultralang kontekst, høyeffektiv inferens for alle – og bygger bro mellom forskning og distribuerbar storskala AI.

Komme i gang

CometAPI tilbyr et enhetlig REST-grensesnitt som samler hundrevis av AI-modeller – inkludert ChatGPT-familien – under et konsistent endepunkt, med innebygd API-nøkkeladministrasjon, brukskvoter og faktureringsdashboards. I stedet for å sjonglere flere leverandør-URL-er og legitimasjonsinformasjon.

For å begynne, utforsk modellenes muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen.

Den nyeste integrasjonen av MiniMax-M1 API vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller opplastingen av MiniMax-M1-modellen, kan du utforske de andre modellene våre på Modeller-siden eller prøv dem i AI lekeplassMiniMaxs nyeste modell i CometAPI er Minimax ABAB7-Preview API og MiniMax Video-01 API ,se til:

MiniMax-M1: Den første hybride oppmerksomhetsinferensmodellen med åpen vekt

SHARE THIS BLOG

500+ modeller i ett API

Opptil 20 % rabatt