MiniMax lanserer MiniMax Speech 2.6 – et dypdykk i den nye talemodellen

CometAPI
AnnaNov 1, 2025
MiniMax lanserer MiniMax Speech 2.6 – et dypdykk i den nye talemodellen

MiniMax annonsert MiniMax Speech 2.6, selskapets nyeste tekst-til-tale (TTS) / tekst-til-lyd-motor optimalisert for sanntids taleagenter, stemmekloning og hi-fi-fortelling. Oppdateringen fokuserer på ultralav latens, smartere håndtering av tekniske formater (URL-er, telefonnumre, datoer, beløp) og en ny «Fluent LoRA»-pipeline for å få klonede stemmer til å høres naturlige og flytende ut på tvers av språk. Modellen er tilgjengelig i både lav latens- og Turbo variant og en høykvalitets HD variant; den kan nås via MiniMaxs plattform og gjennom tredjeparts modellmarkedsplasser.

Hva er MiniMax Speech 2.6, og hvorfor bryr bransjen seg?

MiniMax har stille – og ikke fullt så stille – tatt et nytt skritt i det kommersielle kappløpet om å gjøre syntetiske stemmer umulige å skille fra levende menneskelig tale. Selskapets nyeste utgivelse, MiniMax Speech 2.6, er en neste generasjons tekst-til-tale (TTS)-familie som er spesielt utviklet for samtalescenarier med lav latens og svært naturlige, som taleagenter, live kundestøtte og interaktive enheter. I følge MiniMaxs produktkunngjøring og flere tredjepartsrapporter kombinerer Speech 2.6 forbedringer i sanntidsytelse (ende-til-ende-latens under 250 millisekunder), mer flytende prosodi og raskere stemmekloning av høyere kvalitet enn tidligere versjoner.

Enkelt sagt: der tidligere TTS-systemer vektla frakoblet gjengivelse for fortellerstemme og lydproduksjon, sikter Speech 2.6 seg inn på sanntids interaksjon – å levere tale raskt nok og naturlig nok til å kunne brukes i direktesamtaler uten pinlige pauser eller robotisk kadens.

Hva er hovedtrekkene i Speech 2.6?

Ultralav latens: under 250 ms

En av de mest fremtredende påstandene fra MiniMax er en ende-til-ende-forsinkelse på under 250 millisekunder for Turbo-varianten. Dette tallet er ment å gjøre lydgenerering umerkelig i mange sanntidssamtalescenarier (interaktive stemmeagenter, live assistanse i apper osv.), og selskapet sier at de har oppnådd dette gjennom pipeline-optimaliseringer og modellteknikk rettet mot strømming og trinnvis dekoding. Hvis produktet ditt krever følelsen av et umiddelbart svar fra en stemmeagent, er tallet under 250 ms den primære målingen å evaluere.

Spesialisert formathåndtering: les telefonnumre og URL-er riktig

Speech 2.6 legger eksplisitt til smartere håndtering av «spesialiserte formater»: telefonnumre, IP-adresser, URL-er, e-postadresser, datoer og pengebeløp. I stedet for å tvinge integratorer til å forhåndsnormalisere eller erstatte disse tokenene, gjenkjenner og verbaliserer modellen dem selv på passende, menneskevennlige måter (for eksempel tolking $1,234.56 (som «ett tusen to hundre og trettifire dollar og femtiseks cent» i stedet for å stave ut hvert tegn). Dette reduserer forbehandlingskostnader og forbedrer klarheten til taleagenten for transaksjons- og støttescenarioer.

Flytende LoRA og forbedret stemmekloning

Tale 2.6 introduserer det MiniMax kaller Flytende LoRA– en forbedring av LoRA-stiltilpasning som brukes til stemmekloning. Den oppgitte fordelen er at selv kildeopptak med aksenter, uflyt eller lavere kvalitet kan konverteres til en flytende, klanglig trofast klonet stemme. MiniMax sier at Fluent LoRA støtter ett-klikks flytoptimalisering på tvers av mer enn 40 språk, noe som muliggjør konsistente klonede stemmer som «snakker» tydelig på målspråket og prosodien. Dette er et viktig skritt for selskaper som ønsker nøyaktig og lovpålagt stemmekloning for globale kunder.

Produktlinje med flere varianter: Turbo vs. HD

MiniMax tilbyr minst to hovedvarianter av Speech 2.6:

  • Turbo — optimalisert for applikasjoner med lav latens og sanntidsapplikasjoner (interaktive agenter, live-boter). Den vektlegger hastighet og kostnadseffektivitet, samtidig som den opprettholder sterk flerspråklig dekning og følelseskontroll.
  • HD – studiokvalitetsutgang innstilt for fortellerstemme, lydbøker, markedsføringskommentarer og all bruk der maksimal gjengivelse og uttrykksfulle nyanser (pust, frasering, subtile prosodiske signaler) er nødvendig. HD legger også til funksjoner som eksport av undertekster og rikere følelseskontroller.

Ekspressivitet og prosodikontroll

Speech 2.6 introduserer nye uttrykksevneknapper (følelser, talestil, hastighet, tonehøyde) og en forbedret prosodimodell kalt «Flytende» følelser i HD-varianten. Resultatet – ifølge demonstrasjoner og plattformeksempler – er jevnere overganger på tvers av setninger og en mer menneskelig rytme i ytringer med flere setninger. Det gjør den bedre egnet for oppgaver der stemmen må «handle» (f.eks. empati i kundestøtte, veiledet læring) i stedet for bare å lese monotont innhold.

Hvilke praktiske brukstilfeller drar mest nytte av Speech 2.6?

Taleagenter og kundestøtte

Kombinasjonen av lav latens, naturlig prosodi og nøyaktig entitetslesing gjør Speech 2.6 spesielt godt egnet for samtale-stemmeagenter – tenk interaktive IVR-er, automatisert kundeservice og virtuelle assistenter som må svare live og lese dynamisk innhold (ordrenumre, datoer, kontosaldoer) uten feil. Lavere ventetid reduserer død luft mellom brukerens turer og agentens svar, noe som forbedrer opplevd respons.

Smarte enheter og innebygde scenarier

For forbrukerenheter (smarte høyttalere, bilassistenter, IoT-enheter) bidrar Turbo-variantens raske responsprofil til å levere svar i nær sanntid, selv når databehandlingsbudsjettene er begrensede. Produsenter kan bruke minivarianter eller serverassistert syntese for å bevare kvaliteten samtidig som samhandlingen holdes rask.

Media, fortelling og lokalisering

HD-varianter retter seg mot lydbokfortelling, podkaststemmeutseende og generering av flerspråklig innhold der uttrykksfulle nyanser er viktige. Flytende stemmekloning forkorter behandlingstiden for skreddersydd fortelling eller merkevaresikker stemmeproduksjon for regionale markeder.

Utdanning, tilgjengelighet og personlige opplevelser

Fordi modellen støtter rask kloning og uttrykksevnekontroller, kan den drive personlige læringsstemmer (veilederpersonaer), høytlesningsverktøy for tilgjengelighet med mer menneskelig intonasjon og regionalt passende aksenter som forbedrer forståelse og engasjement.

Siste konklusjoner:

MiniMax Speech 2.6 er en pragmatisk, utviklerorientert satsing mot sanntids, menneskelignende stemmeagenter. Ved å fokusere på latens, intelligent parsing og robust kloning, adresserer MintMax de to største friksjonspunktene i moderne TTS: timing (slik at stemmer kan delta i en samtale) og kontekstuell korrekthet (slik at tall, lenker og data leses naturlig). Kombinasjonen gjør Speech 2.6 til et attraktivt alternativ for selskaper som bygger stemmegrensesnitt, live agenter og lokaliserte lydopplevelser.

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

MiniMax Speech 2.6-modellen er fortsatt under integrering. Nå kan utviklere få tilgang til andre TTS-modeller, som for eksempel gpt-4o-audio-preview-2025-06-03, gjennom CometAPI. den nyeste modellversjonen er alltid oppdatert med den offisielle nettsiden. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Klar til å dra? → Registrer deg for CometAPI i dag !

Hvis du vil vite flere tips, guider og nyheter om AI, følg oss på VKX og Discord!

Les mer

500+ modeller i ett API

Opptil 20 % rabatt