OpenAI lanserer GPT-5.4-serien: hva GPT-5.4 endrer

OpenAIs nyeste lansering, GPT-5.4, kommer som en målrettet modellfamilie for “profesjonelt arbeid” med to hovedvarianter — GPT-5.4 Thinking og GPT-5.4 Pro — og sterk vekt på dokumentarbeid med lang kontekst, innebygde evner for datamaskinbruk (agent) og forbedret faktuell nøyaktighet og oppgaveytelse på tvers av kontor-, juridiske og finansielle arbeidsflyter. Lanseringen følger tidligere oppdateringer i GPT-5-serien (særlig GPT-5.3 Instant og GPT-5.3-Codex) og gir målbare forbedringer på interne og offentlige benchmarker, dypere verktøyintegrasjon (inkludert et ChatGPT for Excel-tillegg) og en større støttet kontekst (oppgir opptil 1 million tokens).

Nå støtter CometAPI GPT-5.4 og GPT-5.4 Pro, og tilbyr dem med rabatter.

Hva er GPT-5.4?

Posisjonering og varianter

GPT-5.4 presenteres av OpenAI som den mest kapable modellen i GPT-5-serien, fininnstilt for profesjonelle, dokumenttunge og agentbaserte arbeidsflyter. Den tilbys i minst to publiserte varianter:

GPT-5.4 Thinking — en resonnementsfokusert variant som eksponerer mer av modellens tankeprosess og er optimalisert for flertrinns resonnement og agentoppgaver (tilgjengelig i ChatGPT som “Thinking”-modus).
GPT-5.4 Pro — et nivå med høyere beregningsressurser/prioritert inferens for høy gjennomstrømning eller latensfølsomme bedriftsarbeidslaster, med høyere API-priser (som reflekterer ekstra beregning).

OpenAI fremhever GPT-5.4s innebygde datamaskinbruk-kapasiteter — som gjør at modellene kan operere programvare gjennom programatiske mus/tastatur-handlinger og orkestrere sekvenser med flere verktøy — noe som posisjoneres som et stegskifte for å bygge agenter som fullfører reelle oppgaver.

Nye og fremhevede evner

Støtte for lang kontekst: GPT-5.4 rapporteres å støtte svært store kontekster (opptil 1,000,000 tokens i ChatGPT- og Codex-kontekster), slik at modellen kan holde enorme prosjekter, bøker, kodebaser eller datasett “i minnet” under en økt. Dette er transformativt for dokumentgjennomgang, juridiske kontrakter og flerfil-ingeniørprosjekter.
Innebygd datamaskinbruk / agenting: GPT-5.4 er OpenAIs første generelle modell med innebygde evner for datamaskinbruk — den kan generere sekvenser av UI-handlinger og kode for å operere programvare (f.eks. via Playwright eller ved å utstede mus/tastatur-kommandoer basert på skjermbilder). Denne kapasiteten er designet for å la utviklere bygge agenter som fullfører oppgaver på tvers av web- og skrivebordsapper.
Forbedringer i kontorferdigheter: Betydelig vekt på regneark, presentasjoner og dokumenter — med interne benchmarker som viser store gevinster i regnearkmodellering, presentasjonsestetikk og kvalitet på dokumentutforming.
Faktuell nøyaktighet og redusert hallusinasjon: OpenAI rapporterer reduksjoner i faktiske feil sammenlignet med tidligere modeller på internt kuraterte evalueringssett (se benchmarker nedenfor).

Sammenlignet med tidligere modeller som GPT-5.2 Thinking og GPT-5.3 Codex, slår GPT-5.4 sammen disse kapasitetene i én modell designet for å håndtere langvarige oppgaver og komplekse arbeidsflyter med minimal brukerintervensjon.

Nøkkelfunksjoner og tekniske høydepunkter for GPT-5.4

1) Enorme kontekstvinduer (opptil 1,000,000 tokens)

Den mest synlige kapasiteten er støtte for kontekstvinduer på opptil 1,000,000 tokens via API-et. Dette utvider hva en enkelt modellsesjon kan holde: hele bøker, lange kodebaser eller komplette multidokument-dossierer uten å måtte dele opp over mange kall. For kunnskapsintensive bedriftsarbeidsflyter (juridisk innsyn, forskningssyntese, storskala kodeanalyse) reduserer muligheten til å opprettholde en million-tokens kontekst behovet for teknisk lim og forbedrer sammenheng.

Implikasjon: arbeidsflyter som tidligere krevde orkestrering (henting, oppdeling, ekstern hukommelse) kan nå beholde mer av råkonteksten i modellens arbeidsminne — noe som forenkler piper og senker avveiningene mellom latens og konsistens.

2. Innebygd bruk av datamaskin og verktøy

OpenAI fremhever en sterkere evne til å operere programvareverktøy og tilkoblinger (f.eks. regneark, dokumentredigerere, kodeutførelsesmiljøer) mer robust enn tidligere modeller. GPT-5.4 viderefører tidligere arbeid med “verktøybruk” med:

Bedre verktøyvalg og parameterisering av verktøy.
Mer pålitelig sekvensplanlegging ved kall til eksterne API-er eller gjennomgang av UI-lignende handlinger.
Redusert token-overhead for agentbaserte arbeidsflyter via smartere verktøykall-arkitektur.

Agent- og utviklerkapasiteter:

Skrivebords- og web-automatisering: Med eksplisitt støtte for å sende mus- og tastaturhandlinger basert på skjermbilder kan GPT-5.4 bygges inn i agenter som opererer reelle programvare-arbeidsflyter (for eksempel å fylle ut skjemaer, navigere i dashbord eller kjøre flertrinnsprosedyrer). OpenAI rapporterer resultater i front på OS-lignende benchmarker.
Grensesnitt for verktøy og styrbarhet: GPT-5.4 er mer styrbar via utviklermeldinger og kan bedre avgjøre når og hvordan det skal kalle eksterne verktøy, tilkoblinger og API-er — en avgjørende kapasitet for å bygge pålitelige multi-verktøy-agenter som minimerer unødvendige eller risikable handlinger.

Praktisk effekt: Automatiseringsoppgaver (f.eks. “åpne dette regnearket, beregn disse pivotene, generer lysbilde‑notater”) krever færre feil/nytt-forsøk-sykluser og mindre menneskelig tilsyn.

3) Fem nivåer av resonnementinnsats, ekstreme moduser

OpenAI indikerer flere nivåer av resonnementinnsats — som lar brukere bytte latens/kostnad mot dypere intern chain‑of‑thought-beregning (moduser som uformelt omtales som xhigh eller ekstremt resonnement). Disse er ment for problemer hvor mer intern overveielse materiellt forbedrer korrekthet (komplekse bevis, lange kodetransformasjoner, flertrinns finansanalyser). API-priser og faktureringslogikk gjenspeiler det ekstra arbeidet modellen utfører under disse modusene.

Praktisk effekt: Dette skillet lar kunder velge avveiningene som passer deres arbeidslaster, i stedet for å be en enkelt modell om å være “alt”.

4) Produktivitet og innholdsproduksjon

Regnearkmodellering: GPT-5.4 viser sterke forbedringer på regnearkoppgaver som sannsynligvis brukes i revisjon, finans og analysearbeidsflyter. OpenAI rapporterer en gjennomsnittsscore på 87.3% på interne “investment banking modeling”-oppgaver for GPT-5.4 vs. 68.4% for GPT-5.2. Det er en dramatisk økning i oppgavenøyaktighet for numerisk modellering og formelkonstruksjon.
Presentasjoner og visuelle utdata: Menneskelige vurderere foretrakk presentasjoner generert av GPT-5.4 68,0% av tiden fremfor de fra GPT-5.2 på grunn av bedre estetikk, variasjon og integrasjon med bildegenerering. Dette reflekterer både innholds- og formforbedringer for produksjon av lysbildepakker.
Dokumentutforming og langt skrivearbeid: GPT-5.4 ble optimalisert for å opprettholde konsistens på tvers av lange dokumenter, bedre siteringsatferd og færre interne motsetninger når den håndterer store kontekster, takket være det utvidede kontekstvinduet og dedikert resonnementstuning.

5) Sikkerhet, tiltak og cybershensyn

Reduserte hallusinasjoner: OpenAI rapporterer at på et sett av avidentifiserte forespørsler der brukere flagget faktiske feil, er individuelle påstander fra GPT-5.4 33% mindre sannsynlige å være falske, og fulle svar er 18% mindre sannsynlige å inneholde noen feil, relativt til GPT-5.2 — en nøkkelmetrik for bedriftsadopsjon der faktuell nøyaktighet betyr mye.
Tiltak for cybersikkerhet (Thinking-varianten): GPT-5.4 Thinking fremhever et utvidet sett med tiltak for cyberrisiko, bygget på beskyttelser brukt for tidligere Codex/5.3-modeller. GPT-5.4 Thinking ble designet med ekstra sikringsmekanismer for scenarier med høy kapabilitet og mulig misbruk.

Ytelsesbenchmarker — hva tallene sier

OpenAI og flere medier publiserte tidlige benchmarkresultater som del av lanseringen. Fordi ulike benchmarker tester ulike kapasiteter (nettnavigasjon vs. domenekunnskap vs. sikkerhet), er det nyttig å aggregere hovedtallene og hva de betyr.

OpenAI lanserer GPT-5.4-serien: hva GPT-5.4 endrer

Rapporterte resultater viser merkbare forbedringer vs. tidligere medlemmer av GPT-5.x-familien og tett konkurranse med andre toppmodeller.

Benchmarker for web- og skrivebordsinteraksjon

WebArena-Verified (tester for nettleserbruk): GPT-5.4 oppnår 67.3% suksess når både DOM- og skjermbilde-signaler brukes, sammenlignet med GPT-5.2s 65.4% — en synlig, men ikke overveldende, økning. Dette måler oppgaver der modellen må samhandle med levende sider og UI-elementer.
Online-Mind2Web (skjermbilde-baserte nettleseroppgaver): GPT-5.4 nådde 92.8% suksess med kun skjermbildeobservasjoner — en spesielt sterk forbedring relativt til tidligere agent-baserte baseliner (OpenAI kontrasterte dette med ChatGPT Atlas’ Agent Mode-ytelse).
OSWorld-Verified (skrivebordsnavigasjon): uavhengig rapportering indikerte at GPT-5.4 scoret 75.0% på en benchmark som vurderer navigasjon i skrivebordsmiljø og oppgavefullføring. Det resultatet plasserte 5.4 foran mange offentlige baseliner for ende-til-ende-automatiseringsoppgaver.

Konklusjon: 5.4s forbedringer er mest uttalte der forståelse av visuell kontekst, UI-muligheter og lange handlingssekvenser betyr mye — dvs. agentbaserte arbeidsflyter.

Benchmarker for helse, sikkerhet og kunnskap

OpenAIs distribusjonssikkerhetsrapportering viser blandede signaler:

HealthBench: GPT-5.4 scoret 62.6% på HealthBench (en moderat nedgang fra GPT-5.2s 63.3%), noe som indikerer subtile avveininger mellom kapasitet og visse helserelaterte evalueringsmetrikker i øyeblikksbildet OpenAI rapporterte.
Hard: GPT-5.4 scoret 40.1% på en “Hard”-evalueringssuite (litt ned fra 42.0%).
Consensus: GPT-5.4 oppnådde 96.6% på “Consensus”, en metrikk som reflekterer samsvar med kuraterte konsensussvar (en økning på ~2.1 poeng).

OpenAI bemerket også endringer i gjennomsnittlig svarlengde på helse-evalueringer (GPT-5.4 i snitt ~3,311 tegn vs. 2,676 for GPT-5.2), som kan påvirke hvordan en modell rammer inn sensitive temaer.

Tolkning: Sikkerhets- og helsemetrikker viser at 5.4 samlet økte konsensusjusteringen og endret svarfyldighet, selv om noen smale helsescore falt litt. Dette mønsteret reflekterer ofte en rebalansering av modellmål — mer avgjørende, lengre svar kan hjelpe nytte og konsensus, samtidig som de krever nøye overvåking på sensitive domener.

Domenespesifikke eksempler og påstander

Tidlige tester ga konkrete, domenespesifikke påstander (OpenAI og tredjepartskilder):

Juridisk resonnement-benchmark (BigLaw Bench) — GPT-5.4 oppnår ~91% på juridiske resonnementsdeler i tidlige tester, et sterkt signal for dokumentanalyseoppgaver; merk at dette er tidlige, ikke fagfellevurderte tall.
Reduksjon i hallusinasjoner: GPT-5.4-svar er ~33% mindre sannsynlige å inneholde falske påstander og ~18% mindre sannsynlige å inneholde faktiske feil sammenlignet med visse tidligere baseliner. Disse prosentene ble fremhevet i sekundær rapportering og selskapets kommunikasjon; som med enhver slik påstand avhenger de av benchmarksuite og utvalgsmetodikk.

Hvordan få og betale for GPT-5.4

ChatGPT-nivåer og bedriftsadgang

Ifølge OpenAI og produktrapportering:

ChatGPT Plus / Team / Pro-brukere var de første gruppene som mottok GPT-5.4 Thinking i produktet. Enterprise- og Education-administratorer kan aktivere tidlig tilgang via administrasjonskontroller. Free/Go-brukere er ikke garantert umiddelbar tilgang. Utviklere kan kalle gpt-5.4- og gpt-5.4-pro-endepunktene via API-et.

API-prisoversikt (publiserte utviklerpriser)

OpenAIs utviklerpriser lister GPT-5.4 som en grenselandsmodell med per-token-avgifter. Som publisert på den offentlige prissiden på tidspunktet for kunngjøringen, er eksempelrater for GPT-5.4 omtrent:

Modell	Input	Bufret input	Output
gpt-5.4 (<272K kontekstlengde)	$2.50	$0.25	$15.00
gpt-5.4 (>272K kontekstlengde)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K kontekstlengde)	$30.00		$180.00
gpt-5.4-pro (>272K kontekstlengde)	$60.00		$270.00

I CometAPI (en alt-i-ett aggregeringsplattform for store modell-API-er):

Modell	Comet-pris (USD / M tokens)	Offisiell pris (USD / M tokens)	Rabatt
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Derfor anbefaler jeg på det sterkeste CometAPI, siden det kan redusere API-kostnader betydelig.

Hensyn ved kostnadsstyring

Hvis du planlegger å bruke modellen i skala, spesielt i langdokument- eller høy-gjennomstrømningsmiljøer, bør du vurdere:

Caching og deduplisering av inndata (for å bruke bufret input-priser der det er mulig).
Prompt-utforming for å komprimere kontekst og unngå redundante tokens.
Batching-strategier og etterbehandling som minimerer dyr output-generering.
Overvåking av bruken av resonnementmodus, siden dypere resonnementmoduser kan ha høyere beregningskostnad.

Sammenligning: GPT-5.4 vs GPT-5.3

Hvor GPT-5.4 forbedrer seg i forhold til GPT-5.3

Resonneringsdybde og verktøyorkestrering: 5.4 Thinking ble eksplisitt tunet for å overgå 5.3 på flertrinns resonnement og agentbaserte bruksområder. Dette ses i web-/skrivebordsinteraksjonsbenchmarker og agent-suksessmetrikker.
Kontekstkapasitet: 5.4s tilbud om 1M tokens er et tydelig teknisk steg utover hva 5.3 tilbød i mainstream API-tilgjengelighet, og muliggjør nye klasser av oppgaver i én enkelt økt.
Løft i domeneytelse: OpenAIs tidlige tall og tredjepartsrapporter peker på forbedringer på visse juridiske og dokument-benchmarker, der 5.4s lengre kontekst og spesialisert tuning hjelper.

Avveininger og hvor 5.3 fortsatt kan være å foretrekke

Lettvekts samtalebruk: GPT-5.3 Instant forblir optimalisert for raske, økonomiske samtaleforløp; organisasjoner som søker lavest mulig latens/kostnad for korte chatteinteraksjoner kan foretrekke den.
Stabilitet i sikkerhetsmetrikkene: noen helse- og “hard”-evalueringsscore viste små nedganger for 5.4 versus 5.2 i OpenAIs øyeblikksbilder; virksomheter i sensitive regulerte domener bør validere modellen på egne evalueringssuiter før full utrulling.

Brukstilfeller og bransjeimplikasjoner

Kombinasjonen av dypt resonnement, langkontekst-hukommelse og verktøybruk i GPT-5.4 åpner flere praktiske og strategiske muligheter.

1. Profesjonelle tjenester og rådgivning

Selskaper som produserer lange leveranser (f.eks. juridiske prosesskrifter, fler-kapitlers konsulentrapporter, M&A due diligence-pakker) kan holde hele dokumenter og datasett i kontekst, noe som gir sammenhengende tverrdokument-syntese, automatisert QA og generering av lederoppsummeringer uten manuell sammenliming av biter. Benchmark-seire på APEX-Agents samsvarer med denne posisjoneringen.

2. Programvareutvikling og resonnering over kodebaser

Lengre kontekst betyr at et enkelt modellkall kan inkludere hele repositorier eller lange loggspor. GPT-5.4s SWE-benchmarkforbedringer indikerer bedre ytelse for feilsøking, refaktorering og kodegjennomgangsarbeidsflyter — spesielt kombinert med Pro for vedvarende belastninger.

3. Autonome agenter og bedriftsautomatisering

Agentiske systemer som opererer over verktøy (regneark, ticketsystemer, webgrensesnitt) drar nytte av GPT-5.4s forbedrede verktøyvalg, redusert token-overhead for agent-arbeidsflyter og bedre bevaring av langtidsstatus. Dette gjør GPT-5.4 attraktiv for bedriftsautomatiseringspiper og “assistenter som handler” på tvers av flere systemer.

Konklusjon — hva GPT-5.4 endrer

GPT-5.4 representerer et pragmatisk og kapabilitetsdrevet fremskritt mot modeller som kan håndtere langt, multidokument-resonnement, utføre agentbaserte arbeidsflyter med større pålitelighet, og skaleres inn i profesjonelle piper via Pro-kontrakter. For organisasjoner med arbeidsflyter som er langhorisont og verktøyavhengige, er GPT-5.4 et markant steg i potensiell produktivitet

Utviklere kan få tilgang til GPT-5.4, GPT-5.4-pro, og GPT 5.3 Chat via CometAPI nå. For å komme i gang, utforsk modellens kapasiteter i Playground og se API guide for detaljerte instruksjoner. Før tilgang, sørg for at du har logget inn på CometAPI og hentet API-nøkkelen. CometAPI tilbyr en pris langt under offisiell pris for å hjelpe deg å integrere.

Klar til å starte?→ Registrer deg for GPT-5.4 i dag !

Hvis du vil ha flere tips, guider og nyheter om KI, følg oss på VK, X og Discord!