OpenAI brengt de GPT-5.4-serie uit: wat GPT-5.4 verandert

OpenAI’s nieuwste release, GPT-5.4, verschijnt als een gerichte modelfamilie voor “professioneel werk” met twee primaire varianten — GPT-5.4 Thinking en GPT-5.4 Pro — en een sterke nadruk op documentwerk met lange context, native computerbediening (agent)-mogelijkheden en verbeterde factualiteit en taakprestaties in kantoor-, juridische en financiële workflows. De release volgt op eerdere updates in de GPT-5-lijn (met name GPT-5.3 Instant en GPT-5.3-Codex) en brengt meetbare verbeteringen op interne en openbare benchmarks, diepere toolintegratie (inclusief een ChatGPT‑plug-in voor Excel) en een groter ondersteund contextvenster (tot 1 miljoen tokens).

Nu ondersteunt CometAPI GPT-5.4 en GPT-5.4 Pro, en kun je ze met kortingen gebruiken.

Wat is GPT-5.4?

Positionering en varianten

GPT-5.4 wordt door OpenAI gepresenteerd als het meest capabele model uit de GPT-5-serie, afgestemd op professionele, documentzware en agentgestuurde workflows. Het wordt aangeboden in ten minste twee gepubliceerde varianten:

GPT-5.4 Thinking — een op redeneren gerichte variant die meer van het denkproces van het model blootlegt en is geoptimaliseerd voor meerstapsredenering en agenttaken (beschikbaar in ChatGPT als de modus “Thinking”).
GPT-5.4 Pro — een variant met hogere rekenkracht/prioriteit voor inference voor hoge doorvoer of latentiegevoelige enterprise-workloads, met hogere API-prijzen (als afspiegeling van de extra compute).

OpenAI benadrukt GPT-5.4’s native computerbediening-mogelijkheden — waarmee modellen software kunnen bedienen via programmatische muis/toetsenbordacties en multi-tool-sequenties kunnen orkestreren — wat wordt gepositioneerd als een stap voorwaarts voor het bouwen van echte, taken-voltooiende agents.

Nieuwe en benadrukte mogelijkheden

Ondersteuning voor lange context: Er wordt gemeld dat GPT-5.4 zeer grote contexten ondersteunt (ondersteunt tot 1,000,000 tokens in ChatGPT- en Codex-contexten), waardoor het model enorme projecten, boeken, codebases of datasets “in het geheugen” kan houden tijdens een sessie. Dit is transformerend voor documentbeoordeling, juridische contracten en engineeringprojecten met meerdere bestanden.
Native computerbediening / agenting: GPT-5.4 is OpenAI’s eerste generieke model met native computerbediening — het kan reeksen UI-acties en code genereren om software te bedienen (bijv. via Playwright of door muis/toetsenbordopdrachten uit te voeren op basis van screenshots). Deze mogelijkheid is bedoeld om ontwikkelaars agents te laten bouwen die taken voltooien in web- en desktopapps.
Verbeteringen in Office-vaardigheden: Sterke nadruk op spreadsheets, presentaties en documenten — met interne benchmarks die grote verbeteringen laten zien in spreadsheetmodellering, presentatie-esthetiek en de kwaliteit van documentopstelling.
Factualiteit en vermindering van hallucinaties: OpenAI rapporteert verminderingen in feitelijke fouten ten opzichte van eerdere modellen op intern samengestelde evaluatiesets (zie benchmarks hieronder).

Vergeleken met eerdere modellen zoals GPT-5.2 Thinking en GPT-5.3 Codex voegt GPT-5.4 deze mogelijkheden samen in één model dat is ontworpen om langlopende taken en complexe workflows met minimale gebruikersinterventie af te handelen.

Belangrijkste features en technische highlights van GPT-5.4

1) Zeer grote contextvensters (tot 1,000,000 tokens)

De meest direct zichtbare mogelijkheid is ondersteuning voor contextvensters tot 1,000,000 tokens via de API. Dit vergroot wat één modelsessie kan bevatten: complete boeken, lange codebases of hele multi-documentdossiers zonder te hoeven “chunken” over meerdere oproepen. Voor kennisintensieve enterprise-workflows (legal discovery, onderzoekssynthese, grootschalige code-analyse) vermindert het vermogen om een context van een miljoen tokens te behouden de benodigde orkestratie en verbetert de samenhang.

Implicatie: workflows die eerder orkestratie vereisten (retrieval, chunking, extern geheugen) kunnen nu meer van de ruwe context in het werkgeheugen van het model houden — wat pipelines vereenvoudigt en de trade-offs tussen latentie en consistentie verkleint.

2. Native computer- en toolgebruik

OpenAI benadrukt een sterker vermogen om softwaretools en connectors (bijv. spreadsheets, tekstverwerkers, code-uitvoeringsomgevingen) robuuster te bedienen dan eerdere modellen. GPT-5.4 breidt eerder werk rond “toolgebruik” uit met:

Betere toolselectie en toolparameterisatie.
Betrouwbaardere sequentieplanning bij het aanroepen van externe API’s of het doorlopen van UI-achtige acties.
Verminderde token-overhead voor agentgestuurde workflows dankzij een slimmere architectuur voor tool-calls.

Agent- en ontwikkelaarsmogelijkheden:

Desktop- en webautomatisering: Met expliciete ondersteuning voor het geven van muis- en toetsenbordacties op basis van screenshots kan GPT-5.4 worden ingebed in agents die echte softwareworkflows bedienen (bijvoorbeeld formulieren invullen, dashboards navigeren of meerstapsprocedures uitvoeren). OpenAI rapporteert state-of-the-art resultaten op OS-achtige benchmarks.
Toolinterface en stuurbaarheid: GPT-5.4 is beter te sturen via ontwikkelaarsberichten en kan beter beslissen wanneer en hoe externe tools, connectors en API’s aan te roepen — een cruciale capaciteit voor het bouwen van betrouwbare multi-tool-agents die onnodige of risicovolle acties minimaliseren.

Praktische impact: Automatiseringstaken (bijv. “open deze spreadsheet, bereken deze pivots, genereer slidenotities”) vereisen minder fail/retry-cycli en minder menselijke supervisie.

3) Vijf niveaus van redeneerinspanning, extreme modi

OpenAI geeft aan dat er meerdere niveaus van redeneerinspanning zijn — waarmee gebruikers latentie/kosten kunnen ruilen voor diepere interne chain-of-thought-berekening (modi die informeel soms xhigh of extreme reasoning worden genoemd). Deze zijn bedoeld voor problemen waar meer interne afwegingen de correctheid materieel verbeteren (complexe bewijzen, lange codetransformaties, meerstaps financiële analyses). De API-prijzen en factureringslogica weerspiegelen het extra modelwerk dat onder deze modi wordt uitgevoerd.

Praktische impact: Deze scheiding laat klanten de trade-offs kiezen die bij hun workloads passen, in plaats van één model te vragen om “alles” te zijn.

4) Productiviteit en contentcreatie

Spreadsheetmodellering: GPT-5.4 laat sterke verbeteringen zien bij spreadsheettaken die waarschijnlijk worden gebruikt in audit-, finance- en analyseworkflows. OpenAI rapporteert een gemiddelde score van 87.3% op interne taken in de stijl van “investment banking modeling” voor GPT-5.4 versus 68.4% voor GPT-5.2. Dat is een dramatische stijging in taaknauwkeurigheid voor numerieke modellering en formuleconstructie.
Presentaties en visuele output: Menselijke beoordelaars gaven in 68.0% van de gevallen de voorkeur aan presentaties die door GPT-5.4 zijn gegenereerd boven die van GPT-5.2, vanwege betere esthetiek, variatie en integratie met beeldgeneratie. Dit weerspiegelt zowel inhoudelijke als vormverbeteringen voor het produceren van slidedecks.
Opstellen van documenten en langformaat schrijven: GPT-5.4 is geoptimaliseerd voor het behouden van consistentie in lange documenten, beter citeren en minder interne tegenstrijdigheden bij het verwerken van grote contexten, dankzij het uitgebreide contextvenster en gerichte tuning voor redeneren.

5) Veiligheid, mitigaties en cyberoverwegingen

Minder hallucinaties: OpenAI rapporteert dat op een set geanonimiseerde prompts waar gebruikers feitelijke fouten markeerden, individuele beweringen van GPT-5.4 33% minder waarschijnlijk onjuist zijn, en volledige antwoorden 18% minder waarschijnlijk fouten bevatten, vergeleken met GPT-5.2 — een sleutelmetric voor enterprise-adoptie waar feitelijke nauwkeurigheid telt.
Cybersecurity-mitigaties (Thinking-variant): GPT-5.4 Thinking benadrukt een uitgebreid mitigatiepakket voor cyberrisico’s, voortbouwend op beschermingen die zijn gebruikt voor eerdere Codex/5.3-modellen. GPT-5.4 Thinking is ontworpen met extra waarborgen voor scenario’s met een hoog misbruikpotentieel.

Prestatiebenchmarks — wat de cijfers zeggen

OpenAI en verschillende media publiceerden vroege benchmarkresultaten als onderdeel van de uitrol. Omdat verschillende benchmarks verschillende capaciteiten testen (webnavigatie vs. domeinkennis vs. veiligheid), is het nuttig de belangrijkste cijfers te bundelen en te duiden.

OpenAI brengt de GPT-5.4-serie uit: wat GPT-5.4 verandert

Gerapporteerde resultaten tonen opmerkelijke verbeteringen ten opzichte van eerdere leden van de GPT-5.x-familie en nauwe concurrentie met andere topmodellen.

Web- en desktopinteractiebenchmarks

WebArena-Verified (browsertesten): GPT-5.4 behaalt 67.3% succes bij gebruik van zowel DOM- als screenshot-signalen, vergeleken met 65.4% voor GPT-5.2 — een zichtbare maar geen overweldigende sprong. Dit meet taken waarbij het model met live pagina’s en UI‑elementen moet interageren.
Online-Mind2Web (screenshot-gebaseerde browsertaken): GPT-5.4 bereikte 92.8% succes met alleen screenshotwaarnemingen — een bijzonder sterke verbetering ten opzichte van eerdere agent-achtige baselines (OpenAI contrasteerde dit met de Agent Mode-prestaties van ChatGPT Atlas).
OSWorld-Verified (desktopnavigatie): onafhankelijke berichtgeving gaf aan dat GPT-5.4 75.0% scoorde op een benchmark die navigatie in desktopomgevingen en taakvoltooiing beoordeelt. Dat resultaat positioneerde 5.4 boven veel openbare baselines voor end-to-end automatiseringstaken.

Conclusie: De verbeteringen van 5.4 zijn het meest uitgesproken waar begrip van visuele context, UI‑affordances en lange actiesequenties belangrijk zijn — d.w.z. agentgestuurde workflows.

Gezondheid, veiligheid en kennisbenchmarks

OpenAI’s rapportage over deploymentsafety toont gemengde signalen:

HealthBench: GPT-5.4 scoorde 62.6% op HealthBench (een bescheiden daling ten opzichte van 63.3% voor GPT-5.2), wat subtiele trade-offs aangeeft tussen capaciteit en bepaalde gezondheidsgerelateerde evaluatiemetrics in de gerapporteerde momentopnames.
Hard: GPT-5.4 scoorde 40.1% op een “Hard”-evaluatiesuite (licht gedaald vanaf 42.0%).
Consensus: GPT-5.4 noteerde 96.6% op “Consensus”, een metric die overeenstemming met gecureerde consensusantwoorden weerspiegelt (een stijging van ~2.1 punten).

OpenAI merkte ook veranderingen op in de gemiddelde antwoordlengte bij gezondheidsevaluaties (GPT-5.4 gemiddeld ~3,311 tekens vs. 2,676 voor GPT-5.2), wat kan beïnvloeden hoe een model gevoelige onderwerpen kadert.

Interpretatie: De veiligheids- en gezondheidsmetrics laten zien dat 5.4 over het geheel genomen de consensusalignering verhoogde en de antwoordzuchtigheid veranderde, terwijl sommige smalle gezondheidsscores licht daalden. Dat patroon weerspiegelt vaak een herijking van modeldoelen — meer besliste, langere antwoorden kunnen nut en consensus helpen, terwijl in gevoelige domeinen zorgvuldige monitoring nodig blijft.

Domeinspecifieke voorbeelden en claims

Vroege tests leverden concrete, gedomainiseerde claims op (OpenAI en derden):

Juridische redeneerbenchmark (BigLaw Bench) — GPT-5.4 behaalde ~91% op onderdelen van juridische redenering in vroege tests, een sterk signaal voor documentanalysetaken; merk op dat dit vroege, niet-peer-reviewed cijfers zijn.
Vermindering van hallucinaties: Antwoorden van GPT-5.4 zijn ~33% minder waarschijnlijk onjuiste beweringen te bevatten en ~18% minder waarschijnlijk feitelijke fouten te bevatten vergeleken met bepaalde eerdere baselines. Deze percentages werden benadrukt in secundaire berichtgeving en bedrijfscommunicatie; zoals bij elke dergelijke claim, hangen ze af van de benchmarkset en de steekproefmethodologie.

Hoe GPT-5.4 te verkrijgen en te betalen

ChatGPT-tiers en enterprise-toegang

Volgens OpenAI en productrapportage:

ChatGPT Plus / Team / Pro-gebruikers waren de eerste groepen die GPT-5.4 Thinking in het product ontvingen. Enterprise- en Education-beheerders kunnen vroege toegang inschakelen via admincontrols. Free/Go-gebruikers hebben geen gegarandeerde directe toegang. Ontwikkelaars kunnen de eindpunten gpt-5.4 en gpt-5.4-pro via de API aanroepen.

API-prijsoverzicht (gepubliceerde ontwikkelaarsprijzen)

OpenAI’s ontwikkelaarsprijzen vermelden GPT-5.4 als een frontiermodel met kosten per token. Zoals gepubliceerd op de openbare prijspagina ten tijde van de aankondiging, zijn voorbeeldtarieven voor GPT-5.4 ongeveer:

Model	Invoer	Gebufferde invoer	Uitvoer
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

In CometAPI (een one-stop aggregatieplatform voor grote model-API’s):

Model	Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Daarom beveel ik CometAPI ten zeerste aan, omdat het de API-kosten sterk kan verlagen.

Overwegingen voor kostenbeheer

Als je van plan bent het model op schaal te gebruiken, vooral in langdocument- of hoge-doorvoerscenario’s, overweeg dan:

Caching en deduplicatie van invoer (om waar mogelijk gebruik te maken van prijzen voor gebufferde invoer).
Prompt engineering om context te comprimeren en redundante tokens te vermijden.
Batchingstrategieën en post-processing die dure outputgeneratie minimaliseren.
Monitoring van redeneermodusgebruik, omdat diepere redeneermodi hogere computationele kosten kunnen meebrengen.

Vergelijking: GPT-5.4 vs GPT-5.3

Waar GPT-5.4 verbetert ten opzichte van GPT-5.3

Redeneerdiepte en toolorkestratie: 5.4 Thinking is expliciet getuned om 5.3 te overtreffen bij meerstapsredenering en agentgestuurde use-cases. Dit blijkt uit web/desktop-interactiebenchmarks en agentsuccesmetrics.
Contextcapaciteit: De 1M-tokenoptie van 5.4 is een duidelijke technische stap voorbij wat 5.3 bood in mainstream API-beschikbaarheid, waardoor nieuwe klassen van taken binnen één sessie mogelijk worden.
Domeinprestatieverbeteringen: Vroege cijfers van OpenAI en derden wijzen op verbeteringen op bepaalde juridische en documentbenchmarks, waar 5.4’s langere context en gespecialiseerde tuning helpen.

Trade-offs en waar 5.3 nog de voorkeur kan hebben

Lichtgewicht conversatiegebruik: GPT-5.3 Instant blijft geoptimaliseerd voor snelle, voordelige conversatiestromen; organisaties die de laagste latentie/kosten zoeken voor korte chatinteracties kunnen hiervoor kiezen.
Stabiliteit van veiligheidsmetrics: sommige gezondheids- en “hard”-evaluatiescores lieten lichte dalingen zien voor 5.4 versus 5.2 in OpenAI’s momentopnames; enterprises in gevoelige gereguleerde domeinen moeten het model valideren op hun eigen evaluatiesuites voordat ze breed uitrollen.

Use-cases en implicaties voor de sector

De combinatie van diepe redenering, langetermijngeheugen en toolgebruik in GPT-5.4 opent verschillende praktische en strategische kansen.

1. Professionele dienstverlening en consulting

Bedrijven die lange deliverables produceren (bijv. juridische pleitnota’s, meerhoofdstuk-consultingrapporten, M&A-diligencepakketten) kunnen volledige documenten en datasets in context houden, waardoor samenhangende kruisdocument-synthese, geautomatiseerde QA en het genereren van executive summaries mogelijk worden zonder handmatig chunkstitchen. Benchmarkwinsten op APEX-Agents sluiten aan bij deze positionering.

2. Software-engineering en redeneren over codebases

Een langere context betekent dat één modelaanroep volledige repositories of lange reeksen logs kan bevatten. De verbeteringen van GPT-5.4 op SWE-benchmarks wijzen op betere prestaties voor debugging, refactoring en code review-workflows — vooral in combinatie met Pro voor langdurige belasting.

3. Autonome agents en enterprise-automatisering

Agentgestuurde systemen die met tools werken (spreadsheets, ticketingsystemen, webinterfaces) profiteren van GPT-5.4’s verbeterde toolselectie, verminderde token-overhead voor agentworkflows en verbeterde bewaring van langetermijnstatus. Dit maakt GPT-5.4 aantrekkelijk voor enterprise-automatiseringspijplijnen en “assistenten die handelen” over meerdere systemen.

Bottom line — wat GPT-5.4 verandert

GPT-5.4 vertegenwoordigt een pragmatische en capaciteitsgedreven vooruitgang richting modellen die lange, multidocumentredenering aankunnen, agentgestuurde workflows betrouwbaarder uitvoeren en via Pro-contracten opgeschaald kunnen worden in professionele pipelines. Voor organisaties met langetermijn- en toolafhankelijke workflows is GPT-5.4 een sprong in potentiële productiviteit.

Ontwikkelaars hebben nu toegang tot GPT-5.4, GPT-5.4-pro, en GPT 5.3 Chat via CometAPI. Om te beginnen, verken de mogelijkheden van het model in de Playground en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat je bent ingelogd bij CometAPI en een API-sleutel hebt verkregen voordat je toegang krijgt. CometAPI biedt een prijs die veel lager ligt dan de officiële prijs om je te helpen integreren.

Klaar om te starten?→ Meld je vandaag nog aan voor GPT-5.4 !

Als je meer tips, gidsen en nieuws over AI wilt weten, volg ons dan op VK, X en Discord!