GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Wat geen enkele benchmark je vertelt

Er is een bepaald soort meeting die in elk team plaatsvindt dat bovenop frontier-LLM’s bouwt. Iemand deelt de nieuwste benchmarkranglijst. Iemand anders wijst erop dat de rangschikking sinds vorige maand is doorgeschud. Een derde merkt op dat het model dat hun team momenteel gebruikt twee posities is gezakt op een metriek waar geen van hen drie weken geleden van had gehoord. Aan het einde van de meeting weet niemand zeker of ze moeten migreren, en het gesprek wordt opnieuw ingepland voor het volgende kwartaal.

Het probleem met die meeting zijn niet de mensen erin. Het is dat benchmarks synthetische taken meten, en jouw product geen synthetische taak is. De ranglijst vertelt je hoe een model presteert op MMLU, op SWE-bench Verified, op GPQA Diamond — tests die door onderzoekers zijn ontworpen om modeloverstijgend meetbaar te zijn. Geen van die tests lijkt op de prompts die jouw applicatie in productie daadwerkelijk verstuurt. Geen ervan vangt hoe een model omgaat met het specifieke soort rommelige, domeinvormige input die jouw gebruikers genereren.

Dit stuk behandelt precies de oefening die benchmarks niet kunnen doen. Drie concrete prompts, bedoeld om te worden verzonden naar GPT-5.5, Claude Sonnet 4.6 en Gemini 3.1 Pro via hetzelfde OpenAI-compatibele endpoint, met dezelfde temperaturesettings en zonder extra prompting. De prompts beslaan drie categorieën die de meeste productieworkloads raken: gestructureerde extractie uit een rommelig document, een redeneerzware planningsopgave, en codegeneratie onder constraints. De onderstaande observaties zijn de gedragspatronen die teams die dit soort vergelijking draaien consistent rapporteren — de patronen die je zelf zou zien als je deze prompts in je eigen setup zou draaien.

Op de ranglijsten scoren deze drie modellen binnen 0,8 procentpunt van elkaar op SWE-bench Verified. In de praktijk gedragen ze zich heel anders. De keuze tussen hen gaat niet over wie het hoogst scoort op benchmarks — het gaat erom welk gedragspatroon bij jouw workload past.

Wat benchmarks meten, en wat ze missen

Benchmarks bestaan omdat het moet. Modelproviders hebben gestandaardiseerde tests nodig om capaciteitsaanspraken te doen, onderzoekers hebben ze nodig om vergelijkingen te publiceren, en de rest van ons heeft ze nodig om überhaupt een objectief startpunt te hebben om modellen te evalueren. Ze zijn nuttig. Ze zijn ook onvolledig op manieren die ertoe doen in productie.

Drie specifieke beperkingen zijn het waard expliciet te benoemen, omdat elk ervan terugkomt in de promptvoorbeelden hieronder.

Benchmarks meten geïsoleerde capaciteit, geen gedragspatronen. SWE-bench Verified vertelt je of een model een bepaald soort GitHub-issue kan oplossen. Het vertelt je niet of het model de neiging heeft eenvoudige problemen te over-engineeren, of het verduidelijkende vragen stelt wanneer de prompt ambigu is, of dat het output produceert die in één keer de door jou gevraagde structuur volgt. Dit zijn de dingen die je dagelijks in productie zult zien.
Benchmarks worden getuned. Wanneer een modelrelease prominent zijn score op een bepaalde benchmark uitlicht, is dat een signaal dat het model ten minste gedeeltelijk voor die benchmark is geoptimaliseerd. Prestaties in de echte wereld en benchmarkprestaties kunnen uiteenlopen — soms substantieel — zodra een model de omstandigheden verlaat waarvoor de benchmark is ontworpen.
Benchmarks aggregeren. Een verschil van 0,8 procentpunt in SWE-bench Verified kan verbergen dat Model A veel beter is in één specifieke taakcategorie en slechter in een andere, terwijl Model B consistent is over de hele linie. Aggregatie klapt informatie dicht die je nodig hebt om te beslissen.

De oefening hieronder is ontworpen om precies het soort informatie naar boven te halen dat benchmarks weg-aggregeren. Het punt is niet om een winnaar aan te wijzen — het is om je de vragen te laten zien die je zou moeten stellen wanneer je dezelfde oefening draait op je eigen prompts.

De setup

Drie prompts, gekozen omdat ze mappen op categorieën die de meeste productieworkloads raken. De setup: elke prompt wordt naar alle drie de modellen gestuurd met identieke parameters (temperature 0,3, geen system prompt override, standaard responseformat), benaderd via één OpenAI-compatibel endpoint zodat de vergelijking “appels met appels” blijft — geen providerspecifieke SDK-eigenaardigheden, geen verschillende parametermappingen, geen risico dat één model speciale behandeling krijgt vanwege hoe het verzoek is opgebouwd.

De prompts zelf staan hieronder, als codeblokken die je kunt kopiëren en draaien. De gedragsbeschrijvingen die op elk ervan volgen, zijn de patronen die teams consequent rapporteren wanneer ze dit soort vergelijking draaien — patronen die in meerdere third-party studies in 2026 zijn gedocumenteerd, en het soort dingen dat je zelf zou moeten verwachten te zien wanneer je deze prompts in je eigen setup draait. Het zelf draaien is het punt; het artikel geeft je het framework en de startprompts om dat te doen.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

Prompt 1: Gestructureerde extractie uit een rommelig document

Dit is het dagelijkse werkpaard van de helft van de LLM-features die in 2026 zijn verscheept. Neem ongestructureerde input — een e-mail, een supportticket, een vergadertranscript, een ingescand formulier — en extraheer specifieke velden naar een gestructureerd object. De onderstaande prompt vraagt elk model om zeven velden te extraheren uit een bewust rommelige klantondersteunings-e-mail met gedeeltelijke informatie, conflicterende signalen en één veld dat in de bron helemaal niet voorkomt.

De prompt

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

Waarop te letten

Drie dingen. Ten eerste of het model zich houdt aan het gevraagde JSON-schema zonder verzinsels. Ten tweede hoe het model omgaat met het veld dat niet in de bron bestaat (escalation_history — de klant noemt geen eerder contact over dit specifieke probleem) — geeft het model afwezigheid toe, of fabriceert het iets plausibels? Ten derde of het model aanvullende toelichting buiten de JSON produceert, waardoor downstream parsing vereist is om de wrapper te strippen. Het veld urgency is ook de moeite waard: “5 days” is niet onmiddellijk, maar de klant is duidelijk bezorgd, wat ruimte voor interpretatie laat.

Wat teams die dit draaien consequent rapporteren

GPT-5.5. Produceert doorgaans schone JSON bij de eerste poging. Schema-naleving is sterk; elk gevraagd veld is aanwezig en het formaat is parsebaar zonder voorbewerking. Voor ontbrekende velden geeft GPT-5.5 vaak expliciet null terug. Het wikkelt de JSON meestal niet in markdown-codeblokken en voegt geen prozaïsche uitleg toe, wat downstream parsing triviaal maakt. Bij ambigue interpretaties zoals de urgentierating hier, is GPT-5.5 meestal conservatiever dan de andere twee — waar Claude en Gemini het ticket op “high” kunnen zetten op basis van de emotionele toon van de klant, verankert GPT-5.5 vaker op het concrete venster van 5 dagen en komt uit op “medium”.

Claude Sonnet 4.6. Produceert ook schone JSON en is doorgaans het meest precies van de drie in het volgen van het gevraagde schema. Waar GPT-5.5 een ontbrekend veld als null laat, voegt Claude vaak niet-gevraagde velden toe die datakwaliteitsproblemen markeren — een “notes” of “data_quality_notes”-sleutel die niet is gevraagd maar wel echt nuttige informatie bevat. Dat extra veld is nuttig voor menselijke reviewers, maar veroorzaakt fouten als je downstream parser strikt met het schema omgaat. Dit is een terugkerend patroon bij Claude: hoge kwaliteit, maar soms grondiger dan de prompt vroeg, wat expliciete promptinstructies vereist om te begrenzen.

Gemini 3.1 Pro. Produceert doorgaans de meest sobere output van de drie. Elk gevraagd veld, geen extra velden, geen omringend proza. Schema-naleving is exact zoals gevraagd. De ene eigenaardigheid die het vermelden waard is: voor ontbrekende velden geeft Gemini vaak een lege string terug in plaats van null. Strikte JSON-parsers die hiertussen onderscheid maken, zullen het verschil zien; losse parsers niet. Het gedrag is voldoende consistent over runs dat het een modelvoorkeur lijkt in plaats van een artefact.

Wat dit je vertelt

Alle drie de modellen kunnen gestructureerde extractie. De verschillen zitten in de gedragsmarge rond het gevraagde schema. Als je downstream-systeem strikt omgaat met het schema en extra velden als fouten beschouwt, zijn Gemini 3.1 Pro en GPT-5.5 de veiligere keuzes. Als je wilt dat het model datakwaliteitsproblemen signaleert zonder dat daarom is gevraagd, is Claude Sonnet 4.6 behulpzamer. Niets daarvan verschijnt op een benchmark.

Prompt 2: Een redeneerzware planningsopgave

Deze prompt vraagt de modellen om een meerstapsonderzoek te plannen: een onderzoeksvraag met drie impliciete constraints die een zorgvuldig model zou moeten identificeren voordat het het werk sequentieert. Het soort taak dat een agentische applicatie aan een LLM zou delegeren als planningsstap voordat tools worden ingeschakeld.

De prompt

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

De impliciete constraints om op te letten: de vraag definieert nooit wat “churn” betekent (accountsluiting? geen logins? geen aankopen?), specificeert niet hoe je voor confounders moet controleren (laag-betrokken gebruikers churnen om veel redenen die niets met feature X te maken hebben), en stelt geen baseline-vergelijkingsgroep vast. Een zorgvuldige planner zou alle drie moeten signaleren voordat de stappen worden geformuleerd.

Waarop te letten

Of het model echt door het probleem heen redeneert of een plausibele sequentie van stappen produceert die niet standhoudt bij inspectie. Of het de impliciete constraints identificeert zonder dat ze benoemd zijn. En of de afhankelijkheden tussen stappen correct zijn — een plan dat er goed uitziet maar stap drie laat afhangen van een resultaat dat pas in stap vijf ontstaat, is in de praktijk waardeloos.

Wat teams die dit draaien consequent rapporteren

GPT-5.5. Produceert doorgaans het meest operationeel bruikbare plan. De redenering is zichtbaar — GPT-5.5 somt zijn aannames op over de impliciete constraints (churndefinitie, controlegroep, confounders) voordat het de stappen uitschrijft, wat het makkelijk maakt te zien waar zijn interpretatie afwijkt van wat bedoeld was. Stapafhankelijkheden worden betrouwbaar geïdentificeerd en gelabeld. De output bevat vaak een sectie die aangeeft welke stappen te paralleliseren zijn, wat niet gevraagd was maar echte waarde toevoegt. Dit is het soort taak waarop GPT-5.5’s training in toolgebruik en agentische patronen zichtbaar wordt — het plangedrag is gevormd door de aanname dat downstream uitvoering volgt.

Claude Sonnet 4.6. Produceert doorgaans het meest doordachte plan, letterlijk — Claude’s plan omvat vaak overwegingen die de andere twee modellen niet noemen. Bij een vraag als deze zal Claude waarschijnlijk het methodologische punt over correlatie versus causaliteit signaleren, opmerken dat “feature X niet hebben gebruikt” zelf een symptoom van churn kan zijn in plaats van een oorzaak, en expliciet constraints identificeren die niet zijn uitgesproken maar die een zorgvuldige analist zou moeten zien. Het nadeel: het plan kan langer zijn dan nodig, en individuele stappen soms over-engineered voor de vraag. Het patroon is consistent met Claude’s gedrag elders — zorg op expertniveau, soms meer dan de taak vereist.

Gemini 3.1 Pro. Produceert doorgaans het meest strak gestructureerde plan, met de duidelijkste afhankelijkheidsgrafiek. Redeneringskwaliteit is hoog — Gemini identificeert consistent de impliciete constraints, decomponeert het probleem in een verdedigbare sequentie en levert stapsgewijze instructies die daadwerkelijk uitvoerbaar zijn. Het bezwaar: het plan kan wat mechanisch aanvoelen. Het doet wat nodig is, maar brengt zelden de methodologische subtiliteiten die Claude aanstipt, noch de parallelisatie-inzichten die GPT-5.5 toevoegt. Dit past bij Gemini’s bredere patroon — sterk in redenering, wat ambachtelijker oordeel blijft achter.

Wat dit je vertelt

De redeneerkwaliteit op deze taak is hoog bij alle drie. De verschillen zitten in wat het model toevoegt buiten het letterlijke verzoek. GPT-5.5 voegt operationeel pragmatisme toe (parallelisatie, uitvoeringstips). Claude voegt zorg op expertniveau toe (methodologie, randgevallen, statistische nuance). Gemini voegt helderheid en soberheid toe. Geen van deze is een foute keuze. Welke past, hangt af van wat je wilt dat het model doet zodra het klaar is met de taak die je vroeg.

Prompt 3: Codegeneratie met specifieke constraints

Deze prompt vraagt de modellen om een kleine maar niet-triviale functie te implementeren: een Python-functie die een lijst van gebeurtenis-timestamps neemt en de langste kloof tussen opeenvolgende events retourneert, met vier randgevallen. De constraints zijn expliciet; de bedoeling is om codegeneratie onder constraints te testen in plaats van het capaciteitsplafond — elk model kan deze functie schrijven. Wat varieert is hoe ze de constraints hanteren.

De prompt

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:&nbsp;&nbsp;1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;2. Single event&nbsp;&nbsp;3. Duplicate timestamps&nbsp;&nbsp;4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

Waarop te letten

Of het model alle vier randgevallen adresseert of sommige stilzwijgend overslaat. Of de type hints accuraat zijn of boilerplate. Of de implementatie een verdedigbaar algoritme kiest (sorteren en scannen) of iets exotisch. En of het model de constraint “geen tests, geen gebruiksvoorbeelden” aan het einde van de prompt respecteert — dit is het soort late instructie dat modellen met sterke instructienaleving zullen honoureren en zwakkere stilaan negeren.

Wat teams die dit draaien consequent rapporteren

GPT-5.5. Produceert doorgaans de meest grondig uitgewerkte code. Alle vier randgevallen worden afgehandeld met expliciete branches, type hints zijn precies (vaak inclusief Optional of Union voor returnwaarden in randgevallen), en een docstring met voorbeeldaanroepen. De implementatie kiest meestal het voor de hand liggende algoritme — sorteren, scannen, maximale kloof bijhouden — en is correct. Het is goed om te weten: GPT-5.5 voegt vaak unittests of gebruiksvoorbeelden toe, zelfs wanneer de prompt expliciet vraagt om alleen de functie. Dit is de trade-off bij operationeel pragmatische modellen — ze voegen toe wat ze denken dat je nodig hebt, zelfs als je er niet om vraagt.

Claude Sonnet 4.6. Produceert doorgaans de best leesbare code. De functie is beknopt, randgevallen worden afgehandeld met een schoon guard-clause-patroon bovenaan, type hints accuraat en minimaal. Claude voegt vaak een doordachte comment toe die een oordeel toelicht dat de prompt openliet — bijvoorbeeld, bij dubbele timestamps deze als nul-lengte gaps behandelen en uitleggen waarom, wat een verdedigbare keuze is die de prompt niet specificeerde. Claude respecteert de “geen tests”-constraint doorgaans betrouwbaarder dan GPT-5.5. De functie zelf is het meest onderhoudbaar van de drie. Consistent met Claude’s reputatie voor codekwaliteit: schoon, idiomatisch, expert-achtig.

Gemini 3.1 Pro. Produceert doorgaans de meest sobere code van de drie. De functie is correct, randgevallen afgehandeld, implementatie het kortst. Docstring meestal één regel. Type hints aanwezig en accuraat. Gemini’s oplossing bevat zelden tests of uitgebreide comments en over-engineert niet — precies wat de prompt vroeg. Voor een ontwikkelaar die een werkende functie wil en tests later zelf toevoegt, is dit het meest directe pad. Voor een ontwikkelaar die wil dat het model ook het omliggende werk doet, bieden de andere twee meer (of je er nu om vroeg of niet).

Wat dit je vertelt

Alle drie de modellen kunnen de functie schrijven. Het gedragsverschil zit in hoeveel omliggend werk elk model doet buiten het letterlijke verzoek — en hoe goed elk expliciete “voeg X niet toe”-instructies respecteert. GPT-5.5 neigt naar grondigheid, zelfs wanneer grondigheid in de prompt werd afgezworen. Claude neigt naar ambacht (leesbare code, doordachte comments bij oordeelskwesties). Gemini neigt naar soberheid (doe precies wat gevraagd is, niet meer). Voor agentische workflows waarin de output van het model rechtstreeks een productiecodebase ingaat, hangt het gewenste gedrag af van wat je downstream reviewproces verwacht — en van hoe strikt je negatieve instructies nageleefd wilt hebben.

De patronen die naar voren komen

Over de drie prompts hierboven komen drie consistente gedragspatronen naar voren uit de vergelijkingsstudies en ontwikkelaarsrapporten die in 2026 zijn gepubliceerd. Dit zijn geen capaciteitsaanspraken — elk model handelt elke taak op hoog niveau af. Het zijn tendensen, het soort dingen dat je alleen ziet wanneer teams kijken hoe hetzelfde model tientallen prompts afhandelt. Draai de prompts hierboven in je eigen setup en je ziet dezelfde patronen; het artikel geeft je het framework om te herkennen waar je naar kijkt wanneer je dat doet.

Model	Gedragstendens	Past het best wanneer…
GPT-5.5	Operationeel pragmatisch. Voegt uitvoeringstips, defensief coderen en downstream-vriendelijke output toe. Sterk op agentische en toolgebruik-gestuurde taken.	Jouw applicatie het modeloutput doorvertaalt naar verdere uitvoering — agents, workflows of pipelines waar de volgende stap geautomatiseerd is.
Claude Sonnet 4.6	Zorg op expertniveau. Brengt overwegingen naar voren voorbij het letterlijke verzoek, wijst op ethiek en methodologie, produceert zeer leesbare code.	Jouw applicatie een mens heeft die de modeloutput beoordeelt — contentgeneratie, codereview, analyses waar ambacht ertoe doet.
Gemini 3.1 Pro	Sober en direct. Doet precies wat gevraagd is, niet meer. Schoonste schema-naleving en laagste token-uitvoer voor gelijkwaardig werk.	Jouw applicatie strikte outputvereisten heeft, voorspelbare kosten prioriteit hebben, of je het model als precies hulpmiddel wilt inzetten in plaats van als meedenkende collega.

Een belangrijke kanttekening. Deze patronen zijn tendensen, geen regels. Elk model is met passende prompting richting elk van deze gedragingen te sturen — een voldoende gedetailleerde system prompt krijgt Gemini zover om tests toe te voegen, of begrenst Claude tot minimale output, of laat GPT-5.5 de unittests overslaan. Het punt is wat elk model standaard doet, voordat je begint te sturen. Het standaardgedrag is wat je in productie ervaart, tenzij je actief tegenstuurt.

Hoe je op je eigen workload test

De bovenstaande oefening is herhaalbaar op elke workload, en dat zou ook moeten. Benchmarkscores zijn nuttig als eerste filter, maar de modelgedragspatronen die ertoe doen voor jouw specifieke applicatie zijn alleen zichtbaar wanneer je ziet hoe de modellen jouw specifieke prompts afhandelen.

Een praktische gids om de oefening op je eigen verkeer te draaien:

Kies drie representatieve promptcategorieën. Niet drie willekeurige prompts — drie categorieën die je workload afdekken. De meeste productiesystemen zijn te ontleden in een handvol prompttypen (extractie, classificatie, genereren, redeneren, code, samenvatten). Kies de categorieën die het grootste deel van je verkeer uitmaken.
Cureer 20–30 voorbeelden per categorie. Bij voorkeur uit echt verkeer. Anonimiseer waar nodig. Het punt is dat de prompts moeten lijken op wat jouw applicatie daadwerkelijk ziet, niet op benchmarkvragen. Twintig voorbeelden per categorie is genoeg om patronen te zien; dertig is genoeg om vertrouwen te hebben.
Laat ze door één endpoint lopen, alle modellen. Een OpenAI-compatibel aggregator-endpoint maakt dit dramatisch sneller dan elk model via zijn eigen SDK draaien. De code bovenaan dit artikel is de volledige setup. Dezelfde temperature, dezelfde parameters, dezelfde prompt — de verschillen in de output zijn de modelverschillen.
Beoordeel eerst kwalitatief, dan kwantitatief. Kijk de outputs eerst na. De gedragspatronen zijn meestal binnen het eerste dozijn prompts duidelijk. Zodra je een hypothese hebt over hoe elk model zich op jouw workload gedraagt, kun je een rubric construeren om tegen te scoren — maar de hypothese komt uit observatie, niet uit een vooraf gebouwd beoordelingssjabloon.
Let op wat het model toevoegt. De benchmarkvraag is of het model het juiste antwoord geeft. De gedragsvraag is wat het model nog meer doet. Voegt het tests toe? Legt het zijn redenering uit? Brengt het zorgen naar voren? Produceert het extra velden waar niet om is gevraagd? Hier leven de modelverschillen.
Kies het model dat bij je downstream-patroon past. Als je downstream-proces geautomatiseerd is, wil je een model waarvan het standaardgedrag schone, parsebare output produceert. Als je downstream-proces menselijke review heeft, wil je een model waarvan het standaardgedrag de soort omringend oordeel toevoegt die een menselijke reviewer wil zien. Het juiste antwoord hangt af van wat er na het model komt.

Conclusie

De keuze tussen GPT-5.5, Claude Sonnet 4.6 en Gemini 3.1 Pro gaat niet over welk model het beste is. Het gaat erom welk model past bij de vorm van jouw workload — en die vorm is iets wat benchmarks niet kunnen zien. De bovenstaande oefening is in een middag te herhalen als je de prompts hebt gecureerd; de waarde is dat je stopt met raden en begint met observeren.

Voor teams die de oefening zelf draaien: de eenvoudigste setup is één OpenAI-compatibel endpoint dat alle drie modellen achter één credential exposeert. CometAPI is één route; je wijst je bestaande OpenAI SDK naar een andere base URL en de modelparameter wordt de variabele.

Benchmarks vertellen je wat een model kan. Gedragspatronen vertellen je wat een model zal doen, standaard, op jouw prompts. Het eerste antwoord is gepubliceerd. Het tweede moet je zelf observeren. Twintig prompts per categorie, één middag, en je hebt een antwoord dat geen enkele ranglijst ooit zal opleveren.

Klaar om betrouwbaar te integreren? Ga naar CometAPI en API doc voor naadloze toegang tot Claude Fable 5 naast andere frontiermodellen, uniforme billing en betrouwbaarheid op ondernemingsniveau. Meld je vandaag aan en ga van start met royale credits voor nieuwe gebruikers — je volgende doorbraakproject wacht.

Klaar om de AI-ontwikkelingskosten met 20% te verlagen?

Lees Meer

Klaar om de AI-ontwikkelingskosten met 20% te verlagen?

Lees Meer

GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Wat geen enkele benchmark je vertelt

Wat benchmarks meten, en wat ze missen

De setup

Prompt 1: Gestructureerde extractie uit een rommelig document

De prompt

Waarop te letten

Wat teams die dit draaien consequent rapporteren

Wat dit je vertelt

Prompt 2: Een redeneerzware planningsopgave

De prompt

Waarop te letten

Wat teams die dit draaien consequent rapporteren

Wat dit je vertelt

Prompt 3: Codegeneratie met specifieke constraints

De prompt

Waarop te letten

Wat teams die dit draaien consequent rapporteren

Wat dit je vertelt

De patronen die naar voren komen

Hoe je op je eigen workload test

Conclusie