GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Was kein Benchmark verrät

Es gibt eine ganz bestimmte Art von Meeting, die in jedem Team stattfindet, das auf Frontier-LLMs aufbaut. Jemand teilt die neueste Benchmark-Bestenliste. Jemand anderes weist darauf hin, dass sich die Platzierungen seit letztem Monat verschoben haben. Eine dritte Person merkt an, dass das Modell, das ihr Team derzeit verwendet, in irgendeiner Kennzahl, von der vor drei Wochen noch niemand gehört hatte, um zwei Plätze abgerutscht ist. Am Ende des Meetings ist sich niemand sicher, ob man migrieren sollte, und das Gespräch wird für das nächste Quartal erneut angesetzt.

Das Problem an diesem Meeting sind nicht die Menschen darin. Es liegt daran, dass Benchmarks synthetische Aufgaben messen – und Ihr Produkt ist keine synthetische Aufgabe. Die Bestenliste zeigt, wie ein Modell auf MMLU, auf SWE-bench Verified, auf GPQA Diamond abschneidet – Tests, die von Forschenden so entworfen wurden, dass sie modellübergreifend messbar sind. Keiner dieser Tests ähnelt den Prompts, die Ihre Anwendung in der Produktion tatsächlich sendet. Keiner erfasst, wie ein Modell mit der spezifischen, unordentlichen, domänenspezifischen Eingabe umgeht, die Ihre Nutzerinnen und Nutzer erzeugen.

Dieser Beitrag führt durch genau die Übung, die Benchmarks nicht leisten können. Drei konkrete Prompts, die an GPT-5.5, Claude Sonnet 4.6 und Gemini 3.1 Pro über denselben OpenAI-kompatiblen Endpunkt gesendet werden – mit identischen Temperature-Einstellungen und ohne zusätzliches Prompting. Die Prompts decken drei Kategorien ab, die die meisten Produktions-Workloads berühren: strukturierte Extraktion aus einem unordentlichen Dokument, eine stark reasoning-lastige Planungsaufgabe und Codegenerierung unter Auflagen. Die folgenden Beobachtungen sind die Verhaltensmuster, von denen Teams, die diesen Vergleichstyp regelmäßig durchführen, konsistent berichten – Muster, die Sie selbst sehen würden, wenn Sie diese Prompts in Ihrer eigenen Umgebung ausführen.

Auf den Bestenlisten liegen diese drei Modelle bei SWE-bench Verified innerhalb von 0,8 Prozentpunkten. In der Praxis verhalten sie sich sehr unterschiedlich. Die Wahl zwischen ihnen dreht sich nicht darum, welches Modell in Benchmarks am höchsten punktet – sondern darum, welches Verhaltensmuster zu Ihrem Workload passt.

Was Benchmarks messen – und was sie nicht erfassen

Benchmarks existieren, weil sie müssen. Modellanbieter brauchen standardisierte Tests, um Fähigkeitsansprüche zu untermauern, Forschende benötigen sie für Vergleichsstudien, und der Rest von uns braucht sie, um überhaupt einen objektiven Ausgangspunkt zur Bewertung von Modellen zu haben. Sie sind nützlich. Sie sind jedoch in für die Produktion relevanter Weise unvollständig.

Drei spezifische Einschränkungen sollte man explizit benennen, denn jede davon taucht in den folgenden Prompt-Beispielen auf.

Benchmarks messen isolierte Fähigkeiten, nicht Verhaltensmuster. SWE-bench Verified sagt Ihnen, ob ein Modell eine bestimmte Art von GitHub-Issue lösen kann. Es sagt Ihnen nicht, ob das Modell dazu neigt, einfache Probleme zu überingenieurisieren, ob es bei uneindeutigen Prompts Rückfragen stellt oder ob es beim ersten Versuch Ausgaben produziert, die genau der gewünschten Struktur entsprechen. Das sind die Dinge, die Sie im Alltag in der Produktion beobachten.
Benchmarks werden getunt. Wenn eine Modellveröffentlichung prominent ihren Score auf einem bestimmten Benchmark hervorhebt, ist das ein Signal, dass das Modell zumindest teilweise auf diesen Benchmark optimiert wurde. Die Performance in der realen Welt und die Benchmark-Performance können auseinanderlaufen – mitunter erheblich –, sobald das Modell die Bedingungen verlässt, für die der Benchmark entworfen wurde.
Benchmarks aggregieren. Ein Unterschied von 0,8 Prozentpunkten im SWE-bench-Verified-Score kann kaschieren, dass Modell A in einer spezifischen Aufgabenkategorie deutlich besser und in einer anderen schlechter ist, während Modell B überall konstant ist. Aggregation verdichtet Informationen, die Sie für eine Entscheidung brauchen.

Die Übung unten ist so gestaltet, dass sie genau jene Informationen sichtbar macht, die Benchmarks wegaggregieren. Ziel ist nicht, einen Sieger zu küren – sondern zu zeigen, welche Fragen Sie stellen sollten, wenn Sie dieselbe Übung mit Ihren eigenen Prompts durchführen.

Das Setup

Drei Prompts, ausgewählt, weil sie auf Kategorien abbilden, die die meisten Produktions-Workloads treffen. Das Setup: Jeder Prompt wird an alle drei Modelle mit identischen Parametern gesendet (Temperature 0,3, kein System-Prompt-Override, Standard-Antwortformat), aufgerufen über einen einzigen OpenAI-kompatiblen Endpunkt, damit der Vergleich fair bleibt – keine provider-spezifischen SDK-Eigenheiten, keine unterschiedlichen Parametermappings, kein Risiko, dass ein Modell bevorzugt wird, weil die Anfrage anders aufgebaut ist.

Die Prompts selbst folgen unten als Codeblöcke zum Kopieren und Ausführen. Die Verhaltensbeschreibungen im Anschluss sind die Muster, über die Teams bei dieser Art von Vergleich konsistent berichten – Muster, die in mehreren Drittstudien aus 2026 dokumentiert sind und die Sie selbst erwarten sollten, wenn Sie diese Prompts in Ihrem eigenen Setup ausführen. Genau das ist der Punkt: selbst ausführen; dieser Artikel liefert den Rahmen und die Startprompts.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

Prompt 1: Strukturierte Extraktion aus einem unordentlichen Dokument

Dies ist die Brot-und-Butter-Aufgabe der Hälfte der 2026 ausgelieferten LLM-Features. Nehmen Sie eine unstrukturierte Eingabe – eine E-Mail, ein Support-Ticket, ein Meeting-Transkript, ein gescanntes Formular – und extrahieren Sie bestimmte Felder in ein strukturiertes Objekt. Der folgende Prompt bittet jedes Modell, sieben Felder aus einer bewusst unordentlichen Kundensupport-E-Mail zu extrahieren, die Teilinformationen, widersprüchliche Signale und ein Feld enthält, das im Ursprungstext gar nicht vorkommt.

Der Prompt

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

Worauf Sie achten sollten

Drei Dinge. Erstens, ob das Modell ohne Erfindungen das angeforderte JSON-Schema einhält. Zweitens, wie das Modell mit dem Feld umgeht, das in der Quelle nicht existiert (escalation_history – die Kundin erwähnt keine frühere Kontaktaufnahme zu genau diesem Problem) – gesteht es Abwesenheit zu oder fabriziert es plausibel? Drittens, ob das Modell zusätzliche Kommentare außerhalb des JSON produziert, sodass nachgelagerte Parser den „Wrapper“ abstreifen müssen. Beachtenswert ist auch das Feld urgency: „5 Tage“ ist nicht sofort, aber die Kundin ist klar besorgt – hier besteht Interpretationsspielraum.

Was Teams, die das regelmäßig ausführen, konsistent berichten

GPT-5.5. Liefert typischerweise beim ersten Versuch sauberes JSON. Die Schema-Treue ist stark; jedes angeforderte Feld ist vorhanden, und das Format ist ohne Vorverarbeitung parsebar. Für fehlende Felder gibt GPT-5.5 meist explizit null zurück. Es packt das JSON in der Regel nicht in Markdown-Codefences und fügt keine Prosa-Erklärung hinzu, was die nachgelagerte Verarbeitung trivial macht. Bei uneindeutigen Interpretationsentscheidungen wie der Dringlichkeit hier ist GPT-5.5 oft konservativer als die beiden anderen – wo Claude und Gemini das Ticket aufgrund des emotionalen Tons als „high“ einstufen könnten, verankert sich GPT-5.5 häufig an den konkreten 5 Tagen und landet bei „medium“.

Claude Sonnet 4.6. Produziert ebenfalls sauberes JSON und ist typischerweise am präzisesten darin, das angeforderte Schema zu befolgen. Wo GPT-5.5 ein fehlendes Feld als null belässt, fügt Claude oft nicht angeforderte Felder hinzu, die Datenqualitätsprobleme kennzeichnen – einen Schlüssel „notes“ oder „data_quality_notes“, der nicht verlangt war, aber tatsächlich nützliche Informationen enthält. Dieses Zusatzfeld ist für menschliche Prüfer hilfreich, verursacht jedoch Fehler, wenn Ihr nachgelagerter Parser streng auf das Schema achtet. Das ist ein wiederkehrendes Muster bei Claude: hohe Qualität, aber manchmal gründlicher, als der Prompt verlangt, sodass explizite Prompt-Instruktionen zur Begrenzung nötig sind.

Gemini 3.1 Pro. Liefert typischerweise die ökonomischste Ausgabe der drei. Jedes angeforderte Feld, keine zusätzlichen Felder, keine umgebende Prosa. Die Schema-Treue ist exakt wie verlangt. Eine Eigenheit ist wissenswert: Für fehlende Felder gibt Gemini eher eine leere Zeichenkette zurück als null. Strikte JSON-Parser, die hier unterscheiden, werden den Unterschied bemerken; lockerere Parser nicht. Das Verhalten ist über Läufe hinweg so konsistent, dass es wie eine Modellpräferenz wirkt, nicht wie ein Artefakt.

Was das aussagt

Alle drei Modelle können strukturierte Extraktion. Die Unterschiede liegen im Verhaltensspielraum rund um das angeforderte Schema. Wenn Ihr nachgelagertes System streng auf das Schema achtet und zusätzliche Felder als Fehler behandelt, sind Gemini 3.1 Pro und GPT-5.5 die sichereren Optionen. Wenn Sie möchten, dass das Modell Datenqualitätsprobleme ohne Aufforderung hervorhebt, ist Claude Sonnet 4.6 hilfreicher. Nichts davon erscheint in einem Benchmark.

Prompt 2: Eine reasoning-lastige Planungsaufgabe

Dieser Prompt bittet die Modelle, eine mehrstufige Untersuchung zu planen: eine Forschungsfrage mit drei impliziten Einschränkungen, die ein sorgfältiges Modell identifizieren sollte, bevor es die Arbeit sequenziert. Die Art von Aufgabe, die eine agentische Anwendung einem LLM als Planungsschritt delegieren würde, bevor irgendwelche Tools aufgerufen werden.

Der Prompt

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

Die impliziten Einschränkungen, auf die man achten sollte: Die Frage definiert nie, was „Churn“ bedeutet (Kontoschließung? keine Logins? keine Käufe?), sie spezifiziert nicht, wie man Störfaktoren kontrolliert (Nutzer mit geringer Bindung churnen aus vielen Gründen, die nichts mit Feature X zu tun haben), und sie etabliert keine Basisvergleichsgruppe. Ein sorgfältiger Planer sollte alle drei vor der Schrittfolge benennen.

Worauf Sie achten sollten

Ob das Modell wirklich durch das Problem hindurchdenkt oder eine plausibel wirkende Abfolge von Schritten liefert, die bei genauer Betrachtung nicht trägt. Ob es die impliziten Einschränkungen identifiziert, ohne darauf hingewiesen zu werden. Und ob die Abhängigkeiten zwischen den Schritten korrekt sind – ein Plan, der gut aussieht, aber Schritt drei von einem Ergebnis abhängt, das erst Schritt fünf liefert, ist in der Praxis unbrauchbar.

Was Teams, die das regelmäßig ausführen, konsistent berichten

GPT-5.5. Liefert typischerweise den operativ am besten nutzbaren Plan. Das Denken ist sichtbar – GPT-5.5 enumeriert seine Annahmen zu den impliziten Einschränkungen (Churn-Definition, Kontrollgruppe, Störfaktoren), bevor es die Schritte darlegt, was es leicht macht zu erkennen, wo seine Interpretation von der intendierten abweicht. Schrittabhängigkeiten werden zuverlässig identifiziert und gekennzeichnet. Häufig enthält die Ausgabe einen Abschnitt, der markiert, welche Schritte parallelisiert werden können – das war nicht angefragt, bringt aber echten Mehrwert. Hier zeigt sich GPT-5.5s Tool-Use- und agentische Schulung – das Planungsverhalten ist von der Annahme geprägt, dass eine nachgelagerte Ausführung folgt.

Claude Sonnet 4.6. Liefert im wörtlichen Sinne oft den „durchdachtesten“ Plan – Claude führt häufig Erwägungen an, die die anderen beiden Modelle nicht aufbringen. Bei einer Frage wie dieser wird Claude wahrscheinlich das methodische Problem Korrelation vs. Kausalität markieren, darauf hinweisen, dass „Feature X nicht genutzt“ eher Symptom als Ursache von Churn sein kann, und explizit Einschränkungen benennen, die nicht ausdrücklich gemacht wurden, die eine sorgfältige Analystin aber sehen sollte. Der Nachteil: Der Plan kann länger als nötig sein, und einzelne Schritte sind mitunter überingenieurisiert für die tatsächliche Fragestellung. Das Muster passt zu Claudes Verhalten anderswo – Sorgfalt auf Expertenniveau, manchmal mehr als die Aufgabe erfordert.

Gemini 3.1 Pro. Produziert meist den am klarsten strukturierten Plan mit dem deutlichsten Abhängigkeitsgraphen. Die Qualität des Reasonings ist hoch – Gemini identifiziert zuverlässig die impliziten Einschränkungen, zerlegt das Problem in eine vertretbare Sequenz und liefert Schritt-für-Schritt-Anweisungen, die sich tatsächlich ausführen lassen. Der Nachteil: Der Plan kann etwas mechanisch wirken. Er erledigt die Aufgabe, tendiert aber dazu, weder die methodischen Feinheiten, die Claude anspricht, noch die Parallelisierungs-Insights von GPT-5.5 zu betonen. Das entspricht Geminis generellerem Muster – stark im Reasoning, nüchterner bei den umliegenden Ermessensfragen.

Was das aussagt

Die Reasoning-Qualität ist bei dieser Aufgabe bei allen drei Modellen hoch. Die Unterschiede liegen im umgebenden Verhalten – was das Modell über die wörtliche Anfrage hinaus hinzufügt. GPT-5.5 bringt operative Pragmatik ein (Parallelisierung, Ausführungshinweise). Claude bringt Sorgfalt auf Expertenniveau (Methodik, Edge Cases, statistische Nuancen). Gemini bringt Klarheit und Ökonomie. Keine dieser Entscheidungen ist „falsch“. Welche zu Ihrer Anwendung passt, hängt davon ab, was das Modell tun soll, wenn es mit der Aufgabe, die Sie gestellt haben, fertig ist.

Prompt 3: Codegenerierung mit spezifischen Auflagen

Dieser Prompt bittet die Modelle, eine kleine, aber nicht triviale Funktion zu implementieren: eine Python-Funktion, die eine Liste zeitgestempelter Ereignisse entgegennimmt und die längste Lücke zwischen aufeinanderfolgenden Ereignissen zurückgibt, wobei vier Randfälle zu behandeln sind. Die Auflagen sind explizit; das Ziel ist es, Codegenerierung unter Auflagen zu testen, nicht die Fähigkeitsgrenze – jedes Modell kann diese Funktion schreiben. Variieren tut, wie sie die Auflagen einhalten.

Der Prompt

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:&nbsp;&nbsp;1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;2. Single event&nbsp;&nbsp;3. Duplicate timestamps&nbsp;&nbsp;4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

Worauf Sie achten sollten

Ob das Modell alle vier Randfälle adressiert oder einige stillschweigend auslässt. Ob die Type Hints präzise sind oder Boilerplate. Ob die Implementierung einen vertretbaren Algorithmus wählt (sortieren, dann scannen) oder etwas Exotisches. Und ob das Modell die Auflage „keine Tests, keine Beispielfälle“ am Ende des Prompts respektiert – das ist die Art von später Prompt-Instruktion, die Modelle mit starken Instruction-Following-Fähigkeiten befolgen, während schwächere sie leise verletzen.

Was Teams, die das regelmäßig ausführen, konsistent berichten

GPT-5.5. Produziert typischerweise den am gründlichsten ausgearbeiteten Code. Alle vier Randfälle werden mit expliziten Verzweigungen behandelt, Type Hints sind präzise (oft inklusive Optional oder Union für Rückgabewerte in Randfällen), und ein Docstring mit Beispielaufrufen ist dabei. Die Implementierung wählt üblicherweise den naheliegenden Algorithmus – sortieren, scannen, maximale Lücke verfolgen – und ist korrekt. Wissenswert: GPT-5.5 fügt oft Unit-Tests oder Anwendungsbeispiele hinzu, selbst wenn der Prompt ausdrücklich nur nach der Funktion fragt. Das ist der Trade-off bei operativ-pragmatischen Modellen – sie fügen die Dinge hinzu, von denen sie denken, dass Sie sie brauchen, selbst wenn Sie darum gebeten haben, es nicht zu tun.

Claude Sonnet 4.6. Produziert meistens den am besten lesbaren Code. Die Funktion ist knapp, Randfälle werden mit einem sauberen Guard-Clause-Muster am Anfang behandelt, Type Hints sind korrekt und minimal. Claude fügt oft einen durchdachten Kommentar hinzu, der eine Ermessensentscheidung erklärt, die der Prompt offen ließ – etwa bei doppelten Zeitstempeln, sie als Lücken der Länge null zu behandeln und zu begründen, warum das vertretbar ist. Claude respektiert die „keine Tests“-Auflage in der Regel zuverlässiger als GPT-5.5. Die Funktion selbst ist die am besten wartbare der drei. Konsistent mit Claudes Ruf in Sachen Codequalität: sauber, idiomatisch, mit Expertennote.

Gemini 3.1 Pro. Produziert meist den ökonomischsten Code der drei. Die Funktion ist korrekt, Randfälle behandelt, Implementierung am kürzesten. Docstring meist eine Einzeile. Type Hints vorhanden und korrekt. Geminis Lösung enthält selten Tests oder umfangreiche Kommentare und überingenieurisiert nicht – genau das, was der Prompt verlangt hat. Für eine Entwicklerin, die eine funktionierende Funktion möchte und die Tests separat hinzufügen will, ist dies der direkteste Weg. Für jemanden, der möchte, dass das Modell die umliegende Arbeit ebenfalls übernimmt, liefern die anderen beiden mehr (ob Sie darum gebeten haben oder nicht).

Was das aussagt

Alle drei Modelle können die Funktion schreiben. Der Unterschied im Verhalten liegt darin, wie viel „umliegende“ Arbeit jedes Modell über die wörtliche Anfrage hinaus leistet – und wie gut jedes die expliziten „füge X nicht hinzu“-Instruktionen befolgt. GPT-5.5 tendiert zur Gründlichkeit, selbst wenn die Gründlichkeit im Prompt abgewählt wurde. Claude tendiert zur Handwerkskunst (lesbarer Code, durchdachte Kommentare zu Ermessensfragen). Gemini tendiert zur Ökonomie (genau das tun, was verlangt wurde, nicht mehr). Für agentische Workflows, in denen die Modellausgabe direkt in eine Produktionscodebasis einfließt, hängt das gewünschte Verhalten davon ab, was Ihr nachgelagerter Review-Prozess erwartet – und davon, wie strikt negative Instruktionen eingehalten werden müssen.

Die entstehenden Muster

Über die drei Prompts hinweg zeigen sich drei konsistente Verhaltensmuster aus Vergleichsstudien und Entwicklerberichten, die 2026 veröffentlicht wurden. Dies sind keine Fähigkeitsbehauptungen – jedes Modell meistert jede Aufgabe auf hohem Niveau. Es sind Tendenzen, die man nur sieht, wenn Teams beobachten, wie dasselbe Modell Dutzende von Prompts bearbeitet. Führen Sie die obigen Prompts in Ihrem eigenen Setup aus, und Sie werden dieselben Muster sehen; der Artikel liefert den Rahmen, um zu erkennen, was Sie betrachten, wenn Sie das tun.

Model	Verhaltenstendenz	Am besten geeignet, wenn …
GPT-5.5	Operativ-pragmatisch. Fügt Ausführungshinweise, defensiven Code und downstream-freundliche Ausgaben hinzu. Stark bei agentischen, Tool-use-geprägten Aufgaben.	Ihre Anwendung die Modellausgabe in weitere Ausführungsketten einspeist – Agents, Workflows oder Pipelines, in denen der nächste Schritt automatisiert ist.
Claude Sonnet 4.6	Sorgfalt auf Expertenniveau. Hebt Erwägungen über die wörtliche Anfrage hinaus hervor, thematisiert Ethik und Methodik, produziert sehr gut lesbaren Code.	Ihre Anwendung eine menschliche Prüfung der Modellausgabe vorsieht – Content-Erstellung, Code-Review, Analysen, bei denen handwerkliche Qualität zählt.
Gemini 3.1 Pro	Ökonomisch und direkt. Tut genau das, was verlangt wurde, nicht mehr. Sauberste Schema-Treue und geringster Token-Output für äquivalente Arbeit.	Ihre Anwendung strikte Ausgabeanforderungen hat, planbare Kosten Priorität haben oder Sie das Modell als präzises Werkzeug statt als reflektierte Kollaborateurin möchten.

Ein wichtiger Vorbehalt. Diese Muster sind Tendenzen, keine Regeln. Jedes Modell lässt sich mit geeignetem Prompting auf jedes dieser Verhaltensmuster steuern – ein hinreichend detaillierter System-Prompt bringt Gemini dazu, Tests hinzuzufügen, oder begrenzt Claude auf Minimal-Ausgaben, oder veranlasst GPT-5.5, die Unit-Tests wegzulassen. Entscheidend ist, was jedes Modell standardmäßig tut, bevor Sie steuern. Das Standardverhalten ist das, womit Sie in der Produktion leben, sofern Sie nicht aktiv entgegenprompten.

So testen Sie mit Ihrem eigenen Workload

Die oben beschriebene Übung ist auf jeden Workload übertragbar – und sollte es auch sein. Benchmark-Scores sind als erster Filter nützlich, aber die Verhaltensmuster der Modelle, die für Ihre spezifische Anwendung zählen, werden nur sichtbar, wenn Sie beobachten, wie die Modelle Ihre spezifischen Prompts bearbeiten.

Ein praktischer Leitfaden zur Durchführung der Übung auf Ihrem eigenen Traffic:

Wählen Sie drei repräsentative Prompt-Kategorien. Nicht drei zufällige Prompts – drei Kategorien, die Ihren Workload abdecken. Die meisten Produktivsysteme lassen sich in eine Handvoll Prompt-Typen zerlegen (Extraktion, Klassifikation, Generierung, Reasoning, Code, Zusammenfassung). Wählen Sie die Kategorien, die den Großteil Ihres Traffics ausmachen.
Kurieren Sie 20–30 Beispiele pro Kategorie. Ideal aus echtem Traffic. Anonymisieren Sie bei Bedarf. Entscheidend ist, dass die Prompts so aussehen, wie Ihre Anwendung sie tatsächlich sieht, nicht wie Benchmark-Fragen. Zwanzig Beispiele pro Kategorie reichen, um Muster zu erkennen; dreißig, um sicher zu sein.
Lassen Sie alles über einen Endpunkt mit allen Modellen laufen. Ein OpenAI-kompatibler Aggregator-Endpunkt macht das dramatisch schneller, als jedes Modell über sein eigenes SDK anzusprechen. Der Code am Anfang dieses Artikels ist das gesamte Setup. Dieselbe Temperature, dieselben Parameter, derselbe Prompt – die Unterschiede in der Ausgabe sind die Modellunterschiede.
Bewerten Sie erst qualitativ, dann quantitativ. Schauen Sie sich die Ausgaben zunächst an. Die Verhaltensmuster sind meist innerhalb der ersten Dutzend Prompts offensichtlich. Sobald Sie eine Hypothese haben, wie sich jedes Modell auf Ihrem Workload verhält, können Sie eine Bewertungsrubrik konstruieren – aber die Hypothese entsteht durch Beobachtung, nicht durch eine vorgefertigte Bewertungsmatrix.
Achten Sie darauf, was das Modell hinzufügt. Die Benchmark-Frage ist, ob das Modell die richtige Antwort gibt. Die Verhaltensfrage ist, was das Modell sonst noch tut. Fügt es Tests hinzu? Erklärt es sein Vorgehen? Hebt es Bedenken hervor? Produziert es zusätzliche Felder, die Sie nicht angefragt haben? Hier liegen die Modellunterschiede.
Wählen Sie das Modell, das zu Ihrem Downstream-Muster passt. Ist Ihr nachgelagerter Prozess automatisiert, wollen Sie ein Modell, dessen Standardverhalten saubere, parsebare Ausgaben liefert. Ist Ihr nachgelagerter Prozess menschliche Prüfung, wollen Sie ein Modell, dessen Standardverhalten die Art von umgebendem Urteil beisteuert, die eine menschliche Prüferin sehen möchte. Die richtige Wahl hängt davon ab, was nach dem Modell kommt.

Fazit

Die Wahl zwischen GPT-5.5, Claude Sonnet 4.6 und Gemini 3.1 Pro dreht sich nicht darum, welches Modell „am besten“ ist. Es geht darum, welches Modell zur Form Ihres Workloads passt – und diese Form können Benchmarks nicht sehen. Die oben beschriebene Übung lässt sich an einem Nachmittag durchführen, wenn Sie die Prompts kuratiert haben; der Wert liegt darin, dass Sie aufhören zu raten und anfangen zu beobachten.

Für Teams, die die Übung selbst durchführen: Am einfachsten ist ein einzelner OpenAI-kompatibler Endpunkt, der alle drei Modelle hinter einem Credential bereitstellt. CometAPI ist ein Weg; Sie richten Ihr bestehendes OpenAI-SDK auf eine andere Base-URL, und der model-Parameter wird zur Variablen.

Benchmarks sagen Ihnen, was ein Modell kann. Verhaltensmuster sagen Ihnen, was ein Modell standardmäßig bei Ihren Prompts tun wird. Die erste Antwort ist veröffentlicht. Die zweite müssen Sie selbst beobachten. Zwanzig Prompts pro Kategorie, ein Nachmittag, und Sie haben eine Antwort, die keine Bestenliste je liefern wird.

Bereit für eine verlässliche Integration? Gehen Sie zu CometAPI und zur API-Dokumentation für nahtlosen Zugriff auf Claude Fable 5 neben anderen Frontier-Modellen, einheitliches Billing und Enterprise-taugliche Zuverlässigkeit. Melden Sie sich noch heute an und starten Sie mit großzügigen Credits für neue Nutzerinnen und Nutzer – Ihr nächstes Durchbruchprojekt wartet.

GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Was kein Benchmark verrät

Was Benchmarks messen – und was sie nicht erfassen

Das Setup

Prompt 1: Strukturierte Extraktion aus einem unordentlichen Dokument

Der Prompt

Worauf Sie achten sollten

Was Teams, die das regelmäßig ausführen, konsistent berichten

Was das aussagt

Prompt 2: Eine reasoning-lastige Planungsaufgabe

Der Prompt

Worauf Sie achten sollten

Was Teams, die das regelmäßig ausführen, konsistent berichten

Was das aussagt

Prompt 3: Codegenerierung mit spezifischen Auflagen

Der Prompt

Worauf Sie achten sollten

Was Teams, die das regelmäßig ausführen, konsistent berichten

Was das aussagt

Die entstehenden Muster

So testen Sie mit Ihrem eigenen Workload

Fazit

Bereit, die KI-Entwicklungskosten um 20 % zu senken?

Mehr lesen