Es gibt eine ganz bestimmte Art von Meeting, die in jedem Team stattfindet, das auf Spitzenniveau mit LLMs arbeitet. Jemand teilt die neueste Benchmark-Bestenliste. Jemand anderes weist darauf hin, dass sich die Platzierungen seit letztem Monat verschoben haben. Eine dritte Person merkt an, dass das Modell, das ihr Team derzeit verwendet, bei einer Metrik, von der vor drei Wochen noch niemand gehört hatte, um zwei Positionen gefallen ist. Am Ende des Meetings ist sich niemand sicher, ob man migrieren sollte, und das Gespräch wird auf das nächste Quartal verschoben.
Das Problem bei diesem Meeting sind nicht die Personen darin. Es ist, dass Benchmarks synthetische Aufgaben messen – und Ihr Produkt ist keine synthetische Aufgabe. Die Bestenliste sagt Ihnen, wie ein Modell auf MMLU, auf SWE-bench Verified, auf GPQA Diamond abschneidet — Tests, die von Forschenden so entworfen wurden, dass sie modellübergreifend messbar sind. Keiner dieser Tests sieht aus wie die Prompts, die Ihre Anwendung in der Produktion tatsächlich sendet. Keiner davon erfasst, wie ein Modell mit genau der Art von unordentlichem, domänenspezifisch geformtem Input umgeht, den Ihre Nutzer erzeugen.
Dieser Beitrag führt durch die genaue Übung, die Benchmarks nicht leisten können. Drei konkrete Prompts, die an GPT-5.5, Claude Sonnet 4.6 und Gemini 3.1 Pro über denselben OpenAI-kompatiblen Endpunkt geschickt werden, mit denselben Temperature-Einstellungen und ohne zusätzliche Prompting-Tricks. Die Prompts decken drei Kategorien ab, die die meisten Produktions-Workloads berühren: strukturierte Extraktion aus einem unordentlichen Dokument, eine reasoning-intensive Planungsaufgabe und Codegenerierung unter Auflagen. Die folgenden Beobachtungen sind die Verhaltensmuster, von denen Teams, die solche Vergleiche durchführen, konsistent berichten — die Muster, die Sie selbst sehen würden, wenn Sie diese Prompts in Ihrem eigenen Setup laufen lassen.
Auf den Bestenlisten liegen diese drei Modelle bei SWE-bench Verified innerhalb von 0,8 Prozentpunkten. In der Praxis verhalten sie sich sehr unterschiedlich. Die Wahl zwischen ihnen geht nicht darum, welches im Benchmark am höchsten punktet — sondern welches Verhaltensmuster zu Ihrem Workload passt.
Was Benchmarks messen – und was sie übersehen
Benchmarks existieren, weil sie es müssen. Die Modellanbieter brauchen standardisierte Tests, um Fähigkeitsansprüche zu erheben, Forschende brauchen sie für Vergleichspublikationen, und der Rest von uns braucht sie als objektiven Ausgangspunkt, um Modelle zu evaluieren. Sie sind nützlich. Sie sind aber auch in für die Produktion relevanter Weise unvollständig.
Drei spezifische Einschränkungen sind es wert, ausdrücklich benannt zu werden, denn jede taucht in den untenstehenden Prompt-Beispielen auf.
- Benchmarks messen isolierte Fähigkeiten, keine Verhaltensmuster. SWE-bench Verified sagt Ihnen, ob ein Modell eine bestimmte Art von GitHub-Issue lösen kann. Es sagt Ihnen nicht, ob das Modell einfache Probleme übermäßig aufwendig löst, ob es bei uneindeutigem Prompt klärende Fragen stellt oder ob es beim ersten Versuch eine Ausgabe liefert, die der von Ihnen gewünschten Struktur entspricht. Das sind die Dinge, die Sie im Produktionsalltag täglich beobachten.
- Auf Benchmarks wird hin optimiert. Wenn eine Modellveröffentlichung ihre Punktzahl auf einem bestimmten Benchmark prominent hervorhebt, ist das ein Signal, dass das Modell zumindest teilweise für diesen Benchmark optimiert wurde. Performance in der realen Welt und im Benchmark können — teils erheblich — auseinanderlaufen, sobald das Modell die Bedingungen verlässt, für die der Benchmark entworfen wurde.
- Benchmarks aggregieren. Ein Unterschied von 0,8 Prozentpunkten bei der SWE-bench-Verified-Punktzahl kann verschleiern, dass Modell A in einer spezifischen Aufgabenklasse deutlich besser und in einer anderen schlechter ist, während Modell B durchgehend konsistent ist. Aggregation faltet Informationen zusammen, die Sie für eine Entscheidung brauchen.
Die folgende Übung ist so angelegt, dass sie genau die Art von Informationen sichtbar macht, die Benchmarks wegaggregieren. Es geht nicht darum, einen Sieger zu küren — sondern zu zeigen, welche Fragen Sie stellen sollten, wenn Sie dieselbe Übung auf Ihren eigenen Prompts durchführen.
Das Setup
Drei Prompts, ausgewählt, weil sie Kategorien abbilden, die die meisten Produktions-Workloads treffen. Das Setup: Jeder Prompt wird an alle drei Modelle mit identischen Parametern geschickt (Temperature 0,3, kein System-Prompt-Override, Standard-Antwortformat), über einen einzigen OpenAI-kompatiblen Endpunkt, damit der Vergleich „Apples-to-Apples“ bleibt — keine anbieterspezifischen SDK-Eigenheiten, keine unterschiedlichen Parameterabbildungen, kein Risiko, dass ein Modell Sonderbehandlung erhält, weil die Anfrage anders konstruiert ist.
Die Prompts selbst stehen unten als Code-Blöcke, die Sie kopieren und ausführen können. Die Verhaltensbeschreibungen im Anschluss sind die Muster, von denen Teams bei solchen Vergleichen konsistent berichten — Muster, die in mehreren Drittstudien im Jahr 2026 dokumentiert sind und die Sie voraussichtlich selbst sehen, wenn Sie diese Prompts in Ihrem eigenen Setup laufen lassen. Es selbst laufen zu lassen ist der Punkt; der Artikel liefert Ihnen das Gerüst und die Start-Prompts dafür.
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["COMET_API_KEY"], # or replace with your API key
base_url="https://api.cometapi.com/v1", # one endpoint, multiple models
)
MODELS = [
"gpt-5.5",
"claude-sonnet-4-6",
"gemini-3.1-pro",
]
def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
"""
Send the same prompt to all three models and return their responses.
"""
responses = {}
for model in MODELS:
result = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": prompt,
}
],
temperature=temperature,
)
responses[model] = result.choices[0].message.content
return responses
# Example usage
if __name__ == "__main__":
prompt = "Summarise the key risks in this contract."
outputs = run_comparison(prompt)
for model, response in outputs.items():
print(f"\n--- {model} ---")
print(response)
Prompt 1: Strukturierte Extraktion aus einem unordentlichen Dokument
Dies ist das Brot-und-Butter-Thema der Hälfte der 2026 ausgelieferten LLM-Features. Nehmen Sie einen unstrukturierten Input — eine E-Mail, ein Support-Ticket, ein Meeting-Transkript, ein gescanntes Formular — und extrahieren Sie bestimmte Felder in ein strukturiertes Objekt. Der folgende Prompt fordert jedes Modell auf, sieben Felder aus einer bewusst unordentlichen Kundensupport-E-Mail zu extrahieren, die teilweise Informationen, widersprüchliche Signale und ein Feld enthält, das im Quelltext überhaupt nicht vorkommt.
The prompt
You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys: - customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing", "returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)
Email:---Hi there, I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened. Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester. Margaret W.--- Return only the JSON object. No commentary, no markdown code fences.
Worauf zu achten ist
Drei Dinge. Erstens, ob das Modell sich ohne Erfindungen an das angeforderte JSON-Schema hält. Zweitens, wie das Modell mit dem Feld umgeht, das im Quelltext nicht vorhanden ist (escalation_history — die Kundin erwähnt keinen früheren Kontakt zu diesem konkreten Problem) — gesteht es die Abwesenheit ein oder fabriziert es plausibel? Drittens, ob das Modell zusätzliche Kommentare außerhalb des JSON produziert, sodass die nachgelagerte Verarbeitung den Wrapper abstreifen muss. Auch das Feld „urgency“ ist beachtenswert: „5 Tage“ ist nicht sofort, aber die Kundin ist klar besorgt — hier gibt es Interpretationsspielraum.
Was Teams, die dies konsistent durchführen, berichten
GPT-5.5. Liefert typischerweise beim ersten Versuch sauberes JSON. Die Schema-Treue ist stark; jedes angeforderte Feld ist vorhanden, und das Format ist ohne Vorverarbeitung parsbar. Bei fehlenden Feldern gibt GPT-5.5 tendenziell explizit null zurück. Gewöhnlich werden die JSON-Daten nicht in Markdown-Codefences verpackt oder mit Text erklärt — die nachgelagerte Verarbeitung ist dadurch trivial. Bei ambivalenten Urteilsfragen wie der Dringlichkeitsbewertung hier ist GPT-5.5 konservativer als die anderen beiden — wo Claude und Gemini das Ticket aufgrund des emotionalen Tons der Kundin als „high“ einstufen, verankert sich GPT-5.5 oft an dem konkreten 5‑Tage-Fenster und landet bei „medium“.
Claude Sonnet 4.6. Liefert ebenfalls sauberes JSON und ist typischerweise am präzisesten in der Befolgung des angeforderten Schemas. Wo GPT-5.5 ein fehlendes Feld als null stehen lässt, fügt Claude oft nicht angeforderte Felder hinzu, die Datenqualitätsprobleme markieren — einen Schlüssel „notes“ oder „data_quality_notes“, der nicht erbeten war, aber wirklich nützliche Informationen enthält. Dieses Zusatzfeld ist für menschliche Prüfer hilfreich, führt aber zu Fehlern, wenn Ihr nachgelagerter Parser strikt auf das Schema prüft. Das ist ein wiederkehrendes Muster bei Claude: hohe Qualität, aber manchmal gründlicher als verlangt, sodass explizite Prompt-Instruktionen erforderlich sind, um einzuschränken.
Gemini 3.1 Pro. Produziert typischerweise die ökonomischste Ausgabe der drei. Alle angeforderten Felder, keine zusätzlichen Felder, kein umgebender Prosatext. Die Schema-Treue ist exakt wie verlangt. Eine erwähnenswerte Eigenheit: Bei fehlenden Feldern gibt Gemini eher einen leeren String zurück als null. Strikte JSON-Parser, die unterscheiden, werden den Unterschied feststellen; lockere Parser nicht. Das Verhalten ist über Läufe hinweg konsistent genug, um als Modellpräferenz zu erscheinen und nicht als Artefakt.
Was das bedeutet
Alle drei Modelle können strukturierte Extraktion. Die Unterschiede liegen im Verhaltensrand rund um das angeforderte Schema. Wenn Ihr nachgelagertes System strikt ist und zusätzliche Felder als Fehler behandelt, sind Gemini 3.1 Pro und GPT-5.5 die sichereren Optionen. Wenn Sie möchten, dass das Modell ungefragt Datenqualitätsprobleme aufzeigt, ist Claude Sonnet 4.6 hilfreicher. Nichts davon erscheint in einem Benchmark.
Prompt 2: Eine reasoning-intensive Planungsaufgabe
Dieser Prompt bittet die Modelle, eine mehrstufige Untersuchung zu planen: eine Forschungsfrage mit drei impliziten Einschränkungen, die ein sorgfältiges Modell identifizieren sollte, bevor es die Arbeit sequenziert. Die Art von Aufgabe, die eine agentische Anwendung an ein LLM als Planungsschritt delegieren würde, bevor Tools aufgerufen werden.
The prompt
I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.
Die impliziten Einschränkungen, auf die es ankommt: Die Frage definiert nie, was „Churn“ bedeutet (Kontoschließung? keine Logins? keine Käufe?), sie spezifiziert nicht, wie Störfaktoren kontrolliert werden sollen (Nutzer mit geringer Aktivität churnen aus vielen Gründen, die nichts mit Feature X zu tun haben), und sie legt keine Baseline-Vergleichsgruppe fest. Ein sorgfältiger Planer sollte alle drei sichtbar machen, bevor die Schritte ausgearbeitet werden.
Worauf zu achten ist
Ob das Modell wirklich durch das Problem hindurch argumentiert oder eine plausibel aussehende Schrittfolge produziert, die bei näherer Betrachtung nicht trägt. Ob es die impliziten Einschränkungen identifiziert, ohne darauf hingewiesen worden zu sein. Und ob die Abhängigkeiten zwischen den Schritten korrekt sind — ein Plan, der gut aussieht, aber Schritt drei von einem Ergebnis abhängig macht, das erst in Schritt fünf entsteht, ist in der Praxis nutzlos.
Was Teams, die dies konsistent durchführen, berichten
GPT-5.5. Liefert typischerweise den operativ am besten nutzbaren Plan. Das Reasoning ist meist sichtbar — GPT-5.5 enumeriert seine Annahmen zu den impliziten Einschränkungen (Churn-Definition, Kontrollgruppe, Störfaktoren), bevor es die Schritte darlegt, wodurch Abweichungen von der intendierten Interpretation leicht erkennbar werden. Schrittabhängigkeiten werden zuverlässig identifiziert und markiert. Die Ausgabe enthält oft einen Abschnitt, der hervorhebt, welche Schritte parallelisiert werden können — nicht erbeten, aber mit echtem Mehrwert. Hier zeigt sich GPT-5.5s Training auf Toolnutzung und Agentik — das Planungsverhalten ist davon geprägt, dass downstream eine Ausführung folgt.
Claude Sonnet 4.6. Liefert typischerweise den „überlegtesten“ Plan im wörtlichen Sinn — Claudes Plan enthält oft Überlegungen, die die anderen beiden Modelle nicht ansprechen. Bei einer Frage wie dieser wird Claude wahrscheinlich das methodische Problem Korrelation vs. Kausalität thematisieren, darauf hinweisen, dass „Feature X in den letzten 30 Tagen nicht genutzt“ eher ein Symptom von Churn als eine Ursache sein könnte, und ausdrücklich nicht genannte, aber relevante Einschränkungen identifizieren. Der Nachteil: Der Plan kann länger als nötig ausfallen, und einzelne Schritte sind manchmal übermäßig aufwendig für die eigentliche Frage. Das Muster ist konsistent mit Claudes Verhalten anderswo — Experten-Sorgfalt, manchmal mehr als die Aufgabe verlangt.
Gemini 3.1 Pro. Liefert typischerweise den am saubersten strukturierten Plan mit der klarsten Abhängigkeitsgrafik. Die Reasoning-Qualität ist hoch — Gemini identifiziert zuverlässig die impliziten Einschränkungen, zerlegt das Problem in eine vertretbare Sequenz und produziert Schritt-für-Schritt-Anweisungen, die tatsächlich ausführbar wären. Der Nachteil: Der Plan wirkt etwas mechanisch. Er erledigt die Aufgabe, bringt aber weder die methodischen Feinheiten, die Claude anspricht, noch die Parallelisierungshinweise, die GPT-5.5 beisteuert. Das passt zu Geminis breiterem Muster — stark in der Reasoning-Qualität, nüchterner bei den umgebenden Ermessensentscheidungen.
Was das bedeutet
Die Reasoning-Qualität ist bei dieser Aufgabe über alle drei Modelle hinweg hoch. Die Unterschiede liegen im, was das Modell über die wörtliche Anforderung hinaus hinzufügt. GPT-5.5 bringt operative Pragmatik (Parallelisierung, Ausführungshinweise). Claude bringt Experten-Sorgfalt (Methodik, Edge Cases, statistische Nuancen). Gemini bringt Klarheit und Ökonomie. Keines davon ist die falsche Wahl. Was zu Ihrer Anwendung passt, hängt davon ab, was das Modell tun soll, wenn es die Aufgabe, die Sie gestellt haben, beendet hat.
Prompt 3: Codegenerierung mit spezifischen Vorgaben
Dieser Prompt fordert die Modelle auf, eine kleine, aber nicht triviale Funktion zu implementieren: eine Python-Funktion, die eine Liste zeitgestempelter Ereignisse entgegennimmt und die größte Lücke zwischen aufeinanderfolgenden Ereignissen zurückgibt, wobei vier Randfälle behandelt werden. Die Vorgaben sind explizit; es geht darum, Codegenerierung unter Auflagen und nicht um die Fähigkeitsobergrenze — jedes Modell kann diese Funktion schreiben. Was variiert, ist, wie sie mit den Auflagen umgehen.
The prompt
Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events. Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases: 1. Empty list (return 0.0 or raise — your choice, but be consistent) 2. Single event 3. Duplicate timestamps 4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.
Worauf zu achten ist
Ob das Modell alle vier Randfälle adressiert oder einige stillschweigend ignoriert. Ob die Type Hints präzise sind oder bloße Schablone. Ob die Implementierung einen vertretbaren Algorithmus wählt (sortieren, dann scannen) oder etwas Exotisches. Und ob das Modell die am Ende des Prompts explizite Einschränkung „keine Tests, keine Anwendungsbeispiele“ respektiert — dies ist die Art später Prompt-Anweisung, die Modelle mit starkem Befolgen von Instruktionen einhalten und schwächere leise verletzen.
Was Teams, die dies konsistent durchführen, berichten
GPT-5.5. Produziert typischerweise den am gründlichsten ausgearbeiteten Code. Alle vier Randfälle werden mit expliziten Zweigen behandelt, Type Hints sind präzise (oft einschließlich Optional oder Union für Randfall-Rückgabewerte), und ein Docstring mit Beispielaufrufen liegt bei. Die Implementierung wählt normalerweise den offensichtlichen Algorithmus — sortieren, scannen, maximale Lücke verfolgen — und ist korrekt. Wichtig zu wissen: GPT-5.5 fügt oft Unit-Tests oder Anwendungsbeispiele hinzu, selbst wenn der Prompt explizit nur die Funktion verlangt. Das ist der Trade-off bei operativ-pragmatischen Modellen — sie fügen die Dinge hinzu, von denen sie glauben, dass Sie sie brauchen, selbst wenn Sie es nicht wünschen.
Claude Sonnet 4.6. Produziert typischerweise den am besten lesbaren Code. Die Funktion ist prägnant, Randfälle werden mit einem sauberen Guard-Clause-Pattern zu Beginn behandelt, Type Hints sind korrekt und minimal. Claude fügt oft einen durchdachten Kommentar hinzu, der eine Ermessensentscheidung erklärt, die der Prompt offenließ — etwa bei doppelten Zeitstempeln, sie als Lückenlänge Null zu behandeln und das Warum zu erläutern, eine vertretbare Entscheidung, die der Prompt nicht spezifizierte. Claude respektiert die „keine Tests“-Vorgabe zuverlässiger als GPT-5.5. Die Funktion selbst ist die wartbarste der drei. Konsistent mit Claudes Ruf für Codequalität: sauber, idiomatisch, mit Expertenflair.
Gemini 3.1 Pro. Produziert typischerweise den ökonomischsten Code der drei. Die Funktion ist korrekt, Randfälle sind behandelt, die Implementierung ist am kürzesten. Docstring in der Regel eine Zeile. Type Hints vorhanden und korrekt. Geminis Lösung enthält selten Tests oder umfangreiche Kommentare und überengineert nicht — genau das, was der Prompt verlangt hat. Für Entwickler, die eine funktionierende Funktion möchten und Tests separat hinzufügen wollen, ist dies der direkteste Weg. Für Entwickler, die möchten, dass das Modell die umliegende Arbeit ebenfalls übernimmt, liefern die anderen beiden mehr (ob Sie darum baten oder nicht).
Was das bedeutet
Alle drei Modelle können die Funktion schreiben. Der Verhaltensunterschied liegt darin, wie viel umgebende Arbeit jedes Modell über die wörtliche Anforderung hinaus leistet — und wie gut es explizite „Füge X nicht hinzu“-Instruktionen respektiert. GPT-5.5 tendiert zur Gründlichkeit, auch wenn die Gründlichkeit im Prompt abgewählt wurde. Claude tendiert zur handwerklichen Qualität (lesbarer Code, durchdachte Kommentare zu Ermessensentscheidungen). Gemini tendiert zur Ökonomie (genau das tun, was verlangt wurde, nicht mehr). Für agentische Workflows, bei denen die Modellausgabe direkt in einen Produktionscodezweig einfließt, hängt das gewünschte Verhalten davon ab, was Ihr nachgelagerter Review-Prozess erwartet — und davon, wie strikt negative Anweisungen eingehalten werden müssen.
Die entstehenden Muster
Über die drei Prompts hinweg treten drei konsistente Verhaltensmuster in den Vergleichsstudien und Entwicklerberichten aus dem Jahr 2026 hervor. Das sind keine Fähigkeitsbehauptungen — jedes Modell bewältigt jede Aufgabe auf hohem Niveau. Es sind Tendenzen, die man nur sieht, wenn Teams beobachten, wie dasselbe Modell Dutzende von Prompts bearbeitet. Führen Sie die obigen Prompts in Ihrem eigenen Setup aus, und Sie werden dieselben Muster sehen; der Artikel hilft Ihnen, das, was Sie sehen, einzuordnen.
| Model | Behavioural tendency | Fits best when… |
|---|---|---|
| GPT-5.5 | Operativ-pragmatisch. Fügt Ausführungshinweise, defensive Programmierung und downstream-freundliche Ausgaben hinzu. Stark bei agentischen und durch Toolnutzung geprägten Aufgaben. | Ihre Anwendung verknüpft die Modellausgabe mit weiterer Ausführung — Agenten, Workflows oder Pipelines, in denen der nächste Schritt automatisiert ist. |
| Claude Sonnet 4.6 | Experten-Sorgfalt. Bringt Überlegungen über die wörtliche Anfrage hinaus ein, spricht Ethik- und Methodikfragen an, produziert sehr gut lesbaren Code. | Ihre Anwendung hat eine menschliche Prüfung der Modellausgabe — Content-Erstellung, Code-Review, Analysen, bei denen handwerkliche Qualität zählt. |
| Gemini 3.1 Pro | Ökonomisch und direkt. Tut genau das, was verlangt wurde, nicht mehr. Sauberste Schema-Treue und geringster Tokenverbrauch für äquivalente Arbeit. | Ihre Anwendung hat strikte Ausgabelimits, vorhersehbare Kosten haben Priorität, oder Sie wollen das Modell als präzises Werkzeug und nicht als „nachdenklichen“ Kollaborateur. |
Ein wichtiger Vorbehalt. Diese Muster sind Tendenzen, keine Regeln. Jedes Modell lässt sich mit geeignetem Prompting in jede dieser Verhaltensweisen steuern — ein ausreichend detaillierter System-Prompt bringt Gemini dazu, Tests hinzuzufügen, oder beschränkt Claude auf eine Minimal-Ausgabe, oder veranlasst GPT-5.5, die Unit-Tests wegzulassen. Entscheidend ist, was jedes Modell standardmäßig tut, bevor Sie es steuern. Das Standardverhalten ist das, womit Sie in der Produktion leben — es sei denn, Sie prompten aktiv dagegen.
So testen Sie auf Ihrem eigenen Workload
Die oben beschriebene Übung ist auf jeden Workload übertragbar — und sollte es auch sein. Benchmark-Punktzahlen sind als Erstfilter nützlich, aber die für Ihre spezifische Anwendung relevanten Modellverhaltensmuster werden nur sichtbar, wenn Sie beobachten, wie die Modelle Ihre spezifischen Prompts bearbeiten.
Eine praktische Anleitung zur Durchführung der Übung auf Ihrem eigenen Traffic:
- Wählen Sie drei repräsentative Prompt-Kategorien. Nicht drei zufällige Prompts — drei Kategorien, die Ihren Workload abdecken. Die meisten Produktionssysteme lassen sich in eine Handvoll Prompt-Typen zerlegen (Extraktion, Klassifikation, Generierung, Reasoning, Code, Zusammenfassung). Wählen Sie die Kategorien, die den Großteil Ihres Traffics ausmachen.
- Kuratieren Sie 20–30 Beispiele pro Kategorie. Idealerweise aus echtem Traffic. Anonymisieren Sie, wo nötig. Der Punkt ist, dass die Prompts so aussehen sollten, wie das, was Ihre Anwendung tatsächlich sieht — nicht wie Benchmark-Fragen. Zwanzig Beispiele pro Kategorie genügen, um Muster zu erkennen; dreißig reichen, um sicher zu sein.
- Lassen Sie sie über einen Endpunkt durchlaufen, alle Modelle. Ein OpenAI-kompatibler Aggregator-Endpunkt macht dies dramatisch schneller, als jedes Modell über sein eigenes SDK anzusprechen. Der Code am Anfang dieses Artikels ist das gesamte Setup. Dieselbe Temperature, dieselben Parameter, derselbe Prompt — die Unterschiede in der Ausgabe sind die Modllunterschiede.
- Bewerten Sie zunächst qualitativ, dann quantitativ. Überfliegen Sie die Ausgaben zuerst. Die Verhaltensmuster sind in der Regel innerhalb der ersten Dutzend Prompts offensichtlich. Sobald Sie eine Hypothese darüber haben, wie sich jedes Modell auf Ihrem Workload verhält, können Sie ein Bewertungsraster konstruieren — aber die Hypothese entsteht aus Beobachtung, nicht aus einer vorgefertigten Bewertungs-Schablone.
- Achten Sie darauf, was das Modell hinzufügt. Die Benchmark-Frage ist, ob das Modell die richtige Antwort gibt. Die Verhaltensfrage ist, was es sonst noch tut. Fügt es Tests hinzu? Erklärt es sein Reasoning? Hebt es Bedenken hervor? Produziert es zusätzliche Felder, die Sie nicht angefordert haben? Hier liegen die Unterschiede zwischen den Modellen.
- Wählen Sie das Modell, das zu Ihrem Downstream-Muster passt. Wenn Ihr nachgelagerter Prozess automatisiert ist, wollen Sie ein Modell, dessen Standardverhalten saubere, parsebare Ausgaben erzeugt. Wenn Ihr nachgelagerter Prozess eine menschliche Prüfung vorsieht, wollen Sie ein Modell, dessen Standardverhalten die Art von umgebendem Urteil hinzufügt, die ein menschlicher Reviewer sehen möchte. Die richtige Antwort hängt davon ab, was nach dem Modell kommt.
Fazit
Die Wahl zwischen GPT-5.5, Claude Sonnet 4.6 und Gemini 3.1 Pro ist nicht die Frage, welches Modell „am besten“ ist. Es ist die Frage, welches Modell zur Form Ihres Workloads passt — und diese Form können Benchmarks nicht sehen. Die obige Übung lässt sich an einem Nachmittag durchführen, wenn Sie die Prompts kuratiert haben; der Wert liegt darin, dass Sie aufhören zu raten und anfangen zu beobachten.
Für Teams, die die Übung selbst durchführen: Das einfachste Setup ist ein einzelner OpenAI-kompatibler Endpunkt, der alle drei Modelle hinter einer einzigen Berechtigung bereitstellt. CometAPI ist ein Weg; Sie zeigen Ihr bestehendes OpenAI-SDK auf eine andere Basis-URL, und der Modellparameter wird zur Variablen. Das Begleitstück, The 2026 LLM API Pricing Comparison, behandelt die Kostenseite derselben Entscheidung — zusammen liefern beide das Verhaltens- und das Finanzbild, das Sie für eine fundierte Wahl brauchen.
Benchmarks sagen Ihnen, was ein Modell kann. Verhaltensmuster sagen Ihnen, was ein Modell standardmäßig bei Ihren Prompts tun wird. Die erste Antwort ist veröffentlicht. Die zweite müssen Sie selbst beobachten. Zwanzig Prompts pro Kategorie, ein Nachmittag — und Sie haben eine Antwort, die keine Bestenliste je liefern wird.
Bereit für zuverlässige Integration? Gehen Sie zu CometAPI und zur API-Dokumentation für nahtlosen Zugriff auf Claude Fable 5 neben anderen Spitzenmodellen, einheitliche Abrechnung und Zuverlässigkeit auf Enterprise-Niveau. Melden Sie sich noch heute an und starten Sie mit großzügigen Credits für neue Nutzer — Ihr nächstes Durchbruchprojekt wartet.
