Die Preisgestaltung ist die folgenreichste Entscheidung bei der Wahl eines Frontier-LLM – und gleichzeitig die Dimension, bei der die meisten veröffentlichten Vergleiche innerhalb eines Quartals veralten. Dieser Beitrag räumt damit auf. Unten finden Sie eine aktuelle, belegte Übersicht über die Preise pro Eingabe- und Ausgabetoken für die vier Modelle, die 2026 den Großteil des produktiven Frontier-Model-Traffics ausmachen (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash und DeepSeek’s V4), zusammen mit den Hebeln, die Ihre Rechnung im großen Maßstab spürbar verändern: Prompt-Caching, Batch-Verarbeitung und Aufschläge für lange Kontexte.
Der Beitrag kreist um zwei Fragen. Erstens: Was kostet jedes Modell zum Listenpreis pro Million Tokens und wie verhalten sich die angegebenen Sätze bei den Inputs und Outputs, die eine Produktionsrechnung tatsächlich treiben? Zweitens: Wenn Sie eine repräsentative Arbeitslast ansetzen (100 Millionen Tokens pro Monat, 80% Input und 20% Output, mit realistischen Cache-Trefferquoten), wie hoch ist die monatliche Rechnung in Dollar pro Modell? Die erste Antwort etabliert die Preisliste; die zweite zeigt, was aus dieser Preisliste wird, sobald sie auf ein reales Produktionsmuster trifft.
Kurzfassung: Über die vier Frontier-Modelle hinweg erstreckt sich die Listenpreis-Spanne über grob zwei Größenordnungen. DeepSeek V4 ist mit $0.435 pro Million Eingabetokens am günstigsten; Claude Opus 4.7 ist mit $5.00 am teuersten. Die Struktur Ihres Workloads – insbesondere Ihre Cache-Trefferquote und Ihr Input-zu-Output-Verhältnis – entscheidet in der Praxis, welches Modell am günstigsten ist, oft stärker als es die Preisliste vermuten lässt.
Warum ein Eins-zu-eins-Preisvergleich schwieriger ist, als es aussieht
Die Preisübersichten der Anbieter sind für deren eigene Kunden geschrieben – nicht für jemanden, der vier Optionen Seite an Seite bewertet. Das führt zu drei hartnäckigen Fallstricken:
- Tokens sind nicht bei allen Anbietern gleich. Claude Opus 4.7 wird mit einem neuen Tokenizer ausgeliefert, der für denselben Eingabetext bis zu 35% mehr Tokens erzeugen kann als Opus 4.6. Der Tokenizer von Gemini unterscheidet sich von dem von OpenAI. Die Preisliste gilt pro Million Tokens, aber die Tokenanzahl für denselben Prompt variiert zwischen Anbietern – die Schlagzeile ist also nur eine erste Näherung der relativen Kosten.
- Preisstufen für lange Kontexte erzeugen Kostensprünge. OpenAI’s GPT-5.5 Familie hat separate Sätze für kurze und lange Kontexte, die ab ~270K Tokens greifen. Anthropic hält hingegen denselben Satz über das gesamte 1M-Kontextfenster. Workloads in der Nähe dieser Schwellen werden ganz anders bepreist als Workloads, die deutlich darunter bleiben.
- Rabatte werden kumuliert, nicht getrennt. Prompt-Caching, Batch-Verarbeitung und anbieter-spezifische Volumenstufen können die effektiven Kosten drastisch senken – und sie kumulieren. Eine gecachte Batch-Anfrage bei Anthropic kann nur 5% einer normalen, nicht gecachten Anfrage kosten. Ein Vergleich, der diese Hebel ignoriert, überschätzt die Listenpreise – teils um eine Größenordnung.
Der Vergleich unten normalisiert diese Fallstricke, wo möglich, und weist sie dort aus, wo es nicht geht.
Der Frontier-LLM-Preisvergleich 2026
Alle Werte in US-Dollar pro Million Tokens. Quellen: Offizielle Preisdokumentationen der Anbieter, Stand: Mai 2026.
| Model | Input | Output | Cached input | Batch (50% off) | Context window | Long-context surcharge |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Ja (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Keine |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Keine |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Ja (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Nicht angeboten | 384K | Keine |
Die Tabelle lesen: Cached input ist der Satz für Tokens, die aus dem Prompt-Cache bedient werden (typischerweise System-Prompts, Few-Shot-Beispiele oder Dokument-Präfixe, die sich über Anfragen hinweg wiederholen). Batch ist der Satz für asynchrone Workloads mit bis zu 24 Stunden Latenz. Long-context surcharge gibt an, ob der Anbieter oberhalb einer Kontextlänge die Preise anhebt; sofern ja, ist die Schwelle in Klammern angegeben.
Wo jedes Modell punktet
GPT-5.5: der leistungsfähigste Standard für anspruchsvolle Reasoning- und agentische Arbeit
GPT-5.5 ist OpenAI’s Frontier-Modell für komplexe professionelle Workloads: Coding-Agents, mehrschrittige Planung, lang andauernde Tool-Nutzung und Dokumentanalyse, bei der Reasoning-Tiefe die dominante Anforderung ist. Es ist zugleich das teuerste der großen US-Frontier-Modelle beim Input ($5.00 pro Million) und das höchste beim Output ($30.00 pro Million) – es rechtfertigt seine Position bei Workloads, in denen die Alternative wäre, einem anderen Modell Flaggschiffpreise zu zahlen, das die Aufgabe weniger zuverlässig löst. GPT-5.5 unterstützt Caching mit 90% Rabatt, Batch-Verarbeitung mit 50% Rabatt, und die Langkontext-Preise greifen ab etwa der 270K-Token-Marke – relevant für sehr große Codebasen oder Full-Repository-Kontexte, nicht jedoch für typische RAG-Workloads.
Claude Sonnet 4.6: die empfohlene Standardwahl für den Großteil des Produktions-Traffics
Sonnet 4.6 ist Anthropic’s empfohlenes Modell für die Mehrzahl produktiver Workloads – dank seines Preis-Leistungs-Verhältnisses. Mit $3 Input und $15 Output pro Million Tokens liegt es bei beiden Sätzen unter GPT-5.5 und liefert nahezu Opus-Qualität bei den Workloads, die die meisten Produktionssysteme dominieren: Coding, Analyse, RAG-Pipelines, kundenseitiger Chat und strukturierte Ausgabeerzeugung. Das besondere Preismerkmal von Sonnet ist, dass das gesamte 1M-Token-Kontextfenster zu Standardraten verfügbar ist (kein Aufschlag für lange Kontexte) – damit ist es die günstigste glaubwürdige Option für Workloads, die gelegentlich sehr lange Dokumente oder ganze Repositories einlesen müssen. Prompt-Caching reduziert gecachten Input auf 10% des Standards – entscheidend für jeden Workload mit stabilem System-Prompt.
Gemini 3.5 Flash: das aggressiv bepreiste Flaggschiff für kurze Kontexte
Gemini 3.5 Flash ist beim reinen API-Preis das günstigste Flaggschiff-Modell eines großen US-Anbieters: $1.50 Input und $9.00 Output pro Million Tokens. Für den Großteil des Produktions-Traffics ist das die relevante Preisstufe – sie unterbietet sowohl GPT-5.5 als auch Claude Opus 4.7 deutlich. Höhere Preise als bei früheren Flash-Modellen führen in tokenintensiven agentischen Szenarien zu höheren Gesamtkosten (5.5x Intelligence Index cost vs. Gemini 3 Flash due to pricing + usage).. Eine weitere Besonderheit ist die wirklich kostenlose Stufe im Google AI Studio, nützlich fürs Prototyping, aber für Produktionskostenmodelle nicht relevant.
DeepSeek V4: dramatisch günstiger – mit wichtigen Einschränkungen
DeepSeek V4 listet mit $0.435 pro Million Eingabetokens und $0.87 pro Million Ausgabetokens – das ist je nach Vergleich fünf- bis siebzigmal günstiger als die US-Frontier-Modelle. Das Modell selbst ist in vielen Benchmarks wettbewerbsfähig, insbesondere bei Reasoning und Code. Die Einschränkungen sind wichtig: Daten werden in China verarbeitet, was für regulierte Workloads teils ein Ausschlusskriterium ist; die Qualität im Englischen ist stark, aber das Modell ist anders optimiert als die US-Frontier-Modelle – Head-to-Head-Tests auf Ihrem spezifischen Workload sind daher unerlässlich. Wo diese Einschränkungen akzeptabel sind, verändert DeepSeek die Kostenrechnung tatsächlich grundlegend.
Hinweis zu Claude Opus 4.7 vs. Sonnet 4.6. Opus ist der Vollständigkeit halber in der Tabelle enthalten, aber für die große Mehrheit des Produktions-Traffics ist Sonnet 4.6 die wirtschaftlichere Wahl. Opus kostet 1,67x von Sonnet bei Input und Output, und für Workloads, bei denen Sonnet ausreicht (was auf die meisten zutrifft), hat dieser Aufpreis keinen ausgleichenden Nutzen. Greifen Sie zu Opus, wenn Evaluierungen zeigen, dass Sonnet bei einer spezifischen Aufgabenklasse versagt: hochautonome Coding-Agents, längerfristige professionelle Workflows und Aufgaben, bei denen Instruktionsbefolgung am Rand den Ausschlag gibt.
Beispielrechnung: Was 100 Millionen Tokens pro Monat tatsächlich kosten
Listenpreise pro Million Tokens sagen wenig aus, bis sie auf eine repräsentative Arbeitslast treffen. Das Beispiel unten nutzt ein Profil, das grob einem nicht trivialen Produktionssystem entspricht: 100 Millionen Tokens pro Monat, aufgeteilt in 80% Eingabe (80M) und 20% Ausgabe (20M), mit einer Cache-Trefferquote von 30% auf dem Eingabeanteil. Dieses Muster repräsentiert typischerweise einen kundenseitigen Chat- oder RAG-Workload mit stabilem System-Prompt und Dokumentkontext.
Die Rechnung je Modell: Kosten für gecachte Eingabe + ungecachte Eingabe + Output. Gecachte Eingabe wird bei den Anbietern mit Caching mit 10% des Standardsatzes abgerechnet.
| Model | Gecachte Eingabe (24M) | Ungecachte Eingabe (56M) | Ausgabe (20M) | Monatliche Gesamtrechnung |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Was das aussagt. Bei einer repräsentativen Arbeitslast kostet Sonnet 4.6 ungefähr die Hälfte von GPT-5.5. DeepSeek liegt in einer völlig anderen Kostenwelt. Das sind Listenpreise; wo möglich, halbiert Batch-Verarbeitung die Eingabe- und Ausgabekosten zusätzlich (Cache-Treffer ausgenommen).
Zwei Beobachtungen zum Mitnehmen. Erstens: Caching ist der mit Abstand wirkungsstärkste Hebel, den Sie steuern. Das Beispiel oben nimmt 30% Cache-Trefferquote an; erhöhen Sie sie auf 60% (bei stabilen System-Prompts gut erreichbar), sinken die Gesamtkosten um grob weitere 25%. Zweitens: Das Input-zu-Output-Verhältnis ist sehr wichtig. Output-lastige Workloads (Zusammenfassungen, Longform-Schreiben) begünstigen Anbieter mit günstigeren Output-Sätzen; Input-lastige Workloads (Langkontext-Analyse, große RAG-Retrievals) begünstigen Anbieter mit günstigen Input-Sätzen und ohne Aufschlag für lange Kontexte.
Die versteckten Kosten, die nicht auf der Preisseite stehen
Listenpreise sind die Untergrenze, nicht die Obergrenze. Fünf zusätzliche Kostenfaktoren sollten Sie explizit einkalkulieren, da sie Teams beim Skalieren vom Prototyp in die Produktion regelmäßig überraschen:
- Reasoning-Tokens. Modelle mit erweiterten Reasoning-Modi (GPT-5.5 Thinking, DeepSeek V4 Thinking Mode) erzeugen internes Reasoning, das als Ausgabetokens zählt. Ein einzelner, aufwendiger Reasoning-Call auf einem langen Prompt kann 20.000 Reasoning-Tokens verursachen – das sind $0.60 Output-Kosten auf GPT-5.5, bevor die sichtbare Antwort erzeugt wird. Budgetieren Sie pro Workload, nicht pro Request.
- Aufschläge für lange Kontexte. Sowohl Gemini 3.5 Flash als auch GPT-5.5 erhöhen die Sätze oberhalb einer Kontextlänge. RAG-Pipelines mit großen Dokumenten können unbemerkt jede Anfrage in die höhere Preisstufe schieben – bis die Rechnung kommt. Messen Sie die tatsächlichen Prompt-Längen in der Produktion und prüfen Sie, ob Sie die Schwelle überschreiten.
- Multiplikatoren für Data Residency. Anthropic erhebt einen Aufpreis von 10% für ausschließlich US-basierte Inferenz auf Opus 4.7 und Sonnet 4.6. OpenAI wendet einen Aufschlag von 10% auf Data-Residency-Endpunkte für die GPT-5.4 Familie an. Für regulierte Workloads, bei denen das zählt, gehört das von Tag eins an in die Preisliste.
- Zunahme der Ausführlichkeit der Ausgaben. Wenn eine neue Modellversion standardmäßig gründlicher ist (wie Berichten zufolge Opus 4.7 gegenüber Opus 4.6), können die Ausgabetokens pro Antwort zunehmen, auch wenn die Eingabelänge konstant bleibt. Bei Anthropic ist Output 5x teurer als Input – 20% mehr Ausführlichkeit bedeuten 20% mehr Kosten beim dominanten Kostentreiber.
- Fehlgeschlagene und erneut versuchte Anfragen. Die meisten Anbieter berechnen keine 4xx- und 5xx-Fehler, wohl aber Teil-Generierungen und Retries, die im zweiten Anlauf erfolgreich sind. In Produktionssystemen mit aktivem Retry-Mechanismus kann das der Rechnung ein paar Prozent hinzufügen. Wichtig für den Abgleich von Anbieterrechnungen mit erwarteten Kosten.
Wie CometAPI hineinpasst
Alle vier dieser Modelle, plus 500+ weitere, sind über CometAPI auf einem einzigen OpenAI-kompatiblen Endpoint verfügbar – mit einem Credential, vereinheitlichter Abrechnung und ohne Einrichtung separater Providerkonten. Die Preise auf CometAPI werden pro Token zu denselben pro Modell veröffentlichten Sätzen der zugrunde liegenden Anbieter gemessen; Guthaben wird im Voraus gekauft und auf beliebige Modelle im Katalog angewendet. Der Wert der Nutzung von CometAPI ist operativ statt pro Token: ein Credential, eine Rechnung und die Möglichkeit, von GPT-5.5 auf Claude Sonnet 4.6 auf Gemini 3.5 Flash durch das Ändern eines einzelnen Strings im Code zu wechseln.
Es gibt Workloads, bei denen der direkte Zugang zum Anbieter die richtige Wahl ist. Wenn Sie einen Single-Model-Workload mit sehr hohem Volumen auf einem Anbieter mit ausgehandeltem Enterprise-Vertrag betreiben, sind die Unit Economics direkt günstiger. Wenn Ihre Compliance-Position eine spezifische Vendor-of-Record-Beziehung erfordert, verkompliziert ein Aggregator dieses Gespräch eher, statt es zu vereinfachen. Für die Mehrheit der Teams mit Multi-Model-Produktions-Workloads ist jedoch der operationale Aufwand, drei oder vier direkte Anbieterbeziehungen zu managen, selbst ein spürbarer Kostenfaktor – einer, den die Preisliste nicht abbildet.
Probieren Sie den Vergleich mit Ihrem Workload aus. Die Free Tier auf CometAPI erlaubt Ihnen, denselben Prompt gegen GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash und DeepSeek V4 von einem einzigen Endpoint aus laufen zu lassen – ohne separate Anmeldungen. Für eine workloadspezifische Kostenentscheidung ist diese einstündige Übung wertvoller als jeder je veröffentlichte Preisvergleich.
So nutzen Sie diesen Vergleich
Das richtige Modell für Ihren Workload hängt davon ab, welche Dimension der Preisliste für die Form Ihres Traffics am wichtigsten ist. Ein praktischer Entscheidungsrahmen:
- Wenn Reasoning-Tiefe der Engpass ist (agentische Workflows, komplexe mehrschrittige Planung, die schwierigsten Coding-Aufgaben), starten Sie mit GPT-5.5 oder Claude Opus 4.7. Der Aufpreis ist real, aber auf diesen Workloads verdient.
- Wenn Sie das beste Preis-Leistungs-Verhältnis für allgemeinen Produktions-Traffic wollen, ist Claude Sonnet 4.6 die empfohlene Standardwahl. Nahezu Frontier-Fähigkeiten, volles 1M-Kontextfenster zu Standardsätzen und starkes Caching.
- Wenn Sie kostenempfindlich sind und Ihr Workload unter 200K Kontext bleibt, ist Gemini 3.5 Flash die günstigste glaubwürdige Flaggschiff-Option eines großen US-Anbieters.
- Wenn Ihr Workload hochvolumig und preisdiktiert ist und DeepSeek’s Data-Residency-Haltung akzeptabel ist, verändert V4 die Kostenrechnung so stark, dass sich eine ernsthafte Evaluation lohnt – insbesondere für Batch-förmige Workloads.
Wollen Sie bei der Kostenoptimierung weiter gehen? Die obigen Preisdaten sind die Grundlage fürs Routing: die Praxis, unterschiedliche Queries an unterschiedliche Modelle zu senden, je nachdem, welches sie zum niedrigsten Preis bewältigt. Der Begleitartikel, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, führt durch die Routing-Muster, die diese Preisliste in reale Einsparungen auf Ihrer Monatsrechnung verwandeln.
