Der LLM-API-Preisvergleich 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash und DeepSeek V4

Die Preisgestaltung ist die wohl folgenreichste Entscheidung bei der Wahl eines Frontier-LLM, und zugleich die Dimension, bei der die meisten veröffentlichten Vergleiche binnen eines Quartals veralten. Dieser Artikel bringt Klarheit. Nachfolgend finden Sie eine aktuelle, belegte Übersicht der Preise pro Input- und Output-Token für die vier Modelle, die 2026 den Großteil des produktiven Frontier-Modell-Traffics ausmachen (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash und DeepSeek’s V4), zusammen mit den Stellhebeln, die Ihre Rechnung im großen Maßstab wirklich verändern: Prompt-Caching, Batch-Verarbeitung und Zuschläge für langen Kontext.

Das Stück ist um zwei Fragen herum gebaut. Erstens: Was kostet jedes Modell zum Listenpreis pro Million Tokens, und wie vergleichen sich die angegebenen Sätze bei den Inputs und Outputs, die eine Produktionsrechnung tatsächlich treiben? Zweitens: Wenn Sie eine repräsentative Last anlegen (100 Millionen Tokens pro Monat, 80% Input und 20% Output, mit realistischen Cache-Trefferquoten), wie hoch ist die monatliche Rechnung in Dollar für jedes Modell? Die erste Antwort legt die Preisliste fest; die zweite zeigt, was aus dieser Preisliste wird, wenn sie auf ein reales Produktionsmuster trifft.

Kurzfassung: Über die vier Frontier-Modelle hinweg spannt sich die Listenpreisstruktur über rund zwei Größenordnungen. DeepSeek V4 ist mit $0.435 pro Million Input-Tokens am günstigsten; Claude Opus 4.7 ist mit $5.00 am teuersten. Die Form Ihres Workloads, insbesondere Ihre Cache-Trefferquote und Ihr Input-zu-Output-Verhältnis, entscheidet in der Praxis darüber, welches Modell am günstigsten ist – oft stärker, als die Preisliste vermuten lässt.

Warum ein 1:1-Preisvergleich schwieriger ist, als er aussieht

Preisseiten von Anbietern sind für deren eigene Kundschaft geschrieben, nicht für jemanden, der vier Optionen nebeneinander bewertet. Das führt dazu, dass der Vergleich drei dauerhafte Fallstricke produziert:

Tokens sind nicht bei allen Anbietern gleich. Claude Opus 4.7 wird mit einem neuen Tokenizer ausgeliefert, der für denselben Eingabetext bis zu 35% mehr Tokens erzeugen kann als Opus 4.6. Der Tokenizer von Gemini unterscheidet sich von dem von OpenAI. Die Preisliste lautet zwar „pro Million Tokens“, aber die Tokenanzahl für identische Prompts variiert zwischen den Anbietern – der Schlagzeilensatz ist daher nur eine erste Approximation der relativen Kosten.
Preisstufen für lange Kontexte erzeugen Kostensprünge. OpenAI’s GPT-5.5‑Familie hat getrennte Sätze für kurze und lange Kontexte, die etwa ab 270.000 Tokens greifen. Anthropic hält dagegen den gleichen Pro-Token-Satz über das gesamte 1M‑Kontextfenster. Workloads, die nahe an diesen Schwellen liegen, werden ganz anders bepreist als Workloads, die komfortabel unterhalb liegen.
Rabatte addieren sich, sie sind nicht getrennt. Prompt-Caching, Batch-Verarbeitung und anbieterspezifische Volumenstufen können die effektiven Kosten jeweils drastisch senken – und sie kumulieren. Ein gecachter Batch-Request bei Anthropic kann so wenig wie 5% eines standardmäßigen, nicht gecachten Requests kosten. Ein Preisvergleich, der diese Hebel ignoriert, überschätzt Listenpreise mitunter um eine Größenordnung.

Der Vergleich unten normalisiert diese Fallstricke, wo möglich, und weist dort, wo es nicht geht, ausdrücklich darauf hin.

Der Frontier-LLM-Preisvergleich 2026

Alle Zahlen in US-Dollar pro Million Tokens. Quellen: Offizielle Preisdokumentation der jeweiligen Anbieter, Stand Mai 2026.

Modell	Input	Output	Zwischengespeicherter Input	Batch (50% Rabatt)	Kontextfenster	Zuschlag für langen Kontext
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Ja (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Nein
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Nein
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Ja (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Nicht angeboten	384K	Nein

Hinweise zur Tabelle: Zwischengespeicherter Input ist der Satz für Tokens, die aus dem Prompt-Cache bedient werden (typischerweise System-Prompts, Few-Shot-Beispiele oder Dokument-Präfixe, die sich über Anfragen hinweg wiederholen). Batch ist der Satz für asynchrone Workloads mit bis zu 24 Stunden Latenz. „Zuschlag für langen Kontext“ zeigt an, ob der Anbieter oberhalb einer Kontextlängen-Schwelle höhere Sätze berechnet; falls ja, ist die Schwelle in Klammern angegeben.

Wo jedes Modell gewinnt

GPT-5.5: der leistungsfähigste Standard für anspruchsvolles Reasoning und agentische Arbeit

GPT-5.5 ist OpenAI’s Frontier-Modell für komplexe professionelle Workloads: Coding-Agents, mehrstufige Planung, lang andauernde Tool-Nutzung und Dokumentanalysen, bei denen Reasoning-Tiefe die dominante Anforderung ist. Es ist zugleich das teuerste der großen US‑Frontier‑Modelle beim Input ($5.00 pro Million) und am höchsten beim Output ($30.00 pro Million), was bedeutet, dass es seine Position bei Workloads verdient, bei denen die Alternative wäre, einen Flaggschiff-Preis an ein anderes Modell zu zahlen, das das Problem weniger zuverlässig löst. GPT-5.5 unterstützt Caching mit 90% Rabatt, Batch-Verarbeitung mit 50% Rabatt, und Long‑Context‑Preise greifen bei etwa 270.000 Tokens – relevant für sehr große Codebasen oder Full‑Repository‑Kontexte, aber nicht für typische RAG‑Workloads.

Claude Sonnet 4.6: die empfohlene Standardeinstellung für den Großteil des Produktionstraffics

Sonnet 4.6 ist Anthropics empfohlenes Modell für die Mehrheit produktiver Workloads – und das Preis‑Leistungs‑Verhältnis ist der Grund. Mit $3 Input und $15 Output pro Million Tokens liegt es bei beiden Sätzen unter GPT‑5.5, liefert aber nahezu Opus‑Qualität auf den Workloads, die die meisten Produktionssysteme dominieren: Coding, Analysen, RAG‑Pipelines, kundenorientierter Chat und strukturierte Ausgabeerzeugung. Das besondere Preiskriterium bei Sonnet ist, dass das vollständige 1M‑Token‑Kontextfenster zu Standardkonditionen verfügbar ist (es gibt keinen Long‑Context‑Zuschlag). Prompt‑Caching senkt den gecachten Input auf 10% des Standards – entscheidend für jeden Workload mit stabilem System‑Prompt.

Gemini 3.5 Flash: das aggressivst bepreiste Flaggschiff für Workloads mit kurzem Kontext

Gemini 3.5 Flash ist beim reinen API‑Preis das günstigste Modell der Flaggschiff‑Klasse eines großen US‑Anbieters mit $1.50 Input und $9.00 Output pro Million Tokens. Für den Großteil des Produktionstraffics ist das die relevante Preisklasse, und sie unterbietet sowohl GPT‑5.5 als auch Claude Opus 4.7 deutlich. Ein höherer Preis als bei früheren Flash‑Modellen führt zu erhöhten Gesamtkosten in tokenintensiven agentischen Szenarien (5.5x Intelligence‑Index‑Kosten gegenüber Gemini 3 Flash aufgrund von Preis + Nutzung). Ein weiteres Merkmal von Gemini ist das echte Free‑Tier in Google AI Studio, das sich zum Prototyping eignet, aber für Produktionskostenmodelle nicht relevant ist.

DeepSeek V4: dramatisch günstiger, mit erklärungsbedürftigen Einschnitten

DeepSeek V4 listet mit $0.435 pro Million Input‑Tokens und $0.87 pro Million Output‑Tokens – je nach Vergleichsmodell zwischen fünf- und siebzigmal günstiger als die US‑Frontier‑Modelle. Das Modell selbst ist auf vielen Benchmarks wettbewerbsfähig, insbesondere bei Reasoning und Code. Die Einschränkungen sollte man klar benennen: Daten werden in China verarbeitet, was für einige regulierte Workloads ein No‑Go ist; die Qualität im Englischen ist stark, aber das Modell ist anders optimiert als die US‑Frontier‑Modelle, und ein direkter Head‑to‑Head‑Test auf Ihrem spezifischen Workload ist essenziell, nicht optional. Für Workloads, bei denen diese Punkte akzeptabel sind, verändert DeepSeek die Kostenrechnung tatsächlich grundlegend.

Hinweis zu Claude Opus 4.7 vs Sonnet 4.6. Opus ist der Vollständigkeit halber in der Tabelle enthalten, aber für die weitaus meisten Produktions‑Workloads ist Sonnet 4.6 die wirtschaftlichere Wahl. Opus kostet das 1,67‑Fache von Sonnet bei Input und Output, und für Workloads, bei denen Sonnet ausreicht (was die meisten sind), hat diese Prämie keinen ausgleichenden Nutzen. Greifen Sie zu Opus, wenn Evaluierungen zeigen, dass Sonnet bei einer spezifischen Aufgabenklasse versagt: hochgradig autonome Coding‑Agents, langlaufende professionelle Workflows und Aufgaben, bei denen Instruktionsbefolgung am Limit entscheidend ist.

Durchgerechnetes Beispiel: Was 100 Millionen Tokens im Monat tatsächlich kosten

Listenpreise pro Million Tokens sagen wenig aus, bis sie auf eine repräsentative Last treffen. Das folgende Beispiel verwendet ein Profil, das ein nicht triviales Produktionssystem annähert: 100 Millionen Tokens pro Monat, aufgeteilt in 80% Input (80M) und 20% Output (20M), mit einer 30%‑Cache‑Trefferquote auf dem Input‑Anteil. Dieses Muster repräsentiert grob einen kundenorientierten Chat‑ oder RAG‑Workload mit stabilem System‑Prompt und Dokumentkontext.

Die Rechnung pro Modell: Kosten für gecachten Input + nicht gecachten Input + Output. Zwischengespeicherter Input wird bei Anbietern mit Caching zu 10% des Standards berechnet.

Modell	Zwischengespeicherter Input (24M)	Nicht gecachter Input (56M)	Output (20M)	Monatliche Gesamtrechnung
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Was das aussagt. Bei einer repräsentativen Last liegt Sonnet 4.6 bei etwa der Hälfte der Kosten von GPT‑5.5. DeepSeek spielt kostenmäßig in einer völlig anderen Liga. Das sind Listenpreise; die Anwendung von Batch‑Verarbeitung, wo möglich, halbiert die Inputs und Outputs zusätzlich (nicht jedoch die Cache‑Treffer).

Zwei Beobachtungen, die man mitnehmen sollte. Erstens: Caching ist der wirkungsmächtigste Hebel, den Sie steuern. Im obigen Beispiel wird eine 30%‑Cache‑Trefferquote angenommen; erhöhen Sie sie auf 60% (für Workloads mit stabilem System‑Prompt problemlos erreichbar), sinken die Gesamtkosten nochmals um rund 25%. Zweitens: Das Input‑zu‑Output‑Verhältnis zählt sehr. Output‑lastige Workloads (Summarisierung, Long‑Form‑Schreiben) tendieren zu Anbietern mit günstigeren Output‑Sätzen, während Input‑lastige Workloads (Long‑Context‑Analyse, große RAG‑Retrievals) zu Anbietern mit günstigeren Input‑Sätzen und ohne Long‑Context‑Zuschlag tendieren.

Versteckte Kosten, die nicht auf der Preisseite stehen

Listenpreise sind die Untergrenze, nicht die Obergrenze. Fünf zusätzliche Kosten sollten Sie explizit budgetieren, weil sie Teams beim Skalieren vom Prototyp in die Produktion regelmäßig überraschen:

Reasoning‑Tokens. Modelle mit erweiterten Reasoning‑Modi (GPT‑5.5 Thinking, DeepSeek V4 Thinking‑Modus) erzeugen interne Reasoning‑Inhalte, die als Output‑Tokens zählen. Ein einzelner „High‑Effort“-Reasoning‑Call auf einem langen Prompt kann 20.000 Reasoning‑Tokens erzeugen – das sind $0.60 Output‑Kosten auf GPT‑5.5, bevor die sichtbare Antwort entsteht. Budgetieren Sie pro Workload, nicht pro Request.
Long‑Context‑Zuschläge. Sowohl Gemini 3.5 Flash als auch GPT‑5.5 erhöhen die Sätze oberhalb einer Kontextlängenschwelle. RAG‑Pipelines, die große Dokumente einbeziehen, können unbemerkt jede Anfrage in die höhere Stufe schieben – bis die Rechnung kommt. Messen Sie Ihre tatsächlichen Prompt‑Längen in Produktion und prüfen Sie, ob Sie die Schwelle überschreiten.
Datenresidenz‑Aufschläge. Anthropic berechnet einen 10%‑Aufschlag für Inference ausschließlich in den USA bei Opus 4.7 und Sonnet 4.6. OpenAI wendet einen 10%‑Aufschlag auf Datenresidenz‑Endpunkte für die GPT‑5.4‑Familie an. Für regulierte Workloads, bei denen das zählt, berücksichtigen Sie es von Anfang an in der Preisliste.
Drift der Ausführlichkeit der Ausgaben. Wenn eine neue Modellversion standardmäßig gründlicher ist (wie bei Opus 4.7 im Vergleich zu Opus 4.6 berichtet), kann die Anzahl der Output‑Tokens pro Antwort steigen, auch wenn die Input‑Länge konstant ist. Output ist auf der Anthropic‑Linie fünfmal teurer als Input, daher bedeutet eine 20%ige Zunahme der Ausgabe‑Ausführlichkeit einen 20%igen Anstieg beim dominanten Kostentreiber.
Fehlgeschlagene und wiederholte Anfragen. Die meisten Anbieter berechnen 4xx‑ und 5xx‑Fehler nicht, wohl aber teilweise Generierungen und erneute Versuche, die beim zweiten Versuch erfolgreich sind. In Produktionssystemen mit aktiver Retry‑Logik kann das ein paar Prozent zur Rechnung addieren. Wichtig zu wissen, wenn Sie Anbieterrechnungen gegen erwartete Kosten abgleichen.

Wie CometAPI ins Bild passt

Alle vier dieser Modelle plus 500+ weitere sind über CometAPI auf einem einzigen OpenAI‑kompatiblen Endpunkt verfügbar – mit einem Credential, einheitlicher Abrechnung und ohne Setup pro Anbieter. Die Abrechnung auf CometAPI erfolgt tokenbasiert zu denselben pro‑Modell‑Sätzen wie bei den zugrunde liegenden Anbietern; Credits werden im Voraus gekauft und für jedes beliebige Modell im Katalog verwendet. Der Mehrwert der Nutzung von CometAPI liegt operativ, nicht beim Preis pro Token: ein Credential, eine Rechnung und die Möglichkeit, durch Ändern eines einzelnen Strings im Code von GPT‑5.5 zu Claude Sonnet 4.6 zu Gemini 3.5 Flash zu DeepSeek V4 zu wechseln.

Es gibt Workloads, bei denen der direkte Zugang zum Anbieter die richtige Wahl ist. Wenn Sie einen Single‑Model‑Workload mit sehr hohem Volumen bei einem Anbieter betreiben und einen ausgehandelten Enterprise‑Vertrag haben, sind die Unit Economics beim Direktbezug besser. Wenn Ihre Compliance‑Vorgaben eine spezifische Vendor‑of‑Record‑Beziehung verlangen, verkompliziert ein Aggregator dieses Gespräch eher. Für die Mehrheit der Teams mit Multi‑Model‑Produktions‑Workloads ist jedoch die operative Reibung, drei oder vier direkte Anbieterbeziehungen zu managen, selbst ein relevanter Kostenfaktor, der in der Preisliste nicht auftaucht.

Probieren Sie den Vergleich an Ihrem Workload aus. Das Free‑Tier auf CometAPI erlaubt es, denselben Prompt gegen GPT‑5.5, Sonnet 4.6, Gemini 3.5 Flash und DeepSeek V4 von einem einzigen Endpunkt aus laufen zu lassen – ohne separate Anmeldungen. Für eine workload‑spezifische Kostenentscheidung ist diese einstündige Übung mehr wert als jeder veröffentlichte Preisvergleich.

So nutzen Sie diesen Vergleich

Der richtige Modellschnitt für Ihren Workload hängt davon ab, welche Dimension der Preisliste für die Form Ihres Traffics am meisten zählt. Ein praktischer Entscheidungsrahmen:

Wenn Reasoning‑Tiefe der Engpass ist (agentische Workflows, komplexe mehrstufige Planung, die schwierigsten Coding‑Aufgaben), starten Sie mit GPT‑5.5 oder Claude Opus 4.7. Die Prämie ist real, aber auf diesen Workloads verdient.
Wenn Sie das beste Preis‑Leistungs‑Verhältnis für allgemeinen Produktionstraffic möchten, ist Claude Sonnet 4.6 die empfohlene Standardeinstellung. Near‑Frontier‑Fähigkeiten, volles 1M‑Kontextfenster zu Standardkonditionen und starkes Caching.
Wenn Sie kostenbewusst sind und Ihr Workload unterhalb von 200K Kontext bleibt, ist Gemini 3.5 Flash die günstigste glaubwürdige Option der Flaggschiff‑Klasse eines großen US‑Anbieters.
Wenn Ihr Workload hohes Volumen und starke Preissensitivität aufweist und DeepSeeks Datenresidenz‑Haltung akzeptabel ist, verändert V4 die Kostengleichung so stark, dass eine ernsthafte Evaluation lohnt – insbesondere für batch‑förmige Workloads.

Möchten Sie bei der Kostenoptimierung weiter gehen? Die obigen Preisdaten sind die Grundlage für Routing: die Praxis, unterschiedliche Queries an unterschiedliche Modelle zu senden – je nachdem, welches sie zum niedrigsten Preis bewältigt. Das Begleitstück, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, führt durch die Routing‑Muster, die diese Preisliste in tatsächliche Einsparungen auf Ihrer Monatsrechnung verwandeln.