Porównanie cen API LLM w 2026 r.: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash i DeepSeek V4

Cennik to najważniejsza decyzja przy wyborze modelu frontier LLM, a jednocześnie wymiar, w którym większość publikowanych porównań dezaktualizuje się w ciągu kwartału. Ten artykuł to porządkuje. Poniżej znajduje się aktualne, udokumentowane zestawienie cen tokenów wejściowych i wyjściowych dla czterech modeli, które odpowiadają za większość produkcyjnego ruchu w modelach frontier w 2026 r. (GPT-5.5 od OpenAI, Claude Sonnet 4.6 od Anthropic, Gemini 3.5 Flash od Google i DeepSeek V4), wraz z dźwigniami, które znacząco zmieniają rachunek w skali: cache’owanie promptów, przetwarzanie wsadowe i dopłaty za długi kontekst.

Tekst opiera się na dwóch pytaniach. Po pierwsze: według cen katalogowych, ile kosztuje każdy model za milion tokenów i jak porównać stawki wejścia i wyjścia, które rzeczywiście napędzają produkcyjny rachunek? Po drugie: gdy zastosujesz reprezentatywne obciążenie (100 milionów tokenów miesięcznie, 80% wejście i 20% wyjście, z realistycznym wskaźnikiem trafień cache), jaki jest miesięczny rachunek w dolarach dla każdego modelu? Pierwsza odpowiedź ustanawia cennik; druga pokazuje, czym ten cennik staje się w zderzeniu z realnym wzorcem produkcyjnym.

Szybki skrót: Wśród czterech modeli frontier ceny katalogowe różnią się o około dwa rzędy wielkości. DeepSeek V4 jest najtańszy — $0.435 za milion tokenów wejściowych; Claude Opus 4.7 jest najdroższy — $5.00. Kształt Twojego obciążenia, w szczególności wskaźnik trafień cache oraz relacja wejście:wyjście, zmienia to, który model jest w praktyce najtańszy — często bardziej, niż sugeruje cennik.

Dlaczego porównanie cen „jabłko do jabłka” jest trudniejsze, niż się wydaje

Strony cenników dostawców są pisane dla klientów danego dostawcy, a nie dla kogoś oceniającego cztery opcje obok siebie. W efekcie ich porównywanie prowadzi do trzech uporczywych pułapek:

Tokeny nie są takie same u różnych dostawców. Claude Opus 4.7 ma nowy tokenizator, który może wygenerować do 35% więcej tokenów z tego samego tekstu wejściowego niż Opus 4.6. Tokenizator Gemini różni się od OpenAI. Cennik jest „za milion tokenów”, ale liczba tokenów dla identycznego promptu różni się między dostawcami, co oznacza, że nagłówkowa stawka to tylko pierwsze przybliżenie względnego kosztu.
Progi cenowe dla długiego kontekstu tworzą „klify kosztowe”. Rodzina GPT-5.5 od OpenAI ma osobne stawki dla krótkiego i długiego kontekstu, które wchodzą w grę około 270 000 tokenów. Anthropic przeciwnie — utrzymuje tę samą stawkę za token w całym oknie kontekstu 1M. Obciążenia, które plasują się blisko tych progów, są wyceniane zupełnie inaczej niż obciążenia mieszczące się komfortowo poniżej.
Zniżki się kumulują, a nie funkcjonują osobno. Cache’owanie promptów, przetwarzanie wsadowe i specyficzne dla dostawców progi wolumenowe mogą drastycznie obniżyć koszt efektywny — i te zniżki się sumują. Zbuforowane żądanie wsadowe w Anthropic może kosztować zaledwie 5% standardowego niezbuforowanego żądania. Porównanie cen, które ignoruje te dźwignie, zawyża koszt katalogowy, czasem o rząd wielkości.

Poniższe porównanie normalizuje te pułapki tam, gdzie to możliwe, i wyraźnie je zaznacza tam, gdzie nie jest to możliwe.

Porównanie cen modeli frontier LLM w 2026 r.

Wszystkie kwoty w USD za milion tokenów. Źródło: oficjalna dokumentacja cenowa każdego dostawcy, stan na maj 2026 r.

Model	Input	Output	Cached input	Batch (50% off)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Yes (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	None
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	None
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Yes (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Not offered	384K	None

Jak czytać tabelę: Cached input to stawka płacona za tokeny obsłużone z pamięci podręcznej promptu (typowo prompt systemowy, przykłady few-shot lub powtarzalne prefiksy dokumentów). Batch to stawka za obciążenia asynchroniczne z opóźnieniem do 24 godzin. Long-context surcharge oznacza, czy dostawca podnosi stawki powyżej określonej długości kontekstu; dla tych, którzy to robią, próg podano w nawiasach.

Gdzie każdy model wygrywa

GPT-5.5: najwyższa domyślna zdolność do trudnego rozumowania i pracy agentowej

GPT-5.5 to model frontier OpenAI dla złożonych profesjonalnych obciążeń: agenci do kodu, wieloetapowe planowanie, długotrwałe użycie narzędzi i analiza dokumentów, gdzie dominującym wymogiem jest głębokość rozumowania. Jest też najdroższym z głównych amerykańskich modeli frontier pod względem wejścia ($5.00 za milion) i najwyższym pod względem wyjścia ($30.00 za milion), co oznacza, że zasługuje na swoją pozycję przy obciążeniach, gdzie alternatywą jest płacenie stawek flagowych innemu modelowi, który rozwiązuje problem mniej niezawodnie. GPT-5.5 wspiera cache’owanie z rabatem 90%, przetwarzanie wsadowe z 50% zniżką, a wyższe stawki za długi kontekst zaczynają obowiązywać około 270 tys. tokenów — istotne przy bardzo długich bazach kodu lub pełnych repozytoriach, lecz nie przy typowych obciążeniach RAG.

Claude Sonnet 4.6: rekomendowany domyślny wybór dla większości ruchu produkcyjnego

Sonnet 4.6 to rekomendowany przez Anthropic model dla większości obciążeń produkcyjnych — ze względu na relację ceny do możliwości. Przy $3 za wejście i $15 za wyjście za milion tokenów plasuje się poniżej GPT-5.5 w obu stawkach, dostarczając jakość bliską Opus w obciążeniach dominujących w większości systemów produkcyjnych: kodowanie, analiza, potoki RAG, czat z klientem, generowanie ustrukturyzowanych wyników. Wyróżnikiem cenowym Sonnet jest pełne 1M okno kontekstu dostępne w stawkach standardowych (brak dopłaty za długi kontekst), co czyni go najtańszą wiarygodną opcją dla obciążeń, które okazjonalnie muszą wczytać bardzo długie dokumenty lub całe repozytoria. Cache’owanie promptów obniża koszt wejścia z cache do 10% standardu, co jest rozstrzygające wszędzie tam, gdzie prompt systemowy jest stabilny.

Gemini 3.5 Flash: najbardziej agresywnie wyceniony model klasy flagowej do krótkiego kontekstu

Gemini 3.5 Flash to najtańszy model klasy flagowej od dużego amerykańskiego dostawcy w surowych cenach API — $1.50 za wejście i $9.00 za wyjście za milion tokenów. Dla większości ruchu produkcyjnego to właściwy poziom cen i znacząco podcina zarówno GPT-5.5, jak i Claude Opus 4.7. Wyższa cena niż w poprzednich modelach Flash prowadzi do zwiększonych kosztów całkowitych w scenariuszach agentowych o dużej liczbie tokenów (5.5x koszt Intelligence Index vs. Gemini 3 Flash z powodu cen i zużycia). Innym wyróżnikiem Gemini jest rzeczywiście bezpłatny poziom w Google AI Studio — przydatny do prototypowania, ale nieistotny w modelach kosztów produkcyjnych.

DeepSeek V4: dramatycznie tańszy, z wartymi zrozumienia zastrzeżeniami

DeepSeek V4 ma cennik $0.435 za milion tokenów wejściowych i $0.87 za milion tokenów wyjściowych — od pięciu do siedemdziesięciu razy taniej niż amerykańskie modele frontier, zależnie od porównania. Sam model jest konkurencyjny na wielu benchmarkach, zwłaszcza w rozumowaniu i kodzie. Zastrzeżenia warto nazwać wprost: dane są przetwarzane w Chinach, co dla niektórych regulowanych obciążeń jest nie do przyjęcia; jakość anglojęzyczna jest wysoka, ale model jest inaczej zoptymalizowany niż amerykańskie modele frontier — testy head‑to‑head na Twoim konkretnym obciążeniu są konieczne, a nie opcjonalne. Tam, gdzie te zastrzeżenia są akceptowalne, DeepSeek rzeczywiście zmienia równanie kosztowe.

Uwaga o Claude Opus 4.7 vs Sonnet 4.6. Opus jest ujęty w tabeli dla kompletności, ale dla ogromnej większości ruchu produkcyjnego Sonnet 4.6 jest lepszym wyborem ekonomicznym. Opus kosztuje 1,67x stawki Sonnet zarówno na wejściu, jak i na wyjściu, a przy obciążeniach, gdzie Sonnet wystarcza (czyli większości), ta premia nie ma kompensujących korzyści. Sięgaj po Opus, gdy ewaluacje pokazują, że Sonnet zawodzi w określonej klasie zadań: wysoko autonomiczni agenci do kodu, długohoryzontowe profesjonalne przepływy pracy oraz zadania, w których drobiazgowe podążanie za instrukcjami jest rozstrzygające.

Przykład liczbowy: ile naprawdę kosztuje 100 milionów tokenów miesięcznie

Ceny katalogowe „za milion tokenów” niewiele znaczą, dopóki nie zetkną się z reprezentatywnym obciążeniem. Poniższy przykład używa profilu przybliżającego niebłahy system produkcyjny: 100 milionów tokenów miesięcznie, podział 80% wejście (80M) i 20% wyjście (20M), ze wskaźnikiem trafień cache 30% po stronie wejścia. Ten profil jest szeroko reprezentatywny dla czatu skierowanego do klienta lub obciążenia RAG ze stabilnym promptem systemowym i kontekstem dokumentu.

Obliczenia dla każdego modelu: koszt wejścia z cache + koszt wejścia bez cache + koszt wyjścia. Wejście z cache jest rozliczane na poziomie 10% stawki standardowej u dostawców oferujących cache’owanie.

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Co to mówi. Przy reprezentatywnym obciążeniu Sonnet 4.6 kosztuje mniej więcej połowę GPT-5.5. DeepSeek to zupełnie inny wszechświat kosztów. To są wartości wg cennika; zastosowanie przetwarzania wsadowego tam, gdzie jest dostępne, tnie łączne koszty o kolejne 50% na wejściu i wyjściu (choć nie na trafieniach cache).

Dwa spostrzeżenia warte zapamiętania. Po pierwsze: cache’owanie to pojedyncza najbardziej wpływowa dźwignia, na którą masz wpływ. Powyższy przykład zakłada wskaźnik trafień cache 30%; podnieś go do 60% (w pełni osiągalne przy obciążeniach ze stabilnym promptem systemowym), a łączny koszt spadnie o około kolejne 25%. Po drugie: relacja wejście:wyjście bardzo się liczy. Obciążenia ciężkie w wyjściu (streszczanie, długie formy pisemne) faworyzują dostawców z tańszym wyjściem, podczas gdy obciążenia ciężkie w wejściu (analiza długiego kontekstu, duże pobrania w RAG) faworyzują dostawców z tańszym wejściem i bez dopłaty za długi kontekst.

Ukryte koszty, których nie ma na stronie z cennikiem

Ceny katalogowe to dolna granica, nie górny pułap. Warto wprost ująć w budżecie pięć dodatkowych kosztów, bo rutynowo zaskakują zespoły skalujące się z prototypu do produkcji:

Tokeny rozumowania. Modele z rozszerzonymi trybami rozumowania (GPT-5.5 Thinking, tryb rozumowania DeepSeek V4) generują wewnętrzne treści rozumowania, które liczą się jako tokeny wyjściowe. Pojedyncze wywołanie o wysokim nakładzie rozumowania na długim prompcie może wygenerować 20 000 tokenów rozumowania — to $0.60 kosztu wyjściowego w GPT-5.5, zanim widoczna odpowiedź zostanie zwrócona. Budżetuj na poziomie obciążenia, nie pojedynczego żądania.
Dopłaty za długi kontekst. Zarówno Gemini 3.5 Flash, jak i GPT-5.5 podnoszą stawki powyżej progu długości kontekstu. Potoki RAG, które włączają duże dokumenty, mogą po cichu przenosić każde żądanie do wyższej taryfy, dopóki rachunek nie dotrze. Mierz faktyczne długości promptów w produkcji i sprawdzaj, czy nie przekraczasz progu.
Mnożniki związane z lokalizacją danych. Anthropic dolicza 10% premii za inferencję wyłącznie w USA dla Opus 4.7 i Sonnet 4.6. OpenAI stosuje 10% narzut na endpointach z rezydencją danych dla rodziny GPT-5.4. Jeśli w regulowanych obciążeniach ma to znaczenie, uwzględnij to w cenniku od pierwszego dnia.
Dryf gadatliwości wyjścia. Gdy nowa wersja modelu jest domyślnie bardziej drobiazgowa (jak podobno Opus 4.7 vs Opus 4.6), liczba tokenów wyjścia na odpowiedź może rosnąć nawet przy stałej długości wejścia. W linii Anthropic wyjście jest wycenione 5x wyżej niż wejście, więc 20% wzrost rozwlekłości wyjścia to 20% wzrost dominującego składnika kosztu.
Nieudane i ponawiane żądania. Większość dostawców nie rozlicza błędów 4xx i 5xx, ale rozlicza częściowe generacje oraz ponowienia, które kończą się sukcesem za drugim razem. W systemach produkcyjnych z aktywną logiką ponawiania może to dodać kilka procent do rachunku. Warto o tym wiedzieć przy uzgadnianiu faktur dostawców z oczekiwanym kosztem.

Jak wpisuje się w to CometAPI

Wszystkie cztery te modele, plus 500+ innych, są dostępne przez CometAPI pod jednym endpointem zgodnym z OpenAI, z jednym zestawem poświadczeń, ujednoliconym rozliczaniem i bez zakładania kont u poszczególnych dostawców. Cennik w CometAPI jest rozliczany per token według tych samych stawek na model, jakie publikuje dostawca źródłowy, z kredytami kupowanymi z góry i wykorzystywanymi na dowolny model w katalogu. Wartość routowania przez CometAPI ma charakter operacyjny, a nie per‑token: jedne poświadczenia do zarządzania, jedna faktura do rozliczenia i możliwość przełączenia się z GPT-5.5 na Claude Sonnet 4.6 czy Gemini 3.5 Flash przez zmianę pojedynczego łańcucha w kodzie.

Są obciążenia, gdzie bezpośredni dostęp do dostawcy to właściwy wybór. Jeśli uruchamiasz pojedynczy model w bardzo dużej skali u jednego dostawcy z wynegocjowaną umową enterprise, ekonomika jednostkowa „na skróty” będzie lepsza. Jeśli Twoje wymogi zgodności wymagają konkretnej relacji z dostawcą jako stroną umowy, agregator komplikuje, a nie upraszcza rozmowę. Dla większości zespołów prowadzących wielomodelowe obciążenia produkcyjne jednak tarcia operacyjne związane z zarządzaniem trzema lub czterema relacjami bezpośrednimi same w sobie są istotnym kosztem, którego cennik nie ujmuje.

Wypróbuj porównanie na swoim obciążeniu. Bezpłatny poziom w CometAPI pozwala uruchomić ten sam prompt na GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash i DeepSeek V4 z jednego endpointu, bez osobnych rejestracji. Dla decyzji kosztowej specyficznej dla obciążenia ta godzinna próba jest warta więcej niż jakiekolwiek kiedykolwiek opublikowane porównanie cen.

Jak korzystać z tego porównania

Właściwy model dla Twojego obciążenia zależy od tego, który wymiar cennika najbardziej liczy się przy Twoim profilu ruchu. Praktyczne ramy decyzji:

Jeśli wąskim gardłem jest głębokość rozumowania (przepływy pracy agentowe, złożone wieloetapowe planowanie, najtrudniejsze zadania kodowe), zacznij od GPT-5.5 lub Claude Opus 4.7. Premia jest realna, ale uzasadniona dla tych obciążeń.
Jeśli chcesz najlepszej relacji cena–możliwości dla ogólnego ruchu produkcyjnego, Claude Sonnet 4.6 jest rekomendowanym domyślnym wyborem. Możliwości bliskie frontier, pełne 1M okno kontekstu w stawkach standardowych i silne wsparcie cache’owania.
Jeśli jesteś wrażliwy na koszty i Twoje obciążenie mieści się poniżej 200K kontekstu, Gemini 3.5 Flash to najtańsza wiarygodna opcja klasy flagowej od dużego amerykańskiego dostawcy.
Jeśli Twoje obciążenie jest wolumenowe i zdominowane przez koszt, a profil rezydencji danych DeepSeek jest akceptowalny, V4 zmienia równanie kosztowe na tyle, by zasługiwać na poważną ewaluację — szczególnie dla obciążeń o charakterze wsadowym.

Chcesz pójść dalej z optymalizacją kosztów? Powyższe dane cenowe to fundament routingu: praktyki kierowania różnych zapytań do różnych modeli w zależności od tego, który poradzi sobie najtaniej. Tekst towarzyszący, „Przecięcie kosztów API LLM o połowę: przewodnik po routingu modeli dla obciążeń produkcyjnych w 2026 r.”, omawia wzorce routingu, które przekuwają tę tabelę stawek w realne oszczędności na miesięcznym rachunku.