2026 LLM API Fiyatlandırma Karşılaştırması: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash ve DeepSeek V4

Fiyatlandırma, bir frontier LLM seçerken tek başına en önemli karardır; ayrıca yayımlanan çoğu karşılaştırmanın bir çeyrek içinde güncelliğini yitirdiği boyuttur. Bu yazı bunu netleştiriyor. Aşağıda, 2026’daki üretim frontier-model trafiğinin çoğunluğunu oluşturan dört model (OpenAI’nin GPT-5.5’i, Anthropic’in Claude Sonnet 4.6’sı, Google’ın Gemini 3.5 Flash’ı ve DeepSeek’in V4’ü) için girdi ve çıktı token fiyatlandırmasına dair güncel, kaynaklı bir görünüm; ayrıca ölçekte faturayı anlamlı biçimde değiştiren kaldıraçlar: istem önbellekleme, toplu (batch) işleme ve uzun-bağlam ek ücretleri.

Hızlı okuma: Dört frontier model arasında, liste fiyatları yaklaşık iki büyüklük mertebesi genişliğinde. DeepSeek V4, milyon girdi token’ı başına $0.435 ile en ucuzudur; Claude Opus 4.7 ise $5.00 ile en pahalı olanıdır. İş yükünüzün şekli, özellikle önbellek isabet oranınız ve girdi–çıktı oranınız, pratikte hangi modelin en ucuz olduğunu değiştirir ve çoğu zaman oran kartının ima ettiğinden daha fazla fark yaratır.

Neden bire bir fiyat karşılaştırması göründüğünden daha zordur

Sağlayıcıların fiyatlandırma sayfaları, yan yana dört seçeneği değerlendiren biri için değil, o sağlayıcının kendi müşterileri için yazılır. Sonuç olarak, bunları karşılaştırmak üç kalıcı tuzak üretir:

Token’lar sağlayıcılar arasında aynı değildir. Claude Opus 4.7, Opus 4.6’ya kıyasla aynı girdi metni için %35’e kadar daha fazla token üretebilen yeni bir tokenizer ile gelir. Gemini’nin tokenizer’ı OpenAI’ninkinden farklıdır. Oran kartı milyon token başınadır, ancak aynı istem için token sayısı sağlayıcıya göre değişir; bu da manşet oranının göreli maliyetin yalnızca ilk yaklaşık değeri olduğu anlamına gelir.
Uzun-bağlam fiyatlandırma kademeleri maliyet uçurumları yaratır. OpenAI’nin GPT-5.5 ailesinde ~270.000 token civarında devreye giren ayrı kısa-bağlam ve uzun-bağlam oranları vardır. Anthropic ise tam 1M bağlam penceresi boyunca aynı token başı oranı korur. Bu eşiklerin yakınında çalışan iş yükleri, bunların rahatça altında kalan iş yüklerinden çok farklı fiyatlanır.
İndirimler ayrı değil, üst üste biner. İstem önbellekleme, toplu işleme ve sağlayıcıya özgü hacim kademeleri, efektif maliyeti dramatik biçimde düşürebilir ve bunlar üst üste gelir. Anthropic’te önbellekten sunulan bir toplu istek, standart önbelleksiz isteğin %5’i kadar maliyete inebilir. Bu kaldıraçları görmezden gelen bir fiyat karşılaştırması, liste maliyetini bazen bir büyüklük mertebesine kadar abartır.

Aşağıdaki karşılaştırma, mümkün olduğunca bu tuzakları normaleştirir ve mümkün olmadığında açıkça işaretler.

2026 frontier LLM fiyatlandırma karşılaştırması

Tüm rakamlar milyon token başına ABD doları cinsindendir. Mayıs 2026 itibarıyla her sağlayıcının resmi fiyatlandırma dokümantasyonundan derlenmiştir.

Model	Girdi	Çıktı	Önbelleğe alınmış girdi	Toplu (Batch) (%50 indirim)	Bağlam penceresi	Uzun-bağlam ek ücreti
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Evet (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Yok
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Yok
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Evet (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Sunulmuyor	384K	Yok

Tablonun okunması: Önbelleğe alınmış girdi, önbellekten sunulan token’lar (genellikle sistem istemleri, birkaç örnek veya istekler arasında tekrar eden belge ön ekleri) için ödenen orandır. Toplu (batch), 24 saate kadar gecikmeli asenkron iş yükleri için ödenen orandır. Uzun-bağlam ek ücreti, sağlayıcının bağlam uzunluğu eşiğinin üzerinde oranları artırıp artırmadığını belirtir; artıranlar için eşik parantez içinde verilir.

Her modelin nerede öne çıktığı

GPT-5.5: zorlayıcı akıl yürütme ve ajans temelli işler için en yüksek yetenekli varsayılan

GPT-5.5, karmaşık profesyonel iş yükleri için OpenAI’nin frontier modelidir: kodlayan ajanlar, çok adımlı planlama, uzun süreli araç kullanımı ve akıl yürütme derinliğinin baskın gereksinim olduğu belge analizi. Aynı zamanda büyük ABD frontier modelleri arasında girdide (milyon başına $5.00) en pahalı ve çıktıda (milyon başına $30.00) en yüksek olanıdır; bu da, alternatifi sorunu daha az güvenilir çözen farklı bir modele amiral seviyesi ücret ödemek olduğunda, konumunu iş yüklerinde kazanması anlamına gelir. GPT-5.5, %90 indirimli önbellekleme, girdiler ve çıktılarda %50 indirimli toplu işleme destekler ve uzun-bağlam fiyatlandırması ~270 bin token civarında devreye girer; bu, çok uzun kod tabanları veya tam depo bağlamları için anlamlıdır, ancak tipik RAG iş yükleri için değil.

Claude Sonnet 4.6: üretim trafiğinin çoğu için önerilen varsayılan

Sonnet 4.6, üretim iş yüklerinin çoğunluğu için Anthropic’in önerdiği modeldir ve bunun nedeni fiyat–yetenek oranıdır. Milyon token başına $3 girdi ve $15 çıktı ile, hem girdide hem çıktıda GPT-5.5’in altında konumlanır; üstelik çoğu üretim sistemi üzerinde baskın olan iş yüklerinde (kodlama, analiz, RAG hatları, müşteriyle yüz yüze sohbet, yapılandırılmış çıktı üretimi) Opus’a yakın kalite sunar. Sonnet’in ayırt edici fiyatlandırma özelliği, tam 1M token bağlam penceresinin standart oranlarda sunulmasıdır (uzun-bağlam ek ücreti yoktur); bu da, zaman zaman çok uzun belgeleri veya tam depoları almak zorunda kalan iş yükleri için en ucuz güvenilir seçenek yapar. İstem önbellekleme, önbelleğe alınmış girdiyi standardın %10’una düşürür; bu da sistem istemi stabil olan herhangi bir iş yükü için belirleyicidir.

Gemini 3.5 Flash: kısa bağlamlı işler için en agresif fiyatlı amiral model

Gemini 3.5 Flash, ham API fiyatlandırmasında büyük bir ABD sağlayıcısından gelen en ucuz amiral sınıfı modeldir: milyon token başına $1.50 girdi ve $9.00 çıktı. Çoğu üretim trafiği için ilgili fiyat katmanı budur ve hem GPT-5.5’i hem de Claude Opus 4.7’yi anlamlı biçimde geride bırakır. Önceki Flash modellere göre daha yüksek fiyat, token ağırlıklı ajans temelli senaryolarda toplam maliyeti artırır (fiyatlandırma + kullanım nedeniyle Gemini 3 Flash’a kıyasla Intelligence Index maliyeti 5,5 kat). Gemini’nin bir diğer farkı, prototipleme için kullanışlı ancak üretim maliyet modelleri açısından ilgili olmayan Google AI Studio’daki gerçekten ücretsiz katmandır.

DeepSeek V4: dramatik biçimde daha ucuz, ancak anlaşılıp yönetilmesi gereken hususlarla

DeepSeek V4, milyon girdi token’ı başına $0.435 ve milyon çıktı token’ı başına $0.87 liste fiyatına sahiptir; bu da karşılaştırdığınız ABD frontier modeline bağlı olarak beş ile yetmiş kat arasında daha ucuz olduğu anlamına gelir. Modelin kendisi birçok ölçüt testinde, özellikle akıl yürütme ve kodda rekabetçidir. Açıkça belirtilmeye değer hususlar: veriler Çin’de işlenir; bu, bazı regüle iş yükleri için kabul edilemezdir; İngilizce kalitesi güçlü olsa da model, ABD frontier modellerinden farklı şekilde optimize edilmiştir ve belirli iş yükünüzde bire bir test zorunludur, opsiyonel değil. Bu hususların kabul edilebilir olduğu iş yüklerinde DeepSeek gerçekten maliyet denklemini değiştirir.

Claude Opus 4.7 ve Sonnet 4.6 hakkında bir not. Opus tabloya tamlık için dahil edilmiştir, ancak üretim trafiğinin çok büyük çoğunluğu için Sonnet 4.6 daha iyi ekonomik tercihtir. Opus, hem girdide hem çıktıda Sonnet’in 1,67 katına mal olur ve Sonnet’in yeterli olduğu iş yüklerinde (ki bu çoğunluktur) bu primin telafi eden bir faydası yoktur. Değerlendirmeler Sonnet’in belirli bir görev sınıfında başarısız olduğunu gösterdiğinde Opus’a yönelin: yüksek derecede otonom kodlama ajanları, uzun ufuklu profesyonel iş akışları ve marjda talimat izleme becerisinin belirleyici olduğu görevler.

İşlenmiş örnek: ayda 100 milyon token gerçekte neye mal olur

Milyon token başına manşet fiyatlandırma, temsili bir iş yüküne değmediği sürece çok az şey ifade eder. Aşağıdaki örnek, kayda değer bir üretim sistemini yaklaşık olarak temsil eden bir profili kullanır: ayda toplam 100 milyon token, %80 girdi (80M) ve %20 çıktı (20M) olarak bölünmüş, girdi kısmında %30 önbellek isabet oranı ile. Bu desen, sabit bir sistem istemi ve belge bağlamı olan müşteriyle yüz yüze sohbet veya RAG iş yükü için genel olarak temsil edicidir.

Her model için matematik: önbelleğe alınmış girdi maliyeti + önbelleğe alınmamış girdi maliyeti + çıktı maliyeti. Önbelleğe alınmış girdi, önbellekleme sunan sağlayıcılar için standardın %10’u üzerinden faturalandırılır.

Model	Önbelleğe alınmış girdi (24M)	Önbelleğe alınmamış girdi (56M)	Çıktı (20M)	Toplam aylık fatura
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Bunun söylediği şey. Temsili bir iş yükünde, Sonnet 4.6, GPT-5.5’in yaklaşık yarı maliyetidir. DeepSeek ise bütünüyle farklı bir maliyet evrenindedir. Bunlar liste fiyatı rakamlarıdır; uygun olduğu yerlerde toplu işlemeyi uygulamak, girdiler ve çıktılarda her toplamı ayrıca %50 daha düşürür (önbellek isabetleri için değil).

İleriye taşınmaya değer iki gözlem. Birincisi: kontrol edebileceğiniz tek başına en etkili kaldıraç önbelleklemedir. Yukarıdaki örnek %30 önbellek isabet oranı varsaymaktadır; bunu %60’a çıkarın (sabit sistem istemi olan iş yükleri için tamamen ulaşılabilir) ve toplam maliyet yaklaşık %25 daha düşer. İkincisi: girdi–çıktı oranı çok önemlidir. Çıktı ağırlıklı iş yükleri (özetleme, uzun biçimli yazım), çıktı oranları daha ucuz olan sağlayıcılara yönelirken; girdi ağırlıklı iş yükleri (uzun bağlam analizi, büyük RAG getirileri), girdi oranları daha ucuz ve uzun-bağlam ek ücreti olmayan sağlayıcılara yönelir.

Fiyatlandırma sayfasında yazmayan gizli maliyetler

Liste fiyatlandırması tabandır, tavan değil. Prototipten üretime ölçeklenen ekipleri rutin olarak şaşırtan beş ek maliyeti, açık biçimde bütçelemek değerlidir:

Akıl yürütme token’ları. Genişletilmiş akıl yürütme modlarına sahip modeller (GPT-5.5 Thinking, DeepSeek V4 thinking mode), çıktı token’ı olarak sayılan dahili akıl yürütme içeriği üretir. Uzun bir istemde tek bir yüksek eforlu akıl yürütme çağrısı 20.000 akıl yürütme token’ına çıkabilir; bu, görünür yanıt üretilmeden önce GPT-5.5’te $0.60 çıktı maliyetidir. İstek başına değil, iş yükü başına bütçeleme yapın.
Uzun-bağlam ek ücretleri. Hem Gemini 3.5 Flash hem de GPT-5.5, bağlam uzunluğu eşiğinin üzerinde oranları artırır. Büyük belgeleri içeren RAG hatları, fark edilmeden her isteği daha yüksek dilime sessizce itebilir; ta ki fatura gelene kadar. Üretimdeki gerçek istem uzunluklarınızı ölçün ve eşiği aşıp aşmadığınızı kontrol edin.
Veri yerleşimi katsayıları. Anthropic, Opus 4.7 ve Sonnet 4.6’da yalnızca ABD’de çıkarım için %10 prim uygular. OpenAI, GPT-5.4 ailesi için veri yerleşimi uç noktalarında %10 artış uygular. Bunun önemli olduğu regüle iş yüklerinde, bunu en baştan oran kartına dahil edin.
Çıktı gevezeliği sürüklenmesi. Yeni bir model sürümü varsayılan olarak daha kapsamlı olduğunda (raporlara göre Opus 4.7, Opus 4.6’ya kıyasla böyledir), girdi uzunluğu sabit olsa bile yanıt başına çıktı token’ları artabilir. Anthropic hattında çıktı, girdiden 5 kat daha pahalıdır; dolayısıyla çıktı gevezeliğinde %20’lik bir sürüklenme, baskın maliyet sürücüsünde %20 artış demektir.
Başarısız ve yeniden denenen istekler. Çoğu sağlayıcı 4xx ve 5xx hataları için faturalandırma yapmaz, ancak kısmi üretimler ve ikinci denemede başarıya ulaşan yeniden denemeler için faturalandırır. Aktif yeniden deneme mantığına sahip üretim sistemlerinde bu, faturaya birkaç puan ekleyebilir. Sağlayıcı faturalarını beklenen maliyete karşı mutabıklaştırırken bilinmeye değerdir.

CometAPI bu resme nasıl oturuyor

Bu modellerin dördü ve 500+ diğer model, CometAPI üzerinden tek bir OpenAI-uyumlu uç noktada, tek bir kimlik bilgisiyle, tekleştirilmiş faturalama ve sağlayıcı başına hesap kurulumuna gerek olmadan kullanılabilir. CometAPI’de fiyatlandırma, katalogdaki temel sağlayıcıların yayınladığı model başına aynı oranlarda, token başına ölçülür; krediler peşin satın alınır ve katalogdaki herhangi bir modele uygulanır. CometAPI üzerinden yönlendirmenin değeri token başı olmaktan çok operasyoneldir: yönetilecek tek kimlik bilgisi, mutabıklaştırılacak tek fatura ve kodunuzda tek bir dizeyi değiştirerek GPT-5.5’ten Claude Sonnet 4.6’ya, oradan Gemini 3.5 Flash’a geçme imkanı.

Doğrudan sağlayıcı erişiminin doğru tercih olduğu iş yükleri vardır. Çok yüksek hacimde tek bir sağlayıcıda tek model çalıştırıyor ve kurumsal sözleşme pazarlığı yapıyorsanız, doğrudan gitmenin birim ekonomisi daha iyidir. Uyum duruşunuz belirli bir kayıtlı satıcı ilişkisi gerektiriyorsa, bir toplayıcı bu konuşmayı basitleştirmek yerine karmaşıklaştırır. Bununla birlikte, çoklu model üretim iş yükleri yürüten ekiplerin çoğunluğu için, üç veya dört doğrudan sağlayıcı ilişkisini yönetmenin operasyonel sürtünmesi, oran kartının yakalamadığı anlamlı bir maliyettir.

Karşılaştırmayı kendi iş yükünüzde deneyin. CometAPI’nin ücretsiz katmanı, tek bir uç noktadan, ayrı kayıtlara gerek olmadan aynı istemi GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash ve DeepSeek V4 üzerinde çalıştırmanıza olanak tanır. İş yüküne özgü bir maliyet kararı için, bu bir saatlik egzersiz, bugüne kadar yayımlanmış herhangi bir fiyatlandırma karşılaştırmasından daha değerlidir.

Bu karşılaştırmayı nasıl kullanmalısınız

İş yükünüz için doğru model, trafik şekliniz açısından oran kartının hangi boyutunun en önemli olduğuna bağlıdır. Pratik bir karar çerçevesi:

Darboğaz akıl yürütme derinliğiyse (ajan tabanlı iş akışları, karmaşık çok adımlı planlama, en zor kodlama görevleri), GPT-5.5 veya Claude Opus 4.7 ile başlayın. Prim gerçektir ancak bu iş yüklerinde karşılığını verir.
Genel üretim trafiği için en iyi fiyat–yetenek oranını istiyorsanız, Claude Sonnet 4.6 önerilen varsayılandır. Sınıra yakın yetenek, standart oranlarda tam 1M bağlam ve güçlü önbellekleme desteği.
Maliyet duyarlıysanız ve iş yükünüz 200K bağlamın altında kalıyorsa, Gemini 3.5 Flash, büyük bir ABD sağlayıcısından gelen, inandırıcı amiral sınıfı seçenekler arasında en ucuzudur.
İş yükünüz yüksek hacimli ve maliyet ağırlıklıysa ve DeepSeek’in veri yerleşimi duruşu sizin için kabul edilebilirse, V4 maliyet denklemini ciddi bir değerlendirmeye değecek kadar değiştirir; özellikle toplu şekilli iş yüklerinde.

Maliyet optimizasyonunda daha ileri gitmek ister misiniz? Yukarıdaki fiyatlandırma verileri, yönlendirme için temeldir: farklı sorguları, hangisinin en düşük maliyetle karşılayabileceğine göre farklı modellere göndermek. Eşlik eden yazı olan “2026’da Üretim İş Yükleri için Model Yönlendirme Rehberi: LLM API Maliyetlerini Yarıya İnmek”, bu oran kartını aylık faturanızda gerçek tasarrufa dönüştüren yönlendirme kalıplarını adım adım anlatır.