2026 LLM API Fiyatlandırma Karşılaştırması: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash ve DeepSeek V4

CometAPI
AnnaMay 21, 2026
2026 LLM API Fiyatlandırma Karşılaştırması: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash ve DeepSeek V4

Fiyatlandırma, bir frontier LLM seçerken tek başına en belirleyici karardır ve aynı zamanda yayımlanmış karşılaştırmaların çoğunun bir çeyrek içinde eskidiği boyuttur. Bu yazı bu karmaşayı gideriyor. Aşağıda, 2026’da üretim trafiğinin çoğunluğunu oluşturan dört model (OpenAI’nin GPT-5.5’i, Anthropic’in Claude Sonnet 4.6’sı, Google’ın Gemini 3.5 Flash’ı ve DeepSeek’in V4’ü) arasında giriş ve çıkış token fiyatlandırmasının güncel ve kaynaklı bir görünümü yer alıyor; ayrıca ölçeklendikçe faturayı anlamlı biçimde değiştiren kaldıraçlar: prompt önbelleğe alma, toplu işleme ve uzun bağlam ek ücretleri.

Parça iki sorunun etrafında kurgulanmıştır. Birincisi: liste fiyatına göre, her bir modelin milyon token başına maliyeti nedir ve teklif edilen oranlar, gerçek bir üretim faturasını yönlendiren giriş ve çıkışlarda nasıl karşılaştırılır? İkincisi: temsilî bir iş yükü uyguladığınızda (ayda 100 milyon token, %80 giriş ve %20 çıkış, gerçekçi önbellek isabet oranlarıyla), her modelde aylık fatura dolar bazında nedir? İlk yanıt fiyat tablosunu kurar; ikincisi ise o fiyat tablosunun gerçek bir üretim örüntüsüne değdiğinde neye dönüştüğünü söyler.

Hızlı okuma: Dört frontier model arasında liste fiyatları yaklaşık iki büyüklük mertebesine yayılıyor. DeepSeek V4, milyon giriş tokenı başına $0.435 ile en ucuzu; Claude Opus 4.7 ise $5.00 ile en pahalısı. İş yükünüzün şekli —özellikle önbellek isabet oranınız ve giriş-çıkış oranınız— pratikte hangi modelin en ucuz olduğunu değiştirir; çoğu zaman da fiyat tablosunun ötesinde.

Bire bir fiyatlandırma karşılaştırması göründüğünden neden daha zor

Sağlayıcı fiyatlandırma sayfaları, o sağlayıcının kendi müşterileri için yazılır; dört seçeneği yan yana değerlendiren biri için değil. Sonuç, karşılaştırmanın üç kalıcı tuzağa yol açmasıdır:

  • Token’lar sağlayıcılar arasında aynı değildir. Claude Opus 4.7, aynı girdi metni için Opus 4.6’dan %35’e kadar daha fazla token üretebilen yeni bir tokenizer ile gelir. Gemini’nin tokenizer’ı OpenAI’ninkinden farklıdır. Fiyat tablosu milyon token başınadır, ancak aynı prompt için token sayısı sağlayıcıya göre değişir; bu da manşet oranın göreli maliyetin sadece ilk yaklaşık hesap olduğunu gösterir.
  • Uzun bağlam fiyat katmanları maliyet uçurumları yaratır. OpenAI’nin GPT-5.5 ailesi, ~270.000 token civarında devreye giren ayrı kısa bağlam ve uzun bağlam oranlarına sahiptir. Anthropic ise tam 1M bağlam penceresi boyunca aynı token başı oranı korur. Bu eşiklerin yakınında duran iş yükleri, bu eşiklerin çok altında kalan iş yüklerinden çok farklı fiyatlandırılır.
  • İndirimler ayrı değil, kümülatiftir. Prompt önbelleğe alma, toplu işleme ve sağlayıcıya özgü hacim kademeleri, etkin maliyeti dramatik biçimde düşürebilir ve bunlar birikir. Anthropic’te önbelleğe alınmış toplu bir istek, standart önbelleksiz bir isteğin %5’i kadar maliyete inebilir. Bu kaldıraçları görmezden gelen bir fiyat karşılaştırması, liste maliyetini bazen bir büyüklük mertebesine varan oranda olduğundan yüksek gösterir.

Aşağıdaki karşılaştırma mümkün olduğunda bu tuzakları normalleştirir ve mümkün olmadığında açıkça işaretler.

2026 frontier LLM fiyatlandırma karşılaştırması

Tüm rakamlar milyon token başına ABD doları cinsindendir. Mayıs 2026 itibarıyla her sağlayıcının resmi fiyatlandırma dokümantasyonundan derlenmiştir.

ModelGirişÇıkışÖnbellekli girişToplu (%50 indirim)Bağlam penceresiUzun bağlam ek ücreti
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001MEvet (~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501MYok
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501MYok
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001MEvet (200K)
DeepSeek V4$0.435$0.87$0.0028Sunulmuyor384KYok

Tabloyu okuma: Önbellekli giriş, prompt önbelleğinden sunulan token’larda ödenen orandır (tipik olarak sistem prompt’ları, birkaç örnekli (few-shot) örnekler veya istekler arasında tekrarlanan belge ön ekleri). Toplu, 24 saate kadar gecikme toleranslı eşzamansız iş yükleri için ödenen orandır. Uzun bağlam ek ücreti, sağlayıcının bir bağlam uzunluğu eşiğinin üzerinde oranları artırıp artırmadığını belirtir; artıranlar için eşik parantez içinde verilmiştir.

Hangi model nerede kazanır

GPT-5.5: zorlayıcı muhakeme ve ajan temelli iş için en yüksek kapasiteli varsayılan

GPT-5.5, karmaşık profesyonel iş yükleri için OpenAI’nin frontier modelidir: kodlama ajanları, çok adımlı planlama, uzun süreli araç kullanımı ve muhakeme derinliğinin baskın gereksinim olduğu belge analizi. Aynı zamanda büyük ABD frontier modelleri arasında girişte en pahalıdır (milyon başına $5.00) ve çıkışta en yüksek fiyatlıdır (milyon başına $30.00); bu da, sorunu daha az güvenilir çözen farklı bir modele amiral gemisi ücreti ödemekle karşılaştırıldığında hak ettiği iş yüklerinde yerini alması anlamına gelir. GPT-5.5, %90 indirimli önbelleğe alma, %50 indirimli toplu işleme destekler ve uzun bağlam fiyatlandırması ~270K token civarında devreye girer; bu, çok uzun kod tabanları veya tüm depo bağlamları için önemlidir, ancak tipik RAG iş yükleri için değil.

Claude Sonnet 4.6: üretim trafiğinin çoğu için önerilen varsayılan

Sonnet 4.6, üretim iş yüklerinin büyük çoğunluğu için Anthropic’in önerdiği modeldir ve bunun nedeni fiyat-kapasite oranıdır. Milyon token başına $3 giriş ve $15 çıkış ile hem giriş hem de çıkış oranlarında GPT-5.5’in altında konumlanır; aynı zamanda çoğu üretim sistemine hakim olan iş yüklerinde (kodlama, analiz, RAG hatları, müşteriye dönük sohbet ve yapılandırılmış çıktı üretimi) Opus’a yakın kalite sunar. Sonnet’in ayırt edici fiyatlandırma özelliği, tam 1M token bağlam penceresinin standart oranlarla sunulmasıdır (uzun bağlam ek ücreti yoktur); bu da zaman zaman çok uzun belgeleri veya tam depoları yutması gereken iş yükleri için en ucuz güçlü seçenek yapar. Prompt önbelleğe alma, önbellekli girişi standart fiyatın %10’una düşürür; bu, sabit bir sistem prompt’u olan her iş yükünde belirleyicidir.

Gemini 3.5 Flash: kısa bağlam işleri için en agresif fiyatlı amiral gemisi

Gemini 3.5 Flash, ham API fiyatlandırmasında büyük bir ABD sağlayıcısından gelen en ucuz amiral gemisi sınıfı modeldir; girişte milyon başına $1.50 ve çıkışta $9.00. Çoğu üretim trafiği için ilgili fiyatlandırma katmanı budur ve bu, hem GPT-5.5’i hem de Claude Opus 4.7’yi maddi olarak geride bırakır. Önceki Flash modellere kıyasla daha yüksek fiyat, token yoğun ajan temelli senaryolarda toplam maliyetleri artırır (fiyatlandırma + kullanım nedeniyle Gemini 3 Flash’a göre 5.5x Intelligence Index maliyeti).. Gemini’nin bir diğer ayırt edici özelliği, prototipleme için faydalı ancak üretim maliyet modelleri açısından ilgili olmayan Google AI Studio’daki gerçekten ücretsiz katmandır.

DeepSeek V4: dramatik biçimde daha ucuz, anlaşılmaya değer çekincelerle

DeepSeek V4, milyon giriş tokenı başına $0.435 ve milyon çıkış tokenı başına $0.87 liste fiyatına sahiptir; bu da kıyasladığınız modele bağlı olarak ABD frontier modellerinden beş ila yetmiş kat daha ucuzdur. Modelin kendisi birçok ölçekte, özellikle muhakeme ve kodda rekabetçidir. Çekinceleri açıkça ifade etmeye değer: veriler Çin’de işlenir; bu, bazı regüle iş yükleri için kabul edilemezdir; İngilizce kalite güçlü olsa da model ABD frontier modellerinden farklı şekilde optimize edilmiştir ve spesifik iş yükünüzde bire bir test yapmak tercihe bağlı değil, zorunludur. Bu çekincelerin kabul edilebilir olduğu iş yükleri için DeepSeek gerçekten maliyet denklemini değiştirir.

Not: Claude Opus 4.7 vs Sonnet 4.6. Opus tabloya tamlık için dahil edilmiştir; ancak üretim trafiğinin çok büyük kısmı için Sonnet 4.6 daha iyi ekonomik seçimdir. Opus, hem giriş hem de çıkışta Sonnet’in 1.67 katı maliyettedir ve Sonnet’in yeterli olduğu iş yüklerinde (ki çoğunluğu böyledir) bu primin telafi edici bir faydası yoktur. Değerlendirmeler Sonnet’in belirli bir görev sınıfında başarısız olduğunu gösterdiğinde Opus’a yönelin: yüksek derecede otonom kodlama ajanları, uzun ufuklu profesyonel iş akışları ve marjda talimat takibinin belirleyici olduğu görevler.

Uygulamalı örnek: ayda 100 milyon token gerçekte kaça mal olur

Milyon token başına manşet fiyatlandırma, temsilî bir iş yüküne değene kadar pek bir şey ifade etmez. Aşağıdaki örnek, azımsanmayacak bir üretim sistemini andıran bir profil kullanır: ayda toplam 100 milyon token, %80 giriş (80M) ve %20 çıkış (20M) olarak bölünmüş, giriş bölümünde %30 önbellek isabet oranıyla. Bu örüntü, sabit bir sistem prompt’u ve belge bağlamı olan müşteriye dönük bir sohbet veya RAG iş yükünü genel hatlarıyla temsil eder.

Her model için matematik: önbellekli giriş maliyeti + önbelleksiz giriş maliyeti + çıkış maliyeti. Önbellekli giriş, önbelleğe alma sunan sağlayıcılar için standart fiyatın %10’u üzerinden faturalandırılır.

ModelÖnbellekli giriş (24M)Önbelleksiz giriş (56M)Çıkış (20M)Aylık toplam fatura
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

Bunun anlattığı. Temsilî bir iş yükünde, Sonnet 4.6 sırasıyla GPT-5.5’in yaklaşık yarı maliyetidir. DeepSeek ise tamamen farklı bir maliyet evrenindedir. Bunlar liste fiyatlarıdır; uygun yerlerde toplu işleme uygulamak, girişler ve çıkışlar üzerinde (önbellek isabetleri hariç) toplamı ilave %50 düşürür.

Taşınmaya değer iki gözlem. Birincisi: önbelleğe alma, kontrol ettiğiniz en etkili kaldıraçtır. Yukarıdaki örnek %30 önbellek isabet oranını varsayar; bunu %60’a yükseltin (sabit sistem prompt’u olan iş yükleri için tamamen ulaşılabilir) ve toplam maliyet kabaca bir %25 daha düşer. İkincisi: giriş-çıkış oranı çok önemlidir. Çıkış ağırlıklı iş yükleri (özetleme, uzun biçimli yazım) çıkışı daha ucuz olan sağlayıcılara yönelirken; giriş ağırlıklı iş yükleri (uzun bağlam analizi, büyük RAG alımları) girişi daha ucuz olan ve uzun bağlam ek ücreti olmayan sağlayıcılara meyleder.

Fiyatlandırma sayfasında yer almayan gizli maliyetler

Liste fiyatları tabandır, tavan değil. Prototipten üretime ölçeklenen ekipleri rutin olarak şaşırtan beş ek maliyet, açıkça bütçelenmeye değerdir:

  1. Muhakeme token’ları. Genişletilmiş muhakeme modlarına sahip modeller (GPT-5.5 Thinking, DeepSeek V4 düşünme modu), çıktı token’ı olarak sayılan dahili muhakeme içeriği üretir. Uzun bir prompt üzerinde tek bir yüksek eforlu muhakeme çağrısı 20.000 muhakeme token’ına çıkabilir; bu da GPT-5.5’te görünür yanıt üretilmeden önce $0.60 çıkış maliyetidir. İstek başına değil, iş yükü başına bütçeleme yapın.
  2. Uzun bağlam ek ücretleri. Hem Gemini 3.5 Flash hem de GPT-5.5, bir bağlam uzunluğu eşiğinin üzerinde oranları artırır. Büyük belgeleri içeren RAG hatları, herkes fark edene kadar her isteği sessizce daha yüksek dilime itebilir. Üretimdeki gerçek prompt uzunluklarınızı ölçün ve eşiği aşıp aşmadığınızı kontrol edin.
  3. Veri yerleşimi çarpanları. Anthropic, Opus 4.7 ve Sonnet 4.6’da yalnızca ABD’de çıkarım için %10 prim uygular. OpenAI, GPT-5.4 ailesi için veri yerleşimi uç noktalarında %10 artış uygular. Bu konunun önemli olduğu regüle iş yüklerinde, baştan fiyat tablosuna dahil edin.
  4. Çıkış gevezelik kayması. Yeni bir model sürümü varsayılan olarak daha kapsamlı olduğunda (bildirildiğine göre Opus 4.7, Opus 4.6’ya kıyasla böyledir), giriş uzunluğu sabit kalsa bile yanıt başına çıkış token’ları artabilir. Anthropic tarafında çıkış, girişten 5 kat daha pahalıdır; dolayısıyla çıkış gevezeliğinde %20’lik bir artış, baskın maliyet sürücüsünde %20’lik bir artıştır.
  5. Başarısız ve yeniden denenen istekler. Çoğu sağlayıcı 4xx ve 5xx hataları için fatura kesmez, ancak kısmi üretimler ve ikinci denemede başarıyla sonuçlanan yeniden denemeler için fatura keser. Aktif yeniden deneme mantığı bulunan üretim sistemlerinde bu, faturaya birkaç puan ekleyebilir. Sağlayıcı faturalarını beklenen maliyetle uzlaştırırken bilinmesi gerekir.

CometAPI bu tabloya nasıl oturuyor

Bu dört modelin yanı sıra 500+ diğeri, CometAPI üzerinden tek bir OpenAI uyumlu uç noktadan, tek kimlik bilgisi, birleşik faturalama ve sağlayıcı başına ayrı hesap kurulumuna gerek olmadan erişilebilir. CometAPI’de fiyatlandırma, temel sağlayıcıların yayımladığı model başı aynı oranlarda token başına ölçümlenir; krediler peşin alınır ve katalogdaki herhangi bir modele uygulanır. CometAPI üzerinden yönlendirmenin değeri token başına değil, operasyoneldir: yönetilecek tek bir kimlik bilgisi, uzlaştırılacak tek bir fatura ve kodunuzda tek bir string değiştirerek GPT-5.5’ten Claude Sonnet 4.6’ya, oradan Gemini 3.5 Flash’a geçebilme.

Doğrudan sağlayıcı erişiminin doğru olduğu iş yükleri vardır. Tek bir sağlayıcıda çok yüksek hacimde tek model çalıştırıyorsanız ve pazarlıklı bir kurumsal sözleşmeniz varsa, doğrudan gitmenin birim ekonomisi daha iyidir. Uyumluluk duruşunuz belirli bir kayıtlı tedarikçi ilişkisi gerektiriyorsa, bir toplayıcı bu konuşmayı basitleştirmek yerine karmaşıklaştırır. Ancak çoklu model üretim iş yükleri yürüten ekiplerin çoğunluğu için, üç veya dört doğrudan sağlayıcı ilişkisinin yönetimindeki operasyonel sürtünme, başlı başına anlamlı bir maliyettir ve fiyat tablosu bunu yakalamaz.

Ürün iş yükünüzde karşılaştırmayı deneyin. CometAPI’nin ücretsiz katmanı, ayrı kayıtlara gerek olmadan tek bir uç noktadan aynı prompt’u GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash ve DeepSeek V4’e çalıştırmanıza olanak tanır. İş yüküne özgü bir maliyet kararı için bu bir saatlik egzersiz, şimdiye kadar yayımlanmış herhangi bir fiyat karşılaştırmasından daha değerlidir.

Bu karşılaştırma nasıl kullanılır

İş yükünüz için doğru model, fiyat tablosunun hangi boyutunun trafik şekliniz için en önemli olduğuna bağlıdır. Pratik bir karar çerçevesi:

  • Eğer muhakeme derinliği darboğaz ise (agentic workflows, kompleks çok adımlı planlama, en zor kodlama görevleri), GPT-5.5 veya Claude Opus 4.7 ile başlayın. Prim gerçektir ancak bu iş yüklerinde hak edilir.
  • Genel üretim trafiği için en iyi fiyat-kapasite oranını istiyorsanız, Claude Sonnet 4.6 önerilen varsayılandır. Sınıra yakın kapasite, standart oranlarda tam 1M bağlam ve güçlü önbelleğe alma desteği.
  • Maliyet duyarlıysanız ve iş yükünüz 200K bağlamın altında kalıyorsa, Gemini 3.5 Flash, büyük bir ABD sağlayıcısından en ucuz güvenilir amiral gemisi sınıfı seçenektir.
  • İş yükünüz yüksek hacimli ve fiyat tarafından domine ediliyorsa ve DeepSeek’in veri yerleşimi duruşu kabul edilebilirse, V4 özellikle toplu şekilli iş yüklerinde maliyet denklemini ciddi biçimde değiştirecek kadar değerlendirilmeye değerdir.

Maliyet optimizasyonunda daha ileri gitmek ister misiniz? Yukarıdaki fiyatlandırma verileri, yönlendirme için temeldir: sorguları, hangisinin en düşük maliyetle işleyebileceğine göre farklı modellere göndermek uygulaması. Eşlik eden yazı, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, bu fiyat tablosunu aylık faturanızda gerçek tasarrufa dönüştüren yönlendirme kalıplarını anlatır.

Yapay zeka geliştirme maliyetlerinizi %20 azaltmaya hazır mısınız?

Dakikalar içinde ücretsiz başlayın. Ücretsiz deneme kredileri dahildir. Kredi kartı gerekmez.

Devamını Oku