Penentuan harga ialah keputusan paling berimpak apabila memilih LLM frontier, dan ia juga dimensi di mana kebanyakan perbandingan yang diterbitkan menjadi lapuk dalam suku tahun. Rencana ini menembusi kekeliruan tersebut. Di bawah ialah gambaran semasa dengan sumber tentang harga token input dan output merentasi empat model yang menyumbang majoriti trafik model frontier dalam produksi pada 2026 (OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash, dan DeepSeek’s V4), beserta tuas yang benar-benar mengubah bil anda pada skala: cache gesaan, pemprosesan kelompok, dan caj tambahan konteks panjang.
Rencana ini dibina di sekitar dua soalan. Pertama: pada harga senarai, berapakah kos setiap model bagi setiap sejuta token, dan bagaimana kadar yang dipetik dibandingkan pada input dan output yang sebenarnya memacu bil produksi? Kedua: apabila anda menerapkan beban kerja wakil (100 juta token sebulan, 80% input dan 20% output, dengan kadar kejayaan cache yang realistik), berapakah bil bulanan dalam dolar pada setiap model? Jawapan pertama menetapkan senarai kadar; jawapan kedua memberitahu anda apa yang menjadi senarai kadar itu apabila ia menyentuh corak produksi sebenar.
Bacaan pantas: Merentasi empat model frontier, harga senarai merentang kira-kira dua peringkat magnitud. DeepSeek V4 ialah yang termurah pada $0.435 setiap sejuta token input; Claude Opus 4.7 ialah yang termahal pada $5.00. Bentuk beban kerja anda, khususnya kadar kejayaan cache dan nisbah input ke output, mengubah model yang paling murah dalam amalan, selalunya lebih daripada yang disiratkan oleh senarai kadar.
Mengapa perbandingan harga seperti-untuk-seperti lebih sukar daripada yang disangka
Halaman harga penyedia ditulis untuk pelanggan penyedia itu sendiri, bukan untuk seseorang yang menilai empat pilihan secara berdampingan. Hasilnya ialah membandingkan mereka menghasilkan tiga perangkap berterusan:
- Token tidak sama antara penyedia. Claude Opus 4.7 dihantar dengan pen-token baharu yang boleh menghasilkan sehingga 35% lebih banyak token untuk teks input yang sama berbanding Opus 4.6. Pen-token Gemini berbeza daripada OpenAI. Senarai kadar adalah per sejuta token, tetapi kiraan token untuk gesaan yang sama berbeza antara penyedia, bermakna kadar tajuk hanya anggaran pertama bagi kos relatif.
- Aras harga konteks panjang mewujudkan tebing kos. Keluarga GPT-5.5 OpenAI mempunyai kadar konteks pendek dan panjang yang berasingan yang berkuat kuasa sekitar 270,000 token. Anthropic, sebaliknya, mengekalkan kadar per token yang sama merentasi keseluruhan tetingkap konteks 1M. Beban kerja yang berada hampir dengan ambang ini dikenakan harga yang sangat berbeza daripada beban kerja yang berada dengan selesa di dalamnya.
- Diskaun ditindan, bukan berasingan. Cache gesaan, pemprosesan kelompok, dan aras volum khusus penyedia masing-masing boleh mengurangkan kos efektif dengan ketara, dan ia saling menindan. Permintaan kelompok yang di-cache di Anthropic boleh berharga serendah 5% daripada permintaan standard tanpa cache. Perbandingan harga yang mengabaikan tuas ini melebih anggar kos senarai, kadang-kadang sehingga satu peringkat magnitud.
Perbandingan di bawah menormalkan faktor-faktor ini setakat yang boleh, dan menandakannya secara jelas apabila tidak boleh.
Perbandingan harga LLM frontier 2026
Semua angka dalam dolar AS per sejuta token. Bersumber daripada dokumentasi harga rasmi setiap penyedia setakat Mei 2026.
| Model | Input | Output | Cached input | Batch (diskaun 50%) | Tetingkap konteks | Caj tambahan konteks panjang |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Ya (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Tiada |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Tiada |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Ya (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Tidak ditawarkan | 384K | Tiada |
Cara membaca jadual: Cached input ialah kadar yang dibayar pada token yang dilayan daripada cache gesaan (kebiasaannya gesaan sistem, contoh few-shot, atau prefiks dokumen yang berulang merentasi permintaan). Batch ialah kadar yang dibayar untuk beban kerja asinkron dengan kependaman sehingga 24 jam. Caj tambahan konteks panjang menunjukkan sama ada penyedia menaikkan kadar melebihi ambang panjang konteks; bagi yang berbuat demikian, ambang diberikan dalam kurungan.
Di mana setiap model menonjol
GPT-5.5: pilihan lalai berkeupayaan tertinggi untuk penaakulan sukar dan kerja beragensi
GPT-5.5 ialah model frontier OpenAI untuk beban kerja profesional yang kompleks: agen pengkodan, perancangan berbilang langkah, penggunaan alat jangka panjang, dan analisis dokumen di mana kedalaman penaakulan ialah keperluan dominan. Ia juga yang termahal antara model frontier AS utama pada input ($5.00 setiap sejuta) dan tertinggi pada output ($30.00 setiap sejuta), yang bermakna ia layak pada beban kerja di mana alternatifnya ialah membayar kadar flagship kepada model lain yang menyelesaikan masalah dengan kurang boleh dipercayai. GPT-5.5 menyokong cache dengan diskaun 90%, pemprosesan kelompok pada diskaun 50%, dan harga konteks panjang berkuat kuasa sekitar tanda 270K token, yang relevan untuk asas kod yang sangat panjang atau konteks keseluruhan repositori tetapi tidak untuk beban kerja RAG tipikal.
Claude Sonnet 4.6: lalai yang disyorkan untuk kebanyakan trafik produksi
Sonnet 4.6 ialah model yang disyorkan Anthropic untuk majoriti beban kerja produksi, dan nisbah harga-ke-keupayaan ialah sebabnya. Pada $3 input dan $15 output setiap sejuta token, ia berada di bawah GPT-5.5 pada kedua-dua kadar sambil menyampaikan kualiti hampir-Opus pada beban kerja yang mendominasi kebanyakan sistem produksi: pengkodan, analisis, saluran paip RAG, sembang berhadapan pelanggan, dan penjanaan output berstruktur. Ciri harga yang membezakan Sonnet ialah keseluruhan tetingkap konteks 1M tersedia pada kadar standard (tiada caj tambahan konteks panjang), yang menjadikannya pilihan kredibel termurah untuk beban kerja yang kadang-kadang perlu mengambil dokumen yang sangat panjang atau keseluruhan repositori. Cache gesaan mengurangkan input yang di-cache kepada 10% daripada standard, yang menentukan bagi mana-mana beban kerja dengan gesaan sistem yang stabil.
Gemini 3.5 Flash: flagship paling agresif harganya untuk kerja konteks pendek
Gemini 3.5 Flash ialah model kelas-flagship termurah daripada penyedia AS utama pada harga API mentah, pada $1.50 input dan $9.00 output setiap sejuta token. Bagi kebanyakan trafik produksi, itulah aras harga yang relevan, dan ia jauh mengatasi kedua-dua GPT-5.5 dan Claude Opus 4.7. Harga yang lebih tinggi daripada model Flash terdahulu membawa kepada kos keseluruhan yang meningkat dalam senario beragensi yang berat token (kos Indeks Intelligence 5.5x berbanding Gemini 3 Flash kerana harga + penggunaan).. Ciri membezakan lain Gemini ialah tier benar-benar percuma dalam Google AI Studio, yang berguna untuk prototaip tetapi tidak relevan untuk model kos produksi.
DeepSeek V4: jauh lebih murah, dengan kaveat yang wajar difahami
DeepSeek V4 menyenaraikan pada $0.435 setiap sejuta token input dan $0.87 setiap sejuta token output, iaitu antara lima hingga tujuh puluh kali lebih murah daripada model frontier AS bergantung pada yang mana anda bandingkan. Model itu sendiri berdaya saing pada banyak penanda aras, khususnya penaakulan dan kod. Kaveatnya wajar dinyatakan dengan jelas: data diproses di China, yang merupakan halangan mutlak untuk beberapa beban kerja yang dikawal selia; kualiti bahasa Inggeris adalah kukuh tetapi model dioptimumkan secara berbeza daripada model frontier AS, dan ujian terus berbanding pada beban kerja khusus anda adalah penting, bukan pilihan. Untuk beban kerja di mana kaveat ini boleh diterima, DeepSeek benar-benar mengubah persamaan kos.
Nota tentang Claude Opus 4.7 vs Sonnet 4.6. Opus disertakan dalam jadual untuk kelengkapan, tetapi bagi sebahagian besar trafik produksi, Sonnet 4.6 ialah pilihan ekonomi yang lebih baik. Opus menelan kos 1.67x Sonnet pada kedua-dua input dan output, dan untuk beban kerja di mana Sonnet mencukupi (iaitu kebanyakannya), premium itu tiada manfaat imbangan. Capai Opus apabila penilaian menunjukkan Sonnet gagal pada kelas tugas tertentu: agen pengkodan yang sangat autonomi, aliran kerja profesional jangka panjang, dan tugas di mana pemenuhan arahan pada margin adalah menentukan.
Contoh berangka: berapa sebenarnya kos 100 juta token sebulan
Harga tajuk per sejuta token tidak bermakna sehingga ia menyentuh beban kerja wakil. Contoh di bawah menggunakan profil yang menghampiri sistem produksi bukan remeh: 100 juta jumlah token sebulan, dibahagi 80% input (80M) dan 20% output (20M), dengan kadar kejayaan cache 30% pada bahagian input. Corak ini secara umum mewakili beban kerja sembang berhadapan pelanggan atau RAG dengan gesaan sistem dan konteks dokumen yang stabil.
Kiraan bagi setiap model: kos input yang di-cache + kos input yang tidak di-cache + kos output. Input yang di-cache dibil pada 10% daripada standard untuk penyedia yang menawarkan cache.
| Model | Cached input (24M) | Uncached input (56M) | Output (20M) | Jumlah bil bulanan |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Apa yang ini beritahu anda. Pada beban kerja wakil, Sonnet 4.6 pula adalah kira-kira separuh kos GPT-5.5. DeepSeek berada dalam alam kos yang berbeza sama sekali. Ini ialah angka harga senarai; menggunakan pemprosesan kelompok apabila layak mengurangkan setiap jumlah sebanyak 50% lagi pada input dan output (walaupun tidak pada hit cache).
Dua pemerhatian yang wajar dibawa ke hadapan. Pertama: cache ialah tuas paling berimpak yang anda kawal. Contoh di atas mengandaikan kadar kejayaan cache 30%; naikkan kepada 60% (sepenuhnya boleh dicapai untuk beban kerja dengan gesaan sistem yang stabil), dan jumlah kos turun kira-kira 25% lagi. Kedua: nisbah input-ke-output sangat penting. Beban kerja yang berat output (pemingkasan, penulisan bentuk panjang) cenderung ke arah penyedia dengan kadar output yang lebih murah, manakala beban kerja yang berat input (analisis konteks panjang, pengambilan RAG besar) cenderung ke arah penyedia dengan kadar input yang lebih murah dan tiada caj tambahan konteks panjang.
Kos tersembunyi yang tidak terdapat pada halaman harga
Harga senarai ialah lantai, bukan siling. Lima kos tambahan wajar dibajetkan secara jelas, kerana ia kerap mengejutkan pasukan ketika menskalakan daripada prototaip ke produksi:
- Token penaakulan. Model dengan mod penaakulan lanjutan (GPT-5.5 Thinking, DeepSeek V4 thinking mode) menjana kandungan penaakulan dalaman yang dikira sebagai token output. Satu panggilan penaakulan usaha tinggi pada gesaan panjang boleh menggunakan 20,000 token penaakulan, iaitu $0.60 kos output pada GPT-5.5 sebelum respons yang kelihatan dihasilkan. Bajet mengikut beban kerja, bukan setiap permintaan.
- Caj tambahan konteks panjang. Kedua-dua Gemini 3.5 Flash dan GPT-5.5 menaikkan kadar melebihi ambang panjang konteks. Saluran paip RAG yang merangkumi dokumen besar boleh secara senyap menolak setiap permintaan ke aras yang lebih tinggi tanpa sesiapa perasan sehingga bil tiba. Ukur panjang gesaan sebenar anda dalam produksi dan periksa sama ada anda melepasi ambang tersebut.
- Pengganda kediaman data. Anthropic mengenakan premium 10% untuk inferens khusus AS pada Opus 4.7 dan Sonnet 4.6. OpenAI mengenakan kenaikan 10% pada endpoint kediaman data untuk keluarga GPT-5.4. Untuk beban kerja yang dikawal selia di mana ini penting, masukkan ia ke dalam senarai kadar dari hari pertama.
- Hanyutan verbositi output. Apabila versi model baharu lebih menyeluruh secara lalai (seperti yang dilaporkan pada Opus 4.7 berbanding Opus 4.6), token output setiap respons boleh merayap naik walaupun panjang input kekal. Output dihargakan 5x lebih tinggi daripada input pada pihak Anthropic, jadi 20% kenaikan verbositi output ialah 20% kenaikan pada pemacu kos dominan.
- Permintaan gagal dan cuba semula. Kebanyakan penyedia tidak mengenakan bil untuk ralat 4xx dan 5xx, tetapi mereka mengenakan bil untuk penjanaan separa dan cubaan semula yang berjaya pada percubaan kedua. Dalam sistem produksi dengan logik cuba semula aktif, ini boleh menambah beberapa peratus pada bil. Wajar diketahui apabila mendamaikan invois penyedia dengan kos yang dijangka.
Bagaimana CometAPI sesuai
Keempat-empat model ini, ditambah 500+ yang lain, tersedia melalui CometAPI pada satu endpoint serasi OpenAI, dengan satu kelayakan, pengebilan bersatu, dan tiada persediaan akaun per penyedia. Harga pada CometAPI diukur per token pada kadar per model yang sama seperti yang diterbitkan oleh penyedia asas, dengan kredit dibeli terlebih dahulu dan digunakan merentasi mana-mana model dalam katalog. Nilai merutekan melalui CometAPI adalah operasi, bukannya per token: satu kelayakan untuk diurus, satu invois untuk didamaikan, dan keupayaan untuk bertukar daripada GPT-5.5 ke Claude Sonnet 4.6 ke Gemini 3.5 Flash dengan menukar satu rentetan dalam kod anda.
Terdapat beban kerja di mana akses terus kepada penyedia ialah pilihan yang betul. Jika anda menjalankan beban kerja satu model pada volum yang sangat tinggi pada satu penyedia, dengan kontrak perusahaan yang dirundingkan, ekonomi unit untuk pergi terus adalah lebih baik. Jika pendirian pematuhan anda memerlukan hubungan vendor-of-record tertentu, pengagregator merumitkan bukannya memudahkan perbualan itu. Bagi kebanyakan pasukan yang menjalankan beban kerja produksi multi-model, bagaimanapun, geseran operasi mengurus tiga atau empat hubungan penyedia langsung itu sendiri merupakan kos yang bermakna, yang tidak ditangkap oleh senarai kadar.
Cuba perbandingan ini pada beban kerja anda. Tier percuma pada CometAPI membolehkan anda menjalankan gesaan yang sama terhadap GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, dan DeepSeek V4 dari satu endpoint, tanpa pendaftaran berasingan. Untuk keputusan kos khusus beban kerja, latihan satu jam itu lebih berharga daripada mana-mana perbandingan harga yang pernah diterbitkan.
Cara menggunakan perbandingan ini
Model yang tepat untuk beban kerja anda bergantung pada dimensi senarai kadar yang paling penting untuk bentuk trafik anda. Rangka kerja keputusan praktikal:
- Jika kedalaman penaakulan ialah hambatan utama (agentic workflows, complex multi-step planning, the hardest coding tasks), mulakan dengan GPT-5.5 atau Claude Opus 4.7. Premiumnya nyata tetapi berbaloi pada beban kerja ini.
- Jika anda mahukan nisbah harga-ke-keupayaan terbaik untuk trafik produksi umum, Claude Sonnet 4.6 ialah lalai yang disyorkan. Keupayaan hampir-frontier, konteks 1M penuh pada kadar standard, dan sokongan cache yang kukuh.
- Jika anda peka kos dan beban kerja anda berada di bawah konteks 200K, Gemini 3.5 Flash ialah pilihan kelas-flagship termurah yang kredibel daripada penyedia AS utama.
- Jika beban kerja anda berisipadu tinggi dan didominasi harga, dan pendirian kediaman data DeepSeek boleh diterima, V4 mengubah persamaan kos cukup banyak untuk wajar dinilai secara serius, khususnya untuk beban kerja berbentuk kelompok.
Ingin melangkah lebih jauh dalam pengoptimuman kos? Data harga di atas ialah asas untuk perutean: amalan menghantar pertanyaan berbeza kepada model berbeza berdasarkan yang mana boleh menanganinya pada kos terendah. Rencana pendamping, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, menghuraikan corak perutean yang menukar senarai kadar ini kepada penjimatan sebenar pada bil bulanan anda.
