Perbandingan Harga API LLM 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash dan DeepSeek V4

Penetapan harga ialah keputusan tunggal paling berimplikasi dalam memilih LLM frontier, dan ia juga merupakan dimensi di mana kebanyakan perbandingan yang diterbitkan menjadi lapuk dalam tempoh suku tahun. Artikel ini merungkai perkara tersebut. Di bawah ialah pandangan semasa yang bersumberkan tentang harga token input dan output bagi empat model yang merangkumi majoriti trafik model frontier produksi pada 2026 (GPT-5.5 oleh OpenAI, Claude Sonnet 4.6 oleh Anthropic, Gemini 3.5 Flash oleh Google, dan DeepSeek V4), berserta tuas yang benar-benar mengubah bil anda pada skala: cache prompt, pemprosesan batch, dan caj tambahan konteks panjang.

Rencana ini dibina berdasarkan dua soalan. Pertama: pada harga senarai, berapakah kos setiap model bagi setiap sejuta token, dan bagaimana kadar yang disebut berbanding pada input dan output yang benar-benar memacu bil produksi? Kedua: apabila anda gunakan beban kerja perwakilan (100 juta token sebulan, 80% input dan 20% output, dengan kadar hit cache realistik), berapakah bil bulanan dalam dolar bagi setiap model? Jawapan pertama menetapkan kadar harga; jawapan kedua memberitahu bagaimana kadar itu berubah apabila diaplikasikan pada corak produksi sebenar.

Bacaan pantas: Merentas empat model frontier, harga senarai menjangkau kira-kira dua order magnitud. DeepSeek V4 paling murah pada $0.435 setiap sejuta token input; Claude Opus 4.7 paling mahal pada $5.00. Bentuk beban kerja anda, khususnya kadar hit cache dan nisbah input-ke-output, mengubah model mana yang paling murah dalam praktik, sering kali lebih daripada yang disiratkan oleh kadar harga.

Mengapa perbandingan harga setara lebih sukar daripada yang disangka

Halaman harga penyedia ditulis untuk pelanggan penyedia itu sendiri, bukan untuk seseorang yang menilai empat pilihan secara sebelah-menyebelah. Hasilnya, membandingkannya menghasilkan tiga perangkap berterusan:

Token tidak seragam merentas penyedia. Claude Opus 4.7 hadir dengan tokenizer baharu yang boleh menghasilkan sehingga 35% lebih banyak token untuk teks input yang sama berbanding Opus 4.6. Tokenizer Gemini berbeza daripada OpenAI. Kadar harga adalah per sejuta token, tetapi kiraan token untuk prompt yang sama berbeza antara penyedia, bermakna kadar tajuk utama hanyalah anggaran pertama bagi kos relatif.
Peringkat harga konteks panjang mencipta jurang kos. Keluarga GPT-5.5 OpenAI mempunyai kadar konteks pendek dan panjang yang berasingan yang mula terpakai sekitar 270,000 token. Anthropic, sebaliknya, mengekalkan kadar per token yang sama merentas keseluruhan tetingkap konteks 1M. Beban kerja yang berada hampir ambang ini diberi harga sangat berbeza berbanding beban kerja yang berada selesa di dalamnya.
Diskaun adalah bertindan, bukan terasing. Cache prompt, pemprosesan batch, dan peringkat volum khusus penyedia masing-masing boleh memotong kos efektif dengan ketara, dan ia bertindan. Permintaan batch yang dicache pada Anthropic boleh berharga serendah 5% daripada permintaan standard yang tidak dicache. Perbandingan harga yang mengabaikan tuas ini melebih-anggarkan kos senarai, kadang-kadang sehingga satu order magnitud.

Perbandingan di bawah menormalkan perangkap ini setakat yang mampu, dan menandakannya secara jelas jika tidak mampu.

Perbandingan harga LLM frontier 2026

Semua angka dalam dolar AS bagi setiap sejuta token. Sumber daripada dokumentasi harga rasmi setiap penyedia setakat Mei 2026.

Model	Input	Output	Input dicache	Batch (diskaun 50%)	Tetingkap konteks	Caj tambahan konteks panjang
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Ya (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Tiada
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Tiada
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Ya (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Tidak ditawarkan	384K	Tiada

Membaca jadual: Input dicache ialah kadar yang dibayar pada token yang disediakan daripada cache prompt (lazimnya prompt sistem, contoh few-shot, atau awalan dokumen yang berulang merentas permintaan). Batch ialah kadar yang dibayar untuk beban kerja tak segerak dengan kelewatan sehingga 24 jam. Caj tambahan konteks panjang menunjukkan sama ada penyedia menaikkan kadar di atas ambang panjang konteks; bagi yang berbuat demikian, ambang diberikan dalam kurungan.

Di mana setiap model menonjol

GPT-5.5: lalai berkeupayaan tertinggi untuk penaakulan sukar dan kerja agen

GPT-5.5 ialah model frontier OpenAI untuk beban kerja profesional kompleks: ejen pengekodan, perancangan berbilang langkah, penggunaan alat jangka panjang, dan analisis dokumen di mana kedalaman penaakulan merupakan keperluan dominan. Ia juga merupakan yang termahal dalam kalangan model frontier utama AS pada input ($5.00 per sejuta) dan tertinggi pada output ($30.00 per sejuta), yang bermaksud ia menjustifikasi kedudukannya pada beban kerja di mana alternatifnya ialah membayar kadar flagship kepada model lain yang menyelesaikan masalah dengan kurang boleh dipercayai. GPT-5.5 menyokong cache pada diskaun 90%, pemprosesan batch pada diskaun 50%, dan harga konteks panjang mula terpakai sekitar tanda 270K token, yang relevan untuk asas kod yang sangat panjang atau konteks keseluruhan repositori tetapi tidak bagi beban kerja RAG lazim.

Claude Sonnet 4.6: lalai yang disyorkan untuk kebanyakan trafik produksi

Sonnet 4.6 ialah model yang disyorkan Anthropic untuk majoriti beban kerja produksi, dan nisbah harga-ke-keupayaan ialah sebabnya. Pada $3 input dan $15 output per sejuta token, ia berada di bawah GPT-5.5 pada kedua-dua kadar sambil menyampaikan kualiti hampir setara Opus pada beban kerja yang mendominasi kebanyakan sistem produksi: pengekodan, analisis, pipeline RAG, sembang berhadapan pelanggan, dan penjanaan output berstruktur. Ciri harga yang membezakannya ialah keseluruhan tetingkap konteks 1M token tersedia pada kadar standard (tiada caj tambahan konteks panjang), yang menjadikannya pilihan berdaya maju paling murah untuk beban kerja yang sesekali perlu mengambil dokumen sangat panjang atau keseluruhan repositori. Cache prompt memotong input dicache kepada 10% daripada standard, yang menentukan untuk mana-mana beban kerja dengan prompt sistem yang stabil.

Gemini 3.5 Flash: flagship berharga paling agresif untuk kerja konteks pendek

Gemini 3.5 Flash ialah model kelas-flagship paling murah daripada penyedia AS utama pada harga API asas, pada $1.50 input dan $9.00 output per sejuta token. Bagi kebanyakan trafik produksi, itulah peringkat harga yang relevan, dan ia memintas harga GPT-5.5 serta Claude Opus 4.7 dengan ketara. Harga lebih tinggi berbanding model Flash sebelumnya membawa kepada peningkatan kos keseluruhan dalam senario berasaskan token yang beragen (kos Intelligence Index 5.5x berbanding Gemini 3 Flash disebabkan harga + penggunaan). Ciri pembeza lain Gemini ialah peringkat percuma sebenar dalam Google AI Studio, yang berguna untuk prototaip tetapi tidak relevan untuk model kos produksi.

DeepSeek V4: jauh lebih murah, dengan kaveat yang perlu difahami

DeepSeek V4 disenaraikan pada $0.435 setiap sejuta token input dan $0.87 setiap sejuta token output, iaitu antara lima hingga tujuh puluh kali lebih murah daripada model frontier AS bergantung pada bandingan. Model ini sendiri kompetitif pada banyak penanda aras, khususnya penaakulan dan kod. Kaveat wajar dinyatakan dengan jelas: data diproses di China, yang mustahil dipertimbangkan bagi sesetengah beban kerja dikawal selia; kualiti bahasa Inggeris adalah kukuh tetapi model dioptimumkan secara berbeza daripada model frontier AS, dan ujian perbandingan terus pada beban kerja khusus anda adalah perlu, bukan pilihan. Untuk beban kerja di mana kaveat ini boleh diterima, DeepSeek benar-benar mengubah persamaan kos.

Catatan tentang Claude Opus 4.7 vs Sonnet 4.6. Opus disertakan dalam jadual demi kelengkapan, tetapi bagi sebahagian besar trafik produksi, Sonnet 4.6 ialah pilihan ekonomi yang lebih baik. Opus berharga 1.67x daripada Sonnet pada input dan output, dan bagi beban kerja di mana Sonnet memadai (yang merupakan kebanyakannya), premium tersebut tiada faedah penimbal. Capai Opus apabila penilaian menunjukkan Sonnet gagal pada kelas tugas tertentu: ejen pengekodan sangat autonomi, aliran kerja profesional berjangka panjang, dan tugas di mana pematuhan arahan pada margin adalah menentukan.

Contoh pengiraan: berapa kos 100 juta token sebulan sebenarnya

Harga tajuk per sejuta token kurang bermakna sehingga ia diaplikasikan pada beban kerja perwakilan. Contoh di bawah menggunakan profil yang menghampiri sistem produksi yang bukan kecil: 100 juta token sebulan keseluruhan, dibahagi 80% input (80M) dan 20% output (20M), dengan kadar hit cache 30% pada bahagian input. Pola ini secara umum mewakili beban kerja sembang berhadapan pelanggan atau RAG dengan prompt sistem dan konteks dokumen yang stabil.

Kiraan bagi setiap model: kos input dicache + kos input tidak dicache + kos output. Input dicache dibil pada 10% daripada standard bagi penyedia yang menawarkan cache.

Model	Input dicache (24M)	Input tidak dicache (56M)	Output (20M)	Jumlah bil bulanan
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Apa yang ini beritahu anda. Pada beban kerja perwakilan, Sonnet 4.6 adalah kira-kira separuh kos GPT-5.5. DeepSeek berada dalam alam kos yang berbeza sama sekali. Ini ialah angka harga senarai; penggunaan pemprosesan batch di mana layak memotong setiap jumlah sebanyak lagi 50% pada input dan output (namun tidak pada hit cache).

Dua pemerhatian yang wajar dibawa ke hadapan. Pertama: cache ialah tuas tunggal paling berimpak yang anda kawal. Contoh di atas menganggap kadar hit cache 30%; naikkan kepada 60% (sepenuhnya boleh dicapai untuk beban kerja dengan prompt sistem yang stabil), dan jumlah kos turun kira-kira lagi 25%. Kedua: nisbah input-ke-output sangat penting. Beban kerja yang berat pada output (pembingkasan, penulisan bentuk panjang) condong kepada penyedia dengan kadar output lebih murah, manakala beban kerja yang berat pada input (analisis konteks panjang, pengambilan RAG yang besar) condong kepada penyedia dengan kadar input lebih murah dan tiada caj tambahan konteks panjang.

Kos tersembunyi yang tiada pada halaman harga

Harga senarai ialah lantai, bukan siling. Lima kos tambahan wajar diperuntukkan secara jelas, kerana ia kerap mengejutkan pasukan yang meningkat skala daripada prototaip ke produksi:

Token penaakulan. Model dengan mod penaakulan lanjutan (GPT-5.5 Thinking, mod thinking DeepSeek V4) menjana kandungan penaakulan dalaman yang dikira sebagai token output. Satu panggilan penaakulan berusaha tinggi pada prompt panjang boleh menggunakan 20,000 token penaakulan, iaitu $0.60 kos output pada GPT-5.5 sebelum respons kelihatan dihasilkan. Belanjakan mengikut beban kerja, bukan setiap permintaan.
Caj tambahan konteks panjang. Gemini 3.5 Flash dan GPT-5.5 kedua-duanya menaikkan kadar di atas ambang panjang konteks. Pipeline RAG yang merangkumi dokumen besar boleh secara senyap menolak setiap permintaan ke kurungan lebih tinggi tanpa sesiapa sedar sehingga bil tiba. Ukur panjang prompt sebenar anda dalam produksi dan periksa sama ada anda melepasi ambang tersebut.
Pengganda residensi data. Anthropic mengenakan premium 10% untuk inferens khusus AS pada Opus 4.7 dan Sonnet 4.6. OpenAI mengenakan kenaikan 10% pada endpoint residensi data untuk keluarga GPT-5.4. Untuk beban kerja dikawal selia di mana ini penting, faktor ini ke dalam kadar harga dari hari pertama.
Hanyutan kepanjangan output. Apabila versi model baharu lebih terperinci secara lalai (seperti yang dilaporkan pada Opus 4.7 berbanding Opus 4.6), token output per respons boleh merayap naik walaupun panjang input kekal. Output berharga 5x lebih tinggi daripada input pada struktur harga Anthropic, jadi 20% kenaikan pada kepanjangan output ialah peningkatan 20% pada pemacu kos dominan.
Permintaan gagal dan cuba semula. Kebanyakan penyedia tidak mengebil untuk ralat 4xx dan 5xx, tetapi mereka mengebil untuk penjanaan separa dan cubaan semula yang berjaya pada percubaan kedua. Dalam sistem produksi dengan logik cuba semula aktif, ini boleh menambah beberapa peratus pada bil. Perlu diketahui semasa menyelaraskan invois penyedia dengan kos yang dijangka.

Peranan CometAPI

Keempat-empat model ini, ditambah 500+ yang lain, tersedia melalui CometAPI pada satu endpoint serasi OpenAI, dengan satu kelayakan, pengebilan bersatu, dan tanpa tetapan akaun per penyedia. Harga di CometAPI diukur per token pada kadar per model yang sama seperti yang diterbitkan oleh penyedia asas, dengan kredit dibeli lebih awal dan digunakan merentas mana-mana model dalam katalog. Nilai merutekan melalui CometAPI adalah operasi, bukannya per token: satu kelayakan untuk diurus, satu invois untuk diselaraskan, dan keupayaan menukar daripada GPT-5.5 ke Claude Sonnet 4.6 ke Gemini 3.5 Flash dengan menukar satu rentetan dalam kod anda.

Terdapat beban kerja di mana akses penyedia terus ialah pilihan yang tepat. Jika anda menjalankan beban kerja satu model pada volum sangat tinggi pada satu penyedia, dengan kontrak perusahaan yang dirundingkan, ekonomi unit dengan pergi terus adalah lebih baik. Jika pendirian pematuhan anda memerlukan hubungan vendor-of-record tertentu, agregator merumitkan dan bukannya mempermudah perbincangan itu. Bagi majoriti pasukan yang menjalankan beban kerja produksi berbilang model, bagaimanapun, geseran operasi mengurus tiga atau empat hubungan penyedia langsung itu sendiri adalah kos yang bermakna, yang tidak ditangkap oleh kadar harga.

Cuba perbandingan pada beban kerja anda. Peringkat percuma di CometAPI membolehkan anda menjalankan prompt yang sama terhadap GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, dan DeepSeek V4 daripada satu endpoint, tanpa daftar berasingan. Untuk keputusan kos khusus beban kerja, latihan satu jam itu lebih berharga daripada mana-mana perbandingan harga yang pernah diterbitkan.

Cara menggunakan perbandingan ini

Model yang tepat untuk beban kerja anda bergantung pada dimensi kadar harga mana yang paling penting bagi bentuk trafik anda. Rangka kerja keputusan praktikal:

Jika kedalaman penaakulan ialah hambatan utama (aliran kerja beragen, perancangan berbilang langkah kompleks, tugas pengekodan paling sukar), mulakan dengan GPT-5.5 atau Claude Opus 4.7. Premiumnya nyata tetapi setimpal pada beban kerja ini.
Jika anda mahukan nisbah harga-ke-keupayaan terbaik untuk trafik produksi umum, Claude Sonnet 4.6 ialah lalai yang disyorkan. Keupayaan hampir-froniter, tetingkap konteks penuh 1M pada kadar standard, dan sokongan cache yang kukuh.
Jika anda peka kos dan beban kerja anda berada di bawah konteks 200K, Gemini 3.5 Flash ialah pilihan kelas-flagship paling murah yang boleh dipercayai daripada penyedia AS utama.
Jika beban kerja anda berisipadu tinggi dan didominasi harga, dan pendirian residensi data DeepSeek boleh diterima, V4 mengubah persamaan kos cukup banyak untuk layak dinilai serius, khususnya untuk beban kerja berbentuk batch.

Mahukan pengoptimuman kos lebih jauh? Data harga di atas ialah asas untuk perutean: amalan menghantar pertanyaan berbeza kepada model berbeza berdasarkan mana yang boleh menanganinya pada kos terendah. Rencana pendamping, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, menghuraikan pola perutean yang mengubah kadar harga ini kepada penjimatan sebenar pada bil bulanan anda.