Perbandingan Harga API LLM 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash dan DeepSeek V4

Penetapan harga adalah keputusan paling berdampak saat memilih LLM frontier, dan ini juga dimensi yang paling sering ketinggalan zaman dalam waktu satu kuartal di sebagian besar perbandingan yang dipublikasikan. Artikel ini memotong kebingungan tersebut. Di bawah ini adalah pandangan terkini dan bersumber tentang harga token input dan output di empat model yang menyumbang mayoritas trafik model frontier produksi pada 2026 (GPT-5.5 dari OpenAI, Claude Sonnet 4.6 dari Anthropic, Gemini 3.5 Flash dari Google, dan DeepSeek V4), beserta tuas yang secara signifikan mengubah tagihan Anda pada skala besar: cache prompt, pemrosesan batch, dan biaya tambahan konteks panjang.

Tulisan ini dibangun di atas dua pertanyaan. Pertama: pada harga daftar, berapa biaya tiap model per sejuta token, dan bagaimana tarif yang dikutip dibandingkan pada input dan output yang benar-benar mendorong tagihan produksi? Kedua: saat Anda menerapkan beban kerja perwakilan (100 juta token per bulan, 80% input dan 20% output, dengan tingkat hit cache yang realistis), berapa tagihan bulanan dalam dolar pada setiap model? Jawaban pertama menetapkan daftar tarif; jawaban kedua memberi tahu Anda seperti apa daftar tarif itu setelah menyentuh pola produksi nyata.

Bacaan cepat: Di antara empat model frontier, harga daftar terbentang kira-kira dua orde besaran. DeepSeek V4 adalah yang termurah pada $0.435 per sejuta token input; Claude Opus 4.7 adalah yang termahal pada $5.00. Bentuk beban kerja Anda, khususnya tingkat hit cache dan rasio input-ke-output, mengubah model mana yang paling murah dalam praktik, sering kali lebih dari yang disiratkan daftar tarif.

Mengapa perbandingan harga apple-to-apple lebih sulit dari kelihatannya

Halaman harga penyedia ditulis untuk pelanggan penyedia itu sendiri, bukan untuk seseorang yang mengevaluasi empat opsi berdampingan. Akibatnya, membandingkannya menghasilkan tiga jebakan yang persisten:

Token tidak sama di semua penyedia. Claude Opus 4.7 hadir dengan tokenizer baru yang dapat menghasilkan hingga 35% lebih banyak token untuk input teks yang sama dibandingkan Opus 4.6. Tokenizer Gemini berbeda dari OpenAI. Daftar tarif adalah per sejuta token, tetapi jumlah token untuk prompt identik bervariasi antar penyedia, yang berarti tarif utama hanya perkiraan pertama dari biaya relatif.
Tingkat harga konteks panjang menciptakan tebing biaya. Keluarga GPT-5.5 milik OpenAI memiliki tarif konteks pendek dan panjang terpisah yang berlaku sekitar 270.000 token. Anthropic, sebaliknya, menahan tarif per token yang sama di seluruh jendela konteks 1M. Beban kerja yang berada dekat ambang ini dihargai sangat berbeda dengan beban kerja yang berada nyaman di dalamnya.
Diskon itu ditumpuk, bukan terpisah. Cache prompt, pemrosesan batch, dan tier volume spesifik penyedia masing-masing dapat memangkas biaya efektif secara drastis, dan diskon tersebut ditumpuk. Permintaan batch yang di-cache pada Anthropic bisa berbiaya serendah 5% dari permintaan standar yang tidak di-cache. Perbandingan harga yang mengabaikan tuas-tuas ini melebihkan biaya daftar, kadang-kadang sampai satu orde besaran.

Perbandingan di bawah ini menormalkan jebakan-jebakan tersebut jika memungkinkan, dan menandainya secara eksplisit bila tidak.

Perbandingan harga LLM frontier 2026

Semua angka dalam dolar AS per sejuta token. Bersumber dari dokumentasi harga resmi masing-masing penyedia per Mei 2026.

Model	Input	Output	Cached input	Batch (diskon 50%)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Yes (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	None
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	None
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Yes (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Not offered	384K	None

Membaca tabel: Cached input adalah tarif yang dibayar pada token yang disajikan dari cache prompt (biasanya system prompt, few-shot examples, atau prefiks dokumen yang berulang di berbagai permintaan). Batch adalah tarif yang dibayar untuk beban kerja asinkron dengan latensi hingga 24 jam. Long-context surcharge menunjukkan apakah penyedia menaikkan tarif di atas ambang panjang konteks; untuk yang menerapkan, ambangnya diberikan dalam tanda kurung.

Di mana masing-masing model unggul

GPT-5.5: default kapabilitas tertinggi untuk penalaran sulit dan kerja agenik

GPT-5.5 adalah model frontier OpenAI untuk beban kerja profesional yang kompleks: agen pengodean, perencanaan multi-langkah, penggunaan alat yang berjalan lama, dan analisis dokumen di mana kedalaman penalaran adalah persyaratan dominan. Ini juga yang paling mahal di antara model frontier utama AS pada input ($5.00 per sejuta) dan tertinggi pada output ($30.00 per sejuta), yang berarti model ini memperoleh posisinya pada beban kerja di mana alternatifnya adalah membayar tarif flagship ke model lain yang menyelesaikan masalah dengan reliabilitas lebih rendah. GPT-5.5 mendukung caching dengan diskon 90%, pemrosesan batch dengan diskon 50%, dan harga konteks panjang berlaku sekitar 270K token, yang relevan untuk basis kode yang sangat panjang atau konteks seluruh repositori namun tidak untuk beban kerja RAG tipikal.

Claude Sonnet 4.6: default yang direkomendasikan untuk sebagian besar trafik produksi

Sonnet 4.6 adalah model yang direkomendasikan Anthropic untuk mayoritas beban kerja produksi, dan rasio harga-ke-kapabilitas adalah alasannya. Pada $3 input dan $15 output per sejuta token, model ini berada di bawah GPT-5.5 pada kedua tarif sambil memberikan kualitas mendekati Opus pada beban kerja yang mendominasi sebagian besar sistem produksi: pengodean, analisis, pipeline RAG, chat untuk pelanggan, dan generasi output terstruktur. Fitur harga yang membedakan Sonnet adalah jendela konteks 1M penuh tersedia pada tarif standar (tidak ada long-context surcharge), yang menjadikannya opsi kredibel termurah untuk beban kerja yang sesekali perlu mencerna dokumen sangat panjang atau seluruh repositori. Cache prompt memangkas cached input menjadi 10% dari standar, yang menentukan untuk beban kerja apa pun dengan system prompt yang stabil.

Gemini 3.5 Flash: flagship berharga paling agresif untuk pekerjaan konteks pendek

Gemini 3.5 Flash adalah model kelas flagship termurah dari penyedia besar AS pada harga API mentah, di $1.50 input dan $9.00 output per sejuta token. Untuk sebagian besar trafik produksi, itulah tier harga yang relevan, dan secara material mengungguli GPT-5.5 dan Claude Opus 4.7. Harga yang lebih tinggi daripada model Flash sebelumnya mengarah pada peningkatan biaya keseluruhan dalam skenario agenik yang berat token (biaya Intelligence Index 5,5x vs. Gemini 3 Flash karena harga + penggunaan). Fitur pembeda Gemini lainnya adalah tier gratis yang benar-benar gratis di Google AI Studio, yang berguna untuk prototyping namun tidak relevan untuk model biaya produksi.

DeepSeek V4: jauh lebih murah, dengan catatan yang perlu dipahami

DeepSeek V4 mencantumkan $0.435 per sejuta token input dan $0.87 per sejuta token output, yang antara lima hingga tujuh puluh kali lebih murah daripada model frontier AS tergantung mana pembandingnya. Modelnya sendiri kompetitif pada banyak tolok ukur, khususnya penalaran dan kode. Catatannya perlu disebut eksplisit: data diproses di Tiongkok, yang tidak dapat diterima untuk beberapa beban kerja teregulasi; kualitas bahasa Inggris kuat tetapi model dioptimalkan berbeda dibanding model frontier AS, dan pengujian langsung head-to-head pada beban kerja spesifik Anda adalah esensial, bukan opsional. Untuk beban kerja di mana catatan-catatan ini dapat diterima, DeepSeek benar-benar mengubah persamaan biaya.

Catatan tentang Claude Opus 4.7 vs Sonnet 4.6. Opus disertakan dalam tabel demi kelengkapan, tetapi untuk sebagian besar trafik produksi, Sonnet 4.6 adalah pilihan ekonomi yang lebih baik. Opus berbiaya 1,67x Sonnet pada input dan output, dan untuk beban kerja di mana Sonnet sudah memadai (yang merupakan sebagian besar), premi itu tidak memiliki manfaat kompensasi. Gunakan Opus ketika evaluasi menunjukkan Sonnet gagal pada kelas tugas tertentu: agen pengodean yang sangat otonom, alur kerja profesional dengan horizon panjang, dan tugas di mana kepatuhan instruksi pada batasnya bersifat menentukan.

Contoh perhitungan: berapa biaya 100 juta token per bulan sebenarnya

Harga utama per sejuta token berarti sedikit hingga menyentuh beban kerja yang representatif. Contoh di bawah ini menggunakan profil yang mendekati sistem produksi non-sepele: total 100 juta token per bulan, terbagi 80% input (80M) dan 20% output (20M), dengan tingkat hit cache 30% pada porsi input. Pola ini secara umum merepresentasikan beban kerja chat untuk pelanggan atau RAG dengan system prompt dan konteks dokumen yang stabil.

Perhitungannya untuk tiap model: biaya cached input + biaya uncached input + biaya output. Cached input ditagih 10% dari standar untuk penyedia yang menawarkan caching.

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Apa yang ini beritahukan kepada Anda. Pada beban kerja yang representatif, Sonnet 4.6 kira-kira setengah biaya GPT-5.5. DeepSeek berada di semesta biaya yang berbeda sama sekali. Ini adalah angka harga daftar; menerapkan pemrosesan batch jika memenuhi syarat memangkas total masing-masing sebesar 50% pada input dan output (meski tidak pada hit cache).

Dua catatan yang patut dibawa. Pertama: caching adalah tuas paling berdampak yang Anda kendalikan. Contoh di atas mengasumsikan tingkat hit cache 30%; naikkan menjadi 60% (sepenuhnya dapat dicapai untuk beban kerja dengan system prompt yang stabil), dan total biaya turun kira-kira 25% lagi. Kedua: rasio input-ke-output sangat penting. Beban kerja yang berat di output (ringkasan, penulisan panjang) condong ke penyedia dengan tarif output lebih murah, sementara beban kerja yang berat di input (analisis konteks panjang, pengambilan RAG besar) condong ke penyedia dengan tarif input lebih murah dan tanpa long-context surcharge.

Biaya tersembunyi yang tidak ada di halaman harga

Harga daftar adalah lantai, bukan langit-langit. Lima biaya tambahan patut dianggarkan secara eksplisit, karena secara rutin mengejutkan tim yang menskalakan dari prototipe ke produksi:

Token penalaran. Model dengan mode penalaran diperpanjang (GPT-5.5 Thinking, DeepSeek V4 thinking mode) menghasilkan konten penalaran internal yang dihitung sebagai token output. Satu panggilan penalaran upaya tinggi pada prompt panjang dapat menghasilkan 20.000 token penalaran, yang setara $0.60 biaya output pada GPT-5.5 sebelum respons yang terlihat diproduksi. Anggarkan per beban kerja, bukan per permintaan.
Long-context surcharge. Baik Gemini 3.5 Flash maupun GPT-5.5 menaikkan tarif di atas ambang panjang konteks. Pipeline RAG yang menyertakan dokumen besar dapat diam-diam mendorong setiap permintaan ke tier lebih tinggi tanpa ada yang menyadari sampai tagihan datang. Ukur panjang prompt aktual Anda di produksi dan periksa apakah Anda melampaui ambang tersebut.
Pengali residensi data. Anthropic mengenakan premi 10% untuk inferensi hanya-AS pada Opus 4.7 dan Sonnet 4.6. OpenAI menerapkan kenaikan 10% pada endpoint residensi data untuk keluarga GPT-5.4. Untuk beban kerja teregulasi di mana ini penting, faktor kan sejak hari pertama ke daftar tarif.
Drift verbositas output. Ketika versi model baru lebih menyeluruh secara default (sebagaimana dilaporkan Opus 4.7 dibanding Opus 4.6), token output per respons dapat merayap naik meski panjang input konstan. Output dihargai 5x lebih tinggi daripada input di lini Anthropic, jadi pergeseran 20% pada verbositas output berarti peningkatan 20% pada pendorong biaya dominan.
Permintaan gagal dan diulang. Sebagian besar penyedia tidak menagih untuk error 4xx dan 5xx, tetapi mereka menagih untuk generasi parsial dan retry yang berhasil pada percobaan kedua. Dalam sistem produksi dengan logika percobaan ulang aktif, ini dapat menambah beberapa persen pada tagihan. Perlu diketahui saat merekonsiliasi faktur penyedia dengan biaya yang diharapkan.

Peran CometAPI

Keempat model ini, plus 500+ lainnya, tersedia melalui CometAPI pada satu endpoint yang kompatibel dengan OpenAI, dengan satu kredensial, penagihan terpadu, dan tanpa penyiapan akun per penyedia. Harga di CometAPI diukur per token pada tarif per model yang sama seperti yang dipublikasikan oleh penyedia di bawahnya, dengan kredit dibeli di muka dan diterapkan pada model apa pun dalam katalog. Nilai melakukan rute melalui CometAPI bersifat operasional, bukan per token: satu kredensial untuk dikelola, satu faktur untuk direkonsiliasi, dan kemampuan berpindah dari GPT-5.5 ke Claude Sonnet 4.6 ke Gemini 3.5 Flash dengan mengubah satu string di kode Anda.

Ada beban kerja di mana akses langsung ke penyedia adalah pilihan yang tepat. Jika Anda menjalankan beban kerja satu model dengan volume sangat tinggi pada satu penyedia, dengan kontrak enterprise yang dinegosiasikan, ekonomi unit untuk akses langsung lebih baik. Jika postur kepatuhan Anda memerlukan hubungan vendor resmi tertentu, agregator memperumit alih-alih menyederhanakan percakapan tersebut. Namun, bagi mayoritas tim yang menjalankan beban kerja produksi multi-model, gesekan operasional dalam mengelola tiga atau empat hubungan langsung dengan penyedia itu sendiri adalah biaya yang berarti, yang tidak ditangkap oleh daftar tarif.

Coba perbandingan ini pada beban kerja Anda. Tier gratis di CometAPI memungkinkan Anda menjalankan prompt yang sama terhadap GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, dan DeepSeek V4 dari satu endpoint, tanpa pendaftaran terpisah. Untuk keputusan biaya spesifik beban kerja, latihan satu jam itu bernilai lebih daripada perbandingan harga apa pun yang pernah dipublikasikan.

Cara menggunakan perbandingan ini

Model yang tepat untuk beban kerja Anda bergantung pada dimensi daftar tarif mana yang paling penting untuk bentuk trafik Anda. Kerangka keputusan yang praktis:

Jika kedalaman penalaran adalah bottleneck (alur kerja berbasis agen, perencanaan multi-langkah yang kompleks, tugas pengodean tersulit), mulai dengan GPT-5.5 atau Claude Opus 4.7. Premi itu nyata namun layak pada beban kerja ini.
Jika Anda menginginkan rasio harga-ke-kapabilitas terbaik untuk trafik produksi umum, Claude Sonnet 4.6 adalah default yang direkomendasikan. Kapabilitas mendekati frontier, konteks 1M penuh pada tarif standar, dan dukungan caching yang kuat.
Jika Anda sensitif terhadap biaya dan beban kerja Anda berada di bawah konteks 200K, Gemini 3.5 Flash adalah opsi kelas flagship paling murah yang kredibel dari penyedia besar AS.
Jika beban kerja Anda ber-volume tinggi dan sangat dipengaruhi biaya, dan postur residensi data DeepSeek dapat diterima, V4 mengubah persamaan biaya cukup jauh sehingga layak evaluasi serius, khususnya untuk beban kerja berbentuk batch.

Ingin melangkah lebih jauh dalam optimasi biaya? Data harga di atas adalah fondasi untuk perutean: praktik mengirim kueri berbeda ke model berbeda berdasarkan mana yang dapat menanganinya dengan biaya terendah. Tulisan pendamping, Memangkas Biaya API LLM Menjadi Setengah: Panduan Perutean Model untuk Beban Kerja Produksi pada 2026, mengulas pola perutean yang mengubah daftar tarif ini menjadi penghematan nyata pada tagihan bulanan Anda.