Penetapan harga adalah keputusan tunggal yang paling menentukan dalam memilih LLM frontier, dan ini juga merupakan dimensi di mana sebagian besar perbandingan yang dipublikasikan menjadi usang dalam satu kuartal. Artikel ini mengatasi hal itu. Di bawah ini adalah pandangan terkini dan bersumber tentang harga token input dan output di empat model yang mencakup mayoritas lalu lintas model frontier di produksi pada 2026 (GPT-5.5 dari OpenAI, Claude Sonnet 4.6 dari Anthropic, Gemini 3.5 Flash dari Google, dan DeepSeek V4), beserta tuas yang secara signifikan mengubah tagihan Anda pada skala: cache prompt, pemrosesan batch, dan biaya tambahan konteks panjang.
Tulisan ini dibangun di atas dua pertanyaan. Pertama: pada harga daftar, berapa biaya setiap model per satu juta token, dan bagaimana tarif yang dikutip dibandingkan pada input dan output yang benar-benar mendorong tagihan produksi? Kedua: ketika Anda menerapkan beban kerja yang representatif (100 juta token per bulan, 80% input dan 20% output, dengan rasio hit cache yang realistis), berapa tagihan bulanan dalam dolar pada setiap model? Jawaban pertama menetapkan kartu tarif; jawaban kedua memberi tahu Anda seperti apa kartu tarif itu ketika menyentuh pola produksi nyata.
Bacaan singkat: Di keempat model frontier, harga daftar membentang kira-kira dua orde besaran. DeepSeek V4 adalah yang termurah pada $0.435 per satu juta token input; Claude Opus 4.7 adalah yang termahal pada $5.00. Bentuk beban kerja Anda, khususnya rasio hit cache dan rasio input-ke-output, mengubah model mana yang termurah dalam praktik, sering kali lebih dari yang disiratkan oleh kartu tarif.
Mengapa perbandingan harga yang benar-benar sepadan lebih sulit daripada kelihatannya
Halaman harga penyedia ditulis untuk pelanggan penyedia itu sendiri, bukan untuk seseorang yang menilai empat opsi berdampingan. Akibatnya, membandingkannya menghasilkan tiga jebakan yang persisten:
- Token tidak sama antar penyedia. Claude Opus 4.7 hadir dengan tokenizer baru yang dapat menghasilkan hingga 35% lebih banyak token untuk teks input yang sama dibandingkan Opus 4.6. Tokenizer Gemini berbeda dari milik OpenAI. Kartu tarif dihitung per satu juta token, tetapi jumlah token untuk prompt yang identik berbeda antar penyedia, yang berarti tarif utama hanyalah pendekatan pertama dari biaya relatif.
- Tingkat harga konteks panjang menciptakan lonjakan biaya. Keluarga GPT-5.5 dari OpenAI memiliki tarif konteks pendek dan panjang yang terpisah yang mulai berlaku sekitar 270.000 token. Sebaliknya, Anthropic menahan tarif per token yang sama di seluruh jendela konteks 1M miliknya. Beban kerja yang berada di ambang batas ini dihargai sangat berbeda dengan beban kerja yang nyaman di dalamnya.
- Diskon dapat ditumpuk, bukan terpisah. Cache prompt, pemrosesan batch, dan tier volume khusus penyedia masing-masing dapat memangkas biaya efektif secara dramatis, dan semuanya bisa ditumpuk. Permintaan batch yang tercache di Anthropic dapat berbiaya serendah 5% dari permintaan standar yang tidak tercache. Perbandingan harga yang mengabaikan tuas ini melebihkan biaya daftar, terkadang hingga satu orde besaran.
Perbandingan di bawah menormalkan jebakan-jebakan ini sebisanya, dan menandainya secara eksplisit ketika tidak bisa.
Perbandingan harga LLM frontier 2026
Semua angka dalam dolar AS per satu juta token. Bersumber dari dokumentasi harga resmi masing-masing penyedia per Mei 2026.
| Model | Input | Output | Input tercache | Batch (diskon 50%) | Jendela konteks | Biaya tambahan konteks panjang |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Ya (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Tidak ada |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Tidak ada |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Ya (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Tidak tersedia | 384K | Tidak ada |
Membaca tabel: Input tercache adalah tarif yang dibayar untuk token yang dilayani dari cache prompt (biasanya system prompt, contoh few-shot, atau prefiks dokumen yang berulang di berbagai permintaan). Batch adalah tarif yang dibayar untuk beban kerja asinkron dengan latensi hingga 24 jam. Biaya tambahan konteks panjang menunjukkan apakah penyedia menaikkan tarif di atas ambang panjang konteks; bagi yang iya, ambang ditampilkan di dalam tanda kurung.
Di mana masing-masing model unggul
GPT-5.5: default berkapabilitas tertinggi untuk penalaran sulit dan kerja agen
GPT-5.5 adalah model frontier OpenAI untuk beban kerja profesional yang kompleks: agen pengodean, perencanaan multi-langkah, penggunaan tool jangka panjang, dan analisis dokumen di mana kedalaman penalaran menjadi kebutuhan utama. Ini juga merupakan model paling mahal di antara model frontier besar AS pada input ($5.00 per juta) dan tertinggi pada output ($30.00 per juta), yang berarti ia mendapatkan posisinya pada beban kerja di mana alternatifnya adalah membayar tarif flagship ke model lain yang menyelesaikan masalah dengan tingkat keandalan lebih rendah. GPT-5.5 mendukung cache dengan diskon 90%, pemrosesan batch dengan diskon 50%, dan harga konteks panjang mulai berlaku sekitar 270K token, relevan untuk basis kode yang sangat panjang atau konteks repositori penuh, tetapi tidak untuk beban kerja RAG tipikal.
Claude Sonnet 4.6: default yang direkomendasikan untuk sebagian besar lalu lintas produksi
Sonnet 4.6 adalah model yang direkomendasikan Anthropic untuk mayoritas beban kerja produksi, dan rasio harga-ke-kapabilitas adalah alasannya. Pada $3 input dan $15 output per juta token, model ini berada di bawah GPT-5.5 pada kedua tarif sekaligus memberikan kualitas mendekati Opus pada beban kerja yang mendominasi sebagian besar sistem produksi: pengodean, analisis, pipeline RAG, chat untuk pelanggan, dan generasi keluaran terstruktur. Fitur harga pembeda Sonnet adalah jendela konteks 1M penuh tersedia pada tarif standar (tidak ada biaya tambahan konteks panjang), yang menjadikannya opsi kredibel termurah untuk beban kerja yang sesekali perlu memasukkan dokumen yang sangat panjang atau repositori penuh. Cache prompt memangkas input tercache menjadi 10% dari standar, yang menentukan untuk beban kerja dengan system prompt yang stabil.
Gemini 3.5 Flash: flagship berharga paling agresif untuk pekerjaan konteks pendek
Gemini 3.5 Flash adalah model kelas flagship termurah dari penyedia besar AS pada harga API mentah, yakni $1.50 input dan $9.00 output per juta token. Untuk sebagian besar lalu lintas produksi, itulah tingkat harga yang relevan, dan ini secara material lebih murah daripada GPT-5.5 dan Claude Opus 4.7. Harga yang lebih tinggi daripada model Flash sebelumnya menyebabkan meningkatnya biaya keseluruhan dalam skenario agen yang berat token (5.5x biaya Intelligence Index dibandingkan Gemini 3 Flash karena harga + penggunaan). Fitur pembeda lain Gemini adalah tier gratis yang benar-benar gratis di Google AI Studio, yang berguna untuk prototipe tetapi tidak relevan bagi model biaya produksi.
DeepSeek V4: jauh lebih murah, dengan catatan penting yang perlu dipahami
DeepSeek V4 tercantum pada $0.435 per satu juta token input dan $0.87 per satu juta token output, yang berada antara lima hingga tujuh puluh kali lebih murah daripada model frontier AS tergantung perbandingannya. Model ini sendiri kompetitif pada banyak tolok ukur, terutama penalaran dan kode. Catatannya perlu dinyatakan secara eksplisit: data diproses di Tiongkok, yang merupakan halangan bagi beberapa beban kerja yang diatur; kualitas bahasa Inggris kuat namun model dioptimalkan secara berbeda dari model frontier AS, dan pengujian head-to-head pada beban kerja spesifik Anda adalah hal yang esensial, bukan opsional. Untuk beban kerja di mana catatan-catatan ini dapat diterima, DeepSeek benar-benar mengubah persamaan biaya.
Catatan tentang Claude Opus 4.7 vs Sonnet 4.6. Opus disertakan dalam tabel demi kelengkapan, tetapi untuk sebagian besar lalu lintas produksi, Sonnet 4.6 adalah pilihan yang lebih ekonomis. Opus berbiaya 1,67x Sonnet pada input dan output, dan untuk beban kerja di mana Sonnet sudah memadai (yang merupakan sebagian besar), premi tersebut tidak memiliki manfaat kompensasi. Pilih Opus ketika evaluasi menunjukkan Sonnet gagal pada kelas tugas tertentu: agen pengodean yang sangat otonom, alur kerja profesional berjangka panjang, dan tugas di mana ketaatan instruksi pada detail menjadi penentu.
Contoh kerja: berapa biaya 100 juta token per bulan sebenarnya
Harga utama per satu juta token tidak banyak berarti sampai menyentuh beban kerja yang representatif. Contoh di bawah menggunakan profil yang mendekati sistem produksi yang tidak sepele: 100 juta total token per bulan, dibagi 80% input (80M) dan 20% output (20M), dengan rasio hit cache 30% pada porsi input. Pola ini secara umum mewakili beban kerja chat untuk pelanggan atau RAG dengan system prompt dan konteks dokumen yang stabil.
Perhitungannya untuk setiap model: biaya input tercache + biaya input tidak tercache + biaya output. Input tercache ditagihkan 10% dari standar untuk penyedia yang menawarkan cache.
| Model | Input tercache (24M) | Input tidak tercache (56M) | Output (20M) | Total tagihan bulanan |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Apa maknanya. Pada beban kerja yang representatif, Sonnet 4.6 kira-kira setengah biaya GPT-5.5. DeepSeek berada di alam biaya yang berbeda sama sekali. Ini adalah angka harga daftar; menerapkan pemrosesan batch di tempat yang memenuhi syarat memangkas total masing-masing sebesar 50% lagi pada input dan output (meskipun tidak pada hit cache).
Dua pengamatan penting untuk dibawa. Pertama: cache adalah tuas tunggal paling berdampak yang Anda kendalikan. Contoh di atas mengasumsikan rasio hit cache 30%; naikkan menjadi 60% (sepenuhnya dapat dicapai untuk beban kerja dengan system prompt yang stabil), dan total biaya turun kira-kira 25% lagi. Kedua: rasio input-ke-output sangat penting. Beban kerja yang berat output (ringkasan, penulisan panjang) condong ke penyedia dengan tarif output yang lebih murah, sementara beban kerja yang berat input (analisis konteks panjang, retrieval RAG besar) condong ke penyedia dengan tarif input lebih murah dan tanpa biaya tambahan konteks panjang.
Biaya tersembunyi yang tidak ada di halaman harga
Harga daftar adalah lantai, bukan langit-langit. Lima biaya tambahan layak dianggarkan secara eksplisit, karena sering kali mengejutkan tim yang naik skala dari prototipe ke produksi:
- Token penalaran. Model dengan mode penalaran diperluas (GPT-5.5 Thinking, mode thinking DeepSeek V4) menghasilkan konten penalaran internal yang dihitung sebagai token output. Satu panggilan penalaran berupaya tinggi pada prompt panjang dapat menghasilkan 20,000 token penalaran, yaitu $0.60 biaya output pada GPT-5.5 sebelum respons yang terlihat diproduksi. Anggarkan per beban kerja, bukan per permintaan.
- Biaya tambahan konteks panjang. Baik Gemini 3.5 Flash maupun GPT-5.5 menaikkan tarif di atas ambang panjang konteks. Pipeline RAG yang memasukkan dokumen besar dapat diam-diam mendorong setiap permintaan ke bracket yang lebih tinggi tanpa ada yang menyadarinya sampai tagihan tiba. Ukur panjang prompt Anda yang sebenarnya di produksi dan periksa apakah Anda melewati ambang batas.
- Pengganda residensi data. Anthropic mengenakan premi 10% untuk inferensi khusus AS pada Opus 4.7 dan Sonnet 4.6. OpenAI menerapkan kenaikan 10% pada endpoint residensi data untuk keluarga GPT-5.4. Untuk beban kerja yang diatur di mana ini penting, masukkan ke kartu tarif sejak hari pertama.
- Perubahan verbositas output. Ketika versi model baru lebih menyeluruh secara default (sebagaimana Opus 4.7 dilaporkan dibanding Opus 4.6), token output per respons dapat merayap naik meskipun panjang input konstan. Output dihargai 5x lebih tinggi dari input pada lini Anthropic, jadi kenaikan 20% pada verbositas output adalah kenaikan 20% pada pendorong biaya dominan.
- Permintaan gagal dan diulang. Sebagian besar penyedia tidak menagih untuk error 4xx dan 5xx, tetapi mereka menagih untuk generasi parsial dan retry yang berhasil pada percobaan kedua. Dalam sistem produksi dengan logika retry aktif, ini dapat menambah beberapa persen pada tagihan. Layak diketahui saat mencocokkan faktur penyedia terhadap biaya yang diharapkan.
Bagaimana CometAPI cocok di sini
Keempat model di atas, ditambah 500+ lainnya, tersedia melalui CometAPI pada satu endpoint yang kompatibel dengan OpenAI, dengan satu kredensial, penagihan terpadu, dan tanpa penyiapan akun per penyedia. Harga di CometAPI diukur per token pada tarif per model yang sama seperti yang dipublikasikan oleh penyedia dasar, dengan kredit dibeli di muka dan diterapkan ke model mana pun dalam katalog. Nilai melakukan routing melalui CometAPI bersifat operasional, bukan per token: satu kredensial untuk dikelola, satu faktur untuk direkonsiliasi, dan kemampuan beralih dari GPT-5.5 ke Claude Sonnet 4.6 ke Gemini 3.5 Flash hanya dengan mengubah satu string di kode Anda.
Ada beban kerja di mana akses langsung ke penyedia adalah pilihan yang tepat. Jika Anda menjalankan beban kerja satu model dengan volume sangat tinggi pada satu penyedia, dengan kontrak enterprise yang dinegosiasikan, unit economics dengan akses langsung lebih baik. Jika posisi kepatuhan Anda membutuhkan hubungan vendor-of-record tertentu, sebuah agregator justru mempersulit, bukan menyederhanakan, percakapan itu. Namun untuk mayoritas tim yang menjalankan beban kerja produksi multi-model, friksi operasional dalam mengelola tiga atau empat hubungan penyedia langsung itu sendiri merupakan biaya bermakna, yang tidak tercakup oleh kartu tarif.
Coba perbandingan ini pada beban kerja Anda. Tier gratis di CometAPI memungkinkan Anda menjalankan prompt yang sama terhadap GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, dan DeepSeek V4 dari satu endpoint, tanpa pendaftaran terpisah. Untuk keputusan biaya yang spesifik beban kerja, latihan satu jam itu bernilai lebih daripada perbandingan harga mana pun yang pernah dipublikasikan.
Cara menggunakan perbandingan ini
Model yang tepat untuk beban kerja Anda bergantung pada dimensi kartu tarif mana yang paling penting bagi bentuk lalu lintas Anda. Kerangka keputusan yang praktis:
- **If reasoning depth is the bottleneck (**alur kerja agen, perencanaan multi-langkah yang kompleks, tugas pengodean tersulit), mulai dengan GPT-5.5 atau Claude Opus 4.7. Premi itu nyata tetapi layak untuk beban kerja ini.
- If you want the best price-to-capability ratio for general production traffic, Claude Sonnet 4.6 adalah default yang direkomendasikan. Kapabilitas nyaris-frontier, jendela konteks 1M penuh pada tarif standar, dan dukungan cache yang kuat.
- If you are cost-sensitive and your workload sits below 200K context, Gemini 3.5 Flash adalah opsi kelas flagship paling kredibel dan termurah dari penyedia besar AS.
- If your workload is high-volume and price-dominated, and DeepSeek’s data-residency posture is acceptable, V4 mengubah persamaan biaya cukup jauh untuk layak dievaluasi serius, khususnya untuk beban kerja berbentuk batch.
Ingin melangkah lebih jauh dalam optimasi biaya? Data harga di atas adalah fondasi untuk routing: praktik mengirim kueri yang berbeda ke model yang berbeda berdasarkan mana yang dapat menanganinya dengan biaya terendah. Tulisan pendamping, Memangkas Biaya API LLM Hingga Setengahnya: Panduan Perutean Model untuk Beban Kerja Produksi pada 2026, membahas pola routing yang mengubah kartu tarif ini menjadi penghematan nyata pada tagihan bulanan Anda.
