Peluncuran API Grok 4 Fast: 98% lebih murah untuk dijalankan, dibuat untuk pencarian throughput tinggi

xAI diumumkan Grok 4 Cepat, varian Grok yang dioptimalkan dari segi biaya yang menurut perusahaan memberikan kinerja benchmark yang hampir unggulan sambil memangkas harga untuk mencapai kinerja tersebut dengan 98% dibandingkan dengan Grok 4. Model baru ini dirancang untuk pencarian throughput tinggi dan penggunaan alat agen, serta mencakup jendela konteks 2 juta token dan varian "penalaran" dan "non-penalaran" terpisah untuk memungkinkan pengembang menyesuaikan komputasi dengan kebutuhan mereka.

Fitur dan manfaat inti

Model inferensi hemat biaya: Grok 4 Fast dibangun dari keluarga Grok 4 dengan fokus pada efisiensi token dan penggunaan alat waktu nyata. xAI melaporkan bahwa model tersebut membutuhkan sekitar 40% lebih sedikit token “berpikir” Analisis Buatan — yang melacak latensi, kecepatan keluaran, dan harga/kinerja di berbagai model publik — menempatkan Grok 4 Fast di posisi teratas dalam batas kecerdasan vs. biaya dan mengonfirmasi kecepatan keluaran model yang cepat dan rasio biaya yang menguntungkan dalam pengujian awal.

Grok 4 Cepat

Jendela konteks besar: Grok 4 Fast dirancang untuk pencarian throughput tinggi dan penggunaan alat agen, serta mencakup jendela konteks 2 juta token dan varian "penalaran" dan "non-penalaran" terpisah untuk memungkinkan pengembang menyesuaikan komputasi dengan kebutuhan mereka.

Kemampuan penggunaan alat asli: Grok 4 Fast menyediakan “kemampuan pencarian web dan X yang canggih” yang meningkatkan pengambilan, navigasi, dan sintesis konten web selama alur kerja agensi — memposisikan Grok 4 Fast sebagai alat pencarian praktis untuk aplikasi yang memerlukan pengumpulan informasi dan penalaran waktu nyata di seluruh dokumen panjang, Performa terdepan pada berbagai tolok ukur pencarian, termasuk:

TelusuriComp (zh): 51.2% (vs. Grok 4 45.0%)
X Bench Deepsearch (zh): 74.0% (vs. Grok 4 66.0%)

Arsitektur Terpadu: Model yang sama mendukung mode inferensi dan non-inferensi, sehingga menghilangkan kebutuhan untuk peralihan model terpisah. Latensi dan biaya yang lebih rendah membuatnya cocok untuk aplikasi waktu nyata (seperti pencarian, tanya jawab, dan bantuan penelitian).

Perbandingan kinerja (benchmark utama)

Dalam pengujian LMArena pribadi yang dibagikan oleh xAI, grok-4-fast-search (nama kode hanya saja) varian menduduki puncak Arena Pencarian dengan peringkat Elo sebesar 1,163, sedangkan varian teks (tahoe) berada di peringkat sepuluh teratas Text Arena — hasil yang digunakan xAI untuk mendukung klaimnya seputar kinerja pencarian.

Grok 4 Fast menyamai atau hampir menyamai Grok 4 pada beberapa tolok ukur terdepan (misalnya: GPQA Diamond, AIME 2025 dan HMMT 2025), sembari mengungguli model sebelumnya yang lebih kecil pada tugas penalaran — bukti yang digunakan xAI untuk membenarkan klaim “kinerja yang sebanding”.

Peluncuran API Grok 4 Fast: 98% lebih murah untuk dijalankan, dibuat untuk pencarian throughput tinggi

Bandingkan hasil

Dibandingkan dengan Grok 4: Lebih murah dan membutuhkan komputasi yang lebih sedikit, tetapi dengan kinerja yang serupa.

Dibandingkan dengan Grok 3 Mini: Lebih bertenaga, mampu melakukan penalaran kompleks dan pencarian waktu nyata.

Dibandingkan dengan GPT-5/Gemini/Claude: Berkat efisiensi token dan kemampuan perkakas yang sangat tinggi, ia unggul dalam hal efektivitas biaya dan beberapa tugas pencarian.

Harga & ketersediaan

Konteks & token: Dua model rasa: grok-4-fast-reasoning dan grok-4-fast-non-reasoning, masing-masing dengan konteks 2M.

Harga yang dipublikasikan (daftar) pada pasca peluncuran (tingkatan contoh):

Token masukan: Rp 0.20 / 1 juta (<128 ribu) — Rp 0.40 / 1 juta (≥128 ribu)
Token keluaran: Rp 0.50 / 1 juta (<128 ribu) — Rp 1.00 / 1 juta (≥128 ribu)
Token masukan yang di-cache: Rp 0.05 / 1 juta.
(Lihat pengumuman xAI untuk aturan penagihan yang tepat dan promosi berbatas waktu.)

Ketersediaan penyedia: xAI mencantumkan ketersediaan gratis jangka pendek melalui OpenRouter dan Vercel AI Gateway dan ketersediaan umum melalui API xAI.

Apa artinya bagi pengguna & tim

Penghematan biaya besar untuk penggunaan produksi —Kombinasi harga per token yang lebih rendah dan lebih sedikit token "berpikir" berarti tim dapat menjalankan lebih banyak kueri atau alur kerja konteks yang lebih luas dengan biaya yang jauh lebih rendah daripada Grok 4, yang secara signifikan menurunkan hambatan untuk eksperimen dan penerapan berskala. (Klaim ini didukung oleh pengungkapan biaya/kinerja xAI dan analisis biaya pihak ketiga.)
Bekerja dengan dokumen yang sangat panjang dan penalaran multi-langkah — Token 2M memudahkan untuk menyerap seluruh buku, basis kode besar, atau berkas hukum/teknis yang panjang dalam satu sesi, meningkatkan akurasi dan koherensi untuk tugas yang memerlukan konteks jangka panjang (pencarian dokumen, peringkasan, pembuatan kode bentuk panjang, asisten penelitian).
Output yang lebih cepat dan latensi rendah untuk aplikasi interaktif — sebagai varian "Cepat", varian ini dirancang untuk throughput token yang lebih cepat dan latensi yang lebih rendah, yang menguntungkan UI obrolan, asisten pengkodean, dan loop agen waktu nyata yang mengutamakan responsivitas. (Analisis Buatan dan tolok ukur penyedia menekankan kecepatan keluaran sebagai pembeda.)
Harga/kinerja yang baik untuk tugas penalaran yang dipatok —untuk tim yang menilai model berdasarkan tolok ukur akademis tingkat awal, Grok 4 Fast menawarkan kompromi yang kuat: akurasi mendekati tingkat awal dengan biaya yang jauh lebih rendah, membuatnya menarik bagi laboratorium penelitian dan perusahaan yang sering menjalankan rangkaian tolok ukur mahal.

Kesimpulan:

Grok 4 Fast memposisikan xAI untuk bersaing dalam hal rasio harga-kinerja dan untuk aplikasi agen yang berfokus pada pencarian. Jika klaim efisiensi dan verifikasi perusahaan terbukti dalam pengujian independen dan spesifik domain, Grok 4 Fast dapat mengubah ekspektasi biaya untuk penerapan LLM berkemampuan tinggi yang didukung alat — terutama untuk aplikasi yang mengandalkan pengambilan web langsung dan penggunaan alat multi-langkah.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses Grok-4-cepat (model: grok-4-fast-reasoning” / “grok-4-fast-reasoning) melalui CometAPI, versi model terbaru selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !