Claude Fable 5 is now on CometAPI — state-of-the-art performance in coding, agents, and scientific research. Try it now

GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang Tidak Diceritakan Benchmark kepada Anda

CometAPI
AnnaJun 12, 2026
GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang Tidak Diceritakan Benchmark kepada Anda

Ada satu jenis rapat yang terjadi di setiap tim yang membangun produk di atas LLM terdepan. Seseorang membagikan papan peringkat benchmark terbaru. Orang lain menyoroti bahwa peringkat telah bergeser sejak bulan lalu. Orang ketiga mencatat bahwa model yang sedang digunakan tim mereka turun dua posisi pada metrik yang bahkan tak seorang pun dari mereka dengar tiga minggu lalu. Pada akhir rapat, tak ada yang yakin apakah harus migrasi, dan pembahasannya dijadwalkan lagi untuk kuartal berikutnya.

Masalah dengan rapat itu bukan orang-orangnya. Masalahnya adalah benchmark mengukur tugas sintetis, sementara produk Anda bukan tugas sintetis. Papan peringkat memberi tahu Anda bagaimana sebuah model tampil di MMLU, di SWE-bench Verified, di GPQA Diamond — tes yang dirancang peneliti agar terukur lintas model. Tidak satu pun tes itu mirip dengan prompt yang benar-benar dikirim aplikasi Anda di produksi. Tidak ada yang menangkap bagaimana sebuah model menangani input yang berantakan dan berbentuk domain tertentu yang dihasilkan pengguna Anda.

Artikel ini memandu Anda melalui latihan tepat yang tidak bisa dilakukan benchmark. Tiga prompt konkret, dirancang untuk dikirim ke GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro melalui endpoint kompatibel OpenAI yang sama, dengan pengaturan temperature yang sama dan tanpa prompt tambahan. Prompt mencakup tiga kategori yang menyentuh sebagian besar beban kerja produksi: ekstraksi terstruktur dari dokumen berantakan, tugas perencanaan yang berat penalaran, dan pembuatan kode dengan batasan. Observasi di bawah adalah pola perilaku yang secara konsisten dilaporkan tim ketika menjalankan perbandingan semacam ini — pola yang akan Anda lihat sendiri jika Anda menjalankan prompt ini di setup Anda.

Di papan peringkat, ketiga model ini mencetak selisih 0.8 poin persentase satu sama lain pada SWE-bench Verified. Dalam praktiknya, mereka berperilaku sangat berbeda. Pilihannya bukan tentang siapa yang mendapat skor tertinggi di benchmark — melainkan pola perilaku mana yang cocok dengan beban kerja Anda.

Apa yang diukur benchmark, dan apa yang terlewat

Benchmark ada karena memang harus ada. Penyedia model memerlukan tes standar untuk membuat klaim kapabilitas, peneliti membutuhkannya untuk menerbitkan perbandingan, dan kita semua membutuhkannya sebagai titik awal objektif untuk mengevaluasi model. Benchmark berguna. Namun juga tidak lengkap dengan cara yang penting untuk penggunaan produksi.

Tiga keterbatasan spesifik patut disebutkan secara eksplisit, karena masing-masing muncul dalam contoh prompt di bawah.

  • Benchmark mengukur kapabilitas terisolasi, bukan pola perilaku. SWE-bench Verified memberi tahu Anda apakah sebuah model dapat menyelesaikan jenis issue GitHub tertentu. Ia tidak memberi tahu apakah model cenderung meng-over-engineer masalah sederhana, apakah ia mengajukan pertanyaan klarifikasi saat prompt ambigu, atau apakah ia menghasilkan output yang sesuai struktur yang Anda minta pada percobaan pertama. Hal-hal inilah yang akan Anda amati setiap hari di produksi.
  • Benchmark menjadi sasaran tuning. Ketika rilis model menonjolkan skornya pada benchmark tertentu, itu sinyal bahwa model tersebut setidaknya sebagian dioptimalkan untuk benchmark itu. Performa di dunia nyata dan performa di benchmark bisa menyimpang — kadang secara substansial — begitu model keluar dari kondisi yang dirancang oleh benchmark.
  • Benchmark melakukan agregasi. Perbedaan 0.8 poin persentase di skor SWE-bench Verified bisa menyembunyikan fakta bahwa Model A jauh lebih baik pada satu kategori tugas tertentu dan lebih buruk di kategori lain, sementara Model B konsisten di seluruh kategori. Agregasi mereduksi informasi yang Anda butuhkan untuk mengambil keputusan.

Latihan di bawah dirancang untuk menyingkap tepat jenis informasi yang diratakan oleh agregasi. Tujuannya bukan untuk menetapkan pemenang — melainkan menunjukkan pertanyaan apa yang harus Anda ajukan ketika menjalankan latihan yang sama pada prompt Anda sendiri.

Setup

Tiga prompt, dipilih karena memetakan ke kategori yang paling sering ditemui beban kerja produksi. Setup: setiap prompt dikirim ke ketiga model dengan parameter identik (temperature 0.3, tanpa override system prompt, format respons default), diakses melalui satu endpoint kompatibel OpenAI agar perbandingan tetap apple-to-apple — tanpa keanehan SDK khusus penyedia, tanpa pemetaan parameter berbeda, tanpa risiko satu model mendapat perlakuan khusus karena cara permintaan dikonstruksi.

Prompt-nya sendiri ada di bawah, sebagai blok kode yang bisa Anda salin dan jalankan. Deskripsi perilaku yang mengikuti masing-masing prompt adalah pola yang secara konsisten dilaporkan tim ketika menjalankan perbandingan seperti ini — pola yang didokumentasikan di berbagai studi pihak ketiga pada 2026, dan jenis hal yang seharusnya Anda harapkan untuk lihat sendiri ketika menjalankan prompt ini di setup Anda. Menjalankannya sendiri adalah intinya; artikel ini ada untuk memberi kerangka dan prompt awal untuk melakukannya.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

Prompt 1: Ekstraksi terstruktur dari dokumen berantakan

Ini adalah tugas utama dari setengah fitur LLM yang dikirim pada 2026. Ambil input tak terstruktur — email, tiket dukungan, transkrip rapat, formulir hasil pemindaian — dan ekstrak field spesifik menjadi objek terstruktur. Prompt di bawah meminta setiap model mengekstrak tujuh field dari email dukungan pelanggan yang sengaja dibuat berantakan, berisi informasi parsial, sinyal yang saling bertentangan, dan satu field yang tidak ada sama sekali dalam teks sumber.

Prompt

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys: - customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",  "returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned) 

Email:---Hi there, I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened. Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester. Margaret W.--- Return only the JSON object. No commentary, no markdown code fences.

Yang perlu diperhatikan

Tiga hal. Pertama, apakah model mematuhi skema JSON yang diminta tanpa mengarang. Kedua, bagaimana model menangani field yang tidak ada di sumber (escalation_history — pelanggan tidak menyebut kontak sebelumnya untuk masalah spesifik ini) — apakah ia mengakui ketiadaannya, atau memalsukan secara masuk akal? Ketiga, apakah model menghasilkan komentar tambahan di luar JSON, sehingga parsing hilir perlu menghapus pembungkus. Field urgency juga layak diperhatikan: "5 days" bukan segera, tetapi pelanggan jelas cemas, yang membuka ruang interpretasi.

Apa yang konsisten dilaporkan tim

GPT-5.5. Biasanya menghasilkan JSON bersih pada percobaan pertama. Kepatuhan skema kuat; setiap field yang diminta ada, dan formatnya dapat diparse tanpa pra-pemrosesan. Untuk field yang hilang, GPT-5.5 cenderung mengembalikan null eksplisit. Biasanya tidak membungkus JSON dalam pagar kode markdown atau menyertakan prosa penjelasan, sehingga parsing hilir menjadi sepele. Pada keputusan interpretatif ambigu seperti rating urgency di sini, GPT-5.5 cenderung lebih konservatif dibanding dua lainnya — ketika Claude dan Gemini mungkin menilai tiket "high" berdasarkan nada emosional pelanggan, GPT-5.5 sering berlabuh pada jendela 5 hari yang konkret dan menetapkan "medium".

Claude Sonnet 4.6. Juga menghasilkan JSON bersih, dan biasanya paling presisi dari ketiganya dalam mengikuti skema yang diminta. Ketika GPT-5.5 membiarkan field yang hilang sebagai null, Claude sering menambahkan field yang tidak diminta untuk menandai isu kualitas data — sebuah key "notes" atau "data_quality_notes" yang tidak diminta tetapi berisi informasi yang benar-benar berguna. Field ekstra itu berguna bagi peninjau manusia namun menyebabkan kegagalan jika parser hilir Anda ketat terhadap skema. Ini pola berulang pada Claude: kualitas tinggi, tetapi terkadang lebih menyeluruh dari yang diminta prompt, sehingga memerlukan instruksi eksplisit untuk membatasi.

Gemini 3.1 Pro. Biasanya menghasilkan output paling ekonomis dari ketiganya. Setiap field yang diminta ada, tidak ada field tambahan, tanpa prosa di sekeliling. Kepatuhan skema sesuai persis seperti yang diminta. Keunikan yang perlu diketahui: untuk field yang hilang, Gemini cenderung mengembalikan string kosong alih-alih null. Parser JSON yang ketat dan membedakan keduanya akan menangkap perbedaannya; parser longgar tidak. Perilaku ini cukup konsisten di berbagai run sehingga tampaknya merupakan preferensi model, bukan artefak.

Apa arti ini untuk Anda

Ketiganya bisa melakukan ekstraksi terstruktur. Perbedaannya ada pada margin perilaku di sekitar skema yang diminta. Jika sistem hilir Anda ketat terhadap skema dan memperlakukan field ekstra sebagai error, Gemini 3.1 Pro dan GPT-5.5 adalah pilihan yang lebih aman. Jika Anda ingin model menampilkan isu kualitas data tanpa diminta, Claude Sonnet 4.6 lebih membantu. Tak satu pun dari ini muncul di benchmark.

Prompt 2: Tugas perencanaan yang berat penalaran

Prompt ini meminta model merencanakan investigasi multi-langkah: pertanyaan riset dengan tiga batasan implisit yang seharusnya diidentifikasi model yang teliti sebelum menyusun urutan kerja. Jenis tugas yang akan didelegasikan aplikasi agentik ke LLM sebagai langkah perencanaan sebelum alat apa pun dipanggil.

Prompt

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

Batasan implisit yang perlu diperhatikan: pertanyaan tidak pernah mendefinisikan apa arti "churn" (penutupan akun? tidak login? tidak ada pembelian?), tidak menentukan cara mengontrol variabel perancu (pengguna berengagement rendah churn karena banyak alasan yang tidak terkait dengan feature X), dan tidak menetapkan kelompok pembanding dasar. Perencana yang teliti harus menyingkap ketiganya sebelum menyusun langkah-langkah.

Yang perlu diperhatikan

Apakah model benar-benar menalar melalui masalah atau menghasilkan urutan langkah yang terlihat meyakinkan tetapi sebenarnya tidak menyatu saat diperiksa. Apakah ia mengidentifikasi batasan implisit tanpa diberitahu. Dan apakah ketergantungan antar langkah benar — rencana yang tampak baik namun memiliki langkah tiga tergantung pada hasil yang dihasilkan langkah lima tidak berguna dalam praktik.

Apa yang konsisten dilaporkan tim

GPT-5.5. Biasanya menghasilkan rencana yang paling dapat digunakan secara operasional. Penalaran cenderung terlihat — GPT-5.5 membuat daftar asumsi tentang batasan implisit (definisi churn, kelompok kontrol, variabel perancu) sebelum menyajikan langkah-langkah, sehingga mudah melihat di mana interpretasinya berbeda dari yang dimaksud. Ketergantungan langkah diidentifikasi dan diberi label secara andal. Output sering menyertakan bagian yang menandai langkah-langkah mana yang dapat diparalelkan, yang tidak diminta tetapi menambah nilai nyata. Ini jenis tugas di mana pelatihan tool-use dan sifat agentik GPT-5.5 muncul — perilaku perencanaannya dibentuk oleh asumsi bahwa eksekusi hilir akan mengikuti.

Claude Sonnet 4.6. Biasanya menghasilkan rencana yang paling “penuh pemikiran”, dalam arti harfiah — rencana Claude sering mencakup pertimbangan yang tidak diangkat dua model lainnya. Pada pertanyaan seperti ini, Claude kemungkinan menandai isu metodologis antara korelasi vs kausalitas, mencatat bahwa "belum menggunakan feature X" bisa jadi gejala churn, bukan sebabnya, dan secara eksplisit mengidentifikasi kendala yang tidak disebutkan namun seharusnya terlihat oleh analis yang teliti. Kekurangannya: rencana bisa lebih panjang dari yang perlu, dan langkah individual terkadang di-over-engineer untuk pertanyaan yang ada. Pola ini konsisten dengan perilaku Claude di tempat lain — kehati-hatian layaknya pakar, terkadang lebih dari yang dibutuhkan tugas.

Gemini 3.1 Pro. Biasanya menghasilkan rencana yang strukturnya paling rapi, dengan grafik ketergantungan paling jelas. Kualitas penalaran tinggi — Gemini secara andal mengidentifikasi batasan implisit, menguraikan masalah menjadi urutan yang bisa dipertahankan, dan menghasilkan instruksi langkah demi langkah yang benar-benar dapat dieksekusi. Kekurangannya: rencana bisa terasa agak mekanis. Ia menyelesaikan pekerjaan tetapi cenderung tidak menyingkap seluk-beluk metodologis yang diangkat Claude, maupun wawasan paralelisasi yang disertakan GPT-5.5. Ini cocok dengan pola lebih luas Gemini — kuat pada kualitas penalaran, lebih teknis dan sederhana pada keputusan penunjang di sekelilingnya.

Apa arti ini untuk Anda

Kualitas penalaran pada tugas ini tinggi di ketiga model. Perbedaannya ada pada perilaku di sekeliling — apa yang ditambahkan model di luar permintaan literal. GPT-5.5 menambahkan pragmatisme operasional (paralisasi, petunjuk eksekusi). Claude menambahkan kehati-hatian tingkat pakar (metodologi, edge case, nuansa statistik). Gemini menambahkan kejernihan dan ekonomis. Tidak ada yang salah. Mana yang cocok untuk aplikasi Anda bergantung pada apa yang Anda ingin model lakukan ketika selesai dengan tugas yang Anda minta.

Prompt 3: Pembuatan kode dengan batasan spesifik

Prompt ini meminta model mengimplementasikan fungsi kecil namun tidak sepele: fungsi Python yang menerima daftar event bertimestamp dan mengembalikan jeda terpanjang antara event berturut-turut, menangani empat edge case. Batasannya eksplisit; maksudnya adalah menguji pembuatan kode di bawah batasan, bukan plafon kapabilitas — setiap model dapat menulis fungsi ini. Yang berbeda adalah bagaimana mereka menangani batasan.

Prompt

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events. Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:  1. Empty list (return 0.0 or raise — your choice, but be consistent)  2. Single event  3. Duplicate timestamps  4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

Yang perlu diperhatikan

Apakah model menangani keempat edge case atau diam-diam melewatkan beberapa. Apakah type hint akurat atau sekadar boilerplate. Apakah implementasi memilih algoritme yang dapat dipertahankan (urutkan lalu pindai) atau sesuatu yang eksotis. Dan apakah model menghormati batasan "tanpa tes, tanpa contoh penggunaan" di akhir prompt — ini jenis instruksi di bagian akhir yang akan dihormati model dengan kemampuan mengikuti instruksi kuat, dan dilanggar diam-diam oleh yang lebih lemah.

Apa yang konsisten dilaporkan tim

GPT-5.5. Biasanya menghasilkan kode yang paling direkayasa secara menyeluruh. Keempat edge case ditangani dengan cabang eksplisit, type hint presisi (sering termasuk Optional atau Union untuk nilai kembali edge case), dan docstring dengan contoh pemanggilan. Implementasi biasanya memilih algoritme yang jelas — urutkan, pindai, lacak jeda maksimum — dan benar. Hal yang perlu diketahui: GPT-5.5 sering menyertakan unit test atau contoh penggunaan meskipun prompt secara eksplisit meminta hanya fungsinya. Ini trade-off dengan model yang pragmatis secara operasional — mereka menambahkan hal-hal yang menurut mereka Anda perlukan, bahkan ketika Anda meminta agar tidak.

Claude Sonnet 4.6. Biasanya menghasilkan kode yang paling mudah dibaca. Fungsinya ringkas, edge case ditangani dengan pola guard-clause yang bersih di bagian atas, type hint akurat dan minimal. Claude sering menyertakan komentar yang bijak menjelaskan keputusan yang tidak ditentukan prompt — misalnya, pada timestamp duplikat, memperlakukannya sebagai jeda berdurasi nol dan menjelaskan alasannya, suatu keputusan yang dapat dipertahankan meski tidak dispesifikkan. Claude cenderung lebih andal menghormati batasan "tanpa tes" dibanding GPT-5.5. Fungsinya sendiri paling mudah dirawat di antara ketiganya. Konsisten dengan reputasi Claude untuk kualitas kode: bersih, idiomatis, terasa dibuat pakar.

Gemini 3.1 Pro. Biasanya menghasilkan kode paling ekonomis dari ketiganya. Fungsinya benar, edge case ditangani, implementasi paling pendek. Docstring biasanya satu baris. Type hint ada dan akurat. Solusi Gemini jarang menyertakan tes atau komentar panjang, dan tidak berlebihan — persis seperti yang diminta prompt. Bagi developer yang ingin fungsi bekerja dan berniat menambahkan tes secara terpisah, ini jalur paling langsung. Bagi developer yang ingin model melakukan pekerjaan di sekelilingnya juga, dua model lainnya menambahkan lebih banyak (baik Anda memintanya atau tidak).

Apa arti ini untuk Anda

Ketiganya bisa menulis fungsi. Perbedaan perilaku ada pada seberapa banyak pekerjaan di sekeliling yang dilakukan model di luar permintaan literal — dan seberapa baik masing-masing mematuhi instruksi negatif "jangan tambahkan X". GPT-5.5 cenderung ke arah menyeluruh, bahkan ketika itu dikecualikan dalam prompt. Claude condong ke craft (kode yang mudah dibaca, komentar bijak atas keputusan). Gemini condong ke ekonomis (lakukan persis yang diminta, tidak lebih). Untuk workflow agentik di mana output model langsung masuk ke basis kode produksi, perilaku yang Anda inginkan bergantung pada apa yang diharapkan proses review hilir Anda — dan seberapa ketat Anda butuh instruksi negatif diikuti.

Pola yang muncul

Di ketiga prompt di atas, tiga pola perilaku konsisten muncul dari studi perbandingan dan laporan developer yang diterbitkan sepanjang 2026. Ini bukan klaim kapabilitas — setiap model menangani setiap tugas pada level tinggi. Ini adalah kecenderungan, hal yang hanya Anda lihat ketika tim mengamati model yang sama menangani puluhan prompt. Jalankan prompt di atas pada setup Anda sendiri dan Anda akan melihat pola yang sama; artikel ini ada untuk memberi Anda kerangka agar mengenali apa yang Anda lihat ketika melakukannya.

ModelKecenderungan perilakuPaling cocok ketika…
GPT-5.5Pragmatis operasional. Menambahkan petunjuk eksekusi, kode defensif, dan output yang ramah alur hilir. Kuat pada tugas berbentuk agentik dan tool-use.Aplikasi Anda merangkaikan output model ke eksekusi lanjutan — agen, workflow, atau pipeline di mana langkah berikutnya otomatis.
Claude Sonnet 4.6Kehati-hatian tingkat pakar. Mengangkat pertimbangan di luar permintaan literal, menyoroti etika dan metodologi, menghasilkan kode yang sangat mudah dibaca.Aplikasi Anda memiliki peninjau manusia atas output model — pembuatan konten, code review, analisis yang mementingkan craft.
Gemini 3.1 ProEkonomis dan langsung. Melakukan persis yang diminta, tidak lebih. Kepatuhan skema paling bersih dan keluaran token terendah untuk pekerjaan setara.Aplikasi Anda memiliki persyaratan output yang ketat, biaya yang dapat diprediksi menjadi prioritas, atau Anda ingin model menjadi alat presisi, bukan kolaborator yang “berpikir”.

Catatan penting. Pola ini adalah kecenderungan, bukan aturan. Setiap model dapat diarahkan menuju perilaku apa pun ini dengan prompting yang tepat — system prompt yang cukup rinci akan membuat Gemini menambahkan tes, atau membatasi Claude ke output minimum, atau membuat GPT-5.5 melewatkan unit test. Intinya adalah apa yang dilakukan masing-masing model secara default, sebelum Anda mulai mengarahkannya. Perilaku default inilah yang Anda hadapi di produksi kecuali Anda secara aktif mem-prompt untuk melawannya.

Cara menguji pada beban kerja Anda sendiri

Latihan di atas dapat direplikasi pada beban kerja apa pun, dan sebaiknya memang dilakukan. Skor benchmark berguna sebagai saringan awal, tetapi pola perilaku model yang penting bagi aplikasi spesifik Anda hanya terlihat ketika Anda mengamati model menangani prompt Anda sendiri.

Panduan praktis menjalankan latihan pada trafik Anda sendiri:

  1. Pilih tiga kategori prompt yang representatif. Bukan tiga prompt acak — tiga kategori yang mencakup beban kerja Anda. Sebagian besar sistem produksi dapat diuraikan menjadi segelintir tipe prompt (ekstraksi, klasifikasi, generasi, penalaran, kode, peringkasan). Pilih kategori yang menyumbang mayoritas trafik Anda.
  2. Kurasi 20–30 contoh per kategori. Idealnya dari trafik nyata. Anonimkan jika perlu. Intinya adalah prompt harus tampak seperti apa yang benar-benar dilihat aplikasi Anda, bukan seperti soal benchmark. Dua puluh contoh per kategori cukup untuk melihat pola; tiga puluh cukup untuk percaya diri.
  3. Jalankan melalui satu endpoint, semua model. Endpoint agregator kompatibel OpenAI membuat ini jauh lebih cepat daripada menjalankan setiap model melalui SDK-nya sendiri. Kode di bagian atas artikel ini adalah keseluruhan setup. Temperature sama, parameter sama, prompt sama — perbedaan output adalah perbedaan model.
  4. Nilai secara kualitatif sebelum kuantitatif. Lihat outputnya dulu. Pola perilaku biasanya jelas dalam selusin prompt pertama. Setelah Anda punya hipotesis tentang bagaimana tiap model berperilaku pada beban kerja Anda, barulah Anda membangun rubrik untuk menilai — tetapi hipotesis datang dari observasi, bukan dari template penilaian bawaan.
  5. Perhatikan apa yang ditambahkan model. Pertanyaan benchmark adalah apakah model mendapat jawaban yang benar. Pertanyaan perilaku adalah apalagi yang dilakukan model. Apakah ia menambahkan tes? Menjelaskan penalarannya? Mengangkat kekhawatiran? Menghasilkan field ekstra yang tidak Anda minta? Di sinilah perbedaan model berada.
  6. Pilih model yang cocok dengan pola hilir Anda. Jika proses hilir Anda otomatis, Anda ingin model yang perilaku default-nya menghasilkan output yang bersih dan dapat diparse. Jika proses hilir Anda adalah review manusia, Anda ingin model yang perilaku default-nya menambahkan jenis pertimbangan di sekeliling yang ingin dilihat peninjau manusia. Jawaban yang tepat bergantung pada apa yang terjadi setelah model.

Kesimpulan

Pilihan antara GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro bukan tentang model mana yang terbaik. Ini tentang model mana yang cocok dengan bentuk beban kerja Anda — dan bentuk itu adalah sesuatu yang tidak dapat dilihat benchmark. Latihan di atas dapat direplikasi dalam satu sore jika Anda sudah mengkurasi prompt; nilainya adalah Anda berhenti menebak dan mulai mengamati.

Untuk tim yang menjalankan latihan sendiri: setup termudah adalah satu endpoint kompatibel OpenAI yang mengekspos ketiganya di balik satu kredensial. CometAPI adalah salah satu rute; Anda mengarahkan SDK OpenAI yang ada ke base URL berbeda dan parameter model menjadi variabelnya. Tulisan pendamping, Perbandingan Harga API LLM 2026, membahas sisi biaya dari keputusan yang sama — bersama-sama keduanya memberi Anda gambaran perilaku dan finansial yang Anda butuhkan untuk memilih dengan tepat.

Benchmark memberi tahu apa yang bisa dilakukan model. Pola perilaku memberi tahu apa yang akan dilakukan model, secara default, pada prompt Anda. Jawaban pertama dipublikasikan. Yang kedua harus Anda amati sendiri. Dua puluh prompt per kategori, satu sore, dan Anda punya jawaban yang tak akan pernah dihasilkan papan peringkat.

Siap berintegrasi dengan andal? Kunjungi CometAPI dan Dokumentasi API untuk akses mulus ke Claude Fable 5 bersama model frontier lainnya, penagihan terpadu, dan reliabilitas kelas enterprise. Daftar hari ini dan mulai dengan kredit yang melimpah bagi pengguna baru — proyek terobosan Anda berikutnya menanti.

Siap memangkas biaya pengembangan AI hingga 20%?

Mulai gratis dalam beberapa menit. Kredit uji coba gratis disertakan. Tidak perlu kartu kredit.

Baca Selengkapnya