GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang Tak Pernah Diungkapkan Benchmark kepada Anda

Ada jenis rapat tertentu yang terjadi di setiap tim yang membangun di atas LLM frontier. Seseorang membagikan papan peringkat benchmark terbaru. Orang lain menunjukkan bahwa peringkat telah bergeser sejak bulan lalu. Orang ketiga mencatat bahwa model yang tim mereka gunakan saat ini turun dua posisi pada suatu metrik yang tiga minggu lalu belum pernah mereka dengar. Pada akhir rapat, tidak ada yang yakin apakah harus bermigrasi, dan pembicaraan dijadwalkan lagi untuk kuartal berikutnya.

Masalah dengan rapat itu bukan orang-orangnya. Masalahnya adalah benchmark mengukur tugas sintetis, sedangkan produk Anda bukan tugas sintetis. Papan peringkat memberi tahu Anda bagaimana sebuah model tampil pada MMLU, pada SWE-bench Verified, pada GPQA Diamond — uji yang dirancang oleh peneliti agar terukur lintas model. Tidak ada satu pun dari uji tersebut yang menyerupai prompt yang aplikasi Anda kirimkan di produksi. Tak satu pun menangkap bagaimana model menangani masukan yang berantakan dan bercorak domain seperti yang dihasilkan pengguna Anda.

Artikel ini membahas latihan persis yang tidak bisa dilakukan oleh benchmark. Tiga prompt konkret, dirancang untuk dikirim ke GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro melalui endpoint yang kompatibel dengan OpenAI yang sama, dengan pengaturan temperature yang sama dan tanpa prompt tambahan. Prompt ini mencakup tiga kategori yang menyentuh sebagian besar beban kerja produksi: ekstraksi terstruktur dari dokumen berantakan, tugas perencanaan yang berat pada penalaran, dan generasi kode dengan batasan. Observasi di bawah ini adalah pola perilaku yang secara konsisten dilaporkan tim yang menjalankan perbandingan semacam ini — pola yang akan Anda lihat sendiri jika Anda menjalankan prompt ini di setup Anda.

Di papan peringkat, ketiga model ini mencetak skor dalam selisih 0.8 poin persentase satu sama lain pada SWE-bench Verified. Dalam praktik, perilaku mereka sangat berbeda. Pilihan di antara mereka bukan tentang siapa yang tertinggi skornya pada benchmark — melainkan tentang pola perilaku mana yang sesuai dengan beban kerja Anda.

Apa yang diukur benchmark, dan apa yang terlewat

Benchmark ada karena memang dibutuhkan. Penyedia model memerlukan uji standar untuk membuat klaim kapabilitas, peneliti membutuhkannya untuk menerbitkan perbandingan, dan kita semua membutuhkannya sebagai titik awal objektif untuk mengevaluasi model. Benchmark itu berguna. Benchmark juga tidak lengkap dalam hal-hal yang penting untuk penggunaan produksi.

Tiga keterbatasan spesifik layak dinyatakan secara eksplisit, karena masing-masing muncul dalam contoh prompt di bawah.

Benchmark mengukur kapabilitas terisolasi, bukan pola perilaku. SWE-bench Verified memberi tahu Anda apakah sebuah model dapat menyelesaikan jenis isu GitHub tertentu. Itu tidak memberi tahu apakah model cenderung berlebihan mengotak-atik masalah sederhana, apakah ia mengajukan pertanyaan klarifikasi saat prompt ambigu, atau apakah ia menghasilkan output yang langsung cocok dengan struktur yang Anda minta. Hal-hal inilah yang akan Anda amati setiap hari di produksi.
Benchmark dijadikan sasaran tuning. Ketika rilis model menonjolkan skornya pada benchmark tertentu, itu menjadi sinyal bahwa model tersebut setidaknya sebagian dioptimalkan untuk benchmark itu. Performa dunia nyata dan performa benchmark bisa menyimpang — terkadang secara substansial — saat model keluar dari kondisi yang dirancang oleh benchmark.
Benchmark melakukan agregasi. Perbedaan 0.8 poin persentase pada skor SWE-bench Verified mungkin menyembunyikan fakta bahwa Model A jauh lebih baik pada satu kategori tugas tertentu dan lebih buruk pada kategori lain, sementara Model B konsisten di semua bagian. Agregasi meruntuhkan informasi yang Anda butuhkan untuk membuat keputusan.

Latihan di bawah ini dirancang untuk menampilkan tepat jenis informasi yang “diratakan” oleh benchmark. Tujuannya bukan untuk menetapkan pemenang — melainkan menunjukkan pertanyaan apa yang harus Anda ajukan saat menjalankan latihan yang sama pada prompt Anda sendiri.

Pengaturan

Tiga prompt, dipilih karena memetakan ke kategori yang paling sering ditemui beban kerja produksi. Pengaturannya: setiap prompt dikirim ke ketiga model dengan parameter identik (temperature 0.3, tanpa override system prompt, format respons default), diakses melalui satu endpoint yang kompatibel dengan OpenAI agar perbandingan tetap apple-to-apple — tanpa keanehan SDK spesifik penyedia, tanpa pemetaan parameter berbeda, tanpa risiko satu model mendapat perlakuan khusus karena cara permintaan dikonstruksi.

Prompt-nya ada di bawah, sebagai blok kode yang bisa Anda salin dan jalankan. Deskripsi perilaku yang mengikuti masing-masing adalah pola yang secara konsisten dilaporkan tim saat menjalankan perbandingan semacam ini — pola yang akan Anda lihat sendiri ketika menjalankan prompt ini di setup Anda. Menjalankannya sendiri adalah intinya; artikel ini memberi kerangka dan prompt awal untuk melakukannya.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # atau ganti dengan API key Anda
    base_url="https://api.cometapi.com/v1",  # satu endpoint, banyak model
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Kirim prompt yang sama ke ketiga model dan kembalikan respons mereka.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Contoh penggunaan
if __name__ == "__main__":
    prompt = "Ringkas risiko utama dalam kontrak ini."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

Prompt 1: Ekstraksi terstruktur dari dokumen berantakan

Ini adalah tugas andalan dari setengah fitur LLM yang dikirimkan pada 2026. Ambil input tidak terstruktur — email, tiket dukungan, transkrip rapat, formulir hasil pemindaian — dan ekstrak field spesifik ke dalam objek terstruktur. Prompt di bawah meminta setiap model mengekstrak tujuh field dari email dukungan pelanggan yang sengaja dibuat berantakan, berisi informasi parsial, sinyal yang saling bertentangan, dan satu field yang tidak ada di teks sumber sama sekali.

Prompt-nya

You are processing customer support emails. Extract the following seven fields from the email below into a JSON object with exactly these keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

Yang perlu diperhatikan

Tiga hal. Pertama, apakah model mematuhi skema JSON yang diminta tanpa berimprovisasi. Kedua, bagaimana model menangani field yang tidak ada di sumber (escalation_history — pelanggan tidak menyebut kontak sebelumnya tentang isu spesifik ini) — apakah ia mengakui ketiadaan, atau justru mengada-ada secara meyakinkan? Ketiga, apakah model menghasilkan komentar tambahan di luar JSON, sehingga parsing hilir perlu menghapus bungkusnya. Field urgency juga patut diperhatikan: “5 days” bukan segera, tetapi pelanggan jelas cemas, sehingga ada ruang interpretasi.

Yang dilaporkan tim secara konsisten

GPT-5.5. Biasanya menghasilkan JSON yang bersih pada percobaan pertama. Ketaatan skema kuat; setiap field yang diminta ada, dan format dapat diparse tanpa prapemrosesan. Untuk field yang hilang, GPT-5.5 cenderung mengembalikan null eksplisit. Biasanya tidak membungkus JSON dengan pagar kode markdown atau menambahkan penjelasan prosa, sehingga parsing hilir menjadi sepele. Pada keputusan interpretif yang ambigu seperti rating urgency di sini, GPT-5.5 cenderung lebih konservatif daripada dua lainnya — ketika Claude dan Gemini mungkin memberi nilai “high” berdasarkan nada emosional pelanggan, GPT-5.5 sering berpatokan pada jangka waktu konkret 5 hari dan memilih “medium”.

Claude Sonnet 4.6. Juga menghasilkan JSON yang bersih, dan biasanya paling presisi dari ketiganya dalam mengikuti skema yang diminta. Ketika GPT-5.5 membiarkan field yang hilang sebagai null, Claude sering menambahkan field yang tidak diminta untuk menandai masalah kualitas data — kunci “notes” atau “data_quality_notes” yang tidak diminta tetapi berisi informasi yang memang berguna. Field ekstra itu bermanfaat bagi peninjau manusia tetapi dapat menyebabkan kegagalan jika parser hilir Anda ketat terhadap skema. Ini adalah pola berulang pada Claude: kualitas tinggi, tetapi terkadang lebih menyeluruh daripada yang diminta, membutuhkan instruksi eksplisit untuk membatasi.

Gemini 3.1 Pro. Biasanya menghasilkan output paling ekonomis dari ketiganya. Semua field yang diminta, tanpa field ekstra, tanpa prosa di sekelilingnya. Ketaatan skema persis seperti yang diminta. Satu keunikan yang perlu diketahui: untuk field yang hilang, Gemini cenderung mengembalikan string kosong alih-alih null. Parser JSON yang ketat dan membedakan keduanya akan menangkap perbedaan ini; parser yang longgar tidak. Perilaku ini cukup konsisten di berbagai run sehingga tampaknya merupakan preferensi model, bukan artefak.

Apa artinya

Ketiga model dapat melakukan ekstraksi terstruktur. Perbedaannya ada pada margin perilaku di sekitar skema yang diminta. Jika sistem hilir Anda ketat terhadap skema dan memperlakukan field ekstra sebagai error, Gemini 3.1 Pro dan GPT-5.5 adalah pilihan yang lebih aman. Jika Anda ingin model menonjolkan masalah kualitas data tanpa diminta, Claude Sonnet 4.6 lebih membantu. Tak satu pun dari ini muncul di benchmark.

Prompt 2: Tugas perencanaan yang berat pada penalaran

Prompt ini meminta model merencanakan investigasi multi-langkah: pertanyaan riset dengan tiga batasan implisit yang harus diidentifikasi model yang cermat sebelum menyusun urutan kerja. Jenis tugas yang akan didelegasikan aplikasi agentic ke LLM sebagai langkah perencanaan sebelum alat apa pun dipanggil.

Prompt-nya

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't used feature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:
- Identify the steps required
- Sequence them with dependencies
- Be actionable for a data analyst on my team

Return the plan in clear, structured form.

Batasan implisit yang patut diperhatikan: pertanyaan tidak pernah mendefinisikan apa arti “churn” (penutupan akun? tidak login? tidak ada pembelian?), tidak merinci bagaimana mengendalikan variabel perancu (pengguna dengan keterlibatan rendah churn karena banyak alasan yang tidak terkait dengan fitur X), dan tidak menetapkan kelompok pembanding baseline. Perencana yang cermat harus menonjolkan ketiganya sebelum menghasilkan langkah-langkahnya.

Yang perlu diperhatikan

Apakah model benar-benar menalar masalah atau menghasilkan urutan langkah yang terlihat masuk akal namun sebenarnya tidak kokoh saat diperiksa. Apakah ia mengidentifikasi batasan implisit tanpa diberi tahu. Dan apakah dependensi antar langkah benar — rencana yang terlihat baik tetapi langkah tiga bergantung pada hasil yang dihasilkan langkah lima tidak berguna dalam praktik.

Yang dilaporkan tim secara konsisten

GPT-5.5. Biasanya menghasilkan rencana yang paling dapat dioperasionalkan. Penalaran cenderung terlihat — GPT-5.5 menguraikan asumsi tentang batasan implisit (definisi churn, kelompok kontrol, variabel perancu) sebelum menyusun langkah-langkah, sehingga mudah melihat di mana interpretasinya berbeda dari yang dimaksudkan. Dependensi langkah diidentifikasi dan diberi label secara andal. Output sering mencakup bagian yang menandai langkah mana yang dapat diparalelkan, yang tidak diminta tetapi benar-benar menambah nilai. Inilah jenis tugas di mana pelatihan penggunaan alat dan agentic GPT-5.5 tampak jelas — perilaku perencanaannya dibentuk oleh asumsi bahwa eksekusi hilir akan mengikuti.

Claude Sonnet 4.6. Biasanya menghasilkan rencana yang paling “berpikir”, dalam arti harfiah — rencana Claude sering mencakup pertimbangan yang tidak diangkat oleh dua model lainnya. Pada pertanyaan seperti ini, Claude kemungkinan akan menandai isu metodologis korelasi vs kausalitas, mencatat bahwa “tidak menggunakan fitur X” mungkin sendiri merupakan gejala churn alih-alih penyebab, dan secara eksplisit mengidentifikasi batasan yang tidak dinyatakan namun seharusnya dilihat oleh analis yang teliti. Kekurangannya: rencana bisa lebih panjang dari yang perlu, dan langkah-langkah individu terkadang terlalu direkayasa untuk pertanyaan aktual. Polanya konsisten dengan perilaku Claude di tempat lain — kehati-hatian level pakar, terkadang melebihi kebutuhan tugas.

Gemini 3.1 Pro. Biasanya menghasilkan rencana yang paling bersih strukturnya, dengan graf dependensi paling jelas. Kualitas penalaran tinggi — Gemini secara andal mengidentifikasi batasan implisit, mendekomposisi masalah ke dalam urutan yang dapat dipertanggungjawabkan, dan menghasilkan instruksi langkah demi langkah yang benar-benar dapat dieksekusi. Kekurangannya: rencananya bisa terasa agak mekanis. Ia melakukan pekerjaan, tetapi cenderung tidak menonjolkan subtilitas metodologis seperti yang diangkat Claude, maupun wawasan paralelisasi seperti GPT-5.5. Ini selaras dengan pola lebih luas Gemini — kuat pada kualitas penalaran, lebih “pekerja” pada keputusan-keputusan sekitar.

Apa artinya

Kualitas penalaran pada tugas ini tinggi di semua model. Perbedaannya ada pada perilaku di sekeliling — apa yang ditambahkan model di luar permintaan literal. GPT-5.5 menambah pragmatisme operasional (paralisasi, petunjuk eksekusi). Claude menambah kehati-hatian pakar (metodologi, edge case, nuansa statistik). Gemini menambah kejernihan dan ekonomi. Tak ada yang salah. Mana yang cocok tergantung pada apa yang Anda ingin model lakukan ketika selesai dengan tugas yang Anda minta.

Prompt 3: Generasi kode dengan batasan spesifik

Prompt ini meminta model mengimplementasikan fungsi kecil namun non-sepele: fungsi Python yang menerima daftar event berstempel waktu dan mengembalikan jarak terpanjang antara event berturut-turut, sambil menangani empat edge case. Batasannya eksplisit; niatnya adalah menguji generasi kode di bawah batasan daripada plafon kapabilitas — setiap model bisa menulis fungsi ini. Yang berbeda adalah bagaimana mereka menangani batasannya.

Prompt-nya

Write a Python function that takes a list of timestamped events and returns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:
- Function signature: longest_gap(events: list[datetime]) -> float
- Handle these edge cases:&nbsp;&nbsp;
  1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;
  2. Single event&nbsp;&nbsp;
  3. Duplicate timestamps&nbsp;&nbsp;
  4. Unsorted input
- Use only the standard library
- Include type hints
- Return just the function. No tests or usage examples.

Yang perlu diperhatikan

Apakah model menangani semua empat edge case atau diam-diam melewatkan sebagian. Apakah type hints akurat atau sekadar boilerplate. Apakah implementasi memilih algoritma yang dapat dipertanggungjawabkan (urutkan lalu pindai) atau sesuatu yang eksotis. Dan apakah model menghormati batasan “tanpa pengujian, tanpa contoh penggunaan” di akhir prompt — ini adalah jenis instruksi akhir prompt yang akan dipatuhi model dengan kemampuan mengikuti instruksi kuat dan diabaikan oleh yang lebih lemah.

Yang dilaporkan tim secara konsisten

GPT-5.5. Biasanya menghasilkan kode yang paling direkayasa secara menyeluruh. Keempat edge case ditangani dengan percabangan eksplisit, type hints presisi (sering termasuk Optional atau Union untuk nilai kembali edge case), dan docstring dengan contoh pemanggilan. Implementasi biasanya memilih algoritma yang jelas — urutkan, pindai, lacak gap maksimum — dan benar. Perlu diketahui: GPT-5.5 sering menyertakan unit test atau contoh penggunaan meski prompt secara eksplisit meminta hanya fungsinya. Ini adalah trade-off pada model yang pragmatis operasional — mereka menambahkan hal-hal yang mereka pikir Anda butuhkan, bahkan ketika Anda memintanya untuk tidak melakukannya.

Claude Sonnet 4.6. Biasanya menghasilkan kode yang paling mudah dibaca. Fungsinya ringkas, edge case ditangani dengan pola guard clause yang bersih di bagian atas, type hints akurat dan minimal. Claude sering menyertakan komentar yang bijak menjelaskan keputusan yang dibiarkan terbuka oleh prompt — misalnya, pada duplikasi timestamp, memperlakukannya sebagai gap berdurasi nol dan menjelaskan alasannya, sebuah keputusan yang dapat dipertanggungjawabkan meski tidak ditentukan oleh prompt. Claude cenderung lebih patuh terhadap batasan “tanpa test” dibanding GPT-5.5. Fungsinya sendiri paling mudah dirawat dari ketiganya. Konsisten dengan reputasi Claude untuk kualitas kode: bersih, idiomatik, terasa pakar.

Gemini 3.1 Pro. Biasanya menghasilkan kode paling ekonomis dari ketiganya. Fungsinya benar, edge case ditangani, implementasi paling singkat. Docstring biasanya satu baris. Type hints ada dan akurat. Solusi Gemini jarang menyertakan tes atau komentar ekstensif, dan tidak berlebihan merekayasa — persis seperti yang diminta prompt. Bagi pengembang yang menginginkan fungsi yang bekerja dan berniat menambahkan tes secara terpisah, ini adalah jalur paling langsung. Bagi pengembang yang ingin model melakukan pekerjaan di sekitarnya juga, dua model lainnya menambahkan lebih banyak (entah Anda memintanya atau tidak).

Apa artinya

Ketiga model bisa menulis fungsi tersebut. Perbedaan perilakunya terletak pada seberapa banyak pekerjaan di sekitar permintaan literal yang ditambahkan masing-masing model — dan seberapa baik masing-masing mematuhi instruksi “jangan tambahkan X” secara eksplisit. GPT-5.5 cenderung ke arah kelihaian menyeluruh, bahkan ketika hal itu dikesampingkan di prompt. Claude cenderung ke arah keterampilan (kode mudah dibaca, komentar bijak atas keputusan). Gemini cenderung ke arah ekonomi (lakukan persis yang diminta, tidak lebih). Untuk alur kerja agentic di mana output model masuk langsung ke basis kode produksi, perilaku yang Anda inginkan tergantung pada ekspektasi proses review hilir Anda — dan pada seberapa ketat Anda membutuhkan kepatuhan terhadap instruksi negatif.

Pola yang muncul

Di tiga prompt di atas, tiga pola perilaku konsisten muncul dari studi perbandingan dan laporan pengembang sepanjang 2026. Ini bukan klaim kapabilitas — setiap model menangani setiap tugas pada level tinggi. Ini adalah kecenderungan, hal-hal yang hanya terlihat ketika tim mengamati model yang sama menangani lusinan prompt. Jalankan prompt di atas pada setup Anda dan Anda akan melihat pola yang sama; artikel ini dibuat untuk memberi kerangka pengenalan atas apa yang Anda lihat saat melakukannya.

Model	Kecenderungan perilaku	Paling cocok ketika…
GPT-5.5	Pragmatis operasional. Menambahkan petunjuk eksekusi, defensive coding, dan output ramah pipeline. Kuat pada tugas yang dibentuk penggunaan alat dan agentic.	Aplikasi Anda merangkaikan output model ke eksekusi lanjutan — agen, workflow, atau pipeline di mana langkah berikutnya terotomasi.
Claude Sonnet 4.6	Kepedulian level pakar. Mengangkat pertimbangan di luar permintaan literal, menyorot etika dan metodologi, menghasilkan kode yang sangat mudah dibaca.	Aplikasi Anda memiliki peninjau manusia atas output model — pembuatan konten, code review, analisis di mana keterampilan/craft penting.
Gemini 3.1 Pro	Ekonomis dan langsung. Melakukan persis yang diminta, tidak lebih. Ketaatan skema paling bersih dan output token terendah untuk pekerjaan ekuivalen.	Aplikasi Anda memiliki persyaratan output yang ketat, biaya prediktabel menjadi prioritas, atau Anda ingin model menjadi alat presisi alih-alih kolaborator yang “berpikir”.

Peringatan penting. Pola ini adalah kecenderungan, bukan aturan. Masing-masing model dapat diarahkan ke perilaku apa pun di atas dengan prompting yang sesuai — system prompt yang cukup detail akan membuat Gemini menambahkan tes, atau membatasi Claude agar output seminimal mungkin, atau membuat GPT-5.5 melewati unit test. Intinya adalah apa yang dilakukan masing-masing model secara default, sebelum Anda mulai mengarahkannya. Perilaku default-lah yang Anda jalani di produksi kecuali Anda secara aktif mem-rompt untuk melawannya.

Cara menguji pada beban kerja Anda sendiri

Latihan di atas dapat direplikasi pada beban kerja apa pun, dan memang seharusnya. Skor benchmark berguna sebagai filter awal, tetapi pola perilaku model yang penting bagi aplikasi spesifik Anda hanya terlihat ketika Anda mengamati model menangani prompt spesifik Anda.

Panduan praktis menjalankan latihan pada trafik Anda sendiri:

Pilih tiga kategori prompt representatif. Bukan tiga prompt acak — tiga kategori yang mencakup beban kerja Anda. Sebagian besar sistem produksi dapat diuraikan menjadi segelintir jenis prompt (ekstraksi, klasifikasi, generasi, penalaran, kode, peringkasan). Pilih kategori yang menyumbang mayoritas trafik Anda.
Kurasi 20–30 contoh per kategori. Idealnya dari trafik nyata. Anonimkan jika perlu. Intinya adalah prompt harus mirip dengan apa yang sebenarnya dilihat aplikasi Anda, bukan seperti pertanyaan benchmark. Dua puluh contoh per kategori cukup untuk melihat pola; tiga puluh cukup untuk percaya diri.
Jalankan melalui satu endpoint, semua model. Endpoint agregator yang kompatibel dengan OpenAI membuat ini jauh lebih cepat dibanding menjalankan setiap model melalui SDK-nya sendiri. Kode di awal artikel ini adalah seluruh pengaturannya. Temperature sama, parameter sama, prompt sama — perbedaan output adalah perbedaan model.
Nilai kualitatif sebelum kuantitatif. Lihat dulu outputnya. Pola perilaku biasanya sudah jelas dalam selusin prompt pertama. Setelah Anda memiliki hipotesis tentang bagaimana setiap model berperilaku pada beban kerja Anda, barulah Anda menyusun rubrik untuk menilai — tetapi hipotesis datang dari observasi, bukan dari templat penilaian siap pakai.
Perhatikan apa yang ditambahkan model. Pertanyaan benchmark adalah apakah model mendapat jawaban yang benar. Pertanyaan perilaku adalah apa lagi yang dilakukan model. Apakah ia menambahkan tes? Apakah ia menjelaskan alasannya? Apakah ia mengangkat kekhawatiran? Apakah ia menghasilkan field ekstra yang tidak Anda minta? Di sinilah perbedaan model hidup.
Pilih model yang cocok dengan pola hilir Anda. Jika proses hilir Anda terotomasi, Anda menginginkan model yang perilaku default-nya menghasilkan output yang bersih dan dapat diparse. Jika proses hilir Anda berupa review manusia, Anda menginginkan model yang perilaku default-nya menambahkan penilaian sekitar yang ingin dilihat peninjau manusia. Jawaban yang tepat tergantung pada apa yang terjadi setelah model.

Kesimpulan

Pilihan antara GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro bukan tentang model mana yang terbaik. Ini tentang model mana yang sesuai dengan bentuk beban kerja Anda — dan bentuk itu adalah sesuatu yang tidak dapat dilihat oleh benchmark. Latihan di atas dapat direplikasi dalam satu sore jika Anda sudah mengkurasi prompt; nilai melakukannya adalah Anda berhenti menebak dan mulai mengamati.

Untuk tim yang menjalankan latihan sendiri: pengaturan termudah adalah satu endpoint yang kompatibel dengan OpenAI yang mengekspos ketiga model di balik satu kredensial. CometAPI adalah salah satu jalur; Anda mengarahkan OpenAI SDK yang ada ke base URL berbeda dan parameter model menjadi variabelnya.

Benchmark memberi tahu Anda apa yang bisa dilakukan model. Pola perilaku memberi tahu Anda apa yang akan dilakukan model, secara default, pada prompt Anda. Jawaban pertama dipublikasikan. Jawaban kedua harus Anda amati sendiri. Dua puluh prompt per kategori, satu sore, dan Anda memiliki jawaban yang tak akan pernah diberikan papan peringkat mana pun.

Siap berintegrasi dengan andal? Kunjungi CometAPI dan API doc untuk akses mulus ke Claude Fable 5 bersama model frontier lainnya, penagihan terpadu, dan keandalan kelas perusahaan. Daftar hari ini dan mulailah dengan kredit yang murah hati untuk pengguna baru—proyek terobosan Anda berikutnya menanti.

GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang Tak Pernah Diungkapkan Benchmark kepada Anda

Apa yang diukur benchmark, dan apa yang terlewat

Pengaturan

Prompt 1: Ekstraksi terstruktur dari dokumen berantakan

Prompt-nya

Yang perlu diperhatikan

Yang dilaporkan tim secara konsisten

Apa artinya

Prompt 2: Tugas perencanaan yang berat pada penalaran

Prompt-nya

Yang perlu diperhatikan

Yang dilaporkan tim secara konsisten

Apa artinya

Prompt 3: Generasi kode dengan batasan spesifik

Prompt-nya

Yang perlu diperhatikan

Yang dilaporkan tim secara konsisten

Apa artinya

Pola yang muncul

Cara menguji pada beban kerja Anda sendiri

Kesimpulan

Siap memangkas biaya pengembangan AI hingga 20%?

Baca Selengkapnya