GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang penanda aras tidak memberitahu anda

Terdapat sejenis mesyuarat tertentu yang berlaku dalam setiap pasukan yang membina di atas LLM terdepan. Seseorang berkongsi papan kedudukan penanda aras Seseorang lagi menegaskan bahawa kedudukan telah berubah sejak bulan lalu. Orang ketiga menyatakan bahawa model yang pasukan mereka gunakan kini telah turun dua posisi pada beberapa metrik yang tiada seorang pun pernah dengar tiga minggu lalu. Pada penghujung mesyuarat, tiada siapa pasti sama ada perlu berpindah, dan perbualan dijadualkan semula untuk suku berikutnya.

Masalah dengan mesyuarat itu bukan orang di dalamnya. Masalahnya ialah penanda aras mengukur tugas sintetik, sedangkan produk anda bukan tugas sintetik. Papan kedudukan memberitahu anda bagaimana sesuatu model berprestasi pada MMLU, pada SWE-bench Verified, pada GPQA Diamond — ujian yang direka oleh penyelidik supaya boleh diukur merentas model. Tiada satu pun ujian tersebut menyerupai gesaan yang aplikasi anda sebenarnya hantar dalam pengeluaran. Tiada satu pun menangkap bagaimana model mengendalikan input yang serabut dan berpaksikan domain yang dihasilkan pengguna anda.

Rencana ini menerangkan latihan tepat yang penanda aras tidak dapat lakukan. Tiga gesaan konkrit, direka untuk dihantar kepada GPT-5.5, Claude Sonnet 4.6 dan Gemini 3.1 Pro melalui titik akhir serasi OpenAI yang sama, dengan tetapan temperature yang sama dan tanpa gesaan tambahan. Gesaan tersebut merangkumi tiga kategori yang menyentuh kebanyakan beban kerja produksi: pengekstrakan berstruktur daripada dokumen yang serabut, tugas perancangan yang berat pada penaakulan, dan penjanaan kod di bawah kekangan. Pemerhatian di bawah ialah corak tingkah laku yang pasukan yang menjalankan perbandingan sebegini secara konsisten laporkan — corak yang akan anda lihat sendiri jika anda jalankan gesaan ini pada seting anda sendiri.

Pada papan kedudukan, tiga model ini mencatat skor dalam julat 0.8 mata peratusan antara satu sama lain pada SWE-bench Verified. Dalam praktik, tingkah laku mereka sangat berbeza. Pemilihan antara mereka bukan tentang siapa yang mendapat skor tertinggi pada penanda aras — ia tentang corak tingkah laku yang paling sesuai dengan beban kerja anda.

Apa yang diukur oleh penanda aras, dan apa yang terlepas

Penanda aras wujud kerana perlu. Penyedia model memerlukan ujian piawai untuk membuat tuntutan keupayaan, para penyelidik memerlukannya untuk menerbitkan perbandingan, dan kita semua memerlukannya sebagai titik permulaan objektif untuk menilai model. Ia berguna. Namun ia juga tidak lengkap dalam cara yang penting untuk kegunaan produksi.

Tiga batasan khusus patut dinyatakan secara jelas, kerana setiap satunya muncul dalam contoh gesaan di bawah.

Penanda aras mengukur keupayaan terasing, bukan corak tingkah laku. SWE-bench Verified memberitahu anda sama ada model boleh menyelesaikan sejenis isu GitHub tertentu. Ia tidak memberitahu sama ada model cenderung terlebih kejuruteraan untuk masalah mudah, sama ada ia mengemukakan soalan penjelasan apabila gesaan samar, atau sama ada ia menghasilkan output yang sepadan dengan struktur yang anda minta pada percubaan pertama. Inilah perkara yang anda akan lihat setiap hari dalam produksi.
Penanda aras dijadikan sasaran penalaan. Apabila satu keluaran model menonjolkan skor pada penanda aras tertentu, itu ialah isyarat bahawa model sekurang-kurangnya sebahagiannya dioptimumkan untuk penanda aras tersebut. Prestasi dunia nyata dan prestasi penanda aras boleh menyimpang — kadangkala dengan ketara — apabila model meninggalkan keadaan yang untuknya penanda aras itu direka.
Penanda aras mengagregat. Perbezaan 0.8 mata peratusan dalam skor SWE-bench Verified mungkin menyembunyikan hakikat bahawa Model A jauh lebih baik pada satu kategori tugas khusus dan lebih lemah pada yang lain, manakala Model B konsisten merentas papan. Pengagregatan meruntuhkan maklumat yang anda perlukan untuk membuat keputusan.

Latihan di bawah direka untuk menyerlahkan tepat jenis maklumat yang dihapuskan oleh pengagregatan penanda aras. Tujuannya bukan untuk mengisytiharkan pemenang — ia adalah untuk menunjukkan soalan yang harus anda ajukan apabila anda menjalankan latihan yang sama pada gesaan anda sendiri.

Persediaan

Tiga gesaan, dipilih kerana ia memetakan kepada kategori yang kebanyakan beban kerja produksi sentuh. Persediaan: setiap gesaan dihantar kepada ketiga-tiga model dengan parameter yang sama (temperature 0.3, tiada override sistem prompt, format respons lalai), diakses melalui satu titik akhir serasi OpenAI supaya perbandingan kekal epal-dengan-epal — tiada keanehan SDK khusus penyedia, tiada pemetaan parameter berbeza, tiada risiko satu model menerima layanan istimewa kerana cara permintaan dibina.

Gesaan tersebut sendiri berada di bawah, sebagai blok kod yang anda boleh salin dan jalankan. Huraian tingkah laku yang mengikuti setiap satu ialah corak yang pasukan secara konsisten laporkan apabila menjalankan perbandingan jenis ini — corak yang akan anda jangkakan lihat sendiri apabila anda jalankan gesaan ini pada seting anda. Menjalankannya sendiri ialah tujuan sebenar; artikel ini wujud untuk memberikan anda rangka kerja dan gesaan permulaan untuk melakukannya.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

Gesaan 1: Pengekstrakan berstruktur daripada dokumen yang serabut

Ini ialah tugas asas bagi separuh ciri LLM yang dihantar pada tahun 2026. Ambil input tidak berstruktur — e-mel, tiket sokongan, transkrip mesyuarat, borang imbas — dan ekstrak medan khusus ke dalam objek berstruktur. Gesaan di bawah meminta setiap model mengekstrak tujuh medan daripada e-mel sokongan pelanggan yang sengaja serabut yang mengandungi maklumat separa, isyarat bercanggah, dan satu medan yang tidak wujud langsung dalam teks sumber.

Gesaan

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

Apa yang perlu diperhatikan

Tiga perkara. Pertama, sama ada model mematuhi skema JSON yang diminta tanpa mereka-reka. Kedua, bagaimana model mengendalikan medan yang tidak wujud dalam sumber (escalation_history — pelanggan tidak menyebut sebarang kontak terdahulu tentang isu khusus ini) — adakah ia mengakui ketiadaan, atau adakah ia mengada-adakan secara munasabah? Ketiga, sama ada model menghasilkan komentar tambahan di luar JSON, yang memerlukan penghuraian hiliran untuk menanggalkan pembalut. Medan urgency juga patut diperhatikan: "5 hari" bukan segera tetapi pelanggan jelas cemas, yang memberi ruang kepada tafsiran.

Apa yang pasukan yang menjalankannya secara konsisten laporkan

GPT-5.5. Biasanya menghasilkan JSON yang bersih pada percubaan pertama. Pematuhan skema kukuh; setiap medan yang diminta hadir, dan format boleh dihuraikan tanpa prapemprosesan. Untuk medan yang hilang, GPT-5.5 cenderung mengembalikan null yang jelas. Ia biasanya tidak membalut JSON dalam pagar kod markdown atau menyertakan penjelasan prosa, yang menjadikan penghuraian hiliran mudah. Pada panggilan interpretasi yang samar seperti penarafan urgency di sini, GPT-5.5 cenderung lebih konservatif berbanding dua yang lain — di mana Claude dan Gemini mungkin menilai tiket sebagai "high" berdasarkan nada emosi pelanggan, GPT-5.5 selalunya berpaut pada jendela konkrit 5 hari dan memilih "medium".

Claude Sonnet 4.6. Juga menghasilkan JSON yang bersih, dan lazimnya paling tepat antara tiga dalam mengikuti skema yang diminta. Di mana GPT-5.5 meninggalkan medan yang hilang sebagai null, Claude sering menambah medan yang tidak diminta bagi menandakan isu kualiti data — kunci "notes" atau "data_quality_notes" yang tidak diminta tetapi mengandungi maklumat yang benar-benar berguna. Medan tambahan itu berguna untuk penyemak manusia tetapi menyebabkan kegagalan jika penghuraian hiliran anda ketat tentang skema. Ini corak berulang dengan Claude: kualiti tinggi, tetapi kadang-kadang lebih menyeluruh daripada yang diminta gesaan, memerlukan arahan gesaan yang jelas untuk mengawal.

Gemini 3.1 Pro. Lazimnya menghasilkan output paling ekonomik antara tiga. Setiap medan yang diminta, tiada medan tambahan, tiada prosa sekeliling. Pematuhan skema adalah tepat seperti diminta. Satu keanehan yang wajar diketahui: untuk medan yang hilang, Gemini cenderung mengembalikan rentetan kosong dan bukannya null. Penghuraian JSON yang ketat yang membezakan antara kedua-duanya akan menangkap perbezaan ini; penghuraian longgar tidak. Tingkah laku ini cukup konsisten merentas larian sehingga kelihatan sebagai keutamaan model dan bukannya artifak.

Apa yang ini beritahu anda

Ketiga-tiga model boleh melakukan pengekstrakan berstruktur. Perbezaannya terletak pada margin tingkah laku di sekitar skema yang diminta. Jika sistem hiliran anda ketat tentang skema dan menganggap medan tambahan sebagai ralat, Gemini 3.1 Pro dan GPT-5.5 ialah pilihan yang lebih selamat. Jika anda mahu model menyerlahkan isu kualiti data tanpa diminta, Claude Sonnet 4.6 lebih membantu. Tiada satu pun yang muncul pada penanda aras.

Gesaan 2: Tugas perancangan yang berat pada penaakulan

Gesaan ini meminta model merancang penyiasatan berbilang langkah: soalan penyelidikan dengan tiga kekangan tersirat yang sepatutnya dikenal pasti oleh model yang teliti sebelum menyusun urutan kerja. Jenis tugas yang aplikasi beragentik akan delegasikan kepada LLM sebagai langkah perancangan sebelum sebarang alat digunakan.

Gesaan

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

Kekangan tersirat yang patut diperhatikan: soalan itu tidak pernah mentakrifkan apa yang dimaksudkan dengan "churn" (penutupan akaun? tiada log masuk? tiada pembelian?), ia tidak menyatakan bagaimana mengawal pemboleh ubah perancu (pengguna berpenglibatan rendah beralih keluar atas banyak sebab yang tidak berkaitan dengan ciri X), dan ia tidak menetapkan kumpulan perbandingan garis dasar. Perancang yang teliti patut menyerlahkan ketiga-tiganya sebelum menghasilkan langkah.

Apa yang perlu diperhatikan

Sama ada model benar-benar menalar melalui masalah atau menghasilkan urutan langkah yang kelihatan munasabah tetapi sebenarnya tidak saling berkaitan apabila diteliti. Sama ada ia mengenal pasti kekangan tersirat tanpa diberitahu tentangnya. Dan sama ada kebergantungan antara langkah adalah betul — pelan yang kelihatan baik tetapi mempunyai langkah tiga bergantung pada hasil yang akan dihasilkan oleh langkah lima tidak berguna dalam praktik.

Apa yang pasukan yang menjalankannya secara konsisten laporkan

GPT-5.5. Lazimnya menghasilkan pelan yang paling boleh diguna pakai secara operasi. Penaakulan cenderung kelihatan — GPT-5.5 menghuraikan andaian tentang kekangan tersirat (takrif churn, kumpulan kawalan, pemboleh ubah perancu) sebelum menyusun langkah, yang memudahkan untuk melihat di mana tafsirannya berbeza daripada yang dimaksudkan. Kebergantungan langkah dikenal pasti dan dilabel dengan boleh dipercayai. Output sering termasuk seksyen yang menandakan langkah mana boleh diparalelkan, yang tidak diminta tetapi menambah nilai sebenar. Ini ialah jenis tugas di mana latihan penggunaan alat dan agentik GPT-5.5 menonjol — tingkah laku perancangan dibentuk oleh andaian bahawa pelaksanaan hiliran akan menyusul.

Claude Sonnet 4.6. Lazimnya menghasilkan pelan yang paling berfikir, dalam erti kata literal — pelan Claude sering merangkumi pertimbangan yang dua model lain tidak utarakan. Pada soalan seperti ini, Claude berkemungkinan menandakan isu metodologi tentang korelasi berbanding sebab-akibat, menyatakan bahawa "tidak menggunakan ciri X" mungkin sendiri merupakan simptom churn bukannya punca, dan secara jelas mengenal pasti kekangan yang tidak dinyatakan tetapi patut disedari oleh penganalisis yang teliti. Kekurangannya: pelan boleh menjadi lebih panjang daripada perlu, dan langkah individu kadangkala terlebih kejuruteraan untuk soalan sebenar. Corak ini konsisten dengan tingkah laku Claude di tempat lain — tahap kepakaran tinggi, kadangkala lebih daripada yang tugas perlukan.

Gemini 3.1 Pro. Lazimnya menghasilkan pelan yang paling tersusun kemas, dengan graf kebergantungan paling jelas. Kualiti penaakulan tinggi — Gemini secara konsisten mengenal pasti kekangan tersirat, menguraikan masalah kepada urutan yang boleh dipertahankan, dan menghasilkan arahan langkah demi langkah yang benar-benar boleh dilaksanakan. Kekurangannya: pelan boleh terasa agak mekanikal. Ia melakukan tugas tetapi cenderung tidak menyerlahkan kehalusan metodologi yang dibangkitkan Claude, mahupun pandangan pemaralelan yang disertakan GPT-5.5. Ini sepadan dengan corak lebih luas Gemini — kuat pada kualiti penaakulan, lebih bersikap pekerja pada pertimbangan sekeliling.

Apa yang ini beritahu anda

Kualiti penaakulan pada tugas ini tinggi merentas ketiga-tiga model. Perbezaannya terletak pada tingkah laku sekeliling — apa yang model tambah di luar permintaan literal. GPT-5.5 menambah pragmatisme operasi (pemaralelan, petunjuk pelaksanaan). Claude menambah penjagaan setaraf pakar (metodologi, kes tepi, nuansa statistik). Gemini menambah kejelasan dan ekonomi. Tiada satu pun pilihan yang salah. Yang mana sesuai untuk aplikasi anda bergantung pada apa yang anda mahu model lakukan apabila ia selesai dengan tugas yang anda minta.

Gesaan 3: Penjanaan kod dengan kekangan khusus

Gesaan ini meminta model melaksanakan satu fungsi kecil tetapi tidak remeh: fungsi Python yang mengambil senarai peristiwa bertanda masa dan mengembalikan jurang terpanjang (dalam saat) antara peristiwa berturutan, mengendalikan empat kes tepi. Kekangan dinyatakan secara jelas; niatnya ialah menguji penjanaan kod di bawah kekangan bukannya siling keupayaan — setiap model boleh menulis fungsi ini. Yang berbeza ialah cara mereka mengendalikan kekangan.

Gesaan

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:&nbsp;&nbsp;1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;2. Single event&nbsp;&nbsp;3. Duplicate timestamps&nbsp;&nbsp;4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

Apa yang perlu diperhatikan

Sama ada model menangani kesemua empat kes tepi atau diam-diam mengabaikan sebahagian. Sama ada petunjuk jenis tepat atau sekadar boilerplate. Sama ada pelaksanaan memilih algoritma yang boleh dipertahankan (isih kemudian imbas) atau sesuatu yang eksotik. Dan sama ada model menghormati kekangan "tiada ujian, tiada contoh penggunaan" di hujung gesaan — ini ialah jenis arahan lewat gesaan yang model dengan pematuhan arahan yang kuat akan patuhi dan yang lemah akan diam-diam melanggari.

Apa yang pasukan yang menjalankannya secara konsisten laporkan

GPT-5.5. Lazimnya menghasilkan kod yang paling direka bentuk secara menyeluruh. Keempat-empat kes tepi ditangani dengan cabang eksplisit, petunjuk jenis tepat (sering termasuk Optional atau Union untuk nilai pulangan kes tepi), dan docstring dengan panggilan contoh. Pelaksanaan biasanya memilih algoritma yang jelas — isih, imbas, jejak jurang maksimum — dan adalah betul. Perlu diketahui: GPT-5.5 kerap menyertakan ujian unit atau contoh penggunaan walaupun gesaan meminta hanya fungsi. Ini ialah pertukaran dengan model yang pragmatik operasi — mereka menambah perkara yang mereka fikir anda perlukan, walaupun apabila anda meminta supaya tidak.

Claude Sonnet 4.6. Lazimnya menghasilkan kod yang paling boleh dibaca. Fungsi ringkas, kes tepi ditangani dengan corak klausa pengawal yang bersih di bahagian atas, petunjuk jenis tepat dan minimal. Claude sering menyertakan komen yang teliti menerangkan keputusan pertimbangan yang gesaan tinggalkan terbuka — sebagai contoh, pada cap masa pendua, menganggapnya sebagai jurang sifar dan menerangkan mengapa, yang merupakan keputusan yang boleh dipertahankan yang gesaan tidak tentukan. Claude cenderung menghormati kekangan "tiada ujian" dengan lebih boleh diharap berbanding GPT-5.5. Fungsi itu sendiri paling mudah diselenggara antara tiga. Konsisten dengan reputasi Claude untuk kualiti kod: bersih, idiomatik, berasa seperti pakar.

Gemini 3.1 Pro. Lazimnya menghasilkan kod yang paling ekonomik antara tiga. Fungsi adalah betul, kes tepi ditangani, pelaksanaan paling pendek. Docstring biasanya satu baris. Petunjuk jenis hadir dan tepat. Penyelesaian Gemini jarang termasuk ujian atau komen yang meluas, dan tidak terlebih kejuruteraan — tepat seperti yang diminta oleh gesaan. Bagi pembangun yang mahukan fungsi yang berfungsi dan berhasrat menambah ujian secara berasingan, ini ialah laluan paling langsung. Bagi pembangun yang mahu model melakukan kerja sekeliling juga, dua yang lain menambah lebih banyak (sama ada anda minta atau tidak).

Apa yang ini beritahu anda

Ketiga-tiga model boleh menulis fungsi tersebut. Perbezaan tingkah laku ialah pada sejauh mana kerja sekeliling yang setiap model lakukan di luar permintaan literal — dan sejauh mana setiap satu mematuhi arahan jelas "jangan tambah X". GPT-5.5 cenderung kepada ketelitian, walaupun apabila ketelitian diketepikan dalam gesaan. Claude cenderung kepada mutu kerja (kod boleh dibaca, komen teliti pada keputusan pertimbangan). Gemini cenderung kepada ekonomi (buat tepat apa yang diminta, tidak lebih). Untuk aliran kerja agentik di mana output model masuk terus ke pangkalan kod produksi, tingkah laku yang anda mahukan bergantung pada jangkaan proses semakan hiliran anda — dan pada betapa ketatnya anda perlu arahan negatif dipatuhi.

Corak yang muncul

Merentas tiga gesaan di atas, tiga corak tingkah laku yang konsisten muncul daripada kajian perbandingan dan laporan pembangun yang diterbitkan sepanjang 2026. Ini bukan tuntutan keupayaan — setiap model mengendalikan setiap tugas pada tahap tinggi. Ia adalah kecenderungan, perkara yang anda hanya lihat apabila pasukan memerhati model yang sama mengendalikan berpuluh-puluh gesaan. Jalankan gesaan di atas pada seting anda sendiri dan anda akan melihat corak yang sama; artikel ini wujud untuk memberikan anda rangka kerja untuk mengenali apa yang anda lihat apabila anda melakukannya.

Model	Kecenderungan tingkah laku	Paling sesuai apabila…
GPT-5.5	Pragmatik operasi. Menambah petunjuk pelaksanaan, pengekodan defensif, dan output mesra hiliran. Kuat pada tugas yang dibentuk oleh agentik dan penggunaan alat.	Aplikasi anda merantaikan output model ke pelaksanaan seterusnya — agen, aliran kerja, atau paip di mana langkah seterusnya diautomasi.
Claude Sonnet 4.6	Penjagaan setaraf pakar. Menyerlahkan pertimbangan di luar permintaan literal, membangkitkan kebimbangan etika dan metodologi, menghasilkan kod yang sangat mudah dibaca.	Aplikasi anda mempunyai manusia yang menyemak output model — penjanaan kandungan, semakan kod, analisis di mana mutu kerja menjadi penting.
Gemini 3.1 Pro	Ekonomik dan terus. Melakukan tepat apa yang diminta, tidak lebih. Pematuhan skema paling bersih dan output token paling rendah untuk kerja setara.	Aplikasi anda mempunyai keperluan output yang ketat, kos yang boleh dijangka menjadi keutamaan, atau anda mahu model menjadi alat yang tepat bukannya kolaborator yang banyak berfikir.

Satu penjelasan penting. Corak ini ialah kecenderungan, bukan peraturan. Setiap model boleh diarahkan ke mana-mana tingkah laku ini dengan gesaan yang sesuai — sistem prompt yang cukup terperinci akan membuat Gemini menambah ujian, atau mengawal Claude kepada output minimum, atau membuat GPT-5.5 melangkau ujian unit. Intinya ialah apa yang setiap model lakukan secara lalai, sebelum anda mula mengarahkannya. Tingkah laku lalai ialah apa yang anda hadapi dalam produksi melainkan anda secara aktif menggesa sebaliknya.

Cara menguji pada beban kerja anda sendiri

Latihan di atas boleh diulang pada mana-mana beban kerja, dan ia sepatutnya. Skor penanda aras berguna sebagai penapis pertama, tetapi corak tingkah laku model yang penting untuk aplikasi khusus anda hanya kelihatan apabila anda memerhati model mengendalikan gesaan khusus anda.

Panduan praktikal untuk menjalankan latihan pada trafik anda sendiri:

Pilih tiga kategori gesaan yang mewakili. Bukan tiga gesaan rawak — tiga kategori yang merangkumi beban kerja anda. Kebanyakan sistem produksi boleh diuraikan kepada beberapa jenis gesaan (ekstraksi, pengelasan, penjanaan, penaakulan, kod, ringkasan). Pilih kategori yang menyumbang kepada sebahagian besar trafik anda.
Kurasi 20–30 contoh bagi setiap kategori. Daripada trafik sebenar, sebaiknya. Nyahnamakan jika perlu. Tujuannya ialah gesaan harus kelihatan seperti apa yang aplikasi anda sebenarnya lihat, bukan seperti soalan penanda aras. Dua puluh contoh per kategori cukup untuk melihat corak; tiga puluh cukup untuk yakin.
Jalankan semuanya melalui satu titik akhir, semua model. Titik akhir pengagregat serasi OpenAI menjadikannya jauh lebih pantas daripada menjalankan setiap model melalui SDKnya sendiri. Kod di bahagian atas artikel ini ialah keseluruhan persediaan. Temperature yang sama, parameter yang sama, gesaan yang sama — perbezaan dalam output ialah perbezaan model.
Gred secara kualitatif sebelum kuantitatif. Tinjau output dahulu. Corak tingkah laku biasanya jelas dalam sedozen gesaan pertama. Setelah anda mempunyai hipotesis tentang bagaimana setiap model berkelakuan pada beban kerja anda, barulah anda boleh membina rubrik untuk menilai — tetapi hipotesis datang daripada pemerhatian, bukan daripada templat penilaian pra-bina.
Perhatikan apa yang model tambah. Soalan penanda aras ialah sama ada model mendapat jawapan yang betul. Soalan tingkah laku ialah apa lagi yang model lakukan. Adakah ia menambah ujian? Adakah ia menerangkan penaakulan? Adakah ia membangkitkan kebimbangan? Adakah ia menghasilkan medan tambahan yang anda tidak minta? Di sinilah perbezaan model wujud.
Pilih model yang sepadan dengan corak hiliran anda. Jika proses hiliran anda diautomasi, anda mahukan model yang tingkah laku lalainya menghasilkan output yang bersih dan boleh dihuraikan. Jika proses hiliran anda ialah semakan manusia, anda mahukan model yang tingkah laku lalainya menambah jenis pertimbangan sekeliling yang penyemak manusia mahu lihat. Jawapan yang betul bergantung pada apa yang datang selepas model.

Kesimpulan

Pilihan antara GPT-5.5, Claude Sonnet 4.6 dan Gemini 3.1 Pro bukan tentang model mana yang terbaik. Ia tentang model mana yang sesuai dengan bentuk beban kerja anda — dan bentuk itu ialah sesuatu yang penanda aras tidak dapat lihat. Latihan di atas boleh diulang dalam satu petang jika anda telah mengurus gesaan; nilainya ialah anda berhenti meneka dan mula memerhati.

Untuk pasukan yang menjalankan latihan sendiri: persediaan paling mudah ialah satu titik akhir serasi OpenAI yang mendedahkan ketiga-tiga model di belakang satu kelayakan. CometAPI ialah satu laluan; anda menghalakan SDK OpenAI sedia ada ke URL asas yang berbeza dan parameter model menjadi pemboleh ubah.

Penanda aras memberitahu anda apa yang model boleh lakukan. Corak tingkah laku memberitahu anda apa yang model akan lakukan, secara lalai, pada gesaan anda. Jawapan pertama diterbitkan. Yang kedua anda perlu memerhati sendiri. Dua puluh gesaan per kategori, satu petang, dan anda mempunyai jawapan yang tiada papan kedudukan akan pernah hasilkan.

Sudah bersedia untuk mengintegrasi dengan boleh dipercayai? Kunjungi CometAPI dan dokumen API untuk akses Claude Fable 5 yang lancar bersama model terdepan lain, pengebilan bersatu, dan kebolehpercayaan kelas perusahaan. Daftar hari ini dan mulakan dengan kredit murah hati untuk pengguna baharu—projek terobosan seterusnya anda menanti.

Bersedia untuk mengurangkan kos pembangunan AI sebanyak 20%?

Baca Lagi

Bersedia untuk mengurangkan kos pembangunan AI sebanyak 20%?

Baca Lagi

GPT-5.5 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro: Apa yang penanda aras tidak memberitahu anda

Apa yang diukur oleh penanda aras, dan apa yang terlepas

Persediaan

Gesaan 1: Pengekstrakan berstruktur daripada dokumen yang serabut

Gesaan

Apa yang perlu diperhatikan

Apa yang pasukan yang menjalankannya secara konsisten laporkan

Apa yang ini beritahu anda

Gesaan 2: Tugas perancangan yang berat pada penaakulan

Gesaan

Apa yang perlu diperhatikan

Apa yang pasukan yang menjalankannya secara konsisten laporkan

Apa yang ini beritahu anda

Gesaan 3: Penjanaan kod dengan kekangan khusus

Gesaan

Apa yang perlu diperhatikan

Apa yang pasukan yang menjalankannya secara konsisten laporkan

Apa yang ini beritahu anda

Corak yang muncul

Cara menguji pada beban kerja anda sendiri

Kesimpulan