Terdapat sejenis mesyuarat yang kerap berlaku dalam setiap pasukan yang membina produk di atas LLM termaju. Seseorang berkongsi papan kedudukan penanda aras terkini. Orang lain menunjuk bahawa kedudukan telah berubah sejak bulan lalu. Orang ketiga menyebut bahawa model yang pasukan mereka sedang gunakan turun dua tempat pada satu metrik yang tiada seorang pun pernah dengar tiga minggu lepas. Menjelang akhir mesyuarat, tiada siapa pasti sama ada mahu beralih, dan perbincangan dijadual semula untuk suku akan datang.
Masalah dengan mesyuarat itu bukan orang-orangnya. Masalahnya ialah penanda aras mengukur tugas sintetik, sedangkan produk anda bukan tugas sintetik. Papan kedudukan memberitahu anda bagaimana sesebuah model berprestasi pada MMLU, pada SWE-bench Verified, pada GPQA Diamond — ujian yang direka oleh penyelidik untuk boleh diukur merentas model. Tiada satu pun ujian itu kelihatan seperti prompt yang aplikasi anda sebenarnya hantar dalam produksi. Tiada satu pun daripadanya menangkap bagaimana sesebuah model mengendalikan input yang berselerak dan dibentuk oleh domain tertentu yang dihasilkan oleh pengguna anda.
Artikel ini membimbing anda melalui latihan yang tepat yang penanda aras tidak mampu lakukan. Tiga prompt konkrit, direka untuk dihantar kepada GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro melalui titik akhir serasi OpenAI yang sama, dengan tetapan suhu yang sama dan tanpa prompt tambahan. Prompt ini merangkumi tiga kategori yang menyentuh kebanyakan beban kerja produksi: pengekstrakan berstruktur daripada dokumen yang berselerak, tugasan perancangan yang berat dengan penaakulan, dan penjanaan kod di bawah kekangan. Pemerhatian di bawah ialah corak tingkah laku yang pasukan yang menjalankan perbandingan sebegini secara konsisten laporkan — corak yang anda sendiri akan lihat jika anda menjalankan prompt ini pada set anda sendiri.
Pada papan kedudukan, ketiga-tiga model ini mencatat dalam lingkungan 0.8 mata peratusan antara satu sama lain pada SWE-bench Verified. Dalam praktik, tingkah laku mereka sangat berbeza. Pemilihan antara mereka bukan tentang siapa yang mendapat markah tertinggi pada penanda aras — tetapi tentang corak tingkah laku mana yang sesuai dengan beban kerja anda.
Apa yang diukur penanda aras, dan apa yang terlepas
Penanda aras wujud kerana ia perlu. Penyedia model memerlukan ujian berstandard untuk membuat tuntutan keupayaan, penyelidik memerlukannya untuk menerbitkan perbandingan, dan selebihnya daripada kita memerlukannya untuk mempunyai sebarang titik permulaan objektif dalam menilai model. Ia berguna. Ia juga tidak lengkap dalam cara yang penting untuk penggunaan produksi.
Tiga had khusus wajar dinyatakan dengan jelas, kerana setiap satunya muncul dalam contoh prompt di bawah.
- Penanda aras mengukur keupayaan terasing, bukan corak tingkah laku. SWE-bench Verified memberitahu anda sama ada model boleh menyelesaikan sejenis isu GitHub tertentu. Ia tidak memberitahu anda sama ada model cenderung terlebih kejuruteraan untuk masalah mudah, sama ada ia bertanya soalan penjelasan apabila prompt samar, atau sama ada ia menghasilkan output yang sepadan dengan struktur yang anda minta pada cubaan pertama. Inilah perkara yang anda akan perhatikan setiap hari dalam produksi.
- Penanda aras menjadi sasaran penalaan. Apabila keluaran model menonjolkan skornya pada penanda aras tertentu, itu isyarat bahawa model sekurang-kurangnya sebahagiannya dioptimumkan untuk penanda aras tersebut. Prestasi dunia sebenar dan prestasi penanda aras boleh menyimpang — kadangkala dengan ketara — apabila model keluar daripada syarat yang dirangka untuk penanda aras itu.
- Penanda aras mengagregat. Perbezaan 0.8 mata peratusan dalam skor SWE-bench Verified mungkin menyembunyikan hakikat bahawa Model A jauh lebih baik pada satu kategori tugas tertentu dan lebih lemah pada kategori lain, sementara Model B konsisten merentasi semua. Pengagregatan meruntuhkan maklumat yang anda perlukan untuk membuat keputusan.
Latihan di bawah direka untuk menonjolkan tepat jenis maklumat yang penanda aras gabungkan dan lenyapkan. Tujuannya bukan untuk menobatkan pemenang — tetapi untuk menunjukkan soalan yang patut anda tanyakan apabila anda menjalankan latihan yang sama pada prompt anda sendiri.
Persediaan
Tiga prompt, dipilih kerana ia memetakan kepada kategori yang kebanyakan beban kerja produksi hadapi. Persediaan: setiap prompt dihantar kepada ketiga-tiga model dengan parameter yang sama (suhu 0.3, tiada penimpal sistem, format respons lalai), diakses melalui satu titik akhir serasi OpenAI supaya perbandingan kekal setara — tiada keanehan SDK khusus penyedia, tiada pemetaan parameter yang berbeza, tiada risiko satu model menerima layanan istimewa kerana cara permintaan dibina.
Prompt itu sendiri berada di bawah, sebagai blok kod yang anda boleh salin dan jalankan. Huraian tingkah laku yang menyusul selepas setiap satu adalah corak yang pasukan secara konsisten laporkan apabila menjalankan perbandingan sebegini — corak yang didokumentasikan merentas pelbagai kajian pihak ketiga pada 2026, dan jenis perkara yang patut anda jangka lihat sendiri apabila anda menjalankan prompt ini pada persediaan anda. Menjalankannya sendiri ialah tujuannya; artikel ini wujud untuk memberi anda rangka kerja dan prompt permulaan untuk berbuat demikian.
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["COMET_API_KEY"], # or replace with your API key
base_url="https://api.cometapi.com/v1", # one endpoint, multiple models
)
MODELS = [
"gpt-5.5",
"claude-sonnet-4-6",
"gemini-3.1-pro",
]
def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
"""
Send the same prompt to all three models and return their responses.
"""
responses = {}
for model in MODELS:
result = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": prompt,
}
],
temperature=temperature,
)
responses[model] = result.choices[0].message.content
return responses
# Example usage
if __name__ == "__main__":
prompt = "Summarise the key risks in this contract."
outputs = run_comparison(prompt)
for model, response in outputs.items():
print(f"\n--- {model} ---")
print(response)
Prompt 1: Pengekstrakan berstruktur daripada dokumen yang berselerak
Ini tugas rutin bagi separuh ciri LLM yang dihantar pada 2026. Ambil input tidak berstruktur — e-mel, tiket sokongan, transkrip mesyuarat, borang yang diimbas — dan ekstrak medan tertentu ke dalam objek berstruktur. Prompt di bawah meminta setiap model mengekstrak tujuh medan daripada e-mel sokongan pelanggan yang sengaja berselerak yang mengandungi maklumat separa, isyarat bercanggah, dan satu medan yang tidak wujud langsung dalam teks sumber.
Prompt
You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys: - customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing", "returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)
Email:---Hi there, I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened. Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester. Margaret W.--- Return only the JSON object. No commentary, no markdown code fences.
Apa yang perlu diperhatikan
Tiga perkara. Pertama, sama ada model mematuhi skema JSON yang diminta tanpa mengada-adakan. Kedua, bagaimana model mengendalikan medan yang tidak wujud dalam sumber (escalation_history — pelanggan tidak menyebut sebarang hubungan terdahulu mengenai isu khusus ini) — adakah ia mengakui ketiadaan, atau mereka-reka sesuatu yang munasabah? Ketiga, sama ada model menghasilkan ulasan tambahan di luar JSON, yang memerlukan penghuraian hiliran untuk menanggalkan pembalut. Medan urgency juga patut diberi perhatian: “5 hari” bukan serta-merta tetapi pelanggan jelas cemas, yang memberi ruang tafsiran.
Apa yang pasukan yang menjalankan ini secara konsisten laporkan
GPT-5.5. Biasanya menghasilkan JSON yang bersih pada cubaan pertama. Pematuhan skema kukuh; setiap medan yang diminta ada, dan format boleh dihuraikan tanpa prapemprosesan. Untuk medan yang hilang, GPT-5.5 cenderung memulangkan null yang eksplisit. Ia biasanya tidak membalut JSON dalam pagar kod markdown atau menyertakan penjelasan prosa, yang menjadikan penghuraian hiliran mudah. Pada panggilan tafsiran yang samar seperti penilaian urgency di sini, GPT-5.5 cenderung lebih konservatif berbanding dua yang lain — di mana Claude dan Gemini mungkin menilai tiket “high” berdasarkan nada emosi pelanggan, GPT-5.5 sering berjangkar pada tempoh 5 hari yang konkrit dan jatuh pada “medium”.
Claude Sonnet 4.6. Juga menghasilkan JSON yang bersih, dan lazimnya paling tepat antara tiga dalam mengikuti skema yang diminta. Di mana GPT-5.5 meninggalkan medan hilang sebagai null, Claude sering menambah medan yang tidak diminta untuk menandai isu kualiti data — kekunci “notes” atau “data_quality_notes” yang tidak diminta tetapi mengandungi maklumat yang benar-benar berguna. Medan tambahan itu berguna untuk penyemak manusia tetapi menyebabkan kegagalan jika penghuraian hiliran anda tegas tentang skema. Ini pola berulang dengan Claude: kualiti tinggi, tetapi kadang-kadang lebih menyeluruh daripada yang diminta prompt, memerlukan arahan prompt yang jelas untuk mengehadkan.
Gemini 3.1 Pro. Lazimnya menghasilkan output paling ekonomik antara tiga. Setiap medan yang diminta ada, tiada medan tambahan, tiada prosa mengelilingi. Pematuhan skema tepat seperti yang diminta. Satu keanehan yang patut diketahui: untuk medan hilang, Gemini cenderung memulangkan rentetan kosong dan bukannya null. Penghuraian JSON yang ketat yang membezakan kedua-duanya akan mengesan perbezaan; penghuraian longgar tidak. Tingkah laku cukup konsisten merentas larian sehingga ia tampak sebagai keutamaan model dan bukannya artifak.
Apa yang ini beritahu anda
Ketiga-tiga model boleh melakukan pengekstrakan berstruktur. Perbezaan berada pada margin tingkah laku sekitar skema yang diminta. Jika sistem hiliran anda tegas tentang skema dan menganggap medan tambahan sebagai ralat, Gemini 3.1 Pro dan GPT-5.5 ialah pilihan yang lebih selamat. Jika anda mahu model menonjolkan isu kualiti data tanpa diminta, Claude Sonnet 4.6 lebih membantu. Tiada satu pun ini muncul pada penanda aras.
Prompt 2: Tugasan perancangan yang berat dengan penaakulan
Prompt ini meminta model merancang siasatan berbilang langkah: satu soalan penyelidikan dengan tiga kekangan tersirat yang patut dikenal pasti oleh model yang cermat sebelum menyusun kerja. Jenis tugasan yang aplikasi agenik akan delegasikan kepada LLM sebagai langkah perancangan sebelum sebarang alat digunakan.
The prompt
I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.
Kekangan tersirat yang patut diperhatikan: soalan tidak pernah mentakrifkan apa itu “churn” (penutupan akaun? tiada log masuk? tiada pembelian?), ia tidak menyatakan cara mengawal pemboleh ubah mengelirukan (pengguna berpenglibatan rendah berhenti kerana banyak sebab yang tidak berkaitan dengan ciri X), dan ia tidak mewujudkan kumpulan perbandingan asas. Perancang yang cermat patut menonjolkan ketiga-tiganya sebelum menghasilkan langkah-langkah.
Apa yang perlu diperhatikan
Sama ada model benar-benar menaakul melalui masalah atau menghasilkan urutan langkah yang tampak munasabah tetapi tidak benar-benar utuh apabila diperiksa. Sama ada ia mengenal pasti kekangan tersirat tanpa diberitahu. Dan sama ada kebergantungan antara langkah betul — pelan yang kelihatan baik tetapi mempunyai langkah tiga bergantung pada hasil yang akan dihasilkan oleh langkah lima tidak berguna dalam praktik.
Apa yang pasukan yang menjalankan ini secara konsisten laporkan
GPT-5.5. Biasanya menghasilkan pelan yang paling boleh digunakan secara operasional. Penaakulan cenderung kelihatan — GPT-5.5 menyenaraikan anggapan tentang kekangan tersirat (takrif churn, kumpulan kawalan, pemboleh ubah mengelirukan) sebelum menyusun langkah-langkah, yang memudahkan untuk melihat di mana tafsirannya berbeza daripada yang dimaksudkan. Kebergantungan langkah dikenal pasti dan dilabel dengan boleh dipercayai. Output sering termasuk bahagian yang menandakan langkah mana boleh diparalelkan, yang tidak diminta tetapi menambah nilai sebenar. Ini jenis tugasan di mana latihan penggunaan alat dan agenik GPT-5.5 terserlah — tingkah laku perancangannya dibentuk oleh andaian bahawa pelaksanaan hiliran akan menyusul.
Claude Sonnet 4.6. Biasanya menghasilkan pelan yang paling “berfikir”, dalam erti literal — pelan Claude sering merangkumi pertimbangan yang dua model lain tidak bangkitkan. Pada soalan seperti ini, Claude berkemungkinan menonjolkan isu metodologi tentang korelasi vs kausaliti, menyatakan bahawa “tidak menggunakan ciri X” mungkin sendiri merupakan simptom churn dan bukan punca, dan mengenal pasti kekangan yang tidak dinyatakan tetapi patut ditangkap oleh penganalisis yang teliti. Kekurangannya: pelan boleh jadi lebih panjang daripada perlu, dan langkah individu kadangkala terlebih kejuruteraan untuk soalan sebenar. Pola ini konsisten dengan tingkah laku Claude di tempat lain — ketelitian setaraf pakar, kadangkala lebih daripada yang tugasan perlukan.
Gemini 3.1 Pro. Biasanya menghasilkan pelan yang paling terstruktur rapi, dengan graf kebergantungan paling jelas. Kualiti penaakulan tinggi — Gemini secara konsisten mengenal pasti kekangan tersirat, menguraikan masalah ke urutan yang boleh dipertahankan, dan menghasilkan arahan langkah demi langkah yang boleh benar-benar dilaksana. Kekurangannya: pelan boleh terasa agak mekanikal. Ia menyelesaikan tugas tetapi cenderung tidak menonjolkan perincian metodologi yang Claude bangkitkan, mahupun pandangan pemparalelan yang GPT-5.5 sertakan. Ini sepadan dengan pola lebih luas Gemini — kuat pada kualiti penaakulan, lebih “pekerjaannya” pada pertimbangan sekitaran.
Apa yang ini beritahu anda
Kualiti penaakulan pada tugasan ini tinggi merentas ketiga-tiga model. Perbezaannya terletak pada tingkah laku sekitar — apa yang model tambah melangkaui permintaan literal. GPT-5.5 menambah pragmatisme operasi (pemparalelan, petunjuk pelaksanaan). Claude menambah ketelitian setaraf pakar (metodologi, kes tepi, nuansa statistik). Gemini menambah kejelasan dan ekonomi. Tiada satu pun pilihan yang salah. Yang mana sesuai untuk aplikasi anda bergantung pada apa yang anda mahu model lakukan apabila ia selesai dengan tugasan yang anda minta.
Prompt 3: Penjanaan kod dengan kekangan khusus
Prompt ini meminta model melaksanakan fungsi kecil tetapi tidak remeh: fungsi Python yang mengambil senarai peristiwa berturcap masa dan memulangkan sela terpanjang antara peristiwa berturutan, mengendalikan empat kes tepi. Kekangannya jelas; niatnya menguji penjanaan kod di bawah kekangan dan bukannya siling keupayaan — setiap model boleh menulis fungsi ini. Yang berbeza ialah bagaimana mereka mengendalikan kekangan.
Prompt
Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events. Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases: 1. Empty list (return 0.0 or raise — your choice, but be consistent) 2. Single event 3. Duplicate timestamps 4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.
Apa yang perlu diperhatikan
Sama ada model menangani semua empat kes tepi atau diam-diam mengabaikan sebahagiannya. Sama ada petunjuk jenis (type hints) tepat atau sekadar boilerplate. Sama ada pelaksanaan memilih algoritma yang boleh dipertahankan (isih kemudian imbas) atau sesuatu yang ganjil. Dan sama ada model menghormati kekangan “tiada ujian, tiada contoh penggunaan” di hujung prompt — ini jenis arahan lewat prompt yang model dengan pematuhan arahan kukuh akan patuhi dan yang lebih lemah akan senyap-senyap langgar.
Apa yang pasukan yang menjalankan ini secara konsisten laporkan
GPT-5.5. Biasanya menghasilkan kod yang paling direka dengan teliti. Keempat-empat kes tepi ditangani dengan cabang eksplisit, petunjuk jenis tepat (sering termasuk Optional atau Union untuk nilai pulangan kes tepi), dan docstring dengan panggilan contoh. Pelaksanaan biasanya memilih algoritma jelas — isih, imbas, jejak sela maksimum — dan adalah betul. Perlu diketahui: GPT-5.5 sering menyertakan ujian unit atau contoh penggunaan walaupun prompt dengan jelas meminta hanya fungsi. Inilah pertukaran dengan model yang pragmatik operasional — mereka menambah perkara yang difikirkan anda perlukan, walaupun anda minta supaya tidak.
Claude Sonnet 4.6. Biasanya menghasilkan kod yang paling mudah dibaca. Fungsi padat, kes tepi ditangani dengan corak klausa pengawal yang bersih di awal, petunjuk jenis tepat dan minimum. Claude sering menyertakan ulasan bijak yang menerangkan keputusan penghakiman yang prompt tinggalkan terbuka — sebagai contoh, pada cap masa pendua, menganggapnya sebagai sela panjang sifar dan menerangkan sebab, yang merupakan keputusan yang boleh dipertahankan yang prompt tidak spesifikkan. Claude cenderung menghormati kekangan “tiada ujian” dengan lebih boleh dipercayai daripada GPT-5.5. Fungsi itu sendiri paling mudah disenggara antara tiga. Konsisten dengan reputasi Claude untuk kualiti kod: bersih, idiomatik, rasa seperti kerja pakar.
Gemini 3.1 Pro. Biasanya menghasilkan kod paling ekonomik antara tiga. Fungsi betul, kes tepi ditangani, pelaksanaan paling pendek. Docstring biasanya satu baris. Petunjuk jenis wujud dan tepat. Penyelesaian Gemini jarang menyertakan ujian atau ulasan terperinci, dan tidak terlebih kejuruteraan — tepat apa yang prompt minta. Untuk pembangun yang mahukan fungsi berfungsi dan bercadang menambah ujian secara berasingan, ini laluan paling langsung. Untuk pembangun yang mahu model melakukan kerja sekitarannya juga, dua yang lain menambah lebih banyak (sama ada anda minta atau tidak).
Apa yang ini beritahu anda
Ketiga-tiga model boleh menulis fungsi tersebut. Perbezaan tingkah laku terletak pada berapa banyak kerja sekitaran yang setiap model lakukan melangkaui permintaan literal — dan sejauh mana setiap satu mematuhi arahan “jangan tambah X” dengan ketat. GPT-5.5 cenderung ke arah keterperincian, walaupun keterperincian itu diketepikan dalam prompt. Claude cenderung ke arah ketukangan (kod mudah dibaca, ulasan bijak tentang keputusan penghakiman). Gemini cenderung ke arah ekonomi (buat tepat apa yang diminta, tidak lebih). Untuk aliran kerja agenik di mana output model masuk terus ke dalam pangkalan kod produksi, tingkah laku yang anda mahu bergantung pada apa yang proses semakan hiliran anda jangka — dan pada betapa ketat anda perlukan arahan negatif dipatuhi.
Corak yang muncul
Merentasi tiga prompt di atas, tiga corak tingkah laku konsisten muncul daripada kajian perbandingan dan laporan pembangun yang diterbitkan sepanjang 2026. Ini bukan tuntutan keupayaan — setiap model mengendalikan setiap tugasan pada tahap tinggi. Ini kecenderungan, jenis perkara yang anda hanya lihat apabila pasukan memerhati model yang sama mengendalikan berpuluh-puluh prompt. Jalankan prompt di atas pada set anda sendiri dan anda akan melihat corak yang sama; artikel ini wujud untuk memberi anda rangka kerja bagi mengenali apa yang anda sedang lihat apabila anda berbuat demikian.
| Model | Kecenderungan tingkah laku | Paling sesuai apabila… |
|---|---|---|
| GPT-5.5 | Pragmatik operasi. Menambah petunjuk pelaksanaan, kod defensif, dan output mesra-hiliran. Kuat pada tugas yang dibentuk penggunaan alat dan agenik. | Aplikasi anda merantaikan output model ke pelaksanaan seterusnya — ejen, aliran kerja, atau talian perakitan di mana langkah seterusnya diautomasi. |
| Claude Sonnet 4.6 | Kepedulian setaraf pakar. Menonjolkan pertimbangan melangkaui permintaan literal, membangkitkan etika dan metodologi, menghasilkan kod sangat mudah dibaca. | Aplikasi anda mempunyai manusia yang menyemak output model — penjanaan kandungan, semakan kod, analisis di mana ketukangan penting. |
| Gemini 3.1 Pro | Ringkas dan terus. Melakukan tepat apa yang diminta, tidak lebih. Pematuhan skema paling bersih dan keluaran token terendah untuk kerja setara. | Aplikasi anda mempunyai keperluan output yang ketat, kos yang boleh dijangka ialah keutamaan, atau anda mahu model menjadi alat yang tepat, bukan rakan kolaborasi berfikir. |
Suatu kaveat penting. Corak ini ialah kecenderungan, bukan peraturan. Setiap model boleh diarahkan ke mana-mana tingkah laku ini dengan prompt yang sesuai — prompt sistem yang cukup terperinci akan membuat Gemini menambah ujian, atau mengehadkan Claude kepada output minimum, atau membuat GPT-5.5 melangkau ujian unit. Intinya ialah apa yang setiap model lakukan secara lalai, sebelum anda mula mengarahkannya. Tingkah laku lalai inilah yang anda hadapi dalam produksi kecuali anda secara aktif memprompt menentangnya.
Cara menguji pada beban kerja anda sendiri
Latihan di atas boleh direplikasi pada mana-mana beban kerja, dan memang patut. Skor penanda aras berguna sebagai penapis awal, tetapi corak tingkah laku model yang penting untuk aplikasi khusus anda hanya kelihatan apabila anda memerhati model mengendalikan prompt khusus anda.
Panduan praktikal untuk menjalankan latihan pada trafik anda sendiri:
- Pilih tiga kategori prompt yang representatif. Bukan tiga prompt rawak — tiga kategori yang merangkumi beban kerja anda. Kebanyakan sistem produksi boleh diuraikan kepada segelintir jenis prompt (pengekstrakan, pengelasan, penjanaan, penaakulan, kod, pemeringkasan). Pilih kategori yang menyumbang sebahagian besar trafik anda.
- Kurasi 20–30 contoh per kategori. Sebaiknya daripada trafik sebenar. Anonimkan apabila perlu. Matlamatnya ialah prompt harus menyerupai apa yang aplikasi anda benar-benar lihat, bukan seperti soalan penanda aras. Dua puluh contoh per kategori cukup untuk melihat corak; tiga puluh cukup untuk yakin.
- Jalankan melalui satu titik akhir, semua model. Titik akhir pengagregat serasi OpenAI menjadikannya jauh lebih pantas daripada menjalankan setiap model melalui SDK masing-masing. Kod di bahagian atas artikel ini ialah keseluruhan persediaan. Suhu yang sama, parameter yang sama, prompt yang sama — perbezaan pada output ialah perbezaan model.
- Gred secara kualitatif sebelum kuantitatif. Imbas output dengan mata terlebih dahulu. Corak tingkah laku biasanya jelas dalam sedozen prompt pertama. Setelah anda mempunyai hipotesis tentang bagaimana setiap model berkelakuan pada beban kerja anda, barulah anda membina rubrik untuk menilai — tetapi hipotesis datang daripada pemerhatian, bukan daripada templat pemarkahan siap sedia.
- Perhatikan apa yang model tambah. Soalan penanda aras ialah sama ada model mendapat jawapan yang betul. Soalan tingkah laku ialah apa lagi yang model lakukan. Adakah ia menambah ujian? Adakah ia menerangkan penaakulan? Adakah ia menimbulkan kebimbangan? Adakah ia menghasilkan medan tambahan yang anda tidak minta? Di sinilah perbezaan model wujud.
- Pilih model yang sepadan dengan corak hiliran anda. Jika proses hiliran anda diautomasi, anda mahu model yang tingkah laku lalainya menghasilkan output yang bersih dan boleh dihuraikan. Jika proses hiliran anda ialah semakan manusia, anda mahu model yang tingkah laku lalainya menambah jenis penghakiman sekitaran yang dikehendaki penyemak manusia. Jawapan yang betul bergantung pada apa yang datang selepas model.
Kesimpulan
Pilihan antara GPT-5.5, Claude Sonnet 4.6, dan Gemini 3.1 Pro bukan tentang model mana yang terbaik. Ia tentang model mana yang sesuai dengan bentuk beban kerja anda — dan bentuk itu ialah sesuatu yang penanda aras tidak dapat lihat. Latihan di atas boleh direplikasi dalam satu petang jika anda telah mengkurasi prompt; nilainya ialah anda berhenti meneka dan mula memerhati.
Untuk pasukan yang menjalankan latihan sendiri: persediaan paling mudah ialah satu titik akhir serasi OpenAI yang mendedahkan ketiga-tiga model di belakang satu kredensial. CometAPI ialah satu laluan; anda halakan SDK OpenAI sedia ada ke URL asas yang berbeza dan parameter model menjadi pemboleh ubah. Rencana pendamping, The 2026 LLM API Pricing Comparison, meliputi sisi kos bagi keputusan yang sama — bersama-sama kedua-duanya memberi anda gambaran tingkah laku dan kewangan yang anda perlukan untuk memilih dengan baik.
Penanda aras memberitahu anda apa yang model boleh lakukan. Corak tingkah laku memberitahu anda apa yang model akan lakukan, secara lalai, pada prompt anda. Jawapan pertama diterbitkan. Yang kedua anda perlu perhati sendiri. Dua puluh prompt per kategori, satu petang, dan anda mempunyai jawapan yang tiada papan kedudukan akan hasilkan.
Sedia untuk mengintegrasi dengan boleh dipercayai? Pergi ke CometAPI dan Dok API untuk akses tanpa sela ke Claude Fable 5 bersama model termaju lain, bil bersepadu, dan kebolehpercayaan peringkat perusahaan. Daftar hari ini dan mula dengan kredit murah hati untuk pengguna baharu — projek terobosan anda seterusnya sedang menanti.
