Claude Sonnet 4.5 — perkara baharu, prestasinya dan sebab anda boleh memilihnya

CometAPI
AnnaDec 2, 2025
Claude Sonnet 4.5 — perkara baharu, prestasinya dan sebab anda boleh memilihnya

Claude Sonnet 4.5 (biasanya dipendekkan kepada Klaude 4.5) ialah keluaran sempadan 29 September 2025 Anthropic yang memfokuskan pada kerja agenik ufuk panjang, pengekodan dan "penggunaan komputer" (mengautomatikkan tugas berbilang langkah merentas alatan). Ia memberikan lonjakan besar dalam tempoh pengekodan autonomi, penggunaan alat dan gelagat sejajar, sambil mengekalkan harga per-token yang sama seperti keluaran Sonnet sebelumnya. Untuk pasukan membina aliran kerja agen, susunan produktiviti pembangun dan aplikasi perusahaan terkawal, Claude 4.5 mewakili pilihan yang menarik dan berpatutan.


Servis Claude Sonnet 4.5 is

Claude Sonnet 4.5 ialah lelaran model Claude utama Anthropic seterusnya (berjenama "Sonnet 4.5") yang direka untuk menjalankan tugas berbilang langkah yang lebih panjang dan lebih kompleks, mengendalikan alatan perisian bagi pihak pengguna dan melakukan pengekodan dan penaakulan gred pengeluaran untuk pelanggan perusahaan. Keluaran ini menekankan keupayaan agen (model yang boleh bertindak secara autonomi merentas berbilang langkah dan alatan), penjajaran/keselamatan yang lebih ketat dan kefungsian dalam apl yang lebih kaya seperti pelaksanaan kod dan penciptaan fail (hamparan, slaid, dokumen).

Penemuan dan ciri utama

1. Keupayaan ejen yang berkekalan dan bertahan lama

Laporan anthropic Claude Sonnet 4.5 boleh mengekalkan fokus, operasi berbilang langkah untuk lebih daripada jam 30 pada tugas yang kompleks — perubahan langkah untuk aliran kerja yang memerlukan AI untuk mengatur banyak sub-tugas dan mengendalikan konteks yang berkembang dalam jangka masa yang lama. Ini penting kepada kes penggunaan "ejen" Sasaran Anthropic.

2. Pengekodan terkini & prestasi penggunaan komputer

Claude 4.5 mencapai keputusan teratas pada SWE-Bench Verified (penanda aras pengekodan industri) dan menunjukkan keuntungan besar dalam keupayaan model untuk benar-benar menggunakan komputer (laksanakan panggilan alat, urus aliran kerja terminal/IDE, bina aplikasi). Akhbar antropopik dan bebas menggambarkannya sebagai model utama untuk tugas pengekodan dan "terbaik di dunia" dalam beberapa langkah kejuruteraan perisian. Ini termasuk penambahbaikan kepada penjanaan kod autonomi, penyahpepijatan dan sesi pelaksanaan kod yang berterusan.

3. Orkestrasi alat yang dipertingkatkan, pengurusan konteks dan ingatan

Untuk menyokong jangka panjang ejen, Claude Sonnet 4.5 memperkenalkan alatan pengurusan konteks yang lebih baik ("pengeditan konteks" automatik untuk mengosongkan output alat yang lapuk) serta alat memori bersandarkan fail yang membolehkan model bertahan dan mendapatkan semula keadaan merentas sesi. Ciri sistem tersebut mengurangkan kelebihan konteks dan membantu ejen kekal "bertugas" merentasi aliran kerja yang panjang.

4. Interaksi sistem / OS yang lebih baik

Dalam ujian dalaman yang diterangkan oleh Anthropic dan dilaporkan oleh kedai, varian Claude Sonnet 4.5 baharu menunjukkan keuntungan yang besar pada penanda aras penggunaan sistem (cth, Anthropic melaporkan lonjakan pada tugas penanda aras OS daripada ~40% kepada ~60% kecekapan), bermakna model itu lebih baik dalam berinteraksi dan mengawal perisian lain. Itu berharga apabila anda mahu model itu mengendalikan alatan (edit fail, jalankan binaan, panggil API) dengan pasti.

5. Alatan & penyepaduan pembangun

Anthropic menghantar alatan yang dihadapi oleh pembangun bersama Claude Sonnet 4.5: Claude Agent SDK, penyepaduan Kod VS asli, aliran kerja terminal/IDE dan penyepaduan produk seperti pelancaran ke GitHub Copilot (pratonton Copilot Pro/Enterprise). Penyepaduan tersebut memendekkan laluan daripada prototaip kepada pengeluaran untuk pasukan kejuruteraan.

6. Penjajaran dan peningkatan keselamatan

Anthropic memanggil Claude Sonnet 4.5 sebagai "model sempadan paling sejajar" yang telah dikeluarkannya; ia digunakan di bawah Tahap Keselamatan AI 3 (ASL-3) perlindungan dan termasuk pengelas dan pertahanan yang dipertingkatkan (cth, terhadap suntikan segera), dengan pengurangan dalam tingkah laku bermasalah yang dilaporkan oleh Anthropic.

Penanda aras prestasi — maksud nombor

Pengumuman Anthropic menerbitkan beberapa nombor tajuk (SWE-bench, OSWorld, terminal dalaman/penanda aras ejen). Angka utama yang diterbitkan daripada Anthropic:

  • SWE-bench Disahkan: 77.2% (Bajet pemikiran 200K, perancah + alatan); 78.2% dalam konteks 1M; 82.0% dilaporkan untuk rejim pemilihan calon "berkomputer tinggi".
  • OSWorld (tugas komputer): 61.4% untuk Sonnet 4.5 lwn 42.2% untuk Sonnet 4 (empat bulan lebih awal).
  • Panjang autonomi (ujian dalaman): >30 jam operasi pengekodan/ejen autonomi berterusan (generasi sebelumnya ~7 jam).
  • Penanda aras sistem pengendalian/alat: Anthropic melaporkan lonjakan kepada ~60% berbanding ~40% untuk pendahulu pada penanda aras interaksi OS — menunjukkan kebolehpercayaan yang lebih baik apabila model mengawal perisian.

Claude Sonnet 4.5 — perkara baharu, prestasinya dan sebab anda boleh memilihnya

Harga (pembangun / API)

Anthropic menyenaraikan Sonnet 4.5 harga pembangun selaras dengan Sonnet 4: 3 setiap juta token input** and **15 setiap juta token keluaran (dengan penjimatan standard tersedia melalui caching dan batching segera). Sonnet 4.5 tersedia melalui API Claude dan aplikasi Claude. Diskaun perusahaan dan volum / peringkat produk (Pro/Max/Team/Enterprise) tersedia melalui saluran komersial Anthropic.

Mengapa memilih Claude Sonnet 4.5? Gunakan kes di mana ia bersinar

Automasi & orkestrasi agen

Jika anda memerlukan model yang menjalankan aliran kerja yang panjang (berbilang jam/hari), mengurus memori merentas langkah, menyelaraskan subagen atau alat kendalian secara autonomi (terminal, UI web, hamparan), fokus Sonnet 4.5 pada koheren yang berterusan dan SDK Agen yang berdedikasi adalah kelebihan utama.

Pengekodan pengeluaran dan produktiviti pembangun

Penanda aras dan laporan rakan kongsi Anthropic (cth, penyepaduan GitHub Copilot) menunjukkan Sonnet 4.5 boleh mengendalikan suntingan pangkalan kod berbilang fail, ujian dan sesi penyahpepijatan yang panjang—berguna apabila pembangun mahukan pembantu yang boleh mengarang, menguji dan mengulangi dengan kurang dorongan manusia.

Konteks terkawal dan perusahaan

Penjajaran yang lebih kukuh dan penggunaan ASL-3 menjadikan Sonnet 4.5 menarik kepada pasukan kewangan, undang-undang, keselamatan dan penjagaan kesihatan yang memerlukan pagar yang lebih tinggi dan amalan keselamatan yang didokumenkan. Anthropic secara eksplisit meletakkan model pada pelanggan perusahaan.

Penggunaan pengeluaran sensitif kos

Oleh kerana Sonnet 4.5 mengekalkan harga peringkat Sonnet (~3/15 bagi setiap juta token), pertukaran kos/prestasi untuk beban kerja agen yang berat kelihatan lebih baik berbanding dengan beberapa model sempadan berharga lebih tinggi—terutama apabila anda mengambil kira caching segera dan pengoptimuman platform lain

Pertimbangkan alternatif jika:

  • Keutamaan anda ialah kependaman yang paling rendah atau inferens per token termurah untuk Soal Jawab asas; model yang lebih ringan atau model suling vendor lain mungkin lebih murah/cepat untuk beban kerja yang mudah. (Struktur harga dan kos berbeza-beza; bandingkan harga keluaran per-token dan strategi caching.)

Bila hendak memilih Claude Sonnet 4.5 — panduan praktikal

Pilih Claude Sonnet 4.5 jika:

  • Anda memerlukan LLM untuk mengendalikan alatan boleh dipercayai dalam urutan yang panjang (orkestra ejen, saluran paip automasi, pembantu autonomi).
  • Beban kerja utama anda ialah kejuruteraan perisian pada skala (pengekodan automatik, sesi nyahpepijat panjang, tugas penyepaduan berterusan) — Sonnet 4.5 dilaporkan cemerlang pada SWE-Bench dan penanda aras kod yang berkaitan.
  • Anda bekerja dalam domain terkawal atau berisiko tinggi (undang-undang, kewangan, keselamatan) dan memerlukan model yang ditala untuk tingkah laku yang lebih boleh diramal, boleh diaudit dan output yang lebih selamat. Anthropic menekankan kebolehpercayaan dan keselamatan perusahaan.

Pertimbangkan alternatif jika:

Keutamaan anda ialah kependaman yang paling rendah atau inferens per token termurah untuk Soal Jawab asas; model yang lebih ringan atau model suling vendor lain mungkin lebih murah/cepat untuk beban kerja yang mudah. (Struktur harga dan kos berbeza-beza; bandingkan harga keluaran per-token dan strategi caching.)

Cara Mengakses Claude Sonnet 4.5

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Pembangun boleh mengakses Claude Sonnet 4.5 and Claude Sonnet 4 melalui CometAPI, versi model terkini sentiasa dikemas kini dengan laman web rasmi. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.

Bersedia untuk Pergi?→ Daftar untuk CometAPI hari ini !

Kesimpulan

Claude Sonnet 4.5 ialah evolusi yang disasarkan: ia bukan hanya "sedikit lebih baik dalam sembang." Anthropic mereka bentuknya untuk menjadi a pembina ejen yang boleh dipercayai — yang boleh menjalankan tugas untuk tempoh yang lama, mengatur alatan dan kod, dan mengendalikan aliran kerja domain yang berat (perundangan, kewangan, keselamatan siber dan kejuruteraan). Jika kes penggunaan pengeluaran anda memerlukan orkestrasi alat yang mantap, kestabilan konteks lanjutan dan prestasi pengekodan peringkat teratas — dan anda mahu mengekalkan harga per-token yang boleh diramal — Claude 4.5 layak mendapat percubaan teknikal rasmi dalam persekitaran anda.

SHARE THIS BLOG

500+ Model dalam Satu API

Sehingga 20% Diskaun