Claude Sonnet 4.5 — apa yang baru, bagaimana kinerjanya, dan mengapa Anda mungkin memilihnya

CometAPI
AnnaDec 2, 2025
Claude Sonnet 4.5 — apa yang baru, bagaimana kinerjanya, dan mengapa Anda mungkin memilihnya

Claude Soneta 4.5 (biasanya disingkat menjadi Claudia 4.5) adalah rilisan Anthropic untuk wilayah perbatasan pada 29 September 2025 yang berfokus pada pekerjaan agen jangka panjang, pengodean, dan "penggunaan komputer" (mengotomatiskan tugas-tugas multi-langkah di berbagai perangkat). Rilisan ini memberikan peningkatan signifikan dalam durasi pengodean otonom, penggunaan perangkat, dan perilaku yang selaras, sekaligus mempertahankan harga per token yang sama dengan rilis Sonnet sebelumnya. Bagi tim yang membangun alur kerja agen, tumpukan produktivitas pengembang, dan aplikasi perusahaan yang teregulasi, Claude 4.5 merupakan pilihan yang menarik dan hemat biaya.


Apa Claude Soneta 4.5 is

Claude Sonnet 4.5 adalah iterasi model Claude utama berikutnya dari Anthropic (bermerek "Sonnet 4.5") yang dirancang untuk menjalankan tugas multi-langkah yang lebih panjang dan kompleks, mengoperasikan perangkat lunak atas nama pengguna, serta melakukan pengodean dan penalaran tingkat produksi untuk pelanggan perusahaan. Rilis ini menekankan kemampuan agen (model yang dapat beroperasi secara otonom di berbagai langkah dan perangkat), penyelarasan/keamanan yang lebih ketat, dan fungsionalitas dalam aplikasi yang lebih kaya seperti eksekusi kode dan pembuatan berkas (spreadsheet, slide, dokumen).

Terobosan dan fitur utama

1. Kemampuan agen yang berkelanjutan dan berjalan lama

Laporan Antropik Claude Sonnet 4.5 dapat mempertahankan operasi multi-langkah yang terfokus untuk lebih dari 30 jam pada tugas-tugas kompleks — sebuah perubahan besar bagi alur kerja yang membutuhkan AI untuk mengorkestrasi banyak subtugas dan menangani konteks yang terus berkembang dalam rentang waktu yang panjang. Hal ini merupakan inti dari kasus penggunaan "agen" yang ditargetkan oleh Antropik.

2. Performa pengkodean dan penggunaan komputer terkini

Claude 4.5 mencapai hasil teratas pada SWE-Bench Verified (benchmark pengkodean industri) dan menunjukkan peningkatan besar dalam kemampuan model untuk benar-benar menggunakan komputer (mengeksekusi panggilan alat, mengelola alur kerja terminal/IDE, membangun aplikasi). Media antropik dan independen menggambarkannya sebagai model terdepan untuk tugas-tugas pengkodean dan "terbaik di dunia" dalam beberapa ukuran rekayasa perangkat lunak. Ini mencakup penyempurnaan pada pembuatan kode otonom, penelusuran kesalahan, dan sesi eksekusi kode berkelanjutan.

3. Peningkatan orkestrasi alat, manajemen konteks, dan memori

Untuk mendukung pengoperasian agen yang panjang, Claude Sonnet 4.5 memperkenalkan perkakas manajemen konteks yang lebih baik ("pengeditan konteks" otomatis untuk menghapus keluaran perkakas yang basi) plus perkakas memori berbasis berkas yang memungkinkan model untuk tetap ada dan mengambil status di seluruh sesi. Fitur-fitur sistem ini mengurangi penumpukan konteks dan membantu agen tetap "berfokus" di sepanjang alur kerja yang panjang.

4. Interaksi sistem / OS yang lebih baik

Dalam uji internal yang dijelaskan oleh Anthropic dan dilaporkan oleh berbagai media, varian Claude Sonnet 4.5 yang baru menunjukkan peningkatan substansial pada tolok ukur penggunaan sistem (misalnya, Anthropic melaporkan peningkatan kemahiran pada tugas pembandingan OS dari ~40% menjadi ~60%), yang berarti model tersebut secara terukur lebih baik dalam berinteraksi dan mengendalikan perangkat lunak lain. Hal ini sangat berharga ketika Anda ingin model tersebut mengoperasikan berbagai alat (mengedit berkas, menjalankan build, memanggil API) dengan andal.

5. Perkakas dan integrasi pengembang

Anthropic mengirimkan perangkat yang ditujukan untuk pengembang bersama Claude Sonnet 4.5: SDK Claude Agent, integrasi VS Code asli, alur kerja terminal/IDE, dan integrasi produk seperti peluncuran ke GitHub Copilot (pratinjau Copilot Pro/Enterprise). Integrasi ini mempersingkat proses dari prototipe hingga produksi bagi tim teknik.

6. Peningkatan keselarasan dan keselamatan

Anthropic menyebut Claude Sonnet 4.5 sebagai “model perbatasan paling selaras” yang telah dirilisnya; model ini digunakan di bawah Tingkat Keamanan AI 3 (ASL-3) perlindungan dan mencakup pengklasifikasi dan pertahanan yang ditingkatkan (misalnya, terhadap injeksi cepat), dengan pengurangan perilaku bermasalah yang dilaporkan oleh Anthropic.

Tolok ukur kinerja — apa arti angka-angka tersebut

Pengumuman Anthropic menerbitkan beberapa angka utama (bench SWE, OSWorld, dan tolok ukur internal terminal/agen). Angka-angka penting yang dipublikasikan oleh Anthropic:

  • SWE-bench Terverifikasi: 77.2% (anggaran pemikiran 200K, perancah + peralatan); 78.2% dalam konteks 1M; 82.0% dilaporkan untuk rezim seleksi kandidat “berkomputerisasi tinggi”.
  • OSWorld (tugas komputer): 61.4% untuk Soneta 4.5 vs 42.2% untuk Soneta 4 (empat bulan sebelumnya).
  • Panjang otonomi (tes internal): >30 jam operasi agen/pengodean otonom berkelanjutan (generasi sebelumnya ~7 jam).
  • Benchmark sistem operasi/alat: Anthropic melaporkan lonjakan hingga ~60% dibandingkan ~40% untuk pendahulunya pada tolok ukur interaksi OS — menunjukkan peningkatan keandalan saat model mengendalikan perangkat lunak.

Claude Sonnet 4.5 — apa yang baru, bagaimana kinerjanya, dan mengapa Anda mungkin memilihnya

Harga (pengembang / API)

Antropik mencantumkan Soneta 4.5 harga pengembang sesuai dengan Soneta 4: 3 per juta token input** dan **15 per juta token keluaran (dengan penghematan standar yang tersedia melalui caching dan batching cepat). Sonnet 4.5 tersedia melalui API Claude dan aplikasi Claude. Diskon Enterprise dan volume/tingkatan produk (Pro/Max/Team/Enterprise) tersedia melalui saluran komersial Anthropic.

Mengapa memilih Claude Sonnet 4.5? Contoh penggunaan yang membuatnya unggul

Otomatisasi & orkestrasi agen

Jika Anda memerlukan model yang menjalankan alur kerja panjang (multi-jam/hari), mengelola memori di seluruh langkah, mengoordinasikan subagen, atau mengoperasikan alat secara mandiri (terminal, UI web, spreadsheet), fokus Sonnet 4.5 pada koherensi berkelanjutan dan SDK Agen khusus merupakan keuntungan utama.

Pengkodean produksi dan produktivitas pengembang

Tolok ukur Anthropic dan laporan mitra (misalnya, integrasi GitHub Copilot) menunjukkan Sonnet 4.5 dapat menangani pengeditan basis kode multi-file, pengujian, dan sesi debugging yang panjang—berguna jika pengembang menginginkan asisten yang dapat membuat, menguji, dan mengulangi dengan lebih sedikit perintah manusia.

Konteks yang diatur dan perusahaan

Penyelarasan yang lebih kuat dan penerapan ASL-3 menjadikan Sonnet 4.5 menarik bagi tim keuangan, hukum, keamanan, dan layanan kesehatan yang membutuhkan batasan yang lebih ketat dan praktik keselamatan yang terdokumentasi. Anthropic secara eksplisit memposisikan model ini untuk pelanggan perusahaan.

Penggunaan produksi yang sensitif terhadap biaya

Karena Sonnet 4.5 mempertahankan harga tingkat Sonnet (~3/15 per juta token), pertukaran biaya/kinerja untuk beban kerja agen yang berat terlihat menguntungkan dibandingkan dengan beberapa model perbatasan dengan harga lebih tinggi—terutama ketika Anda memperhitungkan caching prompt dan pengoptimalan platform lainnya.

Pertimbangkan alternatif lain jika:

  • Prioritas Anda adalah latensi serendah mungkin atau inferensi per token termurah untuk Tanya Jawab dasar; model yang lebih ringan atau model sulingan vendor lain mungkin lebih murah/cepat untuk beban kerja sederhana. (Harga dan struktur biaya bervariasi; bandingkan harga keluaran per token dan strategi caching.)

Kapan memilih Claude Sonnet 4.5 — panduan praktis

Pilih Claude Sonnet 4.5 jika:

  • Anda membutuhkan gelar LLM untuk mengoperasikan alat andal dalam rangkaian panjang (orkestrasi agen, jalur otomatisasi, asisten otonom).
  • Beban kerja utama Anda adalah rekayasa perangkat lunak dalam skala besar (pengkodean otomatis, sesi debug yang panjang, tugas integrasi berkelanjutan) — Sonnet 4.5 dilaporkan unggul pada SWE-Bench dan tolok ukur kode terkait.
  • Anda bekerja di bidang yang diatur atau berisiko tinggi (hukum, keuangan, keamanan) dan membutuhkan model yang dirancang untuk perilaku yang lebih terprediksi, dapat diaudit, dan menghasilkan keluaran yang lebih aman. Antropik menekankan keandalan dan keamanan perusahaan.

Pertimbangkan alternatif lain jika:

Prioritas Anda adalah latensi serendah mungkin atau inferensi per token termurah untuk Tanya Jawab dasar; model yang lebih ringan atau model sulingan vendor lain mungkin lebih murah/cepat untuk beban kerja sederhana. (Harga dan struktur biaya bervariasi; bandingkan harga keluaran per token dan strategi caching.)

Cara Mengakses Claude Sonnet 4.5

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses Claude Soneta 4.5 dan Claude Soneta 4 melalui CometAPI, versi model terbaru selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !

Kesimpulan

Claude Sonnet 4.5 adalah evolusi yang ditargetkan: tidak hanya “sedikit lebih baik dalam obrolan.” Anthropic mendesainnya untuk menjadi pembangun agen yang andal — yang dapat tetap menjalankan tugas untuk jangka waktu lama, mengorkestrasi alat dan kode, serta menangani alur kerja yang sangat kompleks (hukum, keuangan, keamanan siber, dan teknik). Jika kasus penggunaan produksi Anda memerlukan orkestrasi alat yang andal, stabilitas konteks yang diperluas, dan performa pengkodean terbaik — dan Anda ingin mempertahankan harga per token yang dapat diprediksi — Claude 4.5 layak untuk uji coba teknis formal di lingkungan Anda.

SHARE THIS BLOG

500+ Model dalam Satu API

Diskon hingga 20%