Claude Opus 4.7 vs Claude Opus 4.6: Panduan Peningkatan dan Migrasi

CometAPI
AnnaApr 20, 2026
Claude Opus 4.7 vs Claude Opus 4.6: Panduan Peningkatan dan Migrasi

Claude Opus 4.7, dirilis 16 April 2026, merupakan peningkatan signifikan dibanding Opus 4.6 dalam pengodean, alur kerja agen, visi, dan kepatuhan instruksi. Model ini mencetak +6.8pp pada SWE-bench Verified (87.6% vs 80.8%), +10.9pp pada SWE-bench Pro (64.3% vs 53.4%), +12pp pada CursorBench (70% vs 58%), dan menghadirkan visi beresolusi 3.3× lebih tinggi dengan loop verifikasi-diri yang mengurangi halusinasi pada tugas panjang. Harga resmi tetap sama ($5/$25 per million tokens), namun kualitas 4.7 pada upaya rendah menyamai 4.6 pada upaya menengah, sehingga menurunkan biaya nyata.

Di CometAPI, Anda mendapatkan kedua model (Claude Opus 4.7 dan Opus 4.6) seharga $4 input / $20 output dengan endpoint kompatibel OpenAI dan tanpa penguncian vendor. Tingkatkan jika Anda menjalankan agen pengodean produksi, analisis dokumen kompleks, atau alur kerja multi-sesi—4.7 adalah standar baru untuk pekerjaan frontier.

Claude Opus 4.7 vs Opus 4.6: Perbandingan singkat

Intinya: Opus 4.7 terasa seperti “Opus 4.6 yang tidak dibatasi dan dipoles.” Ini menghilangkan keterbatasan yang kadang muncul di 4.6 (misalnya penghentian tugas lebih awal, ketajaman visual lebih rendah) sekaligus menambah efisiensi melalui penalaran adaptif. Pengguna melaporkan model ini lebih “beropini” dan kolaboratif—seperti bekerja dengan insinyur senior yang memeriksa ulang pekerjaannya sendiri.

Mengapa Claude Opus 4.7 Penting pada 2026

Pada 16 April 2026, Anthropic diam-diam merilis model paling mumpuninya yang tersedia secara umum: Claude Opus 4.7. Hanya beberapa minggu setelah Mythos Preview terbatas (kekuatan berfokus siber), Opus 4.7 merebut kembali posisi puncak untuk beban kerja produksi sambil mempertahankan harga yang sama persis dengan Opus 4.6.

Pengembang dan perusahaan tidak lagi perlu “mengasuh” tugas pengodean tersulit. Pengguna melaporkan dapat menyerahkan “jenis tugas yang sebelumnya butuh pengawasan ketat” ke 4.7 dengan percaya diri. Model kini memverifikasi outputnya sendiri, mengikuti instruksi secara literal, dan mempertahankan run agen multi-jam dengan lebih sedikit kesalahan alat serta pemulihan error yang lebih baik.

Model ini unggul dalam:

  • Tugas panjang yang ketat dengan verifikasi-diri bawaan (Plan → Execute → Verify → Report).
  • Kepatuhan instruksi yang literal—tidak lagi menafsirkan longgar kata seperti “consider” atau “you might.”
  • Peningkatan visi yang substansial (hingga 2,576 px sisi panjang ≈ 3.75 MP, lebih dari 3× resolusi sebelumnya).
  • Selera dan kreativitas lebih tinggi dalam output profesional seperti antarmuka, slide, dan dokumen.
  • Memori sistem file yang ditingkatkan untuk otonomi multi-sesi yang sesungguhnya.

Fitur baru mencakup level upaya xhigh (di antara high dan max), anggaran tugas pada Platform API, dan integrasi alat Claude Design. ID model kini claude-opus-4-7. Harga tidak berubah secara resmi, tetapi perbaikan efisiensi token sering kali menurunkan biaya efektif per tugas.

Peningkatan Kapabilitas Inti – Apa yang Sebenarnya Berubah

Rekayasa Perangkat Lunak Lanjutan & Pengodean Agen

Opus 4.7 unggul pada masalah tersulit. Pada tolok ukur pengodean internal 93 tugas, ia meraih kenaikan penyelesaian 13% dibanding 4.6, menyelesaikan empat tugas yang tidak dapat dipecahkan oleh 4.6 maupun Sonnet 4.6. Rakuten-SWE-Bench menunjukkan 3× lebih banyak tugas setara produksi yang terselesaikan tanpa intervensi manusia. CursorBench (alur kerja IDE nyata) melonjak +12 poin menjadi 70%.

Tolok ukur pengodean internal 93 tugas menunjukkan kenaikan 13%, menyelesaikan empat tugas yang tidak bisa dipecahkan 4.6 maupun Sonnet 4.6. Pada alur kerja agen, Box melaporkan 2× lebih sedikit panggilan LLM (7.1 vs 16.3) dan penggunaan AI-unit 30% lebih rendah untuk output yang sama—berdampak langsung pada biaya dan latensi.

Mengapa penting bagi pengembang: Anda kini bisa mempercayakan Opus 4.7 dengan “pekerjaan pengodean tersulit” yang sebelumnya butuh pengawasan. Ia memperhatikan instruksi dengan presisi, memverifikasi outputnya sendiri, dan menggunakan kembali memori sistem file lintas sesi—sempurna untuk refaktor otonom selama berhari-hari.

Keberhasilan nyata meliputi:

  • Mesin text-to-speech Rust otonom dari satu prompt.
  • Memperbaiki kondisi balapan dan bug konkurensi yang membuat model sebelumnya kewalahan pada Terminal-Bench 2.0 (+4.0 pp).
  • Peningkatan 10–15% pada keberhasilan tugas Factory Droids dengan ⅓ lebih sedikit kesalahan alat.
  • Peningkatan dua digit pada kualitas kode, kualitas pengujian, dan akurasi tinjauan (CodeRabbit, Qodo).

Upaya rendah 4.7 kini menyamai kualitas upaya sedang 4.6, sehingga Anda menyelesaikan lebih banyak dengan pengeluaran token yang sama (atau lebih rendah).

Lompatan Visi & Multimodal

Ini adalah peningkatan tunggal terbesar. Resolusi gambar maksimum melonjak dari 1.15 MP (1568 px) ke 3.75 MP (2576 px pada sisi panjang) — peningkatan piksel 3.3× dengan pemetaan koordinat 1:1. Tidak perlu lagi perhitungan faktor skala untuk screenshot atau diagram.

Hasil:

  • Tolok ukur ketajaman visual: 98.5% vs 54.5% pada 4.6.
  • CharXiv-R (tanpa alat): +13.4 pp; dengan alat: +13.6 pp.
  • Membuka jalan bagi agen penggunaan komputer yang presisi piksel, analisis screenshot padat, parsing struktur kimia, dan review UI/UX.

Alur Kerja Agen, Keandalan & Kepatuhan Instruksi

Opus 4.7 memperkenalkan verifikasi-diri native—model merencanakan, mengeksekusi, memverifikasi, lalu melaporkan. Ini secara drastis mengurangi jawaban yakin-tapi-salah pada tugas berjangka panjang. Peningkatan memori sistem file memungkinkan otonomi multi-hari yang sesungguhnya.

Kepatuhan instruksi lebih ketat dan literal. Prompt yang disetel untuk gaya 4.6 yang lebih longgar mungkin perlu diaudit—frasa seperti “consider” kini diperlakukan sebagai persyaratan keras. Ini adalah fitur untuk pekerjaan yang menuntut presisi namun memerlukan migrasi prompt.

Catatan tentang regresi: Pengambilan jarum dalam konteks panjang (MRCR) turun signifikan (misalnya, 91.9% → 59.2% pada 256K). Anthropic menyebut mereka menghentikan pengujian sintetis seperti ini demi metrik GraphWalks terapan, di mana pemahaman kode nyata tetap kuat.

Level Upaya Baru xhigh + Anggaran Tugas

Opus 4.7 menambahkan xhigh di antara high dan max untuk kontrol yang lebih granular. Claude Code kini default ke xhigh di seluruh rencana. Fitur task_budget (beta publik) memungkinkan model melacak total token di seluruh loop agen dan menyelesaikan dengan anggun.

Kepatuhan Instruksi, Verifikasi-Diri & Memori

Opus 4.7 menafsirkan prompt lebih literal — bagus untuk presisi, tetapi prompt lama yang samar mungkin perlu dipertajam. Ia kini menyusun langkah verifikasi sendiri (Plan → Execute → Verify → Report) dan menggunakan kembali memori sistem file di pekerjaan multi-sesi jauh lebih baik daripada 4.6. Untuk tim yang membangun agen persisten, ini adalah salah satu peningkatan paling berguna karena mengurangi penjelasan ulang, pemuatan ulang, dan perencanaan ulang.

Pembaruan Tokenizer

Tokenizer baru meningkatkan kualitas tetapi dapat mengonsumsi 1.0–1.35× lebih banyak token (hingga +35%). Endpoint perhitungan token kini mengembalikan angka berbeda. Dampak bersih: kualitas per tugas yang lebih tinggi sering kali menutupi peningkatan tersebut, terutama pada level upaya yang lebih rendah.

Keamanan, Alignment & Keamanan Siber

Profil keamanan mirip 4.6 (misalignment rendah), dengan peningkatan moderat pada kejujuran dan resistensi terhadap injeksi prompt.

Claude Opus 4.7 vs Claude Opus 4.6: Panduan Peningkatan dan Migrasi

Opus 4.7 membawa pengamanan Project Glasswing: pemblokiran real-time untuk penggunaan siber yang dilarang/berisiko tinggi. Skor CyberGym sengaja datar. Perilaku yang tidak selaras sedikit membaik dibanding 4.6. Kartu sistem lengkap tersedia di situs Anthropic.

Harga, Efisiensi Token & Penghematan CometAPI

Harga resmi identik, tetapi biaya efektif per tugas turun karena 4.7 upaya rendah ≈ kualitas 4.6 upaya sedang, dan tingkat keberhasilan lebih tinggi berarti lebih sedikit percobaan ulang. Tokenizer baru meningkatkan token input 0–35% untuk teks identik, tetapi penggunaan bersih sering kali menguntungkan pada kualitas yang disamakan.

Keunggulan CometAPI: Akses kedua model seharga $4 input / $20 output per million tokens—20% lebih murah daripada resmi—ditambah peralihan mulus di antara 500+ model (GPT-5.4, Gemini 3.1, dll.) melalui satu endpoint kompatibel OpenAI atau Anthropic Messages. Tidak ada downtime jika penyedia mengubah harga. Tanpa penguncian vendor. Pengujian di playground dan penagihan terpadu membuat migrasi tanpa hambatan.

Penelusuran Mendalam Tolok Ukur Berdampingan

Claude Opus 4.7 vs Claude Opus 4.6: Panduan Peningkatan dan Migrasi

Berikut 14 tolok ukur head-to-head lengkap dari data peluncuran Anthropic (diverifikasi mitra):

Tolok Ukur Pengodean

  • SWE-bench Verified: 80.8% → 87.6% (+6.8 pp)
  • SWE-bench Pro: 53.4% → 64.3% (+10.9 pp)
  • Terminal-Bench 2.0: 65.4% → 69.4% (+4.0 pp)

Agen & Penggunaan Alat

  • MCP-Atlas: 62.7% → 77.3% (+14.6 pp) — lonjakan tunggal terbesar
  • OSWorld-Verified: 72.7% → 78.0% (+5.3 pp)
  • Finance Agent: 60.7% → 64.4% (+3.7 pp)

Penalaran & Pengetahuan

  • GPQA Diamond: 91.3% → 94.2% (+2.9 pp)
  • HLE (tanpa alat): 40.0% → 46.9% (+6.9 pp)
  • MMMLU: 91.1% → 91.5% (+0.4 pp)

Visi

  • CharXiv-R (tanpa alat): 68.7% → 82.1% (+13.4 pp)
  • CharXiv-R (alat): 77.4% → 91.0% (+13.6 pp)

Regresi (transparan)

  • BrowseComp: 84.0% → 79.3% (–4.7 pp) — sensitif terhadap harness
  • CyberGym: 73.8% → 73.1% (–0.7 pp) — disengaja demi keamanan

Tolok Ukur Agen Riset Internal: 0.715 keseluruhan (skor teratas seri), dengan modul Finance naik dari 0.767 ke 0.813.

Kinerja Dunia Nyata & Kasus Penggunaan

Pengujian alur kerja agen Box menunjukkan Opus 4.7 menyelesaikan tugas dengan 7.1 panggilan LLM vs 16.3 untuk 4.6 (2.3× lebih sedikit) dan penggunaan AI Unit 30% lebih rendah. Latensi turun dari median 242 s menjadi 183 s.

Mitra perusahaan (Harvey, Databricks, Hebbia, Ramp, Genspark) melaporkan:

  • 21% lebih sedikit kesalahan dalam penalaran dokumen.
  • Koordinasi multi-agen yang lebih baik selama berjam-jam.
  • Integrasi yang lebih rapat antara dek slide, spreadsheet, dan kode.

Siapa yang Harus Segera Upgrade?

  • Tim rekayasa perangkat lunak yang menggunakan Cursor/Claude Code.
  • Pembuat agen AI yang membutuhkan otonomi andal berjangka panjang.
  • Alur kerja berat visi (screenshot, diagram, peninjauan UI).
  • Otomasi pekerjaan keuangan, legal, dan pengetahuan.

Perubahan API, Panduan Migrasi & Contoh Kode

Perubahan yang Merusak (Messages API)

  • Extended thinking budgets dihapus → gunakan thinking: {"type": "adaptive"}.
  • Parameter sampling (temperature, dll.) tidak lagi diterima → gunakan prompting.
  • Konten thinking dihilangkan secara default.
  • Tokenizer baru memerlukan ruang pada max_tokens.

Panduan Migrasi + Contoh Kode (CometAPI)

Langkah 1: Perbarui nama model ke claude-opus-4-7 (atau alias CometAPI).

Langkah 2: Audit prompt untuk interpretasi literal.

Langkah 3: Uji level upaya (mulai dengan xhigh untuk pengodean).

Langkah 4: Gunakan anggaran tugas untuk membatasi pengeluaran.

Berikut contoh Python siap jalan menggunakan endpoint kompatibel Anthropic CometAPI (bekerja juga dengan SDK resmi):

(Python)

import anthropic
import os

client = anthropic.Anthropic(
    api_key=os.getenv("COMETAPI_KEY"),  # Your CometAPI sk- key
    base_url="https://www.cometapi.com/console/"  # CometAPI base
)

message = client.messages.create(
    model="claude-opus-4-7",  # or "claude-opus-4-6" for comparison
    max_tokens=4096,
    temperature=0.7,
    effort="xhigh",  # New level for deep reasoning
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Refactor this legacy Python module into clean, type-hinted, testable code. Follow instructions literally: use Pydantic v2, add comprehensive tests, no external deps beyond stdlib + pydantic. Verify your changes before responding."},
                {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": "iVBORw0KGgoAAAANSUhEUg..."} }  # High-res screenshot support
            ]
        }
    ]
)

print(message.content[0].text)

Prompt demo verifikasi-diri (bekerja jauh lebih baik di 4.7):

(teks):

Plan → Execute → Verify → Report:
1. Analyze the attached codebase.
2. Propose refactors.
3. Implement changes in a new file.
4. Run mental unit tests and edge cases.
5. Only output final verified code if all checks pass.

Jalankan uji A/B pada beban kerja Anda sendiri—kebanyakan tim melihat 20–40% lebih sedikit iterasi.

Catatan:

Pertama, tokenizer baru menghasilkan lebih banyak token dari teks yang sama. Opus 4.7 memperkenalkan tokenizer baru, meningkatkan cara model memproses teks. Trade-off-nya adalah input yang sama akan memetakan ke lebih banyak token; jumlah tepatnya tergantung jenis konten, namun kira-kira antara 1.0 dan 1.35 kali.

Kedua, level upaya yang lebih tinggi memungkinkan pertimbangan yang lebih komprehensif, terutama dalam skenario agen multi-giliran.

Ini mengarah pada keandalan yang lebih baik, tetapi juga lebih banyak token output.

Solusi resmi menyediakan tiga pendekatan:

  • Menyesuaikan level upaya menggunakan parameter efficiency
  • Membatasi anggaran menggunakan task budgets
  • Meminta model untuk “lebih ringkas” dalam prompt.

Keterbatasan yang Diketahui dan Catatan Migrasi

  • Extended thinking budgets dihapus → gunakan thinking: {"type": "adaptive"}. thinking: {type: "enabled", budget_tokens: N} tidak lagi didukung; gunakan adaptive thinking.
  • Parameter sampling (temperature, dll.) tidak lagi diterima → gunakan prompting. temperature, top_p, dan top_k harus dihapus dari permintaan saat bermigrasi ke Opus 4.7.
  • Model digambarkan lebih literal dan lebih langsung daripada Opus 4.6, yang bermanfaat untuk presisi namun mungkin memerlukan prompt yang lebih tajam.
  • Tokenizer baru memerlukan ruang pada max_tokens. Anthropic merekomendasikan memeriksa ulang ruang max_tokens karena Opus 4.7 dapat menghasilkan jumlah token lebih tinggi untuk teks yang sama.
  • Konten thinking dihilangkan secara default.

Putusan Akhir & Rekomendasi

Claude Opus 4.7 adalah pemenang jelas untuk beban kerja pengodean, agen, atau visi serius di 2026. Keuntungannya bukan inkremental — tetapi mentransformasi produksi. Jika Anda menggunakan Opus 4.6, bermigrasilah minggu ini. Kombinasi kualitas lebih tinggi, lebih sedikit panggilan, dan harga identik (atau lebih rendah via CometAPI) menjadikannya pilihan jelas.

Langkah tindakan:

  • Uji 4.7 di playground CometAPI dengan beban kerja nyata Anda.
  • Perbarui satu layanan terlebih dahulu (Cursor atau kerangka agen Anda).
  • Pantau penggunaan token selama minggu pertama.
  • Skalakan dengan percaya diri, mengetahui Anda memiliki akses terpadu dan lebih murah ke 500+ model.

Siap memangkas biaya pengembangan AI hingga 20%?

Mulai gratis dalam beberapa menit. Kredit uji coba gratis disertakan. Tidak perlu kartu kredit.

Baca Selengkapnya