Bisakah Claude Code melihat gambar—dan bagaimana cara kerjanya pada tahun 2025?

Peralatan kecerdasan buatan berkembang pesat, dan salah satu pertanyaan yang sering diajukan oleh para insinyur, manajer produk, dan pembeli teknis adalah sederhana: dapatkah Claude — dan khususnya alat baris perintah Anthropic “Claude Code” — benar-benar melihat gambar dan menggunakannya secara bermakna dalam alur kerja pengkodean? Dalam tulisan berformat panjang ini, saya akan merangkum rilis resmi terbaru, dokumen produk, dan laporan dunia nyata (termasuk peluncuran Opus 2025 Anthropic pada Agustus 4.1 dan tumpukan visi Claude 3/4 yang ada) untuk memberi Anda jawaban yang jelas dan praktis beserta contoh, peringatan, dan alur kerja yang disarankan.

Apa yang dimaksud dengan “visi” dalam Claude dan model Claude mana yang mendukung gambar?

Model Claude mana yang Mendukung Gambar?

beberapa keluarga model Claude sekarang termasuk penglihatan Kemampuan (input gambar). Dokumentasi publik dan pengumuman model Anthropic secara eksplisit menjelaskan Claude 3.x dan Claude 4 mendukung input gambar dan penalaran visual: model dapat menerima berkas gambar, melakukan OCR, menginterpretasi bagan/diagram, dan menggabungkan informasi visual ke dalam teks dan keluaran kode.

Apa itu “visi” dalam Claude

Ketika Antropik mengatakan sebuah model memiliki "visi", artinya model tersebut menerima gambar sebagai bagian dari permintaan pengguna dan mengembalikan teks (atau kode) yang merujuk atau mengekstrak informasi dari gambar tersebut. Tugas-tugas umum yang membutuhkan bantuan visi meliputi:

Membaca teks di dalam tangkapan layar (OCR) dan mengembalikan teks yang diekstrak atau data terstruktur.
Menafsirkan bagan, tabel, atau diagram dan meringkas tren atau membuat kode untuk mereproduksi bagan.
Memeriksa tiruan UI atau tangkapan layar kesalahan dan menyarankan perubahan kode, penyesuaian CSS, atau langkah-langkah debugging.

Ini bukan sekadar kemampuan hipotetis: kartu model dan dokumen produk Anthropic secara eksplisit mengevaluasi dan menyoroti kasus penggunaan ini untuk keluarga Sonnet/Opus mereka.

Bagaimana gambar direpresentasikan di dalam Claude

Claude mengonversi gambar menjadi token — representasi numerik yang dapat diproses model — lalu menggabungkannya dengan token teks di dalam jendela konteks yang besar. Anthropic memberikan panduan tentang cara menghitung estimasi token gambar (heuristik sederhana membagi luas piksel dengan konstanta untuk memperkirakan biaya token), dan menekankan pengubahan ukuran dan pra-pemrosesan sebagai praktik terbaik umum untuk mengendalikan biaya dan kinerja. Dengan kata lain, gambar menjadi bagian dari input model seperti halnya kata-kata, dengan implikasi biaya dan konteks yang dapat diprediksi.

Bisakah Claude Kode (CLI) menerima dan bernalar tentang gambar?

Ya — Kode Claude dapat digunakan dengan model yang menerima gambar

Kode Claude adalah alat pengkodean agen baris perintah Anthropic yang memberikan alur kerja cepat berbasis model kepada pengembang di terminal. Karena merupakan klien untuk keluarga Claude, jika Anda memilih varian model yang mendukung visi (misalnya, Sonnet/Opus dengan visi diaktifkan), Anda dapat memasukkan gambar ke dalam interaksi — baik dengan mengunggah berkas maupun dengan merujuk gambar dalam panggilan API — dan model akan merespons menggunakan konteks tekstual maupun visual. Ikhtisar resmi Anthropic tentang Claude Code mendokumentasikan alat tersebut dan menunjukkan bahwa alat tersebut berfungsi dengan keluarga model Claude.

Bagaimana gambar disediakan dalam Claude Code

Ada dua cara praktis agar gambar mencapai Claude dalam alur kerja Kode Claude:

Lampiran berkas (berkas lokal atau drag-and-drop dalam pembungkus GUI): Di Konsol web atau UI claude.ai Anda dapat menarik dan melepas; pengguna melaporkan pengalaman pelepasan file yang serupa saat mengintegrasikan dengan perkakas lokal atau integrasi IDE untuk Claude Code.
Gambar yang dikodekan API/CLI: Contoh pesan/API Antropik menunjukkan bagaimana gambar dapat disediakan sebagai base64 atau melalui URL dalam permintaan — beginilah tepatnya bagaimana CLI dapat meneruskan byte gambar ke model secara terprogram. Dengan kata lain, Claude Code dapat mengirimkan konten base64 dari berkas gambar beserta prompt sehingga model menerima gambar tersebut untuk penalaran.

Kiat praktis: saat Anda berencana memasukkan gambar ke dalam Claude Code dari skrip, sebagian besar tim mengonversi gambar ke base64 dan menyertakannya dalam muatan permintaan atau mengarahkan ke URL yang dapat diakses dan membiarkan model mengambilnya.

Bagaimana pembaruan terkini (seperti Opus 4.1) memengaruhi dukungan gambar di Claude Code?

Apakah model Opus terbaru ada di Claude Code?

Pembaruan Anthropic Agustus 2025 (Opus 4.1) secara eksplisit menyatakan rilis ini tersedia untuk pengguna berbayar dan di Kode ClaudeOpus 4.1 meningkatkan tugas agensi dan kinerja pengkodean, sehingga menguntungkan alur kerja yang menggabungkan pembuatan kode dan pemahaman gambar. Jika Anda menjalankan Claude Code dengan Opus 4.1 terpilih, Anda menggunakan model yang unggul dalam pemrograman sekaligus mewarisi kemampuan visual dari keluarga Claude 3/4.

Mengapa hal itu penting

Pemahaman gambar yang dikombinasikan dengan model pengkodean “terbaik di kelasnya” adalah pengubah permainan praktis untuk tugas-tugas seperti:

Menerjemahkan tiruan UI (PNG/SVG) ke dalam komponen React atau cuplikan CSS.
Mengambil tangkapan layar dengan kesalahan browser + jejak tumpukan dan menghasilkan pengujian yang dapat direproduksi atau patch kode.
Menganalisis diagram arsitektur yang kompleks dan membuat manifes penerapan atau kode perancah secara otomatis.

Karena Opus 4.x mengutamakan alur kerja agen yang berjalan lama dan penyuntingan kode yang rumit, memasukkan gambar ke dalam Claude Code kini menghasilkan keluaran multi-langkah yang lebih tangguh daripada versi model sebelumnya yang kurang mumpuni.

Format, ukuran, dan batasan gambar apa yang diharapkan pengembang?

Format yang didukung dan ukuran yang direkomendasikan

Dokumentasi dukungan Anthropic mencantumkan format gambar standar (jpeg, png, gif, webp) dan batasan praktis (ukuran dan resolusi file). Untuk hasil terbaik, mereka menyarankan agar gambar berukuran cukup besar (misalnya, ≥1000×1000 piksel untuk tugas visual yang detail) dan tidak melebihi batas platform (terdapat batas atas seperti 30MB dan dimensi piksel maksimum pada UI konsumen). Jika Anda mengintegrasikan melalui API atau CLI, pola yang tepat adalah melakukan pengodean ke base64 dan memastikan payload berada dalam batasan akun atau API Anda.

Peringatan operasional dan kuota per produk

Kuota unggah dan batasan per percakapan: Laporan komunitas dan utas dukungan menunjukkan adanya batasan praktis untuk unggahan gambar per percakapan atau per akun (batasan ini dapat berubah sewaktu-waktu dan berbeda berdasarkan tingkat langganan). Jika Anda memperkirakan throughput gambar yang tinggi, uji batas akun Anda dan pertimbangkan untuk mengunggah gambar secara batch melalui File API atau penyimpanan eksternal.
Gambar berukuran besar mungkin ditolak atau memerlukan praproses: Beberapa perbandingan pihak ketiga dan laporan pengguna menunjukkan bahwa Claude Code tidak secara otomatis mengubah ukuran/memroses gambar yang sangat besar — mungkin perlu dilakukan penurunan sampel sebelum pengiriman. Hal ini penting dalam otomatisasi dan alur kerja CI.

Bagaimana masukan gambar direpresentasikan dalam permintaan API/CLI (contoh praktis)?

Aliran dasar

Baca berkas gambar dalam skrip atau CLI Anda.
Konversikan ke base64 atau unggah ke penyimpanan yang dapat diakses dan berikan URL.
Sertakan muatan gambar di badan pesan bersama perintah Anda yang menjelaskan tugas (misalnya, “Berikut tangkapan layar aplikasi saya; sarankan perbedaan kode minimal untuk memperbaiki tombol yang tidak sejajar”).
Model mengembalikan teks (penjelasan, perbedaan, kode) dan dapat menyertakan keluaran terstruktur yang dapat Anda uraikan.

Contoh (gunakan url dasar dan kunci cometapi):

sh# encode local image to base64 (POSIX shell)

IMAGE_PATH="./screenshots/login.png"
IMAGE_BASE64=$(base64 -w 0 "$IMAGE_PATH") # on macOS use base64 without -w or use pv to format

API_KEY="YOUR_CometAPI_API_KEY"
API_URL="https://api.cometapi.com/v1/chat/completions"  # placeholder endpoint

cat <<EOF > payload.json
{
  "model": "claude-opus-4-1-20250805",   "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image",
          "source": {
            "type": "base64",
            "media_type": "image/png",
            "data": "$IMAGE_BASE64"
          }
        },
        {
          "type": "text",
          "text": "Here's a screenshot of a misaligned login button. Provide a minimal CSS diff that fixes it."
        }
      ]
    }
  ]
}
EOF

curl -s -X POST "$API_URL" \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  --data-binary @payload.json

Catatan: gunakan pola API Pesan yang ditunjukkan dalam dokumen Antropik; blok gambar source.type mungkin base64 or url.

Seberapa andal pemahaman gambar Claude untuk tugas pengkodean?

Kekuatan

Penalaran visual tingkat tinggi: Claude unggul dalam menafsirkan bagan, mengekstrak teks dari tangkapan layar, dan menjelaskan tata letak visual dengan istilah yang berguna untuk pembuatan kode. Seri Soneta Anthropic secara eksplisit diuji pada tugas-tugas visual seperti OCR dan interpretasi bagan.
Alur kerja agen ujung ke ujung: Dengan Opus 4.x dan Claude Code, Anda dapat menjalankan alur kerja multi-langkah di mana model memeriksa gambar, mengusulkan kode, menjalankan pengujian, dan melakukan iterasi. Hal ini sangat efektif untuk alur kerja UI atau dokumentasi ke kode.

Keterbatasan dan mode kegagalan

Rincian halusinasi. Jika isyarat visual tidak ada, model mungkin menciptakan label atau kode yang masuk akal tetapi salah.
Batasan token dan konteks. Gambar yang sangat besar atau banyak yang beresolusi tinggi dapat menghabiskan anggaran token praktis; mengubah ukuran dan memotong dapat membantu.
Ambiguitas dalam gambar. Kontras rendah, oklusi, atau tampilan parsial menciptakan ambiguitas yang tidak dapat diselesaikan model dengan sempurna.
Pergeseran domain. Model yang dilatih pada citra umum dapat berkinerja buruk pada citra domain spesifik (pemindaian medis, skema teknik khusus) tanpa penyempurnaan atau adaptor domain.

Apa praktik terbaik untuk mengintegrasikan alur kerja Claude Code berbasis gambar?

Dorongan dan konteks

Berikan instruksi yang ringkas dan jelas beserta gambar: misalnya, “Kembalikan patch minimal yang memperbaiki masalah penyelarasan yang terlihat pada koordinat X–Y.”
Berikan konteks tekstual jika memungkinkan: sertakan nama file sumber terkait, lingkungan (browser, OS) dan format keluaran yang diinginkan (diff, pengujian, blok kode).

Perkakas dan pola pipa

Gambar praproses ke ukuran yang wajar dan memotong ke wilayah yang relevan sebelum mengirim—ini mengurangi biaya API dan meningkatkan akurasi.
Gunakan API File bila beberapa gambar dibutuhkan di beberapa langkah; unggah sekali dan rujuk, daripada mengunggah ulang berulang kali.
Verifikasi otomatis: untuk kode yang dihasilkan, jalankan pengujian unit dan pemeriksaan regresi visual secara otomatis di CI.

Ergonomi UX dan pengembang

Padukan Claude Code dengan ekstensi IDE atau alur kerja multiplexer terminal yang memudahkan penempelan gambar, pemberian anotasi pada tangkapan layar, dan penerimaan/penolakan patch. Laporan dari pengguna awal menunjukkan bahwa alur kerja seret dan lepas serta tempel clipboard sudah umum digunakan.

Kesimpulan — Kapan dan bagaimana tim harus menggunakan Claude Code yang mendukung gambar?

Singkatnya: Gunakan saat masukan visual secara material membantu tugas pengkodean. Untuk rekayasa balik UI, penelusuran kesalahan tangkapan layar, ekstraksi data dari bagan, atau konversi desain visual menjadi kode, Claude Code yang dikombinasikan dengan model Claude yang mendukung visual (keluarga Sonnet/Opus, kini termasuk pembaruan Opus 4.1) menyediakan jalur praktis yang siap produksi. Integrasi ini didukung melalui API (gambar base64 atau URL), UI claude.ai, dan CLI Claude Code—sehingga Anda dapat membuat prototipe di terminal dan menskalakannya dengan API File dan pipeline CI.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses Claude Soneta 4, Claude Karya 4 dan Claude Karya 4.1 melalui API Komet, versi model terbaru yang tercantum adalah versi per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

CometAPI juga menyediakan proksi kode claude. Lihat Juga Cara Menginstal dan Menjalankan Kode Claude melalui CometAPI