Promptfoo adalah alat CLI open-source untuk menguji, mengevaluasi, dan melakukan red teaming pada prompt, model, dan aplikasi LLM. Dipasangkan dengan CometAPI—API terpadu yang kompatibel dengan OpenAI untuk 500+ model—pengembang dapat menguji GPT, Claude, Gemini, Grok, DeepSeek, dan lainnya hanya dengan satu kunci, sering kali 20–40% lebih murah daripada penyedia langsung. Panduan ini mencakup penyiapan, konfigurasi, penggunaan lanjutan, dan manfaat berbasis data nyata.
Ringkasan yang Dioptimalkan untuk Cuplikan Unggulan
Promptfoo adalah alat CLI open-source untuk menguji, mengevaluasi, dan melakukan red teaming pada prompt, model, dan aplikasi LLM. Dipasangkan dengan CometAPI—API terpadu yang kompatibel dengan OpenAI untuk 500+ model—pengembang dapat menguji GPT, Claude, Gemini, Grok, DeepSeek, dan lainnya hanya dengan satu kunci, sering kali 20–40% lebih murah daripada penyedia langsung. Panduan ini mencakup penyiapan, konfigurasi, penggunaan lanjutan, dan manfaat berbasis data nyata.
Apa itu Promptfoo?
Promptfoo adalah CLI dan library open-source yang teruji di lapangan untuk pengembangan LLM berbasis pengujian. Alih-alih coba-coba manual, alat ini mengotomatiskan evaluasi lintas prompt, model, RAG, dan agen. Kemampuan utama meliputi:
- Perbandingan model berdampingan dengan tampilan matriks.
- Asersi otomatis (kecocokan tepat, regex, LLM-as-judge, kemiripan semantik, dll.).
- Red teaming untuk kerentanan seperti injeksi prompt, jailbreak, dan risiko merek (50+ tipe plugin).
- Integrasi CI/CD, caching, konkurensi, dan pemuatan ulang langsung.
- Dukungan 60+ penyedia, skrip kustom, dan endpoint HTTP.
Statistik Adopsi (2026): Digunakan oleh 156 perusahaan Fortune 500, mendukung aplikasi yang melayani jutaan pengguna, dan dipercaya oleh tim di Shopify dan lainnya. Berlisensi MIT dengan momentum komunitas yang kuat.
Promptfoo menggantikan "it works on my machine" dengan tolok ukur yang dapat diulang dan terukur—krusial saat aplikasi LLM masuk ke produksi.
Mengapa Menggunakan CometAPI dengan Promptfoo?
CometAPI adalah API terpadu berorientasi pengembang yang menggabungkan 500+ model mutakhir (LLM, gambar, video, embedding) dari OpenAI, Anthropic, Google, xAI, DeepSeek, dan lainnya. Sepenuhnya kompatibel dengan OpenAI, sehingga kode yang ada bekerja hanya dengan perubahan base_url.
Manfaat Utama dari Kombinasi Ini:
- Ragam Model Besar Tanpa Manajemen Kunci: Uji varian GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, model mirip Sora, dll. dari satu kunci. Tanpa repot banyak akun.
- Penghematan Biaya Signifikan: CometAPI menargetkan harga 20–40% di bawah tarif resmi dengan pay-as-you-go (tanpa langganan). Laporan pengguna dan tolok ukur nyata menunjukkan penghematan konsisten vs. langsung atau kompetitor seperti OpenRouter.
- Dukungan Native Promptfoo:
cometapi:provider khusus dengan tipe chat, completion, embedding, dan image. Mulus untuk evaluasi dan red teaming. - Keandalan & Kecepatan: Uptime 99,9%, latensi rata-rata <400ms, privasi kelas enterprise (tanpa pelatihan atas prompt), dasbor penggunaan, dan perutean failover.
- Fleksibilitas untuk Alur Evaluasi: A/B test model frontier dengan murah, benchmark akurasi RAG, atau red-team agen lintas penyedia tanpa membengkakkan biaya.
Dalam pengujian volume tinggi, beralih ke CometAPI melalui Promptfoo dapat memangkas biaya eval secara drastis sembari memperluas cakupan. Misalnya, menguji setara Claude/GPT berdampingan menjadi sepele dan terjangkau. Tim melaporkan penghematan 20%+ sejak hari pertama, dengan portabilitas penuh (tanpa penguncian).
Konteks Terkini (2026): Dengan rilis model yang cepat (mis. Claude Opus 4–8, seri GPT-5, kemajuan Gemini), platform terpadu seperti CometAPI + alat evaluasi seperti Promptfoo penting untuk tetap gesit tanpa meledakkan anggaran. Ekosistem Promptfoo terus memperluas dukungan penyedia, termasuk integrasi CometAPI yang lebih dalam.
Prasyarat
- Node.js (disarankan v18+): Promptfoo terutama berbasis Node.
- Akun & Kunci CometAPI: Daftar gratis di CometAPI untuk kredit uji. Dapatkan kunci dari console/token.
- Promptfoo Terpasang:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Pemahaman dasar tentang YAML dan terminal.
- (Opsional) Python untuk provider kustom, atau Docker untuk isolasi.
Verifikasi instalasi: promptfoo --version.
Cara Mengonfigurasi Integrasi Promptfoo dengan CometAPI
1. Atur Kunci API CometAPI Anda
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo akan membaca ini secara otomatis untuk penyedia cometapi.
Set COMETAPI_KEY sebelum Anda menjalankan evaluasi:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Pilih Format Provider CometAPI
Di promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Sintaks lengkap: cometapi:<type>:<model>. Tipe default adalah chat. Mendukung semua parameter OpenAI melalui config.
Gunakan tipe provider ini:
| Tipe | Kasus penggunaan |
|---|---|
| chat | Chat completions, vision, dan prompt multimodal |
| completion | Model text completion |
| embedding | Evaluasi text embedding |
| image | Evaluasi pembuatan gambar |
Anda juga dapat menggunakan cometapi:your-model-id untuk mode chat default.
3. Jalankan Evaluasi CLI Cepat
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Ini menghasilkan penampil web dengan skor, output, dan diff.
4. Buat File Konfigurasi Promptfoo yang Komprehensif
promptfooconfig.yaml berikut mengevaluasi prompt yang sama terhadap model CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Jalankan file konfigurasi dengan Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Jalankan promptfoo redteam setup untuk pemindaian kerentanan otomatis.
Alur Langkah demi Langkah Terperinci untuk Evaluasi yang Tangguh
- Definisikan Skenario Kritis Bisnis: Buat rangkaian uji yang mencerminkan penggunaan nyata (mis. dukungan pelanggan, pembuatan kode, tugas kreatif).
- Iterasi Prompt Engineering: Gunakan variabel (
{{var}}) dan prompt berbasis file. Lacak versi. - Matriks Perbandingan Model: Jalankan evaluasi lintas 5–10 model. Analisis biaya, latensi, skor kualitas.
- Penilaian & Asersi: Gabungkan rule-based, model-based (LLM judge), dan penilai JS/Python kustom.
- Integrasi CI/CD: Tambahkan ke GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Monitoring & Iterasi: Gunakan penampil Promptfoo + dasbor CometAPI untuk wawasan pengeluaran/latensi.
Contoh Analisis Output: Harapkan tabel yang menunjukkan tingkat kemenangan, mis. Claude lebih baik dalam penalaran, GPT lebih cepat, DeepSeek lebih hemat biaya untuk tugas tertentu.
CometAPI vs. Penyedia Langsung vs. Alternatif di Promptfoo
| Aspek | CometAPI + Promptfoo | Langsung (OpenAI/Anthropic) | Aggregator Lain (mis. OpenRouter) |
|---|---|---|---|
| Model Tersedia | 500+ terpadu | Terbatas per vendor | Banyak, tapi bervariasi |
| Harga | 20–40% di bawah resmi | Tarif penuh | Resmi + biaya |
| Manajemen Kunci | Satu kunci | Banyak | Banyak |
| Latensi/Uptime | <400ms, 99,9% | Bervariasi | Bervariasi |
| Promptfoo Native | Ya, dukungan penuh | Ya | Parsial |
| Privasi | Tidak melatih pada prompt | Kebijakan penyedia | Bervariasi |
| Cocok Untuk | Pengujian luas & produksi | Terkunci satu vendor | Perutean sederhana |
Wawasan Data: Untuk 1M token pada penggunaan model tingkat menengah, CometAPI sering menghemat $5–20+ per juta dibanding langsung, yang terakumulasi dalam loop eval (ratusan/ribuan panggilan).
Pemecahan Masalah Umum
- Kesalahan Kunci API: Verifikasi variabel lingkungan
COMETAPI_KEY(echo $COMETAPI_KEY). Periksa konsol untuk kredit. - Model Tidak Ditemukan: Daftar model via
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Gunakan nama yang persis. - Rate Limits: CometAPI menangani upstream secara cerdas; atur
delaydi config atau kurangi konkurensi. - Latensi Tinggi dalam Evaluasi: Aktifkan caching (
cache: true). Gunakan model lebih kecil untuk uji awal. - Kegagalan Asersi: Sesuaikan rubrik atau gunakan lebih banyak contoh. Penilai LLM dapat tidak konsisten—rata-ratakan beberapa kali menjalankan (
repeat: 3). - Masalah Gambar/Visi: Pastikan model mendukung modalitas; berikan URL yang valid.
- Parsing YAML: Validasi dengan skema Promptfoo atau alat daring.
- Permissions/CORS: Untuk HTTP kustom, periksa header.
Kiat Pro: Jalankan promptfoo eval --verbose untuk log terperinci. Periksa status/dasbor CometAPI untuk gangguan.
Pemecahan Masalah
Promptfoo tidak dapat menemukan kunci API
Pastikan COMETAPI_KEY diekspor pada sesi shell yang sama yang menjalankan promptfoo eval.
Tipe provider tidak cocok dengan model
Gunakan chat untuk model percakapan dan multimodal, embedding untuk model embedding, dan image untuk model pembuatan gambar.
ID model gagal
Ganti your-model-id dengan ID model yang persis dari CometAPI Models page.
Tips Lanjutan & Praktik Terbaik
- Optimasi Biaya: Mulai dengan model murah (mis. GPT-5-mini atau DeepSeek via CometAPI) untuk iterasi prompt, lalu validasi dengan model premium.
- Provider Kustom: Perluas dengan JS/Python jika diperlukan di luar CometAPI.
- Pengujian RAG & Agen: Integrasikan variabel retrieval dan panggilan tool.
- Keamanan: Lakukan red teaming menyeluruh sebelum produksi. Promptfoo + fokus privasi CometAPI membantu.
- Skalabilitas: Gunakan runner cloud atau self-host Promptfoo untuk rangkaian besar.
- Monitoring: Gabungkan dengan analitik CometAPI untuk pengeluaran token per model.
Rekomendasi CometAPI untuk Stack Anda (dari Cometapi.com):
- Gunakan untuk semua beban evaluasi guna meminimalkan biaya.
- Manfaatkan playground untuk uji cepat.
- Pantau peringatan penggunaan agar tetap sesuai anggaran.
- Jelajahi model gambar/video untuk evaluasi multimodal di Promptfoo.
Kesimpulan: Tingkatkan Pengembangan LLM Anda Hari Ini
Mengintegrasikan CometAPI dengan Promptfoo menghadirkan solusi yang kuat, ekonomis, dan dapat diskalakan untuk pengembangan AI modern. Anda mendapatkan fleksibilitas model yang tak tertandingi, pengujian yang ketat, efisiensi biaya, dan ketenangan melalui red teaming otomatis—semuanya sambil mempertahankan kendali penuh.
Mulailah dari kecil: Atur kunci, jalankan konfigurasi contoh, dan perluas rangkaian pengujian Anda. Waktu dan biaya yang dihemat akan berlipat ganda seiring pertumbuhan aplikasi AI Anda.
Siap mengimplementasikan? Kunjungi CometAPI untuk kunci gratis Anda dan pelajari dokumentasi Promptfoo. Untuk konsultasi kustom atau penyiapan lanjutan di Cometapi.com, jelajahi sumber daya kami.
