Promptfoo ialah alat CLI sumber terbuka untuk menguji, menilai, dan melakukan red teaming pada prompt, model, dan aplikasi LLM. Menggabungkannya dengan CometAPI—API bersatu yang serasi dengan OpenAI untuk 500+ model—membolehkan pembangun menguji merentas GPT, Claude, Gemini, Grok, DeepSeek, dan banyak lagi menggunakan satu kunci, selalunya pada kos 20-40% lebih rendah berbanding penyedia langsung. Panduan ini merangkumi penyediaan, konfigurasi, penggunaan lanjutan, dan manfaat sebenar berasaskan data.
Ringkasan Dioptimumkan untuk Petikan Pilihan
Promptfoo ialah alat CLI sumber terbuka untuk menguji, menilai, dan melakukan red teaming pada prompt, model, dan aplikasi LLM. Menggabungkannya dengan CometAPI—API bersatu yang serasi dengan OpenAI untuk 500+ model—membolehkan pembangun menguji merentas GPT, Claude, Gemini, Grok, DeepSeek, dan banyak lagi menggunakan satu kunci, selalunya pada kos 20-40% lebih rendah berbanding penyedia langsung. Panduan ini merangkumi penyediaan, konfigurasi, penggunaan lanjutan, dan manfaat sebenar berasaskan data.
Apakah Promptfoo?
Promptfoo ialah CLI dan perpustakaan sumber terbuka yang teruji di medan nyata untuk pembangunan LLM berasaskan ujian. Alih daripada percubaan dan ralat manual, ia mengautomasikan penilaian merentas prompt, model, sistem RAG, dan agen. Keupayaan utama termasuk:
- Perbandingan model sisi demi sisi dengan paparan matriks.
- Penegasan automatik (padanan tepat, regex, LLM sebagai pengadil, keserupaan semantik, dll.).
- Red teaming untuk kerentanan seperti suntikan prompt, jailbreak, dan risiko jenama (50+ jenis pemalam).
- Integrasi CI/CD, cache, kebersamaan, dan pemuatan semula langsung.
- Sokongan untuk 60+ penyedia, skrip tersuai, dan titik akhir HTTP.
Statistik Penggunaan (2026): Digunakan oleh 156 syarikat Fortune 500, menggerakkan aplikasi yang melayani berjuta-juta pengguna, dan dipercayai oleh pasukan di Shopify dan lain-lain. Ia berlesen MIT dengan momentum komuniti yang kukuh.
Promptfoo menggantikan "ia berfungsi pada mesin saya" dengan penanda aras yang boleh diulang dan boleh diukur—kritikal apabila aplikasi LLM bergerak ke produksi.
Mengapa Menggunakan CometAPI dengan Promptfoo?
CometAPI ialah API bersatu berfokus pembangun yang mengagregatkan 500+ model termaju (LLM, imej, video, pembenaman) daripada OpenAI, Anthropic, Google, xAI, DeepSeek, dan lain-lain. Ia serasi sepenuhnya dengan OpenAI, jadi kod sedia ada berfungsi dengan hanya menukar base_url.
Manfaat Utama Gabungan Ini:
- Kepelbagaian Model Besar Tanpa Pengurusan Kunci: Uji varian GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, model seumpama Sora, dll., dengan satu kunci. Tiada perlu beralih akaun.
- Penjimatan Kos Ketara: CometAPI menetapkan harga model sekurang-kurangnya 20-40% di bawah kadar rasmi dengan bayar ikut penggunaan (tiada langganan). Laporan pengguna sebenar dan penanda aras menunjukkan penjimatan konsisten berbanding langsung atau pesaing seperti OpenRouter.
- Sokongan Asli Promptfoo: Penyedia
cometapi:berdedikasi dengan jenis chat, completion, embedding, dan imej. Lancar untuk penilaian dan red teaming. - Kebolehpercayaan & Kelajuan: Masa beroperasi 99.9%, kelewatan purata <400ms, privasi perusahaan (tiada latihan pada prompt), papan pemuka penggunaan, dan penghalaan failover.
- Fleksibiliti untuk Aliran Kerja Penilaian: Uji A/B model termaju dengan kos rendah, tanda aras ketepatan RAG, atau red team agen merentas penyedia tanpa membebankan bajet.
Dalam pengujian volum tinggi, beralih ke CometAPI melalui Promptfoo boleh mengurangkan kos penilaian secara mendadak sambil membolehkan liputan lebih luas. Contohnya, menguji bersebelahan beberapa setara Claude/GPT menjadi mudah dan mampu milik. Pasukan melaporkan penjimatan 20%+ dari hari pertama, dengan kebolehportan penuh (tiada penguncian vendor).
Konteks Terkini (2026): Dengan keluaran model pantas (cth., Claude Opus 4-8, siri GPT-5, kemajuan Gemini), platform bersatu seperti CometAPI + alat penilaian seperti Promptfoo adalah penting untuk kekal tangkas tanpa meletupkan bajet. Ekosistem Promptfoo terus mengembangkan sokongan penyedia, termasuk integrasi CometAPI yang lebih mendalam.
Prasyarat
- Node.js (v18+ disyorkan): Promptfoo kebanyakannya berasaskan Node.
- Akaun & Kunci CometAPI: Daftar percuma di CometAPI untuk kredit ujian. Dapatkan kunci dari console/token.
- Promptfoo Dipasang:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Keakraban asas dengan YAML dan terminal.
- (Pilihan) Python untuk penyedia tersuai, atau Docker untuk pengasingan.
Sahkan pemasangan: promptfoo --version.
Cara Mengkonfigurasi Integrasi Promptfoo dengan CometAPI
1. Tetapkan Kunci API CometAPI Anda
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo membacanya secara automatik untuk penyedia cometapi.
Tetapkan COMETAPI_KEY sebelum anda menjalankan penilaian:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Pilih Format Penyedia CometAPI
Dalam promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Sintaks penuh: cometapi:<type>:<model>. Jenis lalai ialah chat. Menyokong semua parameter OpenAI melalui config.
Gunakan jenis penyedia berikut:
| Jenis | Kes penggunaan |
|---|---|
| chat | Penyiapan sembang, visi, dan prompt multimodal |
| completion | Model penyiapan teks |
| embedding | Penilaian pembenaman teks |
| image | Penilaian penjanaan imej |
Anda juga boleh menggunakan cometapi:your-model-id untuk mod chat lalai.
3. Jalankan Penilaian CLI Pantas
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Ini menjana paparan web dengan skor, keluaran, dan perbezaan.
4. Cipta Fail Konfigurasi Promptfoo yang Komprehensif
promptfooconfig.yaml berikut menilai prompt yang sama terhadap model CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Jalankan fail konfigurasi dengan Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Jalankan promptfoo redteam setup untuk pengimbasan kerentanan automatik.
Aliran Kerja Langkah demi Langkah Terperinci untuk Penilaian Mantap
- Tentukan Senario Kritikal Perniagaan: Cipta set ujian yang mencerminkan penggunaan sebenar (cth., sokongan pelanggan, penjanaan kod, tugas kreatif).
- Iterasi Kejuruteraan Prompt: Gunakan pembolehubah (
{{var}}) dan prompt berasaskan fail. Jejak versi. - Matriks Perbandingan Model: Jalankan penilaian merentas 5-10 model. Analisis kos, kelewatan, skor kualiti.
- Pemarkahan & Penegasan: Gabungkan penggredan berasaskan peraturan, berasaskan model (LLM sebagai pengadil), dan penggred JS/Python tersuai.
- Integrasi CI/CD: Tambah ke GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Pantau & Ulang: Gunakan paparan Promptfoo + papan pemuka CometAPI untuk wawasan perbelanjaan/kelewatan.
Analisis Keluaran Contoh: Jangka jadual yang menunjukkan kadar kemenangan, contohnya Claude lebih baik dalam penaakulan, GPT dalam kelajuan, DeepSeek dalam kos untuk tugas tertentu.
CometAPI vs. Penyedia Langsung vs. Alternatif dalam Promptfoo
| Aspek | CometAPI + Promptfoo | Langsung (OpenAI/Anthropic) | Pengagregator Lain (cth., OpenRouter) |
|---|---|---|---|
| Model Tersedia | 500+ disatukan | Terhad mengikut vendor | Banyak, tetapi berubah-ubah |
| Harga | 20-40% di bawah rasmi | Kadar penuh | Rasmi + yuran |
| Pengurusan Kunci | Satu kunci | Pelbagai | Pelbagai |
| Kelewatan/Masa Beroperasi | <400ms, 99.9% | Berbeza | Berbeza |
| Promptfoo Asli | Ya, sokongan penuh | Ya | Separa |
| Privasi | Tiada latihan pada prompt | Dasar penyedia | Berbeza |
| Terbaik Untuk | Ujian meluas & produksi | Penguncian vendor tunggal | Penghalaan ringkas |
Wawasan Data: Untuk 1M token penggunaan model peringkat pertengahan, CometAPI sering menjimatkan $5-20+ per juta berbanding langsung, bertambah dalam gelung penilaian (ratusan/ribuan panggilan).
Penyelesaian Masalah Isu Lazim
- Ralat Kunci API: Sahkan pemboleh ubah persekitaran
COMETAPI_KEY(echo $COMETAPI_KEY). Semak konsol untuk kredit. - Model Tidak Ditemui: Senaraikan model melalui
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Gunakan nama tepat. - Had Kadar: CometAPI mengendalikan hulu secara pintar; tetapkan
delaydalam konfigurasi atau kurangkan kebersamaan. - Kelewatan Tinggi dalam Penilaian: Dayakan cache (
cache: true). Gunakan model lebih kecil untuk ujian awal. - Kegagalan Penegasan: Tala rubrik atau gunakan lebih banyak contoh. Pengadil LLM boleh tidak konsisten—puratakan berbilang larian (
repeat: 3). - Isu Imej/Visi: Pastikan model menyokong modaliti; sediakan URL yang sah.
- Penghurai YAML: Sahkan dengan skema Promptfoo atau alat dalam talian.
- Kebenaran/CORS: Untuk HTTP tersuai, semak pengepala.
Tip Pro: Jalankan promptfoo eval --verbose untuk log terperinci. Semak status/papan pemuka CometAPI untuk gangguan.
Penyelesaian Masalah
Promptfoo tidak dapat menemui kunci API
Sahkan bahawa COMETAPI_KEY dieksport dalam sesi shell yang sama yang menjalankan promptfoo eval.
Jenis penyedia tidak sepadan dengan model
Gunakan chat untuk model perbualan dan multimodal, embedding untuk model pembenaman, dan image untuk model penjanaan imej.
ID model gagal
Gantikan your-model-id dengan ID model tepat dari CometAPI Models page.
Petua Lanjutan & Amalan Terbaik
- Pengoptimuman Kos: Mulakan dengan model murah (cth., GPT-5-mini atau DeepSeek melalui CometAPI) untuk iterasi prompt, kemudian sahkan dengan model premium.
- Penyedia Tersuai: Luaskan dengan JS/Python jika perlu melepasi CometAPI.
- Pengujian RAG & Agen: Gabungkan pembolehubah capaian dan panggilan alat.
- Keselamatan: Lakukan red team secara menyeluruh sebelum produksi. Fokus privasi Promptfoo + CometAPI membantu.
- Penskalakan: Gunakan pelari awan atau hos sendiri Promptfoo untuk suite besar.
- Pemantauan: Gabungkan dengan analitik CometAPI untuk perbelanjaan token per model.
Syor CometAPI untuk Stack Anda (daripada Cometapi.com):
- Gunakan untuk semua beban kerja penilaian bagi meminimumkan kos.
- Manfaatkan playground untuk ujian pantas.
- Pantau amaran penggunaan untuk kekal dalam bajet.
- Terokai model imej/video untuk penilaian multimodal dalam Promptfoo.
Kesimpulan: Tingkatkan Pembangunan LLM Anda Hari Ini
Mengintegrasikan CometAPI dengan Promptfoo memberikan penyelesaian yang berkuasa, ekonomik, dan boleh diskala untuk pembangunan AI moden. Anda memperoleh fleksibiliti model yang tiada tandingan, pengujian yang ketat, kecekapan kos, dan ketenangan fikiran melalui red teaming automatik—sambil mengekalkan kawalan penuh.
Mulakan kecil: Tetapkan kunci, jalankan konfigurasi contoh, dan kembangkan set ujian anda. Masa dan wang yang dijimatkan akan berganda apabila aplikasi AI anda berkembang.
Sedia untuk dilaksanakan? Pergi ke CometAPI untuk kunci percuma anda dan selami dokumentasi Promptfoo. Untuk perundingan tersuai atau persediaan lanjutan di Cometapi.com, terokai sumber kami.
