Promptfoo er et kommandolinjeverktøy (CLI) med åpen kildekode for testing, evaluering og red teaming av LLM-prompter, modeller og applikasjoner. Sammen med CometAPI—et samlet OpenAI-kompatibelt API for 500+ modeller—lar det utviklere teste på tvers av GPT, Claude, Gemini, Grok, DeepSeek m.fl. med én nøkkel, ofte til 20–40 % lavere kostnad enn direkte leverandører. Denne veiledningen dekker oppsett, konfigurasjoner, avansert bruk og reelle databaserte fordeler.
Fremhevet snippet-optimalisert sammendrag
Promptfoo er et kommandolinjeverktøy (CLI) med åpen kildekode for testing, evaluering og red teaming av LLM-prompter, modeller og applikasjoner. Sammen med CometAPI—et samlet OpenAI-kompatibelt API for 500+ modeller—lar det utviklere teste på tvers av GPT, Claude, Gemini, Grok, DeepSeek m.fl. med én nøkkel, ofte til 20–40 % lavere kostnad enn direkte leverandører. Denne veiledningen dekker oppsett, konfigurasjoner, avansert bruk og reelle databaserte fordeler.
Hva er Promptfoo?
Promptfoo er et velprøvd, åpen kildekode-CLI og -bibliotek for testdrevet LLM-utvikling. I stedet for manuell prøving og feiling automatiserer det evalueringer på tvers av prompter, modeller, RAG-systemer og agenter. Viktige egenskaper inkluderer:
- Sammenligninger av modeller side om side med matrisevisninger.
- Automatiserte asserts (eksakt samsvar, regex, LLM som dommer, semantisk likhet, osv.).
- Red teaming for sårbarheter som prompt-injeksjon, jailbreaks og merkerisiko (50+ plugin-typer).
- CI/CD-integrasjon, caching, samtidighet og live-reloading.
- Støtte for 60+ leverandører, egendefinerte skript og HTTP-endepunkter.
Adopsjonsstatistikk (2026): Brukes av 156 Fortune 500-selskaper, driver apper som betjener millioner av brukere, og stoles på av team hos Shopify m.fl. Det er MIT-lisensiert med sterk community-momentum.
Promptfoo erstatter «det virker på min maskin» med repeterbare, målbare benchmarker—kritisk når LLM-apper går i produksjon.
Hvorfor bruke CometAPI med Promptfoo?
CometAPI er et utviklerfokusert, samlet API som samler 500+ toppmoderne modeller (LLM-er, bilde, video, embeddings) fra OpenAI, Anthropic, Google, xAI, DeepSeek og andre. Det er fullt OpenAI-kompatibelt, så eksisterende kode fungerer med en enkel base_url-endring.
Nøkkelfordeler ved kombinasjonen:
- Stor modellbredde uten nøkkelhåndtering: Test GPT-5-varianter, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, Sora-lignende modeller m.m. med én nøkkel. Ingen kontorot.
- Betydelige kostnadsbesparelser: CometAPI priser modeller minst 20–40 % under offisielle satser med pay-as-you-go (ingen abonnement). Rapporter fra faktiske brukere og benchmarker viser jevne besparelser vs. direkte eller konkurrenter som OpenRouter.
- Native Promptfoo-støtte: Dedikert
cometapi:-provider med chat-, completion-, embedding- og image-typer. Sømløst for evalueringer og red teaming. - Pålitelighet og hastighet: 99.9% oppetid, <400ms gjennomsnittlig latens, personvern på bedriftsnivå (ingen trening på prompter), bruksdashbord og failover-ruting.
- Fleksibilitet for evalueringsarbeidsflyter: A/B-test avanserte modeller rimelig, benchmark RAG-nøyaktighet, eller red-team agenter på tvers av leverandører uten å sprenge budsjettet.
Ved testing i høyt volum kan bytte til CometAPI via Promptfoo redusere evalueringskostnader dramatisk samtidig som du får bredere dekning. For eksempel blir parallell testing av flere Claude-/GPT-ekvivalenter trivielt og rimelig. Team rapporterer 20 %+ besparelser fra dag én, med full portabilitet (null lock-in).
Siste kontekst (2026): Med raske modellslipp (f.eks. Claude Opus 4–8, GPT-5-serien, Gemini-framsteg) er samlede plattformer som CometAPI + evalueringsverktøy som Promptfoo essensielle for å være smidig uten eksploderende budsjetter. Promptfoo-økosystemet fortsetter å utvide leverandørstøtten, inkludert dypere CometAPI-integrasjon.
Forutsetninger
- Node.js (v18+ anbefalt): Promptfoo er primært Node-basert.
- CometAPI-konto og -nøkkel: Registrer deg gratis på CometAPI for testkreditter. Hent nøkkel fra console/token.
- Promptfoo installert:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Grunnleggende kjennskap til YAML og terminal.
- (Valgfritt) Python for egendefinerte providere, eller Docker for isolasjon.
Verifiser installasjon: promptfoo --version.
Slik konfigurerer du Promptfoo-integrasjonen med CometAPI
1. Angi CometAPI API-nøkkelen din
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo leser dette automatisk for cometapi-provideren.
Sett COMETAPI_KEY før du kjører evalueringer:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Velg CometAPI-providerformat
I promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Full syntaks: cometapi:<type>:<model>. Type er chat som standard. Støtter alle OpenAI-parametere via config.
Bruk disse providertypene:
| Type | Bruksområde |
|---|---|
| chat | Chat-svar, visjon og multimodale prompter |
| completion | Modeller for tekstfullføring |
| embedding | Evaluering av tekst-embeddings |
| image | Evaluering av bildegenerering |
Du kan også bruke cometapi:your-model-id for standard chat-modus.
3. Kjør en rask CLI-evaluering
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Dette genererer en nettvisning med poeng, utdata og diffs.
4. Lag en omfattende Promptfoo-konfigurasjonsfil
Følgende promptfooconfig.yaml evaluerer samme prompt mot en CometAPI-modell:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Kjør konfigurasjonsfilen med Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Kjør promptfoo redteam setup for automatisert sårbarhetsskanning.
Detaljert trinnvis arbeidsflyt for robuste evalueringer
- Definer forretningskritiske scenarier: Lag testsuiter som speiler reell bruk (f.eks. kundestøtte, kodegenerering, kreative oppgaver).
- Iterasjon av prompt engineering: Bruk variabler (
{{var}}) og filbaserte prompter. Spor versjoner. - Modellsammenligningsmatrise: Kjør evalueringer på tvers av 5–10 modeller. Analyser kostnad, latens, kvalitetsscorer.
- Scoring og asserts: Kombiner regelbaserte, modellbaserte (LLM som dommer) og egendefinerte JS/Python-bedømmere.
- CI/CD-integrasjon: Legg til i GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Overvåk og iterer: Bruk Promptfoo-visningen + CometAPI-dashbordet for innsikt i forbruk/latens.
Eksempelanalyse av utdata: Forvent tabeller som viser vinnerrater, f.eks. Claude bedre på resonnering, GPT på hastighet, DeepSeek på kostnad for visse oppgaver.
CometAPI vs. direkte leverandører vs. alternativer i Promptfoo
| Aspekt | CometAPI + Promptfoo | Direkte (OpenAI/Anthropic) | Andre aggregatorer (f.eks. OpenRouter) |
|---|---|---|---|
| Tilgjengelige modeller | 500+ samlet | Begrenset per leverandør | Mange, men varierende |
| Prising | 20-40% under offisielle | Full pris | Offisiell + gebyrer |
| Nøkkelhåndtering | Én nøkkel | Flere | Flere |
| Latens/oppetid | <400ms, 99.9% | Varierer | Varierer |
| Promptfoo native | Ja, full støtte | Ja | Delvis |
| Personvern | Ingen trening på prompter | Leverandørpolicy | Varierer |
| Best for | Bred testing og produksjon | Leverandørlåsing hos én leverandør | Enkel ruting |
Datainnsikt: For 1M tokens med bruk av mellomklassemodeller sparer CometAPI ofte $5–20+ per million vs. direkte, noe som forsterkes i evalueringssløyfer (hundrevis/tusenvis av kall).
Feilsøking av vanlige problemer
- Feil med API-nøkkel: Verifiser miljøvariabelen
COMETAPI_KEY(echo $COMETAPI_KEY). Sjekk konsollen for kreditter. - Modell ikke funnet: List modeller via
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Bruk eksakte navn. - Rate limits: CometAPI håndterer oppstrøms intelligent; sett
delayi config eller reduser samtidighet. - Høy latens i evalueringer: Aktiver caching (
cache: true). Bruk mindre modeller for første tester. - Assert-feil: Juster rubrikker eller bruk flere eksempler. LLM-dommere kan være inkonsekvente—gjennomsnittsberegn flere kjøringer (
repeat: 3). - Problemer med bilde/visjon: Sørg for at modellen støtter modalitet; oppgi gyldige URL-er.
- YAML-parsing: Valider med Promptfoo-skjema eller nettverktøy.
- Tillatelser/CORS: For egendefinert HTTP, sjekk headere.
Profftips: Kjør promptfoo eval --verbose for detaljerte logger. Sjekk CometAPI-status/dashbord for avbrudd.
Feilsøking
Promptfoo finner ikke API-nøkkelen
Bekreft at COMETAPI_KEY er eksportert i samme skalløkt som kjører promptfoo eval.
Providertypen samsvarer ikke med modellen
Bruk chat for konversasjonelle og multimodale modeller, embedding for embedding-modeller, og image for bildegenereringsmodeller.
Model-ID feiler
Bytt ut your-model-id med en eksakt model-ID fra CometAPI Models-siden.
Avanserte tips og beste praksiser
- Kostnadsoptimalisering: Start med rimelige modeller (f.eks. GPT-5-mini eller DeepSeek via CometAPI) for prompt-iterasjon, valider deretter med premium.
- Egendefinerte providere: Utvid med JS/Python om nødvendig utover CometAPI.
- RAG- og agenttesting: Integrer hentevariabler og verktøykall.
- Sikkerhet: Gjennomfør grundig red teaming før produksjon. Promptfoo + CometAPIs personvernsfokus hjelper.
- Skalering: Bruk skyrunnere eller selvhost Promptfoo for store suiter.
- Overvåking: Kombiner med CometAPI-analyser for tokenforbruk per modell.
CometAPI-anbefalinger for din stack (fra Cometapi.com):
- Bruk for alle eval-arbeidsmengder for å minimere kostnader.
- Utnytt playground for raske tester.
- Overvåk bruksvarsler for å holde deg innenfor budsjett.
- Utforsk bilde-/videomodeller for multimodale evalueringer i Promptfoo.
Konklusjon: Løft LLM-utviklingen din i dag
Å integrere CometAPI med Promptfoo gir en kraftig, økonomisk og skalerbar løsning for moderne AI-utvikling. Du får uovertruffen modulfleksibilitet, rigorøs testing, kostnadseffektivitet og trygghet gjennom automatisert red teaming—samtidig som du beholder full kontroll.
Start i det små: Sett opp nøkkelen, kjør eksempelkonfigen og utvid testsuiten. Tiden og pengene som spares vil akkumulere etter hvert som AI-applikasjonene dine vokser.
Klar til å implementere? Gå til CometAPI for din gratis nøkkel og dykk inn i Promptfoo-dokumentasjonen. For skreddersydd rådgivning eller avanserte oppsett på Cometapi.com, utforsk ressursene våre.
