Promptfoo er et open source CLI-værktøj til test, evaluering og red teaming af LLM-prompter, -modeller og -applikationer. Kombineret med CometAPI—et samlet OpenAI-kompatibelt API til 500+ modeller—kan udviklere teste på tværs af GPT, Claude, Gemini, Grok, DeepSeek m.fl. med én nøgle, ofte til 20-40% lavere omkostninger end direkte udbydere. Denne guide dækker opsætning, konfigurationer, avanceret brug og fordele underbygget af faktiske data.
Resumé optimeret til Featured Snippet
Promptfoo er et open source CLI-værktøj til test, evaluering og red teaming af LLM-prompter, -modeller og -applikationer. Kombineret med CometAPI—et samlet OpenAI-kompatibelt API til 500+ modeller—kan udviklere teste på tværs af GPT, Claude, Gemini, Grok, DeepSeek m.fl. med én nøgle, ofte til 20-40% lavere omkostninger end direkte udbydere. Denne guide dækker opsætning, konfigurationer, avanceret brug og fordele underbygget af faktiske data.
Hvad er Promptfoo?
Promptfoo er et gennemprøvet, open source CLI og bibliotek til testdrevet LLM-udvikling. I stedet for manuel trial-and-error automatiserer det evalueringer på tværs af prompter, modeller, RAG-systemer og agenter. Vigtige funktioner omfatter:
- Side-by-side-sammenligninger af modeller med matrixvisninger.
- Automatiserede assertions (exact match, regex, LLM-as-judge, semantisk lighed osv.).
- Red teaming for sårbarheder som prompt-injektion, jailbreaks og brandrisici (50+ plugintyper).
- CI/CD-integration, caching, samtidighed og live reload.
- Understøttelse af 60+ udbydere, brugerdefinerede scripts og HTTP-endpoints.
Adoptionsstatistik (2026): Bruges af 156 Fortune 500-virksomheder, driver apps med millioner af brugere og er betroet af teams hos Shopify m.fl. Det er MIT-licenseret med stærk fremdrift i communityet.
Promptfoo erstatter "det virker på min maskine" med reproducerbare, kvantificerbare benchmarks—kritisk når LLM-apps går i produktion.
Hvorfor bruge CometAPI med Promptfoo?
CometAPI er et udvikler-først samlet API, der samler 500+ førende modeller (LLMs, billede, video, embeddings) fra OpenAI, Anthropic, Google, xAI, DeepSeek og andre. Det er fuldt OpenAI-kompatibelt, så eksisterende kode virker med en simpel ændring af base_url.
Vigtigste fordele ved kombinationen:
- Stor modelvariation uden nøglehåndtering: Test GPT-5-varianter, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, Sora-lignende modeller osv. med én nøgle. Ingen jongleren med konti.
- Betydelige omkostningsbesparelser: CometAPI prissætter modeller mindst 20-40% under officielle takster med pay-as-you-go (ingen abonnementer). Reelle brugerrapporter og benchmarks viser konsekvente besparelser vs. direkte eller konkurrenter som OpenRouter.
- Indbygget Promptfoo-understøttelse: Dedikeret
cometapi:-provider med chat-, completion-, embedding- og billede-typer. Smertefrit til evalueringer og red teaming. - Pålidelighed og hastighed: 99.9% oppetid, <400ms gennemsnitlig latenstid, enterprise-privatliv (ingen træning på prompts), forbrugsdashboards og failover-routing.
- Fleksibilitet til evalueringsworkflows: A/B-test frontier-modeller billigt, benchmark RAG-nøjagtighed, eller red-team agenter på tværs af udbydere uden at sprænge budgettet.
Ved test i stor skala kan skift til CometAPI via Promptfoo reducere evalueringsomkostningerne markant og samtidig muliggøre bredere dækning. For eksempel bliver test side om side af flere Claude/GPT-ækvivalenter trivialt og overkommeligt. Teams rapporterer 20%+ besparelser fra dag ét med fuld portabilitet (nul lock-in).
Seneste kontekst (2026): Med hurtige modeludgivelser (f.eks. Claude Opus 4-8, GPT-5-serien, Gemini-fremskridt) er samlede platforme som CometAPI + evalueringsværktøjer som Promptfoo afgørende for at forblive agile uden eksploderende budgetter. Promptfoos økosystem udvider fortsat providersupporten, inkl. dybere CometAPI-integration.
Forudsætninger
- Node.js (v18+ anbefales): Promptfoo er primært Node-baseret.
- CometAPI-konto og nøgle: Tilmeld dig gratis hos CometAPI for testkreditter. Hent nøgle fra console/token.
- Promptfoo installeret:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Grundlæggende kendskab til YAML og terminalen.
- (Valgfrit) Python til brugerdefinerede providere eller Docker til isolation.
Verificér installation: promptfoo --version.
Sådan konfigurerer du Promptfoo-integrationen med CometAPI
1. Angiv din CometAPI API-nøgle
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo læser dette automatisk for cometapi-provideren.
Sæt COMETAPI_KEY før du kører evalueringer:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Vælg CometAPI-providerformat
I promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Fuld syntaks: cometapi:<type>:<model>. Type er som standard chat. Understøtter alle OpenAI-parametre via config.
Brug disse providertyper:
| Type | Anvendelse |
|---|---|
| chat | Chat-completions, vision og multimodale prompts |
| completion | Tekstcompletion-modeller |
| embedding | Tekst-embedding-evalueringer |
| image | Billedgenererings-evalueringer |
Du kan også bruge cometapi:your-model-id til standard chat-tilstand.
3. Kør en hurtig CLI-evaluering
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Dette genererer en webfremviser med scorer, output og diffs.
4. Opret en omfattende Promptfoo-konfigurationsfil
Følgende promptfooconfig.yaml evaluerer den samme prompt mod en CometAPI-model:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Kør konfigurationsfilen med Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Kør promptfoo redteam setup for automatiseret sårbarhedsscanning.
Detaljeret trin-for-trin-workflow til robuste evalueringer
- Definer forretningskritiske scenarier: Opret testsuiter, der afspejler reel brug (f.eks. kundesupport, kodegenerering, kreative opgaver).
- Prompt engineering-iteration: Brug variabler (
{{var}}) og filbaserede prompts. Spor versioner. - Model-sammenligningsmatrix: Kør evalueringer på tværs af 5-10 modeller. Analysér pris, latenstid, kvalitetsscorer.
- Scoring og assertions: Kombinér regelbaserede, modelbaserede (LLM-dommer) og brugerdefinerede JS/Python-bedømmere.
- CI/CD-integration: Tilføj til GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Overvåg og iterér: Brug Promptfoos viewer + CometAPI-dashboard til indsigt i forbrug/latenstid.
Eksempel på outputanalyse: Forvent tabeller, der viser win rates, f.eks. Claude bedre til ræsonnering, GPT til hastighed, DeepSeek til pris for visse opgaver.
CometAPI vs. direkte udbydere vs. alternativer i Promptfoo
| Aspekt | CometAPI + Promptfoo | Direkte (OpenAI/Anthropic) | Andre aggregeringsløsninger (f.eks. OpenRouter) |
|---|---|---|---|
| Tilgængelige modeller | 500+ samlet | Begrænset pr. leverandør | Mange, men varierende |
| Priser | 20-40% under officielle | Fuld pris | Officielle + gebyrer |
| Nøglehåndtering | Én nøgle | Flere | Flere |
| Latenstid/oppetid | <400ms, 99.9% | Varierer | Varierer |
| Promptfoo-native | Ja, fuld support | Ja | Delvis |
| Privatliv | Ingen træning på prompts | Udbyderpolitik | Varierer |
| Bedst til | Bred test og produktion | Låst til én udbyder | Simpel routing |
Dataindsigt: For 1M tokens med brug af en mellemklassemodel sparer CometAPI ofte $5-20+ per million vs. direkte, hvilket forstærkes i evalueringsloops (hundreder/tusinder af kald).
Fejlfinding af almindelige problemer
- Fejl med API-nøglen: Verificér miljøvariablen
COMETAPI_KEY(echo $COMETAPI_KEY). Tjek konsollen for credits. - Model ikke fundet: List modeller via
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Brug præcise navne. - Ratelimits: CometAPI håndterer upstream intelligent; sæt
delayi config eller reducer samtidighed. - Høj latenstid i evalueringer: Aktivér caching (
cache: true). Brug mindre modeller til indledende tests. - Assertion-fejl: Justér rubricer eller brug flere eksempler. LLM-dommere kan være inkonsistente—gennemsnit over flere kørsler (
repeat: 3). - Billede/vision-problemer: Sikr at modellen understøtter modalitet; giv gyldige URL'er.
- YAML-parsing: Validér med Promptfoo-schema eller onlineredskaber.
- Tilladelser/CORS: For brugerdefineret HTTP, tjek headers.
Pro tip: Kør promptfoo eval --verbose for detaljerede logs. Tjek CometAPI-status/dashboard for udfald.
Fejlfinding
Promptfoo kan ikke finde API-nøglen
Bekræft, at COMETAPI_KEY er eksporteret i samme shell-session, som kører promptfoo eval.
Providertypen matcher ikke modellen
Brug chat til konversations- og multimodale modeller, embedding til embedding-modeller og image til billedgenereringsmodeller.
Model-ID'et fejler
Erstat your-model-id med et nøjagtigt model-ID fra CometAPI Models-siden.
Avancerede tips og bedste praksis
- Omkostningsoptimering: Start med billige modeller (f.eks. GPT-5-mini eller DeepSeek via CometAPI) til prompt-iteration, og valider derefter med premium.
- Brugerdefinerede providere: Udvid med JS/Python, hvis du har behov ud over CometAPI.
- RAG- og agenttest: Integrér retrieval-variabler og værktøjskald.
- Sikkerhed: Red-team grundigt før produktion. Promptfoo + CometAPIs fokus på privatliv hjælper.
- Skalering: Brug cloud-runners eller self-host Promptfoo til store suiter.
- Overvågning: Kombinér med CometAPI-analyser for tokenforbrug pr. model.
CometAPI-anbefalinger til din stack (fra Cometapi.com):
- Brug til alle eval-arbejdsbelastninger for at minimere omkostninger.
- Udnyt playground til hurtige tests.
- Overvåg forbrugsalarmer for at holde dig inden for budget.
- Udforsk billede-/videomodeller til multimodale evalueringer i Promptfoo.
Konklusion: Løft din LLM-udvikling i dag
Integration af CometAPI med Promptfoo giver en kraftfuld, økonomisk og skalerbar løsning til moderne AI-udvikling. Du får enestående modelfleksibilitet, stringent test, omkostningseffektivitet og ro i sindet via automatiseret red teaming—alt sammen med fuld kontrol.
Start småt: Sæt nøglen op, kør eksempelkonfigurationen, og udvid din testsuite. Den tid og de penge, du sparer, vil akkumulere i takt med, at dine AI-applikationer vokser.
Klar til at implementere? Gå til CometAPI for din gratis nøgle, og dyk ned i Promptfoo-dokumentationen. For skræddersyet rådgivning eller avancerede opsætninger på Cometapi.com, udforsk vores ressourcer.
