Promptfoo ist ein Open-Source-CLI-Tool zum Testen, Bewerten und Red-Teaming von LLM-Prompts, -Modellen und -Anwendungen. In Kombination mit CometAPI—einer einheitlichen, OpenAI-kompatiblen API für 500+ Modelle—können Entwickler mit einem einzigen Schlüssel über GPT, Claude, Gemini, Grok, DeepSeek und mehr hinweg testen, häufig 20-40% günstiger als bei Direktanbietern. Dieser Leitfaden behandelt Einrichtung, Konfigurationen, fortgeschrittene Nutzung und durch reale Daten belegte Vorteile.
Featured-Snippet-optimierte Zusammenfassung
Promptfoo ist ein Open-Source-CLI-Tool zum Testen, Bewerten und Red-Teaming von LLM-Prompts, -Modellen und -Anwendungen. In Kombination mit CometAPI—einer einheitlichen, OpenAI-kompatiblen API für 500+ Modelle—können Entwickler mit einem einzigen Schlüssel über GPT, Claude, Gemini, Grok, DeepSeek und mehr hinweg testen, häufig 20-40% günstiger als bei Direktanbietern. Dieser Leitfaden behandelt Einrichtung, Konfigurationen, fortgeschrittene Nutzung und durch reale Daten belegte Vorteile.
Was ist Promptfoo?
Promptfoo ist ein praxiserprobtes Open-Source-CLI-Tool und eine Bibliothek für testgetriebene LLM-Entwicklung. Anstatt manueller Trial-and-Error-Versuche automatisiert es Auswertungen über Prompts, Modelle, RAG-Systeme und Agenten hinweg. Zentrale Funktionen umfassen:
- Modellvergleiche nebeneinander mit Matrixansichten.
- Automatisierte Assertions (Exact Match, Regex, LLM-as-Judge, semantische Ähnlichkeit usw.).
- Red-Teaming für Schwachstellen wie Prompt Injection, Jailbreaks und Markenrisiken (50+ Plugin-Typen).
- CI/CD-Integration, Caching, Parallelisierung und Live-Reloading.
- Unterstützung für 60+ Provider, benutzerdefinierte Skripte und HTTP-Endpunkte.
Nutzungsstatistik (2026): Wird von 156 Fortune-500-Unternehmen verwendet, treibt Apps für Millionen von Nutzerinnen und Nutzern an und wird von Teams bei Shopify und mehr vertraut. Es steht unter der MIT-Lizenz und verfügt über starke Community-Dynamik.
Promptfoo ersetzt „it works on my machine“ durch reproduzierbare, quantifizierbare Benchmarks—entscheidend, wenn LLM-Anwendungen in die Produktion gehen.
Warum CometAPI mit Promptfoo nutzen?
CometAPI ist eine Entwickler-zentrierte, einheitliche API, die 500+ Spitzenmodelle (LLMs, Bild, Video, Embeddings) von OpenAI, Anthropic, Google, xAI, DeepSeek und anderen aggregiert. Sie ist vollständig OpenAI-kompatibel, sodass bestehender Code mit einer einfachen Änderung von base_url funktioniert.
Wichtigste Vorteile der Kombination:
- Enorme Modellvielfalt ohne Schlüsselverwaltung: Testen Sie GPT-5-Varianten, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, Sora-ähnliche Modelle usw. mit einem einzigen Schlüssel. Kein Jonglieren von Konten.
- Signifikante Kosteneinsparungen: CometAPI bepreist Modelle mindestens 20-40% unter den offiziellen Tarifen mit Pay-as-you-go (keine Abos). Berichte und Benchmarks aus der Praxis zeigen konsistente Einsparungen gegenüber Direktanbietern oder Wettbewerbern wie OpenRouter.
- Native Promptfoo-Unterstützung: Eigener
cometapi:-Provider mit Chat-, Completion-, Embedding- und Image-Typen. Nahtlos für Auswertungen und Red-Teaming. - Zuverlässigkeit & Geschwindigkeit: 99.9% Uptime, <400ms durchschnittliche Latenz, Enterprise-Datenschutz (kein Prompt-Training), Nutzungs-Dashboards und Failover-Routing.
- Flexibilität für Evaluations-Workflows: A/B-Tests von Frontier-Modellen zu niedrigen Kosten, Benchmarking von RAG-Genauigkeit oder Red-Teaming von Agenten über Provider hinweg—ohne Budgetsprengung.
Bei Testläufen mit hohem Volumen kann der Wechsel zu CometAPI via Promptfoo die Evaluationskosten drastisch senken und gleichzeitig die Abdeckung erweitern. Beispielsweise wird das parallele Testen mehrerer Claude-/GPT-Äquivalente trivial und erschwinglich. Teams berichten von 20%+ Einsparungen ab dem ersten Tag bei vollständiger Portabilität (kein Lock-in).
Aktueller Kontext (2026): Angesichts schneller Modell-Releases (z. B. Claude Opus 4-8, GPT-5-Serie, Gemini-Fortschritte) sind einheitliche Plattformen wie CometAPI plus Evaluations-Tools wie Promptfoo essenziell, um agil zu bleiben, ohne Budgets zu sprengen. Das Promptfoo-Ökosystem erweitert kontinuierlich die Provider-Unterstützung, einschließlich tieferer CometAPI-Integration.
Voraussetzungen
- Node.js (v18+ empfohlen): Promptfoo ist hauptsächlich Node-basiert.
- CometAPI-Konto & -Schlüssel: Kostenlos bei CometAPI registrieren für Testguthaben. Schlüssel von console/token abrufen.
- Promptfoo installiert:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Grundkenntnisse in YAML und Terminal.
- (Optional) Python für benutzerdefinierte Provider oder Docker zur Isolierung.
Installation prüfen: promptfoo --version.
So konfigurieren Sie die Promptfoo-Integration mit CometAPI
1. Legen Sie Ihren CometAPI-API-Schlüssel fest
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo liest diesen für den Provider cometapi automatisch aus.
Setzen Sie COMETAPI_KEY, bevor Sie Auswertungen ausführen:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Wählen Sie das CometAPI-Providerformat
In promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Vollständige Syntax: cometapi:<type>:<model>. Der Typ ist standardmäßig chat. Unterstützt alle OpenAI-Parameter über config.
Verwenden Sie diese Provider-Typen:
| Typ | Anwendungsfall |
|---|---|
| chat | Chat Completions, Vision und multimodale Prompts |
| completion | Text-Completion-Modelle |
| embedding | Text-Embedding-Auswertungen |
| image | Bildgenerierungs-Auswertungen |
Sie können auch cometapi:your-model-id für den Standard-Chatmodus verwenden.
3. Führen Sie eine schnelle CLI-Auswertung aus
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Dies erzeugt einen Web-Viewer mit Bewertungen, Ausgaben und Diffs.
4. Erstellen Sie eine umfassende Promptfoo-Konfigurationsdatei
Die folgende promptfooconfig.yaml bewertet denselben Prompt gegen ein CometAPI-Modell:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Führen Sie die Konfigurationsdatei mit Promptfoo aus:
npx promptfoo@latest eval -c promptfooconfig.yaml
Führen Sie promptfoo redteam setup für automatisiertes Schwachstellenscanning aus.
Detaillierter Schritt-für-Schritt-Workflow für robuste Auswertungen
- Geschäftskritische Szenarien definieren: Erstellen Sie Testsuites, die reale Nutzung abbilden (z. B. Kundensupport, Codegenerierung, kreative Aufgaben).
- Iteration im Prompt Engineering: Nutzen Sie Variablen (
{{var}}) und dateibasierte Prompts. Versionen nachverfolgen. - Modellvergleichsmatrix: Führen Sie Auswertungen über 5–10 Modelle hinweg durch. Analysieren Sie Kosten, Latenz, Qualitätswerte.
- Scoring & Assertions: Kombinieren Sie regelbasierte, modellbasierte (LLM-Judge) und benutzerdefinierte JS-/Python-Bewerter.
- CI/CD-Integration: Zu GitHub Actions hinzufügen:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Überwachen & Iterieren: Nutzen Sie den Viewer von Promptfoo plus das CometAPI-Dashboard für Einblicke in Ausgaben/Latenz.
Beispielausgabenauswertung: Erwarten Sie Tabellen mit Gewinnraten, z. B. Claude besser beim Reasoning, GPT bei Geschwindigkeit, DeepSeek bei Kosten für bestimmte Aufgaben.
CometAPI vs. Direktanbieter vs. Alternativen in Promptfoo
| Aspekt | CometAPI + Promptfoo | Direkt (OpenAI/Anthropic) | Andere Aggregatoren (z. B. OpenRouter) |
|---|---|---|---|
| Verfügbare Modelle | 500+ vereinheitlicht | Pro Anbieter begrenzt | Viele, aber variabel |
| Preisgestaltung | 20-40% unter offiziell | Vollpreis | Offiziell + Gebühren |
| Schlüsselverwaltung | Ein einziger Schlüssel | Mehrere | Mehrere |
| Latenz/Verfügbarkeit | <400ms, 99.9% | Variiert | Variiert |
| Promptfoo nativ | Ja, volle Unterstützung | Ja | Teilweise |
| Datenschutz | Kein Training auf Prompts | Anbieterrichtlinie | Variiert |
| Am besten geeignet für | Breite Tests & Produktion | Lock-in bei einem einzelnen Anbieter | Einfaches Routing |
Daten-Insight: Für 1M Tokens bei Nutzung von Mid-Tier-Modellen spart CometAPI oft $5-20+ pro Million gegenüber Direktanbietern—mit Zinseszinseffekt in Evaluationsschleifen (Hunderte/Tausende Aufrufe).
Fehlerbehebung bei häufigen Problemen
- API-Key-Fehler: Überprüfen Sie die Umgebungsvariable
COMETAPI_KEY(echo $COMETAPI_KEY). Prüfen Sie die Konsole auf Guthaben. - Model Not Found: Modelle auflisten via
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Exakte Namen verwenden. - Rate Limits: CometAPI steuert Upstreams intelligent; setzen Sie
delayin der Konfiguration oder reduzieren Sie die Parallelität. - Hohe Latenz bei Auswertungen: Caching aktivieren (
cache: true). Für erste Tests kleinere Modelle verwenden. - Assertion-Fehlschläge: Bewertungsrubriken anpassen oder mehr Beispiele nutzen. LLM-Judges können inkonsistent sein—mehrere Läufe mitteln (
repeat: 3). - Probleme mit Bild/Vision: Sicherstellen, dass das Modell die Modalität unterstützt; gültige URLs bereitstellen.
- YAML-Parsing: Mit Promptfoo-Schema oder Online-Tools validieren.
- Permissions/CORS: Bei benutzerdefinierten HTTP-Aufrufen Header prüfen.
Profi-Tipp: promptfoo eval --verbose ausführen für detaillierte Logs. Prüfen Sie CometAPI-Status/Dashboard auf Ausfälle.
Fehlerbehebung
Promptfoo kann den API-Schlüssel nicht finden
Stellen Sie sicher, dass COMETAPI_KEY in derselben Shell-Sitzung exportiert ist, in der promptfoo eval ausgeführt wird.
Der Provider-Typ passt nicht zum Modell
Verwenden Sie chat für konversationelle und multimodale Modelle, embedding für Embedding-Modelle und image für Bildgenerierungsmodelle.
Die Modell-ID schlägt fehl
Ersetzen Sie your-model-id durch eine exakte Modell-ID von der CometAPI Models-Seite.
Fortgeschrittene Tipps & Best Practices
- Kostenoptimierung: Beginnen Sie mit günstigen Modellen (z. B. GPT-5-mini oder DeepSeek über CometAPI) für Prompt-Iteration und validieren Sie anschließend mit Premium-Modellen.
- Custom Providers: Bei Bedarf über CometAPI hinaus mit JS/Python erweitern.
- RAG- & Agent-Tests: Retrieval-Variablen und Toolaufrufe integrieren.
- Sicherheit: Vor der Produktion gründliches Red-Teaming. Promptfoo + der Datenschutzfokus von CometAPI helfen.
- Skalierung: Cloud-Runner nutzen oder Promptfoo selbst hosten für große Test-Suites.
- Monitoring: Mit CometAPI-Analysen kombinieren für Token-Ausgaben pro Modell.
CometAPI-Empfehlungen für Ihren Stack (von Cometapi.com):
- Für alle Evaluations-Workloads nutzen, um Kosten zu minimieren.
- Playground für schnelle Tests einsetzen.
- Nutzungswarnungen überwachen, um im Budget zu bleiben.
- Bild-/Video-Modelle für multimodale Auswertungen in Promptfoo erkunden.
Fazit: Bringen Sie Ihre LLM-Entwicklung heute auf das nächste Level
Die Integration von CometAPI mit Promptfoo liefert eine leistungsstarke, wirtschaftliche und skalierbare Lösung für moderne KI-Entwicklung. Sie gewinnen beispiellose Modellflexibilität, rigoroses Testen, Kosteneffizienz und Sicherheit durch automatisiertes Red-Teaming—bei voller Kontrolle.
Starten Sie klein: Schlüssel einrichten, Beispielkonfiguration ausführen und Ihre Testsuite erweitern. Zeit- und Kosteneinsparungen summieren sich, während Ihre KI-Anwendungen wachsen.
Bereit zur Umsetzung? Gehen Sie zu CometAPI für Ihren kostenlosen Schlüssel und tauchen Sie in die Promptfoo-Dokumentation ein. Für individuelle Beratung oder fortgeschrittene Setups auf Cometapi.com nutzen Sie unsere Ressourcen.
