Promptfoo to otwartoźródłowe narzędzie CLI do testowania, ewaluacji i red teamingu promptów, modeli oraz aplikacji LLM. Połączenie go z CometAPI — zunifikowanym, kompatybilnym z OpenAI API dla 500+ modeli — pozwala deweloperom testować GPT, Claude, Gemini, Grok, DeepSeek i inne z użyciem jednego klucza, często przy kosztach niższych o 20–40% niż u dostawców bezpośrednich. Ten przewodnik obejmuje konfigurację, pliki konfiguracyjne, zaawansowane użycie oraz korzyści poparte danymi.
Podsumowanie zoptymalizowane pod wyróżniony fragment
Promptfoo to otwartoźródłowe narzędzie CLI do testowania, ewaluacji i red teamingu promptów, modeli oraz aplikacji LLM. Połączenie go z CometAPI — zunifikowanym, kompatybilnym z OpenAI API dla 500+ modeli — pozwala deweloperom testować GPT, Claude, Gemini, Grok, DeepSeek i inne z użyciem jednego klucza, często przy kosztach niższych o 20–40% niż u dostawców bezpośrednich. Ten przewodnik obejmuje konfigurację, pliki konfiguracyjne, zaawansowane użycie oraz korzyści poparte danymi.
Czym jest Promptfoo?
Promptfoo to sprawdzona w boju, otwartoźródłowa biblioteka i narzędzie CLI do rozwoju LLM opartego na testach. Zamiast ręcznego prób i błędów automatyzuje ewaluacje promptów, modeli, systemów RAG i agentów. Kluczowe możliwości obejmują:
- Porównania modeli side-by-side z widokami macierzowymi.
- Automatyczne asercje (dokładne dopasowanie, regex, LLM jako sędzia, podobieństwo semantyczne itd.).
- Red teaming pod kątem podatności takich jak wstrzyknięcia promptów, jailbreaki i ryzyka wizerunkowe (50+ typów wtyczek).
- Integrację z CI/CD, cache, współbieżność i przeładowywanie na żywo.
- Obsługę 60+ dostawców, niestandardowych skryptów i punktów końcowych HTTP.
Statystyki adopcji (2026): Używany przez 156 firm z listy Fortune 500, zasila aplikacje obsługujące miliony użytkowników i jest zaufany przez zespoły m.in. w Shopify. Na licencji MIT, z silnym wsparciem społeczności.
Promptfoo zastępuje „u mnie działa” powtarzalnymi, mierzalnymi benchmarkami — kluczowymi, gdy aplikacje LLM trafiają do produkcji.
Dlaczego używać CometAPI z Promptfoo?
CometAPI to ukierunkowane na deweloperów, zunifikowane API agregujące 500+ najnowocześniejszych modeli (LLM, obraz, wideo, osadzenia) od OpenAI, Anthropic, Google, xAI, DeepSeek i innych. Jest w pełni kompatybilne z OpenAI, więc istniejący kod działa po prostej zmianie base_url.
Kluczowe korzyści połączenia:
- Ogromna różnorodność modeli bez zarządzania kluczami: Testuj warianty GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, modele podobne do Sora i inne z jednego klucza. Bez żonglowania kontami.
- Znaczące oszczędności kosztów: CometAPI wycenia modele co najmniej 20–40% poniżej oficjalnych stawek w modelu pay-as-you-go (bez subskrypcji). Raporty użytkowników i benchmarki wskazują na stałe oszczędności względem dostawców bezpośrednich i alternatyw, takich jak OpenRouter.
- Natywna obsługa w Promptfoo: Dedykowany provider
cometapi:z typami chat, completion, embedding i image. Bezproblemowe dla ewaluacji i red teamingu. - Niezawodność i szybkość: 99,9% dostępności, <400 ms średniego opóźnienia, prywatność klasy enterprise (brak trenowania na promptach), pulpity użycia i trasowanie awaryjne.
- Elastyczność dla przepływów ewaluacyjnych: Tanie testy A/B modeli czołowych, benchmarkowanie dokładności RAG, czy red teaming agentów u wielu dostawców bez rujnowania budżetu.
Przy testach na dużą skalę przejście na CometAPI poprzez Promptfoo może radykalnie obniżyć koszty ewaluacji, jednocześnie rozszerzając zakres. Na przykład testowanie równoległe odpowiedników Claude/GPT staje się proste i opłacalne. Zespoły raportują oszczędności 20%+ od pierwszego dnia, przy pełnej przenośności (brak lock-inu).
Najnowszy kontekst (2026): W obliczu szybkich premier modeli (np. Claude Opus 4–8, seria GPT-5, postępy Gemini) zunifikowane platformy jak CometAPI + narzędzia ewaluacyjne jak Promptfoo są niezbędne, by zachować zwinność bez eksplozji kosztów. Ekosystem Promptfoo stale rozszerza wsparcie dostawców, w tym głębszą integrację z CometAPI.
Wymagania wstępne
- Node.js (zalecane v18+): Promptfoo jest głównie oparty na Node.
- Konto i klucz CometAPI: Zarejestruj się bezpłatnie w CometAPI, by uzyskać środki testowe. Pobierz klucz z console/token.
- Zainstalowany Promptfoo:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Podstawowa znajomość YAML i terminala.
- (Opcjonalnie) Python dla dostawców niestandardowych lub Docker dla izolacji.
Zweryfikuj instalację: promptfoo --version.
Jak skonfigurować integrację Promptfoo z CometAPI
1. Ustaw swój klucz API CometAPI
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo odczyta go automatycznie dla providera cometapi.
Ustaw COMETAPI_KEY przed uruchomieniem ewaluacji:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Wybierz format providera CometAPI
W promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Pełna składnia: cometapi:<type>:<model>. Typ domyślny to chat. Obsługiwane są wszystkie parametry OpenAI poprzez config.
Użyj tych typów providerów:
| Type | Use case |
|---|---|
| chat | Konwersacje, wizyjne i multimodalne prompty |
| completion | Modele do uzupełniania tekstu |
| embedding | Ewaluacje osadzeń tekstowych |
| image | Ewaluacje generowania obrazów |
Możesz także użyć cometapi:your-model-id dla domyślnego trybu chat.
3. Uruchom szybki test CLI
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Wygeneruje to przeglądarkowy widok wyników z ocenami, odpowiedziami i różnicami.
4. Utwórz kompleksowy plik konfiguracyjny Promptfoo
Poniższy promptfooconfig.yaml ewaluje ten sam prompt na modelu CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Uruchom plik konfiguracyjny z Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Uruchom promptfoo redteam setup, aby przeprowadzić automatyczne skanowanie podatności.
Szczegółowy, krok po kroku, workflow dla solidnych ewaluacji
- Zdefiniuj scenariusze krytyczne biznesowo: Twórz zestawy testów odzwierciedlające rzeczywiste użycie (np. wsparcie klienta, generowanie kodu, zadania kreatywne).
- Iteruj inżynierię promptów: Używaj zmiennych (
{{var}}) i promptów z plików. Śledź wersje. - Macierzowe porównanie modeli: Uruchamiaj ewaluacje na 5–10 modelach. Analizuj koszt, opóźnienie i wyniki jakości.
- Ocenianie i asercje: Łącz reguły, oceny oparte na modelach (LLM jako sędzia) oraz niestandardowych graderach JS/Python.
- Integracja z CI/CD: Dodaj do GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Monitoruj i iteruj: Użyj przeglądarkowego widoku Promptfoo + dashboardu CometAPI, aby analizować wydatki/opóźnienia.
Przykładowa analiza wyników: Oczekuj tabel z odsetkami wygranych, np. Claude lepszy w rozumowaniu, GPT w szybkości, DeepSeek w koszcie dla określonych zadań.
CometAPI vs. dostawcy bezpośredni vs. alternatywy w Promptfoo
| Aspect | CometAPI + Promptfoo | Bezpośrednio (OpenAI/Anthropic) | Inni agregatorzy (np. OpenRouter) |
|---|---|---|---|
| Models Available | 500+ zunifikowanych | Ograniczone na dostawcę | Wiele, ale zmienna jakość |
| Pricing | 20–40% poniżej oficjalnych | Stawki oficjalne | Oficjalne + opłaty |
| Key Management | Jeden klucz | Wiele kluczy | Wiele kluczy |
| Latency/Uptime | <400 ms, 99,9% | Różnie | Różnie |
| Promptfoo Native | Tak, pełne wsparcie | Tak | Częściowe |
| Privacy | Brak trenowania na promptach | Zależne od dostawcy | Różnie |
| Best For | Szerokie testy i produkcja | Uzależnienie od jednego dostawcy | Proste routowanie |
Wgląd w dane: Dla 1M tokenów użycia modelu ze średniej półki CometAPI często oszczędza 5–20+ USD na milion w porównaniu z dostawcami bezpośrednimi, co kumuluje się w pętlach ewaluacyjnych (setki/tysiące wywołań).
Rozwiązywanie typowych problemów
- Błędy klucza API: Zweryfikuj zmienną środowiskową
COMETAPI_KEY(echo $COMETAPI_KEY). Sprawdź saldo w konsoli. - Model nie znaleziony: Wypisz modele przez
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Używaj dokładnych nazw. - Limity żądań: CometAPI inteligentnie obsługuje limity upstream; ustaw
delayw konfiguracji lub zmniejsz współbieżność. - Wysokie opóźnienia w ewaluacjach: Włącz cache (
cache: true). Na początek używaj mniejszych modeli. - Błędy asercji: Dostosuj kryteria lub użyj większej liczby przykładów. LLM-judge bywa niekonsekwentny — uśredniaj wiele uruchomień (
repeat: 3). - Problemy z obrazem/wizją: Upewnij się, że model obsługuje dany modal; podawaj poprawne adresy URL.
- Parsowanie YAML: Waliduj ze schematem Promptfoo lub narzędziami online.
- Uprawnienia/CORS: Dla niestandardowego HTTP sprawdź nagłówki.
Wskazówka: Uruchom promptfoo eval --verbose, aby uzyskać szczegółowe logi. Sprawdź status/dashboard CometAPI pod kątem awarii.
Rozwiązywanie problemów
Promptfoo nie widzi klucza API
Potwierdź, że COMETAPI_KEY został wyeksportowany w tej samej sesji powłoki, w której uruchamiasz promptfoo eval.
Typ providera nie pasuje do modelu
Używaj chat dla modeli konwersacyjnych i multimodalnych, embedding dla modeli osadzeń i image dla generowania obrazów.
Identyfikator modelu nie działa
Zastąp your-model-id dokładnym identyfikatorem modelu ze strony CometAPI Models.
Zaawansowane wskazówki i najlepsze praktyki
- Optymalizacja kosztów: Zacznij od tańszych modeli (np. GPT-5-mini lub DeepSeek przez CometAPI) do iteracji promptów, a następnie weryfikuj na modelach premium.
- Dostawcy niestandardowi: Rozszerzaj za pomocą JS/Python, jeśli potrzebujesz czegoś poza CometAPI.
- Testowanie RAG i agentów: Integruj zmienne retrieval i wywołania narzędzi.
- Bezpieczeństwo: Przeprowadź dokładny red teaming przed produkcją. Promptfoo + nacisk CometAPI na prywatność pomaga.
- Skalowanie: Użyj runnerów chmurowych lub hostuj Promptfoo samodzielnie dla dużych zestawów testów.
- Monitorowanie: Łącz z analityką CometAPI, aby śledzić zużycie tokenów na model.
Rekomendacje CometAPI dla Twojego stacku (z Cometapi.com):
- Używaj do wszystkich obciążeń ewaluacyjnych, aby minimalizować koszty.
- Wykorzystuj playground do szybkich testów.
- Monitoruj alerty użycia, aby nie przekraczać budżetu.
- Eksploruj modele obraz/wideo dla multimodalnych ewaluacji w Promptfoo.
Konkluzja: Przyspiesz swój rozwój LLM już dziś
Integracja CometAPI z Promptfoo zapewnia potężne, ekonomiczne i skalowalne rozwiązanie dla nowoczesnego rozwoju AI. Zyskujesz niezrównaną elastyczność modeli, rygorystyczne testy, oszczędności kosztów i spokój dzięki zautomatyzowanemu red teamingowi — przy pełnej kontroli.
Zacznij od małego: ustaw klucz, uruchom przykładową konfigurację i rozbuduj zestaw testów. Zaoszczędzony czas i pieniądze będą się kumulować wraz z rozwojem Twoich aplikacji AI.
Gotowy do wdrożenia? Przejdź do CometAPI, aby uzyskać darmowy klucz, i zagłęb się w dokumentację Promptfoo. W przypadku konsultingu lub zaawansowanych wdrożeń na Cometapi.com, zapoznaj się z naszymi zasobami.
