Promptfoo è uno strumento CLI open source per testare, valutare e fare red teaming di prompt, modelli e applicazioni LLM. Abbinarlo a CometAPI — un'API unificata compatibile con OpenAI per oltre 500 modelli — consente agli sviluppatori di testare GPT, Claude, Gemini, Grok, DeepSeek e altri con una singola chiave, spesso con costi inferiori del 20-40% rispetto ai provider diretti. Questa guida copre setup, configurazioni, uso avanzato e benefici reali supportati dai dati.
Riepilogo ottimizzato per featured snippet
Promptfoo è uno strumento CLI open source per testare, valutare e fare red teaming di prompt, modelli e applicazioni LLM. Abbinarlo a CometAPI — un'API unificata compatibile con OpenAI per oltre 500 modelli — consente agli sviluppatori di testare GPT, Claude, Gemini, Grok, DeepSeek e altri con una singola chiave, spesso con costi inferiori del 20-40% rispetto ai provider diretti. Questa guida copre setup, configurazioni, uso avanzato e benefici reali supportati dai dati.
Che cos'è Promptfoo?
Promptfoo è una CLI e libreria open source, collaudata sul campo, per lo sviluppo LLM guidato dai test. Invece di prove ed errori manuali, automatizza le valutazioni su prompt, modelli, sistemi RAG e agent. Le funzionalità principali includono:
- Confronti affiancati dei modelli con viste a matrice.
- Asserzioni automatizzate (corrispondenza esatta, regex, LLM come giudice, similarità semantica, ecc.).
- Red teaming per vulnerabilità come prompt injection, jailbreak e rischi per il brand (oltre 50 tipi di plugin).
- Integrazione CI/CD, caching, concorrenza e live reloading.
- Supporto per oltre 60 provider, script personalizzati ed endpoint HTTP.
Dati di adozione (2026): Utilizzato da 156 aziende Fortune 500, alimenta app utilizzate da milioni di utenti ed è scelto da team come Shopify e altri. È con licenza MIT, con un forte slancio della community.
Promptfoo sostituisce il “sul mio computer funziona” con benchmark ripetibili e quantificabili — fondamentali man mano che le app LLM arrivano in produzione.
Perché usare CometAPI con Promptfoo?
CometAPI è un'API unificata, orientata agli sviluppatori, che aggrega oltre 500 modelli d'avanguardia (LLM, immagini, video, embedding) di OpenAI, Anthropic, Google, xAI, DeepSeek e altri. È completamente compatibile con OpenAI, quindi il codice esistente funziona con una semplice modifica di base_url.
Vantaggi chiave della combinazione:
- Vasta varietà di modelli senza gestione di più chiavi: Testa varianti GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, modelli simili a Sora, ecc., con una sola chiave. Niente più account da gestire.
- Risparmi significativi sui costi: CometAPI prezza i modelli almeno il 20-40% sotto le tariffe ufficiali con pagamento a consumo (senza abbonamenti). Report di utenti reali e benchmark mostrano risparmi costanti rispetto ai provider diretti o a concorrenti come OpenRouter.
- Supporto nativo in Promptfoo: Provider dedicato
cometapi:con tipi chat, completion, embedding e image. Integrazione senza attriti per valutazioni e red teaming. - Affidabilità e velocità: Uptime 99,9%, latenza media <400 ms, privacy enterprise (nessun training sui prompt), dashboard di utilizzo e routing con failover.
- Flessibilità per i workflow di valutazione: Test A/B di modelli all’avanguardia a costi contenuti, benchmark dell’accuratezza RAG o red teaming di agent multi-provider senza sforare il budget.
Nei test ad alto volume, passare a CometAPI tramite Promptfoo può ridurre drasticamente i costi di valutazione abilitando al contempo una copertura più ampia. Per esempio, testare affiancati varianti equivalenti Claude/GPT diventa banale e conveniente. I team riportano risparmi del 20%+ fin dal primo giorno, con piena portabilità (zero lock-in).
Contesto aggiornato (2026): Con il rapido rilascio di modelli (es. Claude Opus 4-8, serie GPT-5, avanzamenti di Gemini), piattaforme unificate come CometAPI + strumenti di valutazione come Promptfoo sono essenziali per restare agili senza far esplodere i budget. L’ecosistema di Promptfoo continua ad ampliare il supporto ai provider, inclusa un’integrazione più profonda con CometAPI.
Prerequisiti
- Node.js (v18+ consigliata): Promptfoo è principalmente basato su Node.
- Account e chiave CometAPI: Registrati gratuitamente su CometAPI per crediti di test. Ottieni la chiave da console/token.
- Promptfoo installato:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Conoscenza di base di YAML e del terminale.
- (Opzionale) Python per provider personalizzati o Docker per l’isolamento.
Verifica l’installazione: promptfoo --version.
Come configurare l'integrazione di Promptfoo con CometAPI
1. Imposta la tua API key di CometAPI
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo la rileva automaticamente per il provider cometapi.
Imposta COMETAPI_KEY prima di eseguire le valutazioni:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Scegli il formato del provider CometAPI
In promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Sintassi completa: cometapi:<type>:<model>. Il tipo predefinito è chat. Supporta tutti i parametri OpenAI tramite config.
Usa questi tipi di provider:
| Tipo | Caso d'uso |
|---|---|
| chat | Chat completions, vision e prompt multimodali |
| completion | Modelli di text completion |
| embedding | Valutazioni di embedding testuali |
| image | Valutazioni di generazione di immagini |
Puoi anche usare cometapi:your-model-id per la modalità chat predefinita.
3. Esegui una valutazione rapida da CLI
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Questo genera un visualizzatore web con punteggi, output e diff.
4. Crea un file di configurazione completo per Promptfoo
Il seguente promptfooconfig.yaml valuta lo stesso prompt rispetto a un modello CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Esegui il file di configurazione con Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Esegui promptfoo redteam setup per la scansione automatizzata delle vulnerabilità.
Flusso di lavoro dettagliato passo-passo per valutazioni robuste
- Definisci scenari critici per il business: Crea suite di test che rispecchino l’uso reale (es. supporto clienti, generazione di codice, compiti creativi).
- Iterazione di prompt engineering: Usa variabili (
{{var}}) e prompt basati su file. Tieni traccia delle versioni. - Matrice di confronto modelli: Esegui valutazioni su 5-10 modelli. Analizza costo, latenza, punteggi di qualità.
- Punteggio e asserzioni: Combina regole, modelli (LLM giudice) e valutatori personalizzati JS/Python.
- Integrazione CI/CD: Aggiungi a GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Monitora e itera: Usa il viewer di Promptfoo + la dashboard di CometAPI per insight su spesa/latenza.
Analisi di output di esempio: Aspettati tabelle con tassi di vittoria, ad es. Claude migliore nel reasoning, GPT in velocità, DeepSeek in costo per determinati task.
CometAPI vs. provider diretti vs. alternative in Promptfoo
| Aspetto | CometAPI + Promptfoo | Diretti (OpenAI/Anthropic) | Altri aggregatori (es. OpenRouter) |
|---|---|---|---|
| Modelli disponibili | 500+ unificati | Limitati per vendor | Molti, ma variabili |
| Prezzi | 20-40% sotto le tariffe | Tariffa piena | Ufficiali + commissioni |
| Gestione chiavi | Chiave unica | Multiple | Multiple |
| Latenza/Uptime | <400 ms, 99,9% | Variabile | Variabile |
| Supporto Promptfoo | Sì, pieno supporto | Sì | Parziale |
| Privacy | Nessun training sui prompt | Politiche del provider | Variabile |
| Ideale per | Test ampi e produzione | Lock-in su singolo vendor | Routing semplice |
Insight sui dati: Per 1M token di utilizzo di modelli di fascia media, CometAPI spesso fa risparmiare $5-20+ per milione rispetto ai diretti, con effetto cumulativo nei cicli di valutazione (centinaia/migliaia di chiamate).
Risoluzione dei problemi comuni
- Errori di API key: Verifica la variabile d’ambiente
COMETAPI_KEY(echo $COMETAPI_KEY). Controlla i crediti in console. - Modello non trovato: Elenca i modelli tramite
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Usa i nomi esatti. - Rate limit: CometAPI gestisce intelligentemente gli upstream; imposta
delaynella config o riduci la concorrenza. - Latenza elevata nelle valutazioni: Abilita la cache (
cache: true). Usa modelli più piccoli per i test iniziali. - Asserzioni che falliscono: Affina le rubriche o usa più esempi. I giudizi degli LLM possono essere inconsistenti — fai la media su più run (
repeat: 3). - Problemi immagine/vision: Assicurati che il modello supporti la modalità; fornisci URL validi.
- Parsing YAML: Valida con lo schema di Promptfoo o tool online.
- Permessi/CORS: Per HTTP personalizzati, controlla gli header.
Suggerimento pro: Esegui promptfoo eval --verbose per log dettagliati. Controlla lo status/la dashboard di CometAPI per eventuali disservizi.
Risoluzione dei problemi
Promptfoo non riesce a trovare la API key
Conferma che COMETAPI_KEY sia esportata nella stessa sessione di shell che esegue promptfoo eval.
Il tipo di provider non corrisponde al modello
Usa chat per modelli conversazionali e multimodali, embedding per i modelli di embedding e image per i modelli di generazione di immagini.
L'ID del modello non funziona
Sostituisci your-model-id con un ID modello esatto dalla pagina dei modelli CometAPI.
Suggerimenti avanzati e best practice
- Ottimizzazione dei costi: Parti da modelli economici (es. GPT-5-mini o DeepSeek via CometAPI) per iterare sui prompt, poi valida con modelli premium.
- Provider personalizzati: Estendi con JS/Python se necessario oltre CometAPI.
- Test RAG e agent: Integra variabili di retrieval e tool call.
- Sicurezza: Effettua red teaming approfondito prima della produzione. Promptfoo + l’attenzione alla privacy di CometAPI aiutano.
- Scalabilità: Usa runner cloud o self-host Promptfoo per suite di grandi dimensioni.
- Monitoraggio: Combina con le analitiche di CometAPI per la spesa in token per modello.
Raccomandazioni CometAPI per il tuo stack (da Cometapi.com):
- Usalo per tutti i workload di valutazione per minimizzare i costi.
- Sfrutta il playground per test rapidi.
- Monitora gli avvisi di utilizzo per restare entro budget.
- Esplora i modelli immagine/video per valutazioni multimodali in Promptfoo.
Conclusione: potenzia oggi stesso il tuo sviluppo LLM
Integrare CometAPI con Promptfoo offre una soluzione potente, economica e scalabile per lo sviluppo AI moderno. Ottieni flessibilità senza pari sui modelli, test rigorosi, efficienze sui costi e tranquillità grazie al red teaming automatizzato — mantenendo il pieno controllo.
Inizia in piccolo: configura la chiave, esegui la config di esempio ed espandi la suite di test. Il tempo e il denaro risparmiati cresceranno man mano che le tue applicazioni AI si espandono.
Pronto a implementare? Vai su CometAPI per ottenere la tua chiave gratuita ed esplora la documentazione di Promptfoo. Per consulenze personalizzate o setup avanzati su Cometapi.com, esplora le nostre risorse.
