Promptfoo é uma ferramenta de CLI de código aberto para testar, avaliar e fazer red teaming de prompts, modelos e aplicações de LLM. Ao combiná-la com a CometAPI — uma API unificada compatível com OpenAI para mais de 500 modelos — os desenvolvedores podem testar GPT, Claude, Gemini, Grok, DeepSeek e mais com uma única chave, geralmente com 20-40% de custo inferior aos provedores diretos. Este guia cobre configuração, arquivos de configuração, uso avançado e benefícios comprovados por dados reais.
Resumo otimizado para snippet em destaque
Promptfoo é uma ferramenta de CLI de código aberto para testar, avaliar e fazer red teaming de prompts, modelos e aplicações de LLM. Ao combiná-la com a CometAPI — uma API unificada compatível com OpenAI para mais de 500 modelos — os desenvolvedores podem testar GPT, Claude, Gemini, Grok, DeepSeek e mais com uma única chave, geralmente com 20-40% de custo inferior aos provedores diretos. Este guia cobre configuração, arquivos de configuração, uso avançado e benefícios comprovados por dados reais.
O que é o Promptfoo?
Promptfoo é um CLI e biblioteca de código aberto, amplamente testado, para o desenvolvimento de LLM orientado a testes. Em vez de tentativa e erro manual, ele automatiza avaliações em prompts, modelos, sistemas RAG e agentes. Capacidades principais incluem:
- Comparações de modelos lado a lado com visualizações em matriz.
- Asserções automatizadas (correspondência exata, regex, LLM como avaliador, similaridade semântica, etc.).
- Red teaming para vulnerabilidades como injeção de prompt, jailbreaks e riscos à marca (50+ tipos de plugins).
- Integração CI/CD, cache, concorrência e recarregamento ao vivo.
- Suporte para mais de 60 provedores, scripts personalizados e endpoints HTTP.
Estatísticas de adoção (2026): Usado por 156 empresas da Fortune 500, impulsiona aplicativos que atendem milhões de usuários e é confiado por equipes na Shopify e outros. Tem licença MIT com forte momentum da comunidade.
Promptfoo substitui o “funciona na minha máquina” por benchmarks repetíveis e quantificáveis — crítico à medida que apps de LLM vão para produção.
Por que usar a CometAPI com o Promptfoo?
CometAPI é uma API unificada voltada ao desenvolvedor que agrega 500+ modelos de ponta (LLMs, imagem, vídeo, embeddings) da OpenAI, Anthropic, Google, xAI, DeepSeek e outros. É totalmente compatível com OpenAI, então o código existente funciona com uma simples mudança no base_url.
Principais benefícios da combinação:
- Grande variedade de modelos sem gestão de chaves: Teste variantes do GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, modelos estilo Sora, etc., com uma única chave. Sem precisar gerenciar várias contas.
- Economia significativa de custos: A CometAPI precifica modelos pelo menos 20-40% abaixo das taxas oficiais com pagamento conforme o uso (sem assinaturas). Relatos de usuários e benchmarks mostram economias consistentes vs. acesso direto ou concorrentes como o OpenRouter.
- Suporte nativo no Promptfoo: Provedor dedicado
cometapi:com tipos de chat, completion, embedding e image. Integração perfeita para avaliações e red teaming. - Confiabilidade e velocidade: 99,9% de uptime, latência média <400ms, privacidade corporativa (sem treinamento em prompts), painéis de uso e roteamento com failover.
- Flexibilidade para fluxos de avaliação: Faça testes A/B com modelos de fronteira a baixo custo, meça a precisão de RAG ou faça red teaming de agentes entre provedores sem estourar o orçamento.
Em testes de alto volume, mudar para a CometAPI via Promptfoo pode reduzir drasticamente os custos de avaliação enquanto amplia a cobertura. Por exemplo, testar lado a lado múltiplos equivalentes de Claude/GPT torna-se trivial e acessível. Equipes relatam economias de 20%+ desde o primeiro dia, com portabilidade total (zero lock-in).
Contexto mais recente (2026): Com lançamentos rápidos de modelos (por exemplo, Claude Opus 4-8, série GPT-5, avanços do Gemini), plataformas unificadas como CometAPI + ferramentas de avaliação como o Promptfoo são essenciais para manter agilidade sem estourar o orçamento. O ecossistema do Promptfoo continua expandindo o suporte a provedores, incluindo integração mais profunda com a CometAPI.
Pré-requisitos
- Node.js (v18+ recomendado): Promptfoo é primariamente baseado em Node.
- Conta e chave da CometAPI: Cadastre-se gratuitamente na CometAPI para créditos de teste. Obtenha a chave em console/token.
- Promptfoo instalado:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Familiaridade básica com YAML e terminal.
- (Opcional) Python para provedores personalizados ou Docker para isolamento.
Verifique a instalação: promptfoo --version.
Como configurar a integração do Promptfoo com a CometAPI
1. Defina sua chave de API da CometAPI
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
O Promptfoo lê isso automaticamente para o provedor cometapi.
Defina COMETAPI_KEY antes de executar as avaliações:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Escolha o formato do provedor CometAPI
Em promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Sintaxe completa: cometapi:<type>:<model>. O tipo padrão é chat. Suporta todos os parâmetros OpenAI via config.
Use estes tipos de provedor:
| Type | Use case |
|---|---|
| chat | Compleções de chat, visão e prompts multimodais |
| completion | Modelos de conclusão de texto |
| embedding | Avaliações de embeddings de texto |
| image | Avaliações de geração de imagens |
Você também pode usar cometapi:your-model-id para o modo padrão de chat.
3. Execute uma avaliação rápida via CLI
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Isso gera um visualizador web com pontuações, saídas e diffs.
4. Crie um arquivo de configuração Promptfoo abrangente
O seguinte promptfooconfig.yaml avalia o mesmo prompt contra um modelo da CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Execute o arquivo de configuração com o Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Execute promptfoo redteam setup para varredura automatizada de vulnerabilidades.
Fluxo detalhado passo a passo para avaliações robustas
- Defina cenários críticos para o negócio: Crie suítes de teste que reflitam o uso real (por exemplo, suporte ao cliente, geração de código, tarefas criativas).
- Iteração de engenharia de prompt: Use variáveis (
{{var}}) e prompts baseados em arquivo. Acompanhe versões. - Matriz de comparação de modelos: Execute avaliações em 5-10 modelos. Analise custo, latência e pontuações de qualidade.
- Pontuação e asserções: Combine avaliadores baseados em regras, baseados em modelo (LLM como juiz) e avaliadores personalizados em JS/Python.
- Integração CI/CD: Adicione ao GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Monitore e itere: Use o viewer do Promptfoo + o dashboard da CometAPI para insights de gasto/latência.
Análise de saída de exemplo: Espere tabelas mostrando taxas de vitória; por exemplo, Claude melhor em raciocínio, GPT em velocidade e DeepSeek em custo para determinadas tarefas.
CometAPI vs. provedores diretos vs. alternativas no Promptfoo
| Aspecto | CometAPI + Promptfoo | Direto (OpenAI/Anthropic) | Outros agregadores (por ex., OpenRouter) |
|---|---|---|---|
| Modelos | 500+ unificado | Limitado por fornecedor | Muitos, porém variáveis |
| Preços | 20-40% abaixo do oficial | Tarifa cheia | Oficial + taxas |
| Gestão de chaves | Chave única | Múltiplas | Múltiplas |
| Latência/Uptime | <400ms, 99,9% | Varia | Varia |
| Nativo no Promptfoo | Sim, suporte completo | Sim | Parcial |
| Privacidade | Sem treinamento nos prompts | Política do provedor | Varia |
| Melhor para | Testes amplos e produção | Dependência de um único fornecedor | Roteamento simples |
Insight de dados: Para 1M de tokens de uso de modelos intermediários, a CometAPI frequentemente economiza $5-20+ por milhão vs. direto, com efeito composto em loops de avaliação (centenas/milhares de chamadas).
Solução de problemas comuns
- Erros de chave de API: Verifique a variável de ambiente
COMETAPI_KEY(echo $COMETAPI_KEY). Confira créditos no console. - Modelo não encontrado: Liste modelos via
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Use nomes exatos. - Limites de taxa: A CometAPI trata os upstreams de forma inteligente; defina
delayna configuração ou reduza a concorrência. - Alta latência nas avaliações: Ative cache (
cache: true). Use modelos menores nos testes iniciais. - Falhas nas asserções: Ajuste as rubricas ou use mais exemplos. Avaliadores LLM podem ser inconsistentes — faça a média em múltiplas execuções (
repeat: 3). - Problemas com imagem/visão: Garanta que o modelo suporte a modalidade; forneça URLs válidas.
- Parsing de YAML: Valide com o schema do Promptfoo ou ferramentas online.
- Permissões/CORS: Para HTTP personalizado, verifique os headers.
Dica pro: Execute promptfoo eval --verbose para logs detalhados. Verifique o status/dashboard da CometAPI para possíveis indisponibilidades.
Solução de problemas
O Promptfoo não encontra a chave de API
Confirme que COMETAPI_KEY está exportada na mesma sessão do shell que executa promptfoo eval.
O tipo de provedor não corresponde ao modelo
Use chat para modelos conversacionais e multimodais, embedding para modelos de embedding e image para modelos de geração de imagens.
O ID do modelo falha
Substitua your-model-id por um ID de modelo exato da página de Modelos da CometAPI.
Dicas avançadas e melhores práticas
- Otimização de custos: Comece com modelos baratos (por exemplo, GPT-5-mini ou DeepSeek via CometAPI) para iterar no prompt e, depois, valide com modelos premium.
- Provedores personalizados: Estenda com JS/Python se precisar ir além da CometAPI.
- Teste de RAG e agentes: Integre variáveis de recuperação e chamadas de ferramentas.
- Segurança: Faça red teaming completo antes da produção. Promptfoo + foco em privacidade da CometAPI ajudam.
- Escalonamento: Use runners em nuvem ou autohospede o Promptfoo para suítes grandes.
- Monitoramento: Combine com a análise da CometAPI para gasto de tokens por modelo.
Recomendações da CometAPI para sua stack (de Cometapi.com):
- Use para todas as cargas de avaliação para minimizar custos.
- Aproveite o playground para testes rápidos.
- Monitore alertas de uso para permanecer dentro do orçamento.
- Explore modelos de imagem/vídeo para avaliações multimodais no Promptfoo.
Conclusão: eleve seu desenvolvimento de LLM hoje
Integrar CometAPI com Promptfoo oferece uma solução poderosa, econômica e escalável para o desenvolvimento moderno de IA. Você ganha flexibilidade incomparável de modelos, testes rigorosos, eficiência de custos e tranquilidade por meio de red teaming automatizado — mantendo controle total.
Comece pequeno: configure a chave, execute a configuração de exemplo e expanda sua suíte de testes. O tempo e o dinheiro economizados se acumulam conforme suas aplicações de IA crescem.
Pronto para implementar? Acesse CometAPI para obter sua chave gratuita e mergulhe na documentação do Promptfoo. Para consultoria personalizada ou configurações avançadas em Cometapi.com, explore nossos recursos.
