Promptfoo es una herramienta CLI de código abierto para probar, evaluar y hacer red teaming de prompts, modelos y aplicaciones de LLM. Al combinarla con CometAPI —una API unificada compatible con OpenAI para más de 500 modelos— los desarrolladores pueden probar GPT, Claude, Gemini, Grok, DeepSeek y más con una sola clave, a menudo con un costo entre 20-40% menor que los proveedores directos. Esta guía cubre la configuración, los archivos de configuración, el uso avanzado y beneficios reales respaldados por datos.
Resumen optimizado para Featured Snippet
Promptfoo es una herramienta CLI de código abierto para probar, evaluar y hacer red teaming de prompts, modelos y aplicaciones de LLM. Al combinarla con CometAPI —una API unificada compatible con OpenAI para más de 500 modelos— los desarrolladores pueden probar GPT, Claude, Gemini, Grok, DeepSeek y más con una sola clave, a menudo con un costo entre 20-40% menor que los proveedores directos. Esta guía cubre la configuración, los archivos de configuración, el uso avanzado y beneficios reales respaldados por datos.
¿Qué es Promptfoo?
Promptfoo es una CLI y biblioteca de código abierto, probada en producción, para el desarrollo de LLM guiado por pruebas. En lugar de ensayo y error manual, automatiza evaluaciones entre prompts, modelos, sistemas RAG y agentes. Sus capacidades clave incluyen:
- Comparaciones de modelos lado a lado con vistas en matriz.
- Aserciones automatizadas (coincidencia exacta, regex, LLM como juez, similitud semántica, etc.).
- Red teaming para vulnerabilidades como inyección de prompts, jailbreaks y riesgos de marca (más de 50 tipos de plugins).
- Integración con CI/CD, caché, concurrencia y recarga en vivo.
- Compatibilidad con más de 60 proveedores, scripts personalizados y endpoints HTTP.
Estadísticas de adopción (2026): Usado por 156 empresas de la Fortune 500, impulsa aplicaciones que sirven a millones de usuarios y es confiado por equipos en Shopify y más. Tiene licencia MIT y cuenta con un fuerte impulso comunitario.
Promptfoo reemplaza “funciona en mi máquina” con benchmarks repetibles y cuantificables—crítico a medida que las apps con LLM pasan a producción.
¿Por qué usar CometAPI con Promptfoo?
CometAPI es una API unificada pensada para desarrolladores que agrega más de 500 modelos de vanguardia (LLMs, imagen, video, embeddings) de OpenAI, Anthropic, Google, xAI, DeepSeek y otros. Es totalmente compatible con OpenAI, por lo que el código existente funciona con un simple cambio de base_url.
Beneficios clave de la combinación:
- Variedad masiva de modelos sin gestión de claves: Prueba variantes de GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4, DeepSeek V4, Flux, DALL-E, modelos tipo Sora, etc., con una sola clave. Sin malabares de cuentas.
- Ahorros de costo significativos: CometAPI ofrece precios al menos 20-40% por debajo de las tarifas oficiales con pago por uso (sin suscripciones). Informes de usuarios reales y benchmarks muestran ahorros consistentes frente a acceso directo o competidores como OpenRouter.
- Compatibilidad nativa con Promptfoo: Proveedor dedicado
cometapi:con tipos de chat, completion, embedding e image. Sin fricciones para evaluaciones y red teaming. - Confiabilidad y velocidad: 99,9% de uptime, <400 ms de latencia promedio, privacidad empresarial (sin entrenamiento con tus prompts), paneles de uso y enrutamiento con failover.
- Flexibilidad para flujos de evaluación: Haz A/B testing de modelos de frontera a bajo costo, compara la precisión de RAG o realiza red teaming de agentes entre proveedores sin romper el presupuesto.
En evaluaciones de alto volumen, cambiar a CometAPI vía Promptfoo puede reducir dramáticamente los costos de evaluación y habilitar mayor cobertura. Por ejemplo, probar lado a lado múltiples equivalentes de Claude/GPT se vuelve trivial y asequible. Los equipos reportan ahorros del 20%+ desde el primer día, con portabilidad total (cero lock-in).
Contexto más reciente (2026): Con lanzamientos rápidos de modelos (p. ej., Claude Opus 4-8, serie GPT-5, avances de Gemini), plataformas unificadas como CometAPI + herramientas de evaluación como Promptfoo son esenciales para mantener la agilidad sin disparar el presupuesto. El ecosistema de Promptfoo continúa ampliando el soporte de proveedores, incluida una integración más profunda con CometAPI.
Requisitos previos
- Node.js (se recomienda v18+): Promptfoo se basa principalmente en Node.
- Cuenta y clave de CometAPI: Regístrate gratis en CometAPI para obtener créditos de prueba. Obtén la clave en console/token.
- Promptfoo instalado:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- Familiaridad básica con YAML y terminal.
- (Opcional) Python para proveedores personalizados, o Docker para aislamiento.
Verifica la instalación: promptfoo --version.
Cómo configurar la integración de Promptfoo con CometAPI
1. Configura tu clave de API de CometAPI
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
Promptfoo la lee automáticamente para el proveedor cometapi.
Configura COMETAPI_KEY antes de ejecutar evaluaciones:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. Elige el formato del proveedor CometAPI
En promptfooconfig.yaml:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
Sintaxis completa: cometapi:<type>:<model>. El tipo predeterminado es chat. Se admiten todos los parámetros de OpenAI mediante config.
Usa estos tipos de proveedor:
| Tipo | Caso de uso |
|---|---|
| chat | Conversaciones, visión y prompts multimodales |
| completion | Modelos de completion de texto |
| embedding | Evaluaciones de embeddings de texto |
| image | Evaluaciones de generación de imágenes |
También puedes usar cometapi:your-model-id para el modo predeterminado de chat.
3. Ejecuta una evaluación rápida desde la CLI
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
Esto genera un visor web con puntuaciones, resultados y diffs.
4. Crea un archivo de configuración completo de Promptfoo
El siguiente promptfooconfig.yaml evalúa el mismo prompt contra un modelo de CometAPI:
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Ejecuta el archivo de configuración con Promptfoo:
npx promptfoo@latest eval -c promptfooconfig.yaml
Ejecuta promptfoo redteam setup para un escaneo automatizado de vulnerabilidades.
Flujo detallado paso a paso para evaluaciones robustas
- Define escenarios críticos para el negocio: Crea suites de pruebas que reflejen el uso real (p. ej., soporte al cliente, generación de código, tareas creativas).
- Iteración de ingeniería de prompts: Usa variables (
{{var}}) y prompts basados en archivos. Haz seguimiento de versiones. - Matriz de comparación de modelos: Ejecuta evaluaciones en 5-10 modelos. Analiza costo, latencia y puntuaciones de calidad.
- Puntuación y aserciones: Combina reglas, modelos (LLM como juez) y calificadores personalizados en JS/Python.
- Integración con CI/CD: Agrega a GitHub Actions:
- name: Promptfoo Eval
run: promptfoo eval --ci
- Monitorea e itera: Usa el visor de Promptfoo + el panel de CometAPI para ver gastos/latencia.
Análisis de salida de ejemplo: Espera tablas con tasas de victoria, p. ej., Claude mejor en razonamiento, GPT en velocidad, DeepSeek en costo para ciertas tareas.
CometAPI vs. proveedores directos vs. alternativas en Promptfoo
| Aspecto | CometAPI + Promptfoo | Directo (OpenAI/Anthropic) | Otros agregadores (p. ej., OpenRouter) |
|---|---|---|---|
| Modelos | Más de 500 unificados | Limitado por proveedor | Muchos, pero variables |
| Precios | 20-40% por debajo del oficial | Tarifa completa | Oficial + comisiones |
| Gestión de claves | Una sola clave | Múltiples | Múltiples |
| Latencia/Uptime | <400 ms, 99,9% | Variable | Variable |
| Promptfoo nativo | Sí, soporte completo | Sí | Parcial |
| Privacidad | Sin entrenamiento con prompts | Política del proveedor | Variable |
| Ideal para | Pruebas amplias y producción | Lock-in de un solo proveedor | Enrutamiento simple |
Dato: Para 1M de tokens de uso de modelos de gama media, CometAPI a menudo ahorra $5-20+ por millón frente al acceso directo, acumulándose en bucles de evaluación (cientos/miles de llamadas).
Solución de problemas comunes
- Errores de clave de API: Verifica la variable de entorno
COMETAPI_KEY(echo $COMETAPI_KEY). Revisa créditos en la consola. - Modelo no encontrado: Lista modelos con
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/models. Usa nombres exactos. - Límites de tasa: CometAPI gestiona inteligentemente los upstream; establece
delayen config o reduce la concurrencia. - Alta latencia en evaluaciones: Habilita caché (
cache: true). Usa modelos más pequeños para las pruebas iniciales. - Fallas en aserciones: Ajusta rúbricas o usa más ejemplos. Los LLM jueces pueden ser inconsistentes—promedia múltiples ejecuciones (
repeat: 3). - Problemas de imagen/visión: Asegúrate de que el modelo soporte la modalidad; proporciona URLs válidas.
- Análisis de YAML: Valida con el esquema de Promptfoo o herramientas en línea.
- Permisos/CORS: Para HTTP personalizado, revisa encabezados.
Consejo profesional: Ejecuta promptfoo eval --verbose para registros detallados. Revisa el estado/panel de CometAPI ante caídas.
Solución de problemas
Promptfoo no puede encontrar la clave de API
Confirma que COMETAPI_KEY está exportada en la misma sesión de shell que ejecuta promptfoo eval.
El tipo de proveedor no coincide con el modelo
Usa chat para modelos conversacionales y multimodales, embedding para modelos de embeddings y image para modelos de generación de imágenes.
El ID del modelo falla
Reemplaza your-model-id por un ID de modelo exacto de la página de modelos de CometAPI.
Consejos avanzados y mejores prácticas
- Optimización de costos: Empieza con modelos económicos (p. ej., GPT-5-mini o DeepSeek vía CometAPI) para iterar prompts y luego valida con modelos premium.
- Proveedores personalizados: Amplía con JS/Python si necesitas más allá de CometAPI.
- Pruebas de RAG y agentes: Integra variables de recuperación y llamadas a herramientas.
- Seguridad: Haz red teaming exhaustivo antes de producción. Promptfoo + el enfoque de privacidad de CometAPI ayudan.
- Escalado: Usa ejecutores en la nube o auto-hospeda Promptfoo para suites grandes.
- Monitoreo: Combina con analíticas de CometAPI para gasto de tokens por modelo.
Recomendaciones de CometAPI para tu stack (de Cometapi.com):
- Úsalo para todas las cargas de evaluación para minimizar costos.
- Aprovecha el playground para pruebas rápidas.
- Monitorea alertas de uso para mantenerte dentro del presupuesto.
- Explora modelos de imagen/video para evaluaciones multimodales en Promptfoo.
Conclusión: eleva tu desarrollo con LLM hoy
Integrar CometAPI con Promptfoo ofrece una solución potente, económica y escalable para el desarrollo moderno de IA. Obtienes una flexibilidad de modelos sin igual, pruebas rigurosas, eficiencias de costo y tranquilidad mediante red teaming automatizado, manteniendo el control total.
Comienza de a poco: configura la clave, ejecuta el archivo de ejemplo y expande tu suite de pruebas. El tiempo y dinero ahorrados se acumularán a medida que crezcan tus aplicaciones de IA.
¿Listo para implementar? Dirígete a CometAPI para obtener tu clave gratuita y sumérgete en la documentación de Promptfoo. Para consultoría personalizada o configuraciones avanzadas en Cometapi.com, explora nuestros recursos.
