Promptfoo は、LLM のプロンプト、モデル、アプリケーションのテスト、評価、レッドチーミングのためのオープンソース CLI ツールです。これを CometAPI(500 以上のモデルに対応した統一 OpenAI 互換 API)と組み合わせることで、開発者は 1 つのキーで GPT、Claude、Gemini、Grok、DeepSeek などを横断的にテストでき、直販プロバイダーよりもしばしば 20~40% 低コストで利用できます。本ガイドでは、セットアップ、設定、上級の使い方、実データに裏付けられたメリットを解説します。
注目スニペット向けサマリー
Promptfoo は、LLM のプロンプト、モデル、アプリケーションのテスト、評価、レッドチーミングのためのオープンソース CLI ツールです。これを CometAPI(500 以上のモデルに対応した統一 OpenAI 互換 API)と組み合わせることで、開発者は 1 つのキーで GPT、Claude、Gemini、Grok、DeepSeek などを横断的にテストでき、直販プロバイダーよりもしばしば 20~40% 低コストで利用できます。本ガイドでは、セットアップ、設定、上級の使い方、実データに裏付けられたメリットを解説します。
What is Promptfoo?
Promptfoo は、テスト駆動の LLM 開発のために実戦で鍛えられたオープンソースの CLI とライブラリです。手作業の試行錯誤ではなく、プロンプト、モデル、RAG システム、エージェントを横断して評価を自動化します。主な機能は次のとおりです。
- マトリックス表示でのモデルの並列比較。
- 自動アサーション(厳密一致、正規表現、LLM ジャッジ、意味的類似度など)。
- プロンプトインジェクション、脱獄、ブランドリスクなどの脆弱性に対するレッドチーミング(50 以上のプラグインタイプ)。
- CI/CD 連携、キャッシュ、並列実行、ライブリロード。
- 60 以上のプロバイダー、カスタムスクリプト、HTTP エンドポイントに対応。
導入実績(2026 年): Fortune 500 の 156 社で採用、数百万人規模のユーザーに提供されるアプリを支え、Shopify などのチームに信頼されています。MIT ライセンスで、コミュニティの勢いも強力です。
Promptfoo は「自分の環境では動く」を、再現可能で定量的なベンチマークに置き換えます—本番運用へ移行する LLM アプリに不可欠です。
Why Use CometAPI with Promptfoo?
CometAPI は、OpenAI、Anthropic、Google、xAI、DeepSeek などによる LLM、画像、動画、埋め込みを含む 500 以上の最新モデルを集約した、開発者志向の統一 API です。OpenAI 互換を完全に満たしており、base_url を変更するだけで既存コードがそのまま動作します。
組み合わせの主な利点:
- 鍵管理なしで膨大なモデル多様性: GPT-5 系、Claude Opus 4.x、Gemini 3.x、Grok 4、DeepSeek V4、Flux、DALL-E、Sora のようなモデルなどを 1 つのキーで利用可能。アカウントのやり繰りは不要。
- 大幅なコスト削減: CometAPI は公式料金比で少なくとも 20~40% 低価格の従量課金(サブスク不要)。実ユーザーの報告とベンチマークでも、直契約や OpenRouter のような競合に比べ一貫した節約を確認。
- Promptfoo ネイティブ対応: 専用の
cometapi:プロバイダーで chat、completion、embedding、image をサポート。評価やレッドチーミングにシームレス。 - 信頼性と速度: 稼働率 99.9%、<400ms の平均レイテンシ、エンタープライズ向けプライバシー(プロンプト学習なし)、使用状況ダッシュボード、フェイルオーバールーティング。
- 評価ワークフローの柔軟性: 先端モデルの A/B テストを低コストで実施、RAG 精度のベンチマーク、複数プロバイダーにまたがるエージェントのレッドチーミングを破綻なく実施可能。
大規模なテストでは、Promptfoo 経由で CometAPI に切り替えることで評価コストを大幅に削減しつつ、より広いカバレッジを実現できます。たとえば、さまざまな Claude/GPT 相当モデルを横並びでテストするのが容易かつ手頃になります。チームは初日から 20% 以上の節約を報告しており、完全な可搬性(ロックインなし)を維持します。
最新コンテキスト(2026 年): 急速なモデルリリース(例:Claude Opus 4-8、GPT-5 シリーズ、Gemini の進化)が進む中、CometAPI のような統一プラットフォームと Promptfoo のような評価ツールの組み合わせは、コストを膨張させずに俊敏性を保つために不可欠です。Promptfoo のエコシステムはプロバイダー対応を継続的に拡張しており、CometAPI との連携も深まっています。
Prerequisites
- Node.js(v18+ 推奨):Promptfoo は主に Node ベースです。
- CometAPI のアカウントとキー: CometAPI で無料登録し、テストクレジットを入手。console/token からキーを取得。
- Promptfoo のインストール:
npm install -g promptfoo
# Or npx promptfoo@latest for one-off use
- YAML とターミナルの基本的な知識。
- (任意)カスタムプロバイダー用の Python、または分離環境用の Docker。
インストール確認:promptfoo --version。
Promptfoo と CometAPI の統合を設定する方法
1. CometAPI の API キーを設定する
export COMETAPI_KEY=your_actual_key_here
# Persist with .env or shell profile
cometapi プロバイダーでは Promptfoo が自動的に読み込みます。
評価を実行する前に COMETAPI_KEY を設定:
read -rsp "CometAPI API key: " COMETAPI_KEY
printf '\n'
export COMETAPI_KEY
2. CometAPI のプロバイダー形式を選ぶ
promptfooconfig.yaml の例:
providers:
- cometapi:chat:gpt-5-mini # Defaults to chat
- cometapi:chat:claude-3-5-sonnet-20241022
- cometapi:image:flux-schnell # Image gen
- cometapi:embedding:text-embedding-3-small
# Or shorthand
- cometapi:gpt-5.4-pro
完全な構文:cometapi:<type>:<model>。type のデフォルトは chat。config からすべての OpenAI パラメータを利用可能。
以下のプロバイダー種別を使用:
| Type | Use case |
|---|---|
| chat | チャット補完、ビジョン、マルチモーダルプロンプト |
| completion | テキスト補完モデル |
| embedding | テキスト埋め込み評価 |
| image | 画像生成評価 |
デフォルトの chat モードには cometapi:your-model-id も使用できます。
3. かんたんな CLI 評価を実行
# Simple one-off
npx promptfoo@latest eval --prompts "Write a haiku about AI" -r cometapi:chat:your-model-id
# With full config
promptfoo eval
スコア、出力、差分を表示する Web ビューアが生成されます。
4. 包括的な Promptfoo 設定ファイルを作成
次の promptfooconfig.yaml は、同じプロンプトを CometAPI モデルに対して評価します。
prompts:
- "Classify this support request: {{message}}"
providers:
- id: cometapi:chat:your-model-id
config:
temperature: 0.2
max_tokens: 256
tests:
- vars:
message: "The API key works locally but fails in production."
assert:
- type: contains-any
value:
- authentication
- configuration
Promptfoo で設定ファイルを実行:
npx promptfoo@latest eval -c promptfooconfig.yaml
自動脆弱性スキャンには promptfoo redteam setup を実行します。
堅牢な評価のための詳細なステップ別ワークフロー
- 重要業務シナリオの定義:実運用に即したテストスイートを作成(例:カスタマーサポート、コード生成、クリエイティブタスク)。
- プロンプトエンジニアリングの反復:
{{var}}のような変数やファイルベースのプロンプトを活用。バージョンを追跡。 - モデル比較マトリクス:5~10 モデルで評価を実行。コスト、レイテンシ、品質スコアを分析。
- スコアリングとアサーション:ルールベース、モデルベース(LLM ジャッジ)、カスタム JS/Python 採点器を組み合わせる。
- CI/CD 連携:GitHub Actions に追加:
- name: Promptfoo Eval
run: promptfoo eval --ci
- 監視と反復:Promptfoo のビューア + CometAPI ダッシュボードで支出/レイテンシの洞察を得る。
出力分析の例: 勝率を示すテーブルを想定(例:推論では Claude が優位、速度は GPT、特定タスクのコストは DeepSeek が有利、など)。
Promptfoo における CometAPI と直接プロバイダーおよび代替手段の比較
| 観点 | CometAPI + Promptfoo | Direct (OpenAI/Anthropic) | Other Aggregators (e.g., OpenRouter) |
|---|---|---|---|
| 利用可能モデル | 500+ を統一提供 | ベンダーごとに限定 | 多数だがばらつきあり |
| 価格 | 公式より 20~40% 低価格 | 正規料金 | 正規料金 + 手数料 |
| キー管理 | 単一キー | 複数キー | 複数キー |
| レイテンシ/稼働率 | <400ms、99.9% | まちまち | まちまち |
| Promptfoo 対応 | あり(フルサポート) | あり | 部分的 |
| プライバシー | プロンプト学習なし | プロバイダー方針による | まちまち |
| ベスト用途 | 幅広いテストと本番運用 | 単一ベンダーへのロックイン | シンプルなルーティング |
データの示唆: ミッドレンジモデルで 100 万トークン利用時、CometAPI は直契約比でしばしば $5~20+ の節約。評価ループ(数百~数千コール)では複利的に効いてきます。
よくある問題のトラブルシューティング
- API キーのエラー:
COMETAPI_KEY環境変数を確認(echo $COMETAPI_KEY)。コンソールでクレジットを確認。 - Model Not Found:
curl -H "Authorization: Bearer $COMETAPI_KEY"https://api.cometapi.com/v1/modelsでモデル一覧を取得。正確な名前を使用。 - Rate Limits: CometAPI は上流を賢く処理。設定で
delayを指定、または並行数を下げる。 - 評価の高レイテンシ: キャッシュを有効化(
cache: true)。初期テストは小型モデルを使用。 - アサーション失敗: ルーブリックを調整、またはサンプル数を増やす。LLM ジャッジは不安定になり得るため、複数回の平均化(
repeat: 3)。 - 画像/ビジョンの問題: モデルが該当モダリティをサポートしていることを確認。正しい URL を指定。
- YAML パース: Promptfoo のスキーマやオンラインツールで検証。
- 権限/CORS: カスタム HTTP の場合はヘッダーを確認。
Pro Tip: 詳細ログには promptfoo eval --verbose を実行。障害は CometAPI のステータス/ダッシュボードを確認。
Troubleshooting
Promptfoo が API キーを見つけられない
promptfoo eval を実行するのと同じシェルセッションで COMETAPI_KEY が export されていることを確認。
プロバイダー種別がモデルと一致しない
会話・マルチモーダルには chat、埋め込みには embedding、画像生成には image を使用。
モデル ID が失敗する
your-model-id を CometAPI Models ページ にある正確なモデル ID に置き換える。
Advanced Tips & Best Practices
- コスト最適化: 最初は安価なモデル(例:CometAPI 経由の GPT-5-mini や DeepSeek)でプロンプトを反復し、最終的にプレミアムで検証。
- カスタムプロバイダー: CometAPI を超える必要がある場合は JS/Python で拡張。
- RAG とエージェント評価: 取得変数やツール呼び出しを統合。
- セキュリティ: 本番前に徹底したレッドチーミングを。Promptfoo + CometAPI のプライバシー重視は有効。
- スケーリング: 大規模スイートはクラウドランナーの利用や Promptfoo のセルフホストを検討。
- モニタリング: CometAPI の分析でモデル別のトークン支出を把握。
CometAPI Recommendations for Your Stack (from Cometapi.com):
- すべての評価ワークロードに利用し、コストを最小化。
- クイックテストにはプレイグラウンドを活用。
- 予算超過を防ぐため使用量アラートを監視。
- Promptfoo のマルチモーダル評価で画像/動画モデルも試す。
まとめ: いま、LLM 開発を次のレベルへ
CometAPI と Promptfoo の統合は、現代的な AI 開発において強力・経済的・スケーラブルなソリューションを提供します。モデルの柔軟性、厳密なテスト、コスト効率、そして自動レッドチーミングによる安心感を、完全なコントロールのもとで手にできます。
まずは小さく:キーを設定し、サンプル設定を実行し、テストスイートを拡張してください。アプリが成長するほど、節約できる時間とコストは積み上がっていきます。
準備はいいですか? 無料キーは CometAPI から。Promptfoo のドキュメントに飛び込みましょう。Cometapi.com でのカスタムコンサルティングや高度なセットアップについてはリソースをご覧ください。
