Kimi K2 Thinking APIの使い方 - 実践ガイド

CometAPI
AnnaNov 10, 2025
Kimi K2 Thinking APIの使い方 - 実践ガイド

Kimi K2 Thinking は、Kimi K2 ファミリーの最新のエージェント推論バリアントです。これは、持続的なステップバイステップの推論を実行し、長いマルチステップのワークフロー全体で外部ツールを確実に呼び出すように調整された大規模な専門家混合 (MoE) モデルです。このガイドでは、最新の公開情報をまとめ、Kimi K2 Thinking とは何か、現代の主力モデル (GPT-5 および Claude Sonnet 4.5) との比較、API の仕組み、ステップバイステップのセットアップと実行可能なサンプル推論タスク、価格に関する考慮事項、推奨される運用のベストプラクティスについて説明します。コード例も用意されているので、すぐに開始できます。

キミ・K2 は何を考えているのか、そしてなぜそれが話題になっているのか?

キミ K2思考 これは、ムーンショットAIの最新の「思考エージェント」リリースであり、1兆パラメータの専門家の混合(MoE)ファミリーのメンバーであり、明示的に訓練され、実行するようにパッケージ化されています。 長期的な多段階的な推論 外部ツール(検索、Python実行、ウェブスクレイピングなど)を自律的に呼び出しながら、このリリース(2025年11月初旬に発表)は、次の3つの理由で注目を集めています。(1) オープンウェイト/オープンライセンス(「修正MIT」スタイルのライセンス)であること、(2) 非常に長いコンテキスト(256kトークンのコンテキストウィンドウ)をサポートしていること、(3) 大幅に改善されたパフォーマンスを示していること。 エージェント的な ツール対応ベンチマークでのパフォーマンスと、いくつかの主要なクローズドソースのフロンティア モデルとの比較。

キミK2思考API エコシステムは、OpenAIスタイルのチャット補完セマンティクスに加え、明示的な構造化出力とツール呼び出しパターンをサポートしています。チャット履歴とツールスキーマを送信すると、モデルは思考の連鎖表現(要求に応じて)を返信し、外部ツールをトリガーする構造化JSONを出力することができます。プロバイダーはトークンをストリーミングし、人間向けのテキストと機械が解析可能なツール呼び出しブロックの両方を返す機能を公開しています。これにより、モデル → ツール → 観察 → モデルというエージェントループを実装できます。

簡単に言うと、K2 Thinkingは質問に対して一発で答えを出すだけでなく、 声に出して考える計画を立て、必要に応じてツールを呼び出し、結果を検証し、必要に応じて数百ステップにわたって反復処理を行いながら、パフォーマンスを低下させることなく作業を進める。この能力こそが、ムーンショットが「安定した長期的エージェンシー」と呼ぶものです。

Kimi K2 Thinking の中心的な機能は何ですか?

主なモデルの特徴

  • 専門家混合(MoE)アーキテクチャ 約 1 兆個のパラメータ(共通設定ではフォワード パスごとに 32B がアクティブ化されます)。
  • 256k トークン コンテキスト ウィンドウ 非常に長い文書、複数のソースの調査、および拡張された推論の連鎖を処理するため。
  • ネイティブINT4量子化/量子化を考慮したトレーニングこれにより、単純にサイズ設定された重みと比較して、推論メモリの大幅な削減と大幅な高速化が可能になります。
  • 組み込みツール呼び出し 関数/ツールのリストを受け入れる API があり、モデルはそれらをいつ呼び出すかを自動的に決定し、結果を反復します。

実際にこれが可能になるのは

  • 深く段階的な推論 (思考の連鎖スタイルの出力は、発信者に対して別個の「推論コンテンツ」として提示することができます)。
  • 安定したマルチステップエージェントワークフロー: このモデルは、 200~300回の連続ツール呼び出し数十歩進むとドリフトする傾向のある旧モデルからの大きな飛躍です。
  • オープンウェイト + マネージドAPI: ハードウェアをお持ちの場合はローカルで実行することも、Moonshot/経由で​​呼び出すこともできます。コメットAPI OpenAI 互換の API インターフェースを使用します。

キミK2思考は、2つのコアメカニズムを通じてエージェント行動を明らかにします。(1) 豊富なツール群 (2) モデルが関数を呼び出すためのリスト、そして(3) モデルが内部推論トークンを出力し、プラットフォームがそれをテキスト(または有効な場合は構造化された思考の連鎖)として表示する。次に例を挙げて詳しく説明する。

Kimi K2 Thinking APIの使い方

前提条件

  1. APIアクセス/アカウント: Moonshotのプラットフォーム(platform.moonshot.ai)またはサポートされているAPIアグリゲータ(コメットAPI 公式価格よりも安い価格を提供しています。サインアップ後、ダッシュボードで API キーを作成できます。
  2. APIキー: 環境変数または秘密ストアに安全に保管してください。
  3. クライアントライブラリ: 標準HTTP(curl)またはOpenAI互換SDKを使用できます。Moonshotのプラットフォームドキュメントには直接的な例が記載されています。Python環境をセットアップします。OpenAI Python SDKが必要です。これは、 コメットAPI どちらも OpenAI の互換性を維持しているため、API です。

ローカル/プライベートホスティングが必要な場合MoEとINT4をサポートするハードウェア(GPU/クラスタ)—Moonshotは、本番環境への導入にはvLLM、SGLang、その他の推論エンジンを推奨しています。モデルの重みはHugging Faceでセルフホスティングできますが、モデルのサイズが大きいため、多くのチームはホスト型APIを好みます。

最小限のコールフロー(高レベル)

  1. チャット リクエスト (システム + ユーザー メッセージ) を作成します。
  2. オプションで含める tools (関数を記述した JSON 配列) を使用して、モデルが関数を自律的に呼び出せるようにします。
  3. モデルを K2 Thinking バリアントに設定して、リクエストを chat/completions エンドポイントに送信します。
  4. レスポンスチャンクをストリーミングおよび/または収集し、両方を組み立てる reasoning_content そして最終的な content
  5. モデルがツールの呼び出しを要求すると、ユーザー側でツールを実行し、結果をフォローアップ メッセージとして (またはプロバイダーの関数戻りプロトコル経由で) 返して、モデルを続行させます。

「reasoning_content」は API で公開されていますか?

はい。Kimi K2 Thinkingは明示的に補助出力フィールド(一般的に reasoning_content)はモデルの中間推論トレースを含む。プロバイダーとコミュニティドキュメントには、次のようなストリーミングパターンが示されている。 reasoning_content デルタは別々に content デルタ — これにより、最終的な回答を作成している間に、人間が読める「思考」ストリームを表示できます。注:大規模な推論トレースでは、応答サイズが大きくなるため、ストリーミングが推奨されます。

cURL — まず、最小限のチャット完了、:

curl -X POST "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer $cometapi_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2-thinking",
    "messages": [
      {"role":"system","content":"You are a careful reasoning assistant. Show step-by-step reasoning."},
      {"role":"user","content":"Outline a 5-step experiment to validate a micro-SaaS idea with $200 budget."}
    ],
    "temperature": 0.2,
    "max_tokens": 2048,
    "stream": false
  }'

これは戻ります content そして(思考モデルの場合) reasoning_content 保存またはストリーミングできるフィールド

思考モードの推奨パラメータ

以下は、複数ステップの推論タスクの推奨初期パラメータです。タスクに合わせて調整してください。

  • model: K2 Thinking バリアントを選択 (moonshotai/Kimi-K2-Thinking or kimi-k2-thinking-turbo)—「考える」家族が明らかにする reasoning_content.
  • キミ-K2-思考モデルカードが示唆する temperature = 1.0 思考中のより豊かな探求のための推奨基準値です。探索的推論には高めの温度を、精密なタスクには低めの温度を使用してください。
  • 最大トークン数 / コンテキスト: 思考モデルは大きな内部痕跡を生成することができる - セット max_tokens 十分に高く、ストリーミングを好みます。
  • ストリーミング: ストリーミングを有効にする(stream=True) を使用して、推論と最終的なコンテンツの両方を段階的にレンダリングします。
  • ツールスキーマ: 〜を含む tools/functions 利用可能な関数を記述した配列。K2はそれらをいつ呼び出すかを自律的に決定します。 description あいまいな呼び出しを回避するために、引数には厳密な JSON スキーマを使用します。

K2 Thinking でツール呼び出しを有効にして使用するにはどうすればよいですか?

を含める tools リクエストボディ内の配列。各ツールは次のように記述されます。

  • name: 文字列、一意のツール識別子。
  • description: モデルの簡単な説明。
  • parameters: 予想される引数を詳述する JSON スキーマ。

モデルがツールを呼び出すことを決定すると、ツール呼び出しオブジェクト(多くの場合、構造化されたトークン)が出力されます。ランタイムは、そのツールを(サーバー側で)実行し、出力をキャプチャして、ツール応答メッセージとしてフィードバックすることで、モデルの推論処理を継続できるようにする必要があります。

ステップバイステップガイド

K2 Thinkingは、OpenAIの関数呼び出しに類似した関数/ツールスキーマをサポートしていますが、モデルが終了するまでループを明示的にサポートしています(複数のツール呼び出しを要求する場合があります)。パターンは次のとおりです。

  1. ツール スキーマ (名前、説明、パラメーターの JSON スキーマ) を定義します。
  2. 合格 tools チャット完了の呼び出しに。
  3. 各回答に tool_calls要求されたツールを実行し、ツールの出力をメッセージに追加します。 role: "tool".
  4. モデルが正常な完了を返すまで繰り返します。

ツールの呼び出しを有効にする(サンプルパターン)

モデルにツールを呼び出させたい場合、リクエストにツールスキーマを指定します。例: web_search, code_executorをリクエストに含め、モデルにその使用方法を指示します。

{
  "model": "kimi-k2-thinking",
  "messages": [{"role":"system","content":"You can call available tools when needed. Return a JSON tool call when you want to invoke external code."},
               {"role":"user","content":"Find the latest CPU microarchitecture benchmarks for RISC-V and summarize differences."}],
  "tools": [
    {
      "name": "web_search",
      "description": "Performs a web query and returns top results as JSON",
      "input_schema": {"type":"object","properties":{"q":{"type":"string"}}}
    }
  ],
  "temperature": 0.1
}

モデルは次のように応答するかもしれません tool_call エージェント ランタイムが検出し、登録されたツールにルーティングする必要があるオブジェクト。

このパターンは、ツール呼び出し → ツール実行 → モデル続行という任意の深さのシーケンスをサポートします。そのため、Kimi K2 Thinking では、設計において多数の連続呼び出しよりも安定性を重視しています。

Kimi K2 Thinking API の料金はいくらですか?

公式ムーンショット(キミ)プラットフォームリスト 2つの主要な価格設定エンドポイント キミK2の考え:

  • kimi-k2-thinking(標準) - 入力トークン: 0.60ドル / 1M (キャッシュミス層)と 0.15ドル / 1M (キャッシュヒット層) 出力トークン: 2.50ドル / 1M.
  • キミK2シンキングターボ(高速) — より高いレイテンシ/スループット層: : 1.15ドル / 1M; 出力: 8.00ドル / 1M (プラットフォーム/パートナー ページではこれを繰り返します)。

コメットAPI 価格面での優位性があります。例えば、同等のハイエンドモデルと比較して、入力レートが非常に低く、出力あたりのトークンレートが低いこと、さらにオンボーディング用の無料トライアルトークンがあることなどです。

モデル入力トークン出力トークン
キミ-K2-シンキング-ターボ$2.20$15.95
キミ-K2-考え中$1.10$4.40

コストに関する考慮事項

  • 長いコンテキスト (128K~256K トークン) と広範なツール呼び出しチェーンによってトークンの消費量が増えるため、コストが重要な場合は、冗長な中間処理を最小限に抑えるようにプロンプ​​トとツールの対話を設計します。
  • 多くのツール結果を生成するエージェントフローを実行すると、通常のシングルターンチャットよりも出力トークンの請求額が増加する可能性があります。状況を監視し、それに応じて予算を設定してください。

ベンチマーク比較:Kimi K2 Thinking vs GPT-5 vs Claude Sonnet 4.5

付随するベンチマークは微妙な状況を示している:K2 Thinking 優れたパフォーマンス GPT-5とAnthropicのClaude Sonnet 4.5を多数使用 ツール対応 GPT-5 は、一部のテキストのみまたは医療ベンチマーク (Moonshot の報告実行における HealthBench など) では依然として強力です。一方、エージェント ベンチマーク (BrowseComp やツール対応の HLE バリアントなど) では、GPT-5 は依然として強力です。

Kimi K2 Thinking APIの使い方 - 実践ガイド

持ち帰り: キミK2の思考は競争的である エージェント的な モデル — ツールインターリーブと長いコンテキストの恩恵を受ける推論タスクにおいて優れている。GPT-5や クロード・ソネット 4.5 あらゆるベンチマーク(特に一部の専門的または知識集約的なタスク)でトップの成績を収めていますが、エージェント/ブラウジング/長期テストの多くでは優れた結果を報告しています。 しかし、Kimi k2 の考え方は、呼び出しコストが低く、オープンソースの性質を持つため、コスト効率の点で真に優れています。

Kimi K2 Thinkingと他のモデルを比較して選ぶべきタイミング

  • キミK2思考を選択 タスクに長い推論チェーン、多数のツール呼び出し、または非常に大規模なコンテキスト (コードベース、長いドキュメント) の詳細な分析が必要な場合。
  • GPT-5を選択 最も緊密なマルチモーダル統合、幅広いサードパーティ エコシステム サポート、または特定の OpenAI ツールとエージェント フレームワークが必要な場合。
  • クロード・ソネット4.5を選択 コード編集の精度、確定的な編集ワークフロー、および Anthropic の安全なツールチェーンを重視するワークロード向けです。
メトリックキミK2の考えGPT-5(高)クロード・ソネット 4.5ディープシーク-V3.2
HLE(ツール付き)44.941.73220.3
HLEヘビーモード5142--
AIME25(Python付き)99.1%99.6%100%58.1%
GPQA84.585.783.479.9
ブラウズコンプ60.254.924.140.1
フレーム87868580.2
SWEベンチ検証済み71.3%74.9%77.2%67.8%
ライブコードベンチ83.1%87.0%64.0%74.1%
コンテキスト ウィンドウ256トークン400トークン200トークン128トークン
投入価格設定0.60ドル / 1M1.25ドル / 1M3.00ドル / 1M0.55ドル / 1M
出力価格設定2.50ドル / 1M10.00ドル / 1M15.00ドル / 1M2.19ドル / 1M

ベストプラクティス

  • ストリーム推論: ユーザー向けアプリでは、ストリーミングを使用して「考える」UIを表示します reasoning_contentストリーミングはレイテンシを削減し、巨大なペイロードを回避します。()
  • スキーマファーストツール: あいまいな呼び出しや解析エラーを削減するためのツール用の厳密な JSON スキーマを定義します。
  • チェックポイントコンテキストの使用: 膨大なトレース履歴をアクティブプロンプトに埋め込むのではなく、過去の推論トレースを別の長期記憶ストアに保存します。検索を使用して、関連するセグメントのみを再導入します。
  • 監視とガードレール: 両方をログに記録 reasoning_content 最終的に content ドリフト、幻覚、誤用を診断するため。機密性に応じて、編集またはユーザーの同意を検討してください。

結論

Kimi K2 Thinkingは、K2ラインの堅牢で長期的なエージェンシーに向けた大きな進化です。APIはOpenAI/Anthropicクライアントパターンとの互換性を意図的に確保しており、開発者がツール呼び出しサーフェスを制御できるようにしながら、エージェント的推論をアプリに統合するための実用的な方法を提供します。

すぐに実験したい場合は、 キミK2思考API さあ、使い始めましょう!まずは、モデルの機能について プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

準備はいいですか?→ 今すぐCometAPIに登録しましょう !

AIに関するヒント、ガイド、ニュースをもっと知りたい方は、フォローしてください。 VKX および Discord!

もっと読む

1つのAPIで500以上のモデル

最大20%オフ