モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/Kling/Kling Image Recognize
K

Kling Image Recognize

リクエストごと:$0.013216
Keling 画像要素認識 API、複数画像参照による動画生成に利用可能、マルチモーダル動画編集機能 ● 被写体、顔、衣服などを認識でき、1回のリクエストにつき(利用可能な場合)4セットの結果を取得可能。
新着
商用利用
概要
機能
料金プラン
API

Technical Specifications of kling-image-recognize

SpecificationDetails
Model IDkling-image-recognize
CategoryImage recognition / multimodal analysis
Primary CapabilityRecognizes image elements for downstream creative workflows, including multi-image reference video generation and multimodal video editing
Input TypeImage input
Output TypeStructured recognition results
Recognition ScopeSubjects, faces, clothing, and other visual elements
Result VolumeCan return up to 4 sets of results per request, if available
Use CasesVisual asset analysis, reference preparation for video generation, content understanding for editing pipelines, subject and apparel recognition

What is kling-image-recognize?

kling-image-recognize is a Keling image element recognition API designed to analyze visual content and identify important elements within an image. It is especially useful in workflows that require multi-image reference video generation or multimodal video editing, where understanding the contents of source images is an important preprocessing step.

The model can recognize a range of visual attributes such as subjects, faces, clothing, and related image components. Depending on the input, it can provide up to 4 sets of recognition results in a single request, helping developers capture multiple possible detections or interpretations when available.

Main features of kling-image-recognize

  • Image element recognition: Detects and identifies important visual elements contained in an input image.
  • Subject analysis: Recognizes primary subjects that can be used in downstream media generation or editing workflows.
  • Face recognition support: Extracts face-related recognition results when faces are present in the image.
  • Clothing identification: Detects apparel and clothing-related elements to support more detailed visual understanding.
  • Multi-image reference workflow support: Useful for preparing and analyzing image references used in video generation pipelines.
  • Multimodal video editing compatibility: Helps power editing scenarios where image content needs to be understood before transformation or composition.
  • Multiple result sets per request: Can obtain up to 4 sets of results per request, if available, enabling richer recognition output.
  • Integration-friendly API usage: Suitable for developers building automated media analysis and creative application pipelines.

How to access and integrate kling-image-recognize

Step 1: Sign Up for API Key

To get started, sign up on the CometAPI platform and generate your API key from the dashboard. After obtaining your key, store it securely and use it to authenticate every request to the kling-image-recognize API.

Step 2: Send Requests to kling-image-recognize API

Once you have your API key, send requests to the CometAPI endpoint using kling-image-recognize as the model ID. Include your authentication headers and provide the required image input payload based on your application workflow.

curl --request POST \
  --url https://api.cometapi.com/v1/responses \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "kling-image-recognize",
    "input": [
      {
        "role": "user",
        "content": [
          {
            "type": "input_text",
            "text": "Recognize the main visual elements in this image."
          },
          {
            "type": "input_image",
            "image_url": "YOUR_IMAGE_URL"
          }
        ]
      }
    ]
  }'

Step 3: Retrieve and Verify Results

After submission, the API returns recognition results generated by kling-image-recognize. Parse the response in your application, verify the detected subjects or attributes, and store the returned data for use in video generation, editing, or other downstream automation tasks.

Kling Image Recognizeの機能

Kling Image Recognizeのパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

Kling Image Recognizeの料金

Kling Image Recognizeの競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。Kling Image Recognizeがコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
リクエストごと:$0.013216
リクエストごと:$0.01652
-20%

Kling Image RecognizeのサンプルコードとAPI

Kling Image Recognizeの包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでKling Image Recognizeの潜在能力を最大限に活用できるよう支援します。

その他のモデル

O

Sora 2 Pro

毎秒:$0.24
Sora 2 Pro は、当社で最も高度かつ強力なメディア生成モデルで、音声と同期した動画を生成できます。自然言語または画像から、精細でダイナミックな動画クリップを生成します。
O

Sora 2

毎秒:$0.08
効果音に対応し、チャット形式をサポートする超高性能な動画生成モデル。
M

mj_fast_video

リクエストごと:$0.6
Midjourney video generation
X

Grok Imagine Video

毎秒:$0.04
テキストプロンプトから動画を生成し、静止画像をアニメーション化し、自然言語で既存の動画を編集できます。APIは生成される動画の再生時間、アスペクト比、解像度の設定に対応し、SDKが非同期ポーリングを自動的に処理します。
G

Veo 3.1 Pro

毎秒:$0.25
Veo 3.1-Pro は、Google の Veo 3.1 ファミリーの上位機能向けアクセス/設定を指します—より豊かなネイティブ音声、改善されたナラティブ/編集コントロール、シーン拡張ツールを追加した短尺の音声対応ビデオモデルの世代です。
G

Veo 3.1

毎秒:$0.05
Veo 3.1 は、Google の Veo テキストおよび画像→動画ファミリーに対する段階的だが重要なアップデートで、より豊かなネイティブオーディオ、より長くより制御しやすい動画出力、そしてより細かな編集やシーンレベルのコントロールを追加します。