โมเดลสนับสนุนองค์กรบล็อก
500+ AI Model API ทั้งหมดในหนึ่ง API เพียงแค่ใน CometAPI
API โมเดล
นักพัฒนา
เริ่มต้นอย่างรวดเร็วเอกสารประกอบแดชบอร์ด API
ทรัพยากร
โมเดล AIบล็อกองค์กรบันทึกการเปลี่ยนแปลงเกี่ยวกับ
2025 CometAPI สงวนลิขสิทธิ์ทั้งหมดนโยบายความเป็นส่วนตัวข้อกำหนดการให้บริการ
Home/Models/Kling/Kling Image Recognize
K

Kling Image Recognize

ต่อคำขอ:$0.013216
API สำหรับการรู้จำองค์ประกอบภาพของ Keling ใช้สำหรับการสร้างวิดีโอโดยอ้างอิงจากหลายภาพ และรองรับฟีเจอร์การตัดต่อวิดีโอแบบมัลติโมดัล ● สามารถจดจำตัวแบบ ใบหน้า เสื้อผ้า เป็นต้น และสามารถรับผลลัพธ์ได้ 4 ชุดต่อคำขอ (หากมี)
ใหม่
ใช้งานเชิงพาณิชย์
ภาพรวม
คุณสมบัติ
ราคา
API

Technical Specifications of kling-image-recognize

SpecificationDetails
Model IDkling-image-recognize
CategoryImage recognition / multimodal analysis
Primary CapabilityRecognizes image elements for downstream creative workflows, including multi-image reference video generation and multimodal video editing
Input TypeImage input
Output TypeStructured recognition results
Recognition ScopeSubjects, faces, clothing, and other visual elements
Result VolumeCan return up to 4 sets of results per request, if available
Use CasesVisual asset analysis, reference preparation for video generation, content understanding for editing pipelines, subject and apparel recognition

What is kling-image-recognize?

kling-image-recognize is a Keling image element recognition API designed to analyze visual content and identify important elements within an image. It is especially useful in workflows that require multi-image reference video generation or multimodal video editing, where understanding the contents of source images is an important preprocessing step.

The model can recognize a range of visual attributes such as subjects, faces, clothing, and related image components. Depending on the input, it can provide up to 4 sets of recognition results in a single request, helping developers capture multiple possible detections or interpretations when available.

Main features of kling-image-recognize

  • Image element recognition: Detects and identifies important visual elements contained in an input image.
  • Subject analysis: Recognizes primary subjects that can be used in downstream media generation or editing workflows.
  • Face recognition support: Extracts face-related recognition results when faces are present in the image.
  • Clothing identification: Detects apparel and clothing-related elements to support more detailed visual understanding.
  • Multi-image reference workflow support: Useful for preparing and analyzing image references used in video generation pipelines.
  • Multimodal video editing compatibility: Helps power editing scenarios where image content needs to be understood before transformation or composition.
  • Multiple result sets per request: Can obtain up to 4 sets of results per request, if available, enabling richer recognition output.
  • Integration-friendly API usage: Suitable for developers building automated media analysis and creative application pipelines.

How to access and integrate kling-image-recognize

Step 1: Sign Up for API Key

To get started, sign up on the CometAPI platform and generate your API key from the dashboard. After obtaining your key, store it securely and use it to authenticate every request to the kling-image-recognize API.

Step 2: Send Requests to kling-image-recognize API

Once you have your API key, send requests to the CometAPI endpoint using kling-image-recognize as the model ID. Include your authentication headers and provide the required image input payload based on your application workflow.

curl --request POST \
  --url https://api.cometapi.com/v1/responses \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "kling-image-recognize",
    "input": [
      {
        "role": "user",
        "content": [
          {
            "type": "input_text",
            "text": "Recognize the main visual elements in this image."
          },
          {
            "type": "input_image",
            "image_url": "YOUR_IMAGE_URL"
          }
        ]
      }
    ]
  }'

Step 3: Retrieve and Verify Results

After submission, the API returns recognition results generated by kling-image-recognize. Parse the response in your application, verify the detected subjects or attributes, and store the returned data for use in video generation, editing, or other downstream automation tasks.

คุณสมบัติสำหรับ Kling Image Recognize

สำรวจคุณสมบัติหลักของ Kling Image Recognize ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ Kling Image Recognize

สำรวจราคาที่แข่งขันได้สำหรับ Kling Image Recognize ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า Kling Image Recognize สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
ต่อคำขอ:$0.013216
ต่อคำขอ:$0.01652
-20%

โค้ดตัวอย่างและ API สำหรับ Kling Image Recognize

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ Kling Image Recognize เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ Kling Image Recognize ในโครงการของคุณ

โมเดลเพิ่มเติม

O

Sora 2 Pro

ต่อวินาที:$0.24
Sora 2 Pro เป็นโมเดลสร้างสื่อที่ล้ำหน้าและทรงพลังที่สุดของเรา ที่สามารถสร้างวิดีโอพร้อมเสียงที่ซิงโครไนซ์ได้ สามารถสร้างคลิปวิดีโอที่ละเอียดและไดนามิกจากภาษาธรรมชาติหรือภาพได้
O

Sora 2

ต่อวินาที:$0.08
โมเดลสร้างวิดีโอทรงพลังเป็นพิเศษ พร้อมเอฟเฟ็กต์เสียง และรองรับรูปแบบแชต
M

mj_fast_video

ต่อคำขอ:$0.6
Midjourney video generation
X

Grok Imagine Video

ต่อวินาที:$0.04
สร้างวิดีโอจากพรอมต์ข้อความ แปลงภาพนิ่งให้เคลื่อนไหว หรือแก้ไขวิดีโอที่มีอยู่ด้วยภาษาธรรมชาติ API รองรับการปรับแต่งระยะเวลา อัตราส่วนภาพ และความละเอียดสำหรับวิดีโอที่สร้างขึ้น — โดย SDK จะจัดการการโพลลิงแบบอะซิงโครนัสให้อัตโนมัติ
G

Veo 3.1 Pro

ต่อวินาที:$0.25
Veo 3.1-Pro หมายถึงการเข้าถึง/การกำหนดค่าที่มีขีดความสามารถสูงของตระกูล Veo 3.1 ของ Google — เจเนอเรชันของโมเดลวิดีโอรูปแบบสั้นที่รองรับเสียง ซึ่งเพิ่มเสียงแบบเนทีฟที่มีความสมบูรณ์ยิ่งขึ้น การควบคุมการเล่าเรื่อง/การตัดต่อที่ได้รับการปรับปรุง และเครื่องมือสำหรับการขยายฉาก.
G

Veo 3.1

ต่อวินาที:$0.05
Veo 3.1 ของ Google เป็นการอัปเดตแบบค่อยเป็นค่อยไปแต่สำคัญสำหรับตระกูล Veo ประเภทข้อความและภาพ→วิดีโอ โดยเพิ่มเสียงเนทีฟที่สมบูรณ์ยิ่งขึ้น เอาต์พุตวิดีโอที่ยาวขึ้นและควบคุมได้มากขึ้น และการตัดต่อที่ละเอียดขึ้นรวมถึงการควบคุมในระดับฉาก.