Thông số kỹ thuật của `kling-image-recognize`

Thông số	Chi tiết
Mã mô hình	`kling-image-recognize`
Danh mục	Nhận dạng hình ảnh / phân tích đa phương thức
Khả năng chính	Nhận diện các phần tử hình ảnh phục vụ các quy trình sáng tạo phía hạ nguồn, bao gồm tạo video tham chiếu từ nhiều ảnh và chỉnh sửa video đa phương thức
Loại đầu vào	Đầu vào hình ảnh
Loại đầu ra	Kết quả nhận dạng có cấu trúc
Phạm vi nhận dạng	Chủ thể, khuôn mặt, trang phục và các yếu tố thị giác khác
Số lượng kết quả	Có thể trả về tối đa 4 bộ kết quả cho mỗi yêu cầu, nếu có
Trường hợp sử dụng	Phân tích tài nguyên hình ảnh, chuẩn bị tham chiếu cho việc tạo video, hiểu nội dung cho các pipeline chỉnh sửa, nhận dạng chủ thể và trang phục

`kling-image-recognize` là gì?

kling-image-recognize là một API nhận dạng phần tử hình ảnh của Keling, được thiết kế để phân tích nội dung thị giác và xác định các thành phần quan trọng trong một hình ảnh. Công cụ này đặc biệt hữu ích trong các quy trình cần tạo video tham chiếu từ nhiều ảnh hoặc chỉnh sửa video đa phương thức, nơi việc hiểu nội dung của ảnh nguồn là một bước tiền xử lý quan trọng.

Mô hình có thể nhận diện nhiều thuộc tính thị giác như chủ thể, khuôn mặt, trang phục và các thành phần hình ảnh liên quan. Tùy theo đầu vào, nó có thể cung cấp tối đa 4 bộ kết quả nhận dạng trong một yêu cầu, giúp nhà phát triển thu được nhiều phát hiện hoặc cách diễn giải khả dĩ khi có.

Tính năng chính của `kling-image-recognize`

Nhận dạng phần tử hình ảnh: Phát hiện và xác định các yếu tố thị giác quan trọng có trong ảnh đầu vào.
Phân tích chủ thể: Nhận diện các chủ thể chính có thể dùng trong các quy trình tạo/chỉnh sửa nội dung ở công đoạn sau.
Hỗ trợ nhận dạng khuôn mặt: Trích xuất kết quả nhận dạng liên quan đến khuôn mặt khi ảnh có khuôn mặt.
Nhận diện trang phục: Phát hiện các yếu tố liên quan đến trang phục nhằm hỗ trợ hiểu nội dung thị giác chi tiết hơn.
Hỗ trợ quy trình tham chiếu đa ảnh: Hữu ích cho việc chuẩn bị và phân tích ảnh tham chiếu dùng trong pipeline tạo video.
Tương thích với chỉnh sửa video đa phương thức: Hỗ trợ các kịch bản chỉnh sửa nơi cần hiểu nội dung ảnh trước khi biến đổi hoặc tổng hợp.
Nhiều bộ kết quả cho mỗi yêu cầu: Có thể nhận tối đa 4 bộ kết quả cho mỗi yêu cầu (nếu có), cho đầu ra nhận dạng phong phú hơn.
API thân thiện cho tích hợp: Phù hợp với nhà phát triển xây dựng pipeline phân tích nội dung và ứng dụng sáng tạo tự động.

Cách truy cập và tích hợp `kling-image-recognize`

Bước 1: Đăng ký để lấy khóa API

Để bắt đầu, đăng ký trên nền tảng CometAPI và tạo khóa API từ bảng điều khiển. Sau khi nhận được khóa, hãy lưu trữ an toàn và sử dụng nó để xác thực mọi yêu cầu gửi tới API kling-image-recognize.

Bước 2: Gửi yêu cầu tới API `kling-image-recognize`

Khi đã có khóa API, hãy gửi yêu cầu tới endpoint của CometAPI với kling-image-recognize làm mã mô hình. Bao gồm các header xác thực và cung cấp payload đầu vào hình ảnh theo quy trình làm việc của ứng dụng.

curl --request POST \
  --url https://api.cometapi.com/v1/responses \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "kling-image-recognize",
    "input": [
      {
        "role": "user",
        "content": [
          {
            "type": "input_text",
            "text": "Recognize the main visual elements in this image."
          },
          {
            "type": "input_image",
            "image_url": "YOUR_IMAGE_URL"
          }
        ]
      }
    ]
  }'

Bước 3: Truy xuất và xác minh kết quả

Sau khi gửi, API sẽ trả về các kết quả nhận dạng do kling-image-recognize tạo ra. Hãy phân tích phản hồi trong ứng dụng, xác minh các chủ thể hoặc thuộc tính được phát hiện và lưu trữ dữ liệu trả về để sử dụng cho việc tạo video, chỉnh sửa hoặc các tác vụ tự động ở bước tiếp theo.

Thông số kỹ thuật của `kling-image-recognize`

Thông số	Chi tiết
Mã mô hình	`kling-image-recognize`
Danh mục	Nhận dạng hình ảnh / phân tích đa phương thức
Khả năng chính	Nhận diện các phần tử hình ảnh phục vụ các quy trình sáng tạo phía hạ nguồn, bao gồm tạo video tham chiếu từ nhiều ảnh và chỉnh sửa video đa phương thức
Loại đầu vào	Đầu vào hình ảnh
Loại đầu ra	Kết quả nhận dạng có cấu trúc
Phạm vi nhận dạng	Chủ thể, khuôn mặt, trang phục và các yếu tố thị giác khác
Số lượng kết quả	Có thể trả về tối đa 4 bộ kết quả cho mỗi yêu cầu, nếu có
Trường hợp sử dụng	Phân tích tài nguyên hình ảnh, chuẩn bị tham chiếu cho việc tạo video, hiểu nội dung cho các pipeline chỉnh sửa, nhận dạng chủ thể và trang phục