Thông số kỹ thuật của `whisper-1`

Thông số	Chi tiết
ID mô hình	`whisper-1`
Loại mô hình	Chuyển giọng nói thành văn bản và dịch giọng nói
Trường hợp sử dụng chính	Chuyển biên âm thanh, nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói sang tiếng Anh
Phương thức đầu vào	Âm thanh
Phương thức đầu ra	Văn bản
Endpoint được hỗ trợ	`/v1/audio/transcriptions`, `/v1/audio/translations`
Hỗ trợ streaming	Không được hỗ trợ cho `whisper-1`
Hỗ trợ prompt	Có, với mức kiểm soát prompt hạn chế cho định dạng, dấu câu và phong cách
Khả năng ngôn ngữ	Nhận dạng giọng nói đa ngôn ngữ và nhận diện ngôn ngữ
Định dạng tích hợp điển hình	Tải tệp lên qua multipart form data
Định dạng âm thanh phổ biến	`m4a`, `mp3`, `mp4`, `mpeg`, `mpga`, `wav`, `webm`
Phù hợp nhất để	Chuyển nội dung nói thành văn bản có thể đọc hoặc bản dịch tiếng Anh

`whisper-1` là gì?

whisper-1 là một mô hình nhận dạng giọng nói có trên CometAPI để chuyển âm thanh thành văn bản và tạo bản dịch từ âm thanh nói sang tiếng Anh. Mô hình này được thiết kế cho các nhà phát triển cần chuyển biên đáng tin cậy cho lời nói được ghi âm, phỏng vấn, cuộc họp, ghi chú giọng nói, phụ đề và quy trình âm thanh đa ngôn ngữ.

Mô hình này rất phù hợp cho các ứng dụng cần nhận dạng giọng nói tự động trên nhiều ngôn ngữ. Nó có thể chuyển biên âm thanh bằng ngôn ngữ gốc hoặc dịch nội dung nói sang tiếng Anh, nhờ đó hữu ích cho sản phẩm toàn cầu, quy trình xử lý media, công cụ hỗ trợ và giải pháp trợ năng.

Vì whisper-1 hoạt động với các tệp âm thanh được tải lên và trả về đầu ra dạng văn bản, nên nó phù hợp một cách tự nhiên với tự động hóa backend, lập chỉ mục nội dung, tạo phụ đề, tăng cường khả năng tìm kiếm và các pipeline phân tích.

Tính năng chính của `whisper-1`

Chuyển giọng nói thành văn bản: Chuyển âm thanh thành văn bản phục vụ tài liệu, phụ đề, lưu trữ và quy trình ứng dụng.
Dịch giọng nói: Tạo bản dịch tiếng Anh từ âm thanh nói không phải tiếng Anh, đơn giản hóa xử lý nội dung đa ngôn ngữ.
Nhận dạng đa ngôn ngữ: Hỗ trợ nhận dạng trên nhiều ngôn ngữ, phù hợp cho triển khai quốc tế và đa khu vực.
Định dạng có hỗ trợ bằng prompt: Chấp nhận prompt giúp định hướng dấu câu, viết hoa, thuật ngữ và phong cách bản ghi.
Quy trình API dựa trên tệp: Hoạt động tốt với tệp âm thanh tải lên, dễ tích hợp vào job theo lô, hệ thống media và dịch vụ backend.
Hỗ trợ nhận diện ngôn ngữ: Có thể dùng trong quy trình cần phát hiện hoặc xử lý nhiều ngôn ngữ nói.
Rất phù hợp cho vận hành nội dung: Hữu ích cho tạo phụ đề, tạo bản ghi có thể tìm kiếm, ghi log cuộc gọi khách hàng, xử lý phỏng vấn và chuyển đổi ghi chú giọng nói.

Cách truy cập và tích hợp `whisper-1`

Bước 1: Đăng ký để lấy khóa API

Để bắt đầu sử dụng whisper-1, trước tiên hãy tạo tài khoản trên CometAPI và tạo khóa API từ bảng điều khiển. Sau khi đăng nhập, vào phần quản lý API, tạo khóa mới và lưu trữ an toàn. Khóa này sẽ được dùng để xác thực mọi yêu cầu bạn gửi tới API whisper-1.

Bước 2: Gửi yêu cầu tới API `whisper-1`

Khi đã có khóa API, bạn có thể gửi yêu cầu tới endpoint của CometAPI sử dụng ID mô hình whisper-1. Bao gồm khóa API trong header Authorization và chỉ định whisper-1 làm mô hình đích. Đối với quy trình giọng nói, gửi tệp âm thanh tới endpoint chuyển biên hoặc dịch phù hợp.

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Đối với quy trình dịch, sử dụng endpoint dịch với cùng ID mô hình:

curl --request POST \
  --url https://api.cometapi.com/v1/audio/translations \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Bước 3: Nhận và kiểm tra kết quả

Sau khi yêu cầu được xử lý, CometAPI sẽ trả về kết quả văn bản được tạo cho job whisper-1 của bạn. Hãy xem lại phản hồi để xác nhận chất lượng bản ghi, cách xử lý ngôn ngữ, dấu câu và mức độ đầy đủ. Nếu cần, tinh chỉnh tiền xử lý âm thanh hoặc cách dùng prompt và gửi lại yêu cầu để cải thiện tính nhất quán của đầu ra cho trường hợp sử dụng trong môi trường sản xuất.

Thông số kỹ thuật của `whisper-1`

Thông số	Chi tiết
ID mô hình	`whisper-1`
Loại mô hình	Chuyển giọng nói thành văn bản và dịch giọng nói
Trường hợp sử dụng chính	Chuyển biên âm thanh, nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói sang tiếng Anh
Phương thức đầu vào	Âm thanh
Phương thức đầu ra	Văn bản
Endpoint được hỗ trợ	`/v1/audio/transcriptions`, `/v1/audio/translations`
Hỗ trợ streaming	Không được hỗ trợ cho `whisper-1`
Hỗ trợ prompt	Có, với mức kiểm soát prompt hạn chế cho định dạng, dấu câu và phong cách
Khả năng ngôn ngữ	Nhận dạng giọng nói đa ngôn ngữ và nhận diện ngôn ngữ
Định dạng tích hợp điển hình	Tải tệp lên qua multipart form data
Định dạng âm thanh phổ biến	`m4a`, `mp3`, `mp4`, `mpeg`, `mpga`, `wav`, `webm`
Phù hợp nhất để	Chuyển nội dung nói thành văn bản có thể đọc hoặc bản dịch tiếng Anh

`whisper-1` là gì?

Tính năng chính của `whisper-1`

Chuyển giọng nói thành văn bản: Chuyển âm thanh thành văn bản phục vụ tài liệu, phụ đề, lưu trữ và quy trình ứng dụng.
Dịch giọng nói: Tạo bản dịch tiếng Anh từ âm thanh nói không phải tiếng Anh, đơn giản hóa xử lý nội dung đa ngôn ngữ.
Nhận dạng đa ngôn ngữ: Hỗ trợ nhận dạng trên nhiều ngôn ngữ, phù hợp cho triển khai quốc tế và đa khu vực.
Định dạng có hỗ trợ bằng prompt: Chấp nhận prompt giúp định hướng dấu câu, viết hoa, thuật ngữ và phong cách bản ghi.
Quy trình API dựa trên tệp: Hoạt động tốt với tệp âm thanh tải lên, dễ tích hợp vào job theo lô, hệ thống media và dịch vụ backend.
Hỗ trợ nhận diện ngôn ngữ: Có thể dùng trong quy trình cần phát hiện hoặc xử lý nhiều ngôn ngữ nói.
Rất phù hợp cho vận hành nội dung: Hữu ích cho tạo phụ đề, tạo bản ghi có thể tìm kiếm, ghi log cuộc gọi khách hàng, xử lý phỏng vấn và chuyển đổi ghi chú giọng nói.

Cách truy cập và tích hợp `whisper-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API `whisper-1`

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Đối với quy trình dịch, sử dụng endpoint dịch với cùng ID mô hình:

curl --request POST \
  --url https://api.cometapi.com/v1/audio/translations \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Whisper-1

Thông số kỹ thuật của `whisper-1`

`whisper-1` là gì?

Tính năng chính của `whisper-1`

Cách truy cập và tích hợp `whisper-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API `whisper-1`

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho Whisper-1

Mã mẫu và API cho Whisper-1

Whisper-1

Thông số kỹ thuật của `whisper-1`

`whisper-1` là gì?

Tính năng chính của `whisper-1`

Cách truy cập và tích hợp `whisper-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API `whisper-1`

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho Whisper-1

Mã mẫu và API cho Whisper-1

Whisper-1

Thông số kỹ thuật của whisper-1

whisper-1 là gì?

Tính năng chính của whisper-1

Cách truy cập và tích hợp whisper-1

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API whisper-1

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho Whisper-1

Mã mẫu và API cho Whisper-1

Whisper-1

Thông số kỹ thuật của whisper-1

whisper-1 là gì?

Tính năng chính của whisper-1

Cách truy cập và tích hợp whisper-1

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API whisper-1

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho Whisper-1

Mã mẫu và API cho Whisper-1

Thông số kỹ thuật của `whisper-1`

`whisper-1` là gì?

Tính năng chính của `whisper-1`

Cách truy cập và tích hợp `whisper-1`

Bước 2: Gửi yêu cầu tới API `whisper-1`

Thông số kỹ thuật của `whisper-1`

`whisper-1` là gì?

Tính năng chính của `whisper-1`

Cách truy cập và tích hợp `whisper-1`

Bước 2: Gửi yêu cầu tới API `whisper-1`