Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/Whisper-1
O

Whisper-1

Đầu vào:$24/M
Đầu ra:$24/M
Chuyển giọng nói thành văn bản, tạo bản dịch
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API

Technical Specifications of whisper-1

SpecificationDetails
Model IDwhisper-1
Model typeSpeech-to-text and speech translation
Primary use casesAudio transcription, multilingual speech recognition, speech translation into English
Input modalityAudio
Output modalityText
Supported endpoints/v1/audio/transcriptions, /v1/audio/translations
Streaming supportNot supported for whisper-1
Prompting supportYes, with limited prompt control for formatting, punctuation, and style
Language capabilityMultilingual speech recognition and language identification
Typical integration formatFile upload via multipart form data
Common audio formatsm4a, mp3, mp4, mpeg, mpga, wav, webm
Best fit forConverting spoken content into readable text or English translations

What is whisper-1?

whisper-1 is a speech recognition model available through CometAPI for turning audio into text and creating translations from spoken audio into English. It is designed for developers who need reliable transcription for recorded speech, interviews, meetings, voice notes, subtitles, and multilingual audio workflows.

The model is well suited for applications that need automatic speech recognition across multiple languages. It can transcribe audio in the original language or translate spoken content into English, making it useful for global products, media processing pipelines, support tools, and accessibility solutions.

Because whisper-1 works on uploaded audio files and returns text output, it fits naturally into backend automation, content indexing, caption generation, search enrichment, and analytics pipelines.

Main features of whisper-1

  • Speech-to-text transcription: Converts spoken audio into written text for documents, captions, archives, and application workflows.
  • Speech translation: Creates English text translations from non-English spoken audio, simplifying multilingual content processing.
  • Multilingual recognition: Supports recognition across many languages, making it practical for international and cross-region deployments.
  • Prompt-assisted formatting: Accepts prompts that can help guide punctuation, capitalization, terminology, and transcript style.
  • File-based API workflow: Works well with uploaded audio files, making it easy to integrate into batch jobs, media systems, and backend services.
  • Language identification support: Can be used in workflows where detecting or handling multiple spoken languages is important.
  • Strong fit for content operations: Useful for subtitle generation, searchable transcript creation, customer call logging, interview processing, and voice-note conversion.

How to access and integrate whisper-1

Step 1: Sign Up for API Key

To start using whisper-1, first create an account on CometAPI and generate your API key from the dashboard. After logging in, go to the API management section, create a new key, and store it securely. This key will be required to authenticate every request you send to the whisper-1 API.

Step 2: Send Requests to whisper-1 API

Once you have your API key, you can send requests to the CometAPI endpoint using the whisper-1 model ID. Include your API key in the Authorization header and specify whisper-1 as the target model. For speech workflows, send an audio file to the appropriate transcription or translation endpoint.

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

For translation workflows, use the translation endpoint with the same model ID:

curl --request POST \
  --url https://api.cometapi.com/v1/audio/translations \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Step 3: Retrieve and Verify Results

After the request is processed, CometAPI will return the generated text result for your whisper-1 job. Review the response to confirm transcript quality, language handling, punctuation, and completeness. If needed, refine your audio preprocessing or prompting approach and resend the request to improve output consistency for your production use case.

Tính năng cho Whisper-1

Khám phá các tính năng chính của Whisper-1, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Whisper-1

Khám phá mức giá cạnh tranh cho Whisper-1, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Whisper-1 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$24/M
Đầu ra:$24/M
Đầu vào:$30/M
Đầu ra:$30/M
-20%

Mã mẫu và API cho Whisper-1

Truy cập mã mẫu toàn diện và tài nguyên API cho Whisper-1 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Whisper-1 trong các dự án của mình.

Thêm mô hình

O

gpt-realtime-1.5

Đầu vào:$3.2/M
Đầu ra:$12.8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh.
O

gpt-audio-1.5

Đầu vào:$2/M
Đầu ra:$8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.
O

TTS

Đầu vào:$12/M
Đầu ra:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Theo Yêu cầu:$0.006608
[Tổng hợp giọng nói] Mới ra mắt: chuyển văn bản thành âm thanh phát sóng trực tuyến, có chức năng xem trước ● Có thể đồng thời tạo audio_id, dùng được với bất kỳ Keling API nào.
K

Kling video-to-audio

K

Kling video-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển đổi video sang âm thanh
K

Kling text-to-audio

K

Kling text-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển văn bản thành âm thanh