Thông số kỹ thuật của `tts-1`

Thông số	Chi tiết
ID mô hình	`tts-1`
Nhà cung cấp	OpenAI
Loại mô hình	Mô hình chuyển văn bản thành giọng nói (TTS) để chuyển đổi văn bản đầu vào thành âm thanh lời nói.
Tối ưu hóa chính	Tối ưu cho tốc độ và độ trễ thấp, đặc biệt cho đầu ra giọng nói thời gian thực hoặc gần thời gian thực.
Đặc tính chất lượng	Độ trễ thấp hơn `tts-1-hd`, nhưng chất lượng âm thanh thấp hơn biến thể HD.
Phương thức đầu vào	Chỉ văn bản.
Phương thức đầu ra	Chỉ âm thanh.
Điểm cuối API	Điểm cuối tạo giọng nói của OpenAI Audio API: `/v1/audio/speech`.
Độ dài đầu vào tối đa	Tối đa 4096 ký tự mỗi yêu cầu.
Định dạng phản hồi được hỗ trợ	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`.
Điều khiển tốc độ	Hỗ trợ từ `0.25` đến `4.0`, mặc định là `1.0`.
Tùy chọn giọng cho `tts-1`	`alloy`, `ash`, `coral`, `echo`, `fable`, `onyx`, `nova`, `sage`, `shimmer`.
Hỗ trợ phát trực tuyến	Speech API hỗ trợ xuất âm thanh phát trực tuyến, nhưng phát trực tuyến SSE và điều khiển giọng nói dựa trên chỉ dẫn không được hỗ trợ cho `tts-1`.
Định giá	OpenAI niêm yết `tts-1` ở mức $15 cho mỗi 1M tokens cho tạo giọng nói.

`tts-1` là gì?

tts-1 là mô hình chuyển văn bản thành giọng nói của OpenAI, được thiết kế để biến văn bản thành âm thanh lời nói tự nhiên. Mô hình này được định vị là lựa chọn nhanh hơn và có độ trễ thấp hơn trong số các mô hình TTS cổ điển của OpenAI, phù hợp cho các ứng dụng cần tổng hợp giọng nói nhanh hơn là độ trung thực cao nhất.

Các nhà phát triển thường sử dụng tts-1 thông qua điểm cuối tạo giọng nói của Audio API khi muốn chuyển đổi văn bản ứng dụng, nhắc lệnh, thông báo, lời thuyết minh hoặc phản hồi của trợ lý thành tệp âm thanh có thể phát. Tài liệu của OpenAI mô tả mô hình này được tối ưu cho các trường hợp sử dụng TTS thời gian thực.

Trên thực tế, tts-1 phù hợp với các trải nghiệm giọng nói nhẹ, hệ thống phản hồi nhanh, nguyên mẫu tương tác và các sản phẩm coi trọng độ phản hồi hơn chất lượng giọng nói cao cấp. Nếu chất lượng tối đa là ưu tiên, OpenAI khuyến nghị dùng tts-1-hd; còn với các trường hợp biểu đạt mới hơn, có thể cân nhắc các mô hình TTS mới hơn.

Tính năng chính của `tts-1`

Tạo giọng nói độ trễ thấp: tts-1 được tối ưu hóa đặc biệt cho tốc độ, hữu ích cho các ứng dụng cần đầu ra giọng nói nhanh.
Chuyển văn bản thành giọng nói tự nhiên: Mô hình chuyển văn bản thuần thành âm thanh lời nói phù hợp cho thuyết minh, phản hồi của trợ lý và giao diện giọng nói.
Nhiều giọng tích hợp sẵn: tts-1 hỗ trợ một tập giọng tích hợp sẵn, bao gồm alloy, ash, coral, echo, fable, onyx, nova, sage và shimmer.
Định dạng âm thanh đầu ra linh hoạt: Nhà phát triển có thể yêu cầu âm thanh tạo ra ở các định dạng phổ biến như MP3, WAV, FLAC, AAC, Opus và PCM tùy theo nhu cầu phát hoặc xử lý.
Tốc độ phát có thể điều chỉnh: API cho phép điều khiển tốc độ từ 0.25x đến 4.0x, hỗ trợ thuyết minh chậm hơn hoặc phát nhanh hơn khi cần.
Tích hợp đơn giản dựa trên API: tts-1 có sẵn qua API tạo giọng nói tiêu chuẩn, giúp tích hợp vào quy trình web, di động hoặc backend trở nên đơn giản.
Phù hợp cho ứng dụng hướng thời gian thực: OpenAI xác định rõ tts-1 là mô hình cho các kịch bản TTS thời gian thực, phù hợp cho trợ lý, thông báo và hệ thống tương tác nhanh.
Lựa chọn mô hình ưu tiên đánh đổi: So với tts-1-hd, mô hình này ưu tiên tốc độ tạo nhanh hơn thay vì độ trung thực cao, mang đến cho nhà phát triển lựa chọn rõ ràng giữa độ trễ và chất lượng.

Cách truy cập và tích hợp `tts-1`

Bước 1: Đăng ký để lấy khóa API

Để truy cập API của tts-1, trước tiên hãy đăng ký trên CometAPI và tạo khóa API từ bảng điều khiển. Sau khi đăng nhập, tạo khóa mới, sao chép an toàn và lưu vào biến môi trường của ứng dụng. Bạn sẽ dùng khóa này để xác thực mọi yêu cầu tới API của tts-1.

Bước 2: Gửi yêu cầu tới API của `tts-1`

Khi đã có khóa API, hãy gửi yêu cầu POST tới điểm cuối CometAPI dành cho tts-1 kèm payload đầu vào. Bao gồm khóa API trong header Authorization và chỉ định tts-1 làm model. Một yêu cầu điển hình gồm văn bản đầu vào cùng các tham số TTS như giọng và định dạng phản hồi.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Bước 3: Nhận và kiểm tra kết quả

Sau khi gửi yêu cầu, API của tts-1 sẽ trả về nội dung âm thanh đã tạo nếu cuộc gọi thành công. Lưu tệp hoặc luồng nhận được, kiểm tra âm thanh phát đúng, và xác nhận giọng, tốc độ, định dạng đã chọn phù hợp với yêu cầu ứng dụng. Nếu cần, thử lại với các tham số điều chỉnh để cải thiện đầu ra cuối cùng.

Thông số kỹ thuật của `tts-1`

Thông số	Chi tiết
ID mô hình	`tts-1`
Nhà cung cấp	OpenAI
Loại mô hình	Mô hình chuyển văn bản thành giọng nói (TTS) để chuyển đổi văn bản đầu vào thành âm thanh lời nói.
Tối ưu hóa chính	Tối ưu cho tốc độ và độ trễ thấp, đặc biệt cho đầu ra giọng nói thời gian thực hoặc gần thời gian thực.
Đặc tính chất lượng	Độ trễ thấp hơn `tts-1-hd`, nhưng chất lượng âm thanh thấp hơn biến thể HD.
Phương thức đầu vào	Chỉ văn bản.
Phương thức đầu ra	Chỉ âm thanh.
Điểm cuối API	Điểm cuối tạo giọng nói của OpenAI Audio API: `/v1/audio/speech`.
Độ dài đầu vào tối đa	Tối đa 4096 ký tự mỗi yêu cầu.
Định dạng phản hồi được hỗ trợ	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`.
Điều khiển tốc độ	Hỗ trợ từ `0.25` đến `4.0`, mặc định là `1.0`.
Tùy chọn giọng cho `tts-1`	`alloy`, `ash`, `coral`, `echo`, `fable`, `onyx`, `nova`, `sage`, `shimmer`.
Hỗ trợ phát trực tuyến	Speech API hỗ trợ xuất âm thanh phát trực tuyến, nhưng phát trực tuyến SSE và điều khiển giọng nói dựa trên chỉ dẫn không được hỗ trợ cho `tts-1`.
Định giá	OpenAI niêm yết `tts-1` ở mức $15 cho mỗi 1M tokens cho tạo giọng nói.

`tts-1` là gì?

Tính năng chính của `tts-1`

Tạo giọng nói độ trễ thấp: tts-1 được tối ưu hóa đặc biệt cho tốc độ, hữu ích cho các ứng dụng cần đầu ra giọng nói nhanh.
Chuyển văn bản thành giọng nói tự nhiên: Mô hình chuyển văn bản thuần thành âm thanh lời nói phù hợp cho thuyết minh, phản hồi của trợ lý và giao diện giọng nói.
Nhiều giọng tích hợp sẵn: tts-1 hỗ trợ một tập giọng tích hợp sẵn, bao gồm alloy, ash, coral, echo, fable, onyx, nova, sage và shimmer.
Định dạng âm thanh đầu ra linh hoạt: Nhà phát triển có thể yêu cầu âm thanh tạo ra ở các định dạng phổ biến như MP3, WAV, FLAC, AAC, Opus và PCM tùy theo nhu cầu phát hoặc xử lý.
Tốc độ phát có thể điều chỉnh: API cho phép điều khiển tốc độ từ 0.25x đến 4.0x, hỗ trợ thuyết minh chậm hơn hoặc phát nhanh hơn khi cần.
Tích hợp đơn giản dựa trên API: tts-1 có sẵn qua API tạo giọng nói tiêu chuẩn, giúp tích hợp vào quy trình web, di động hoặc backend trở nên đơn giản.
Phù hợp cho ứng dụng hướng thời gian thực: OpenAI xác định rõ tts-1 là mô hình cho các kịch bản TTS thời gian thực, phù hợp cho trợ lý, thông báo và hệ thống tương tác nhanh.
Lựa chọn mô hình ưu tiên đánh đổi: So với tts-1-hd, mô hình này ưu tiên tốc độ tạo nhanh hơn thay vì độ trung thực cao, mang đến cho nhà phát triển lựa chọn rõ ràng giữa độ trễ và chất lượng.

Cách truy cập và tích hợp `tts-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API của `tts-1`

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

tts-1

Thông số kỹ thuật của `tts-1`

`tts-1` là gì?

Tính năng chính của `tts-1`

Cách truy cập và tích hợp `tts-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API của `tts-1`

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho tts-1

Mã mẫu và API cho tts-1

tts-1

Thông số kỹ thuật của `tts-1`

`tts-1` là gì?

Tính năng chính của `tts-1`

Cách truy cập và tích hợp `tts-1`

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API của `tts-1`

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho tts-1

Mã mẫu và API cho tts-1

tts-1

Thông số kỹ thuật của tts-1

tts-1 là gì?

Tính năng chính của tts-1

Cách truy cập và tích hợp tts-1

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API của tts-1

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho tts-1

Mã mẫu và API cho tts-1

tts-1

Thông số kỹ thuật của tts-1

tts-1 là gì?

Tính năng chính của tts-1

Cách truy cập và tích hợp tts-1

Bước 1: Đăng ký để lấy khóa API

Bước 2: Gửi yêu cầu tới API của tts-1

Bước 3: Nhận và kiểm tra kết quả

Giá cả cho tts-1

Mã mẫu và API cho tts-1

Thông số kỹ thuật của `tts-1`

`tts-1` là gì?

Tính năng chính của `tts-1`

Cách truy cập và tích hợp `tts-1`

Bước 2: Gửi yêu cầu tới API của `tts-1`

Thông số kỹ thuật của `tts-1`

`tts-1` là gì?

Tính năng chính của `tts-1`

Cách truy cập và tích hợp `tts-1`

Bước 2: Gửi yêu cầu tới API của `tts-1`