Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Đầu vào:$2/M
Đầu ra:$8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.
Mới
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API

Thông số kỹ thuật của gpt-audio-1.5

Mụcgpt-audio-1.5 (thông số công khai)
Họ mô hìnhHọ GPT Audio (biến thể ưu tiên âm thanh)
Loại đầu vàoVăn bản, âm thanh (giọng nói đầu vào)
Loại đầu raVăn bản, âm thanh (giọng nói đầu ra), đầu ra có cấu trúc (hỗ trợ function call)
Cửa sổ ngữ cảnh128.000 token.
Số token đầu ra tối đa16.384 (được ghi nhận trong danh sách gpt-audio liên quan).
Cấp hiệu năngTrí tuệ cao hơn; tốc độ trung bình (cân bằng).
Hồ sơ độ trễTối ưu cho tương tác giọng nói (độ trễ trung bình/thấp tùy theo endpoint).
Khả dụngAPI Chat Completions (âm thanh vào/ra) và các playground của nền tảng; được tích hợp trên các bề mặt realtime/voice.
Ghi chú an toàn / sử dụngCó guardrail cho nội dung giọng nói; xử lý đầu ra mô hình với các biện pháp an toàn và xác minh thông thường dành cho voice agent trong môi trường production.

Lưu ý: gpt-realtime-1.5 là một biến thể âm thanh/giọng nói realtime có liên quan chặt chẽ, được tối ưu cho độ trễ thấp hơn và các phiên realtime; xem so sánh bên dưới.


gpt-audio-1.5 là gì?

gpt-audio-1.5 là một mô hình GPT có khả năng xử lý âm thanh, hỗ trợ cả đầu vào giọng nói và đầu ra giọng nói thông qua Chat Completions và các API liên quan có hỗ trợ âm thanh. Mô hình này được định vị là mô hình âm thanh khả dụng rộng rãi chính để xây dựng voice agent và các trải nghiệm ưu tiên giọng nói, đồng thời cân bằng giữa chất lượng và tốc độ.


Tính năng chính

  1. Hỗ trợ giọng nói vào / giọng nói ra: Xử lý đầu vào lời nói và trả về phản hồi bằng giọng nói hoặc văn bản cho các luồng thoại tự nhiên.
  2. Ngữ cảnh lớn cho quy trình âm thanh: Hỗ trợ ngữ cảnh rất lớn (được ghi nhận là 128k token), cho phép lịch sử hội thoại nhiều lượt, dài hoặc các phiên đa phương thức lớn.
  3. Tương thích với streaming & Chat Completions: Hoạt động trong Chat Completions với phản hồi âm thanh streaming và đầu ra có cấu trúc dạng function call.
  4. Hiệu năng/độ trễ cân bằng: Được tinh chỉnh để cung cấp phản hồi âm thanh chất lượng cao ở mức thông lượng trung bình—phù hợp với chatbot và trợ lý giọng nói nơi chất lượng là yếu tố quan trọng.
  5. Hệ sinh thái & tích hợp: Được hỗ trợ trong các playground của nền tảng và khả dụng trên các endpoint realtime/voice chính thức cùng các tích hợp đối tác (ghi chú Azure/Microsoft Foundry có tham chiếu đến các mô hình âm thanh tương tự).

gpt-audio-1.5 so với các mô hình âm thanh liên quan

Thuộc tínhgpt-audio-1.5gpt-realtime-1.5
Trọng tâm chínhÂm thanh vào/ra chất lượng cao cho Chat Completions và các luồng hội thoại.S2S realtime (speech-to-speech) với độ trễ thấp hơn cho voice agent trực tiếp và các kịch bản streaming.
Cửa sổ ngữ cảnh128k token.32k token (được ghi nhận cho biến thể realtime).
Số token đầu ra tối đa16.384 (được ghi nhận).Thường được cấu hình cho phản hồi realtime ngắn hơn (tài liệu ghi số token tối đa nhỏ hơn).
Phù hợp nhất choChatbot, trợ lý có hỗ trợ giọng nói nơi cần đầy đủ ngữ nghĩa chat + âm thanh.Voice agent trực tiếp, kiosk và giao diện hội thoại độ trễ thấp.

Các trường hợp sử dụng tiêu biểu

  • Voice agent hội thoại cho hỗ trợ khách hàng và bộ phận trợ giúp nội bộ.
  • Trợ lý hỗ trợ giọng nói được nhúng trong ứng dụng, thiết bị và kiosk.
  • Quy trình rảnh tay (ghi chính tả, tìm kiếm bằng giọng nói, trợ năng).
  • Trải nghiệm đa phương thức kết hợp âm thanh với văn bản / hình ảnh qua Chat Completions.

Hạn chế & các lưu ý vận hành

  • Không phải là giải pháp thay thế trực tiếp cho QA của con người: Luôn xác thực đầu ra giọng nói và các hành động phía sau bằng đánh giá của con người trong các luồng production.
  • Lập kế hoạch tài nguyên: Ngữ cảnh lớn và I/O âm thanh có thể làm tăng mức tính toán và độ trễ—hãy thiết kế chiến lược streaming/phân đoạn cho các phiên dài.
  • Ràng buộc về an toàn & chính sách: Đầu ra giọng nói có thể mang tính thuyết phục cao; hãy tuân thủ hướng dẫn an toàn và guardrail của nền tảng khi triển khai ở quy mô lớn.
  • Cách truy cập API GPT Audio 1.5

Bước 1: Đăng ký API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy thông tin xác thực truy cập là API key của giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi đi.

cometapi-key

Bước 2: Gửi yêu cầu đến API GPT Audio 1.5

Chọn endpoint “gpt-audio-1.5” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm tra Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Chat Completions

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

What are the official context and output token limits for gpt-audio-1.5 API?

Giới hạn ngữ cảnh chính thức của gpt-audio-1.5 là 128.000 token và tài liệu ghi nhận cấu hình token đầu ra tối đa khoảng 16.384; hãy xác minh giới hạn chính xác cho từng endpoint trong tài liệu dành cho nhà phát triển. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Có — nó chấp nhận đầu vào âm thanh và có thể trả về đầu ra âm thanh hoặc phản hồi văn bản thông qua các endpoint Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Hãy chọn gpt-audio-1.5 để có chất lượng âm thanh cao hơn trong các luồng Chat Completions khi cần ngữ cảnh lớn; hãy chọn gpt-realtime-1.5 cho các tương tác giọng nói phát trực tiếp với độ trễ thấp. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Có — mô hình hỗ trợ phản hồi âm thanh theo luồng và đầu ra có cấu trúc/gọi hàm để tích hợp các công cụ và quy trình làm việc bên ngoài. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Có — nó được thiết kế cho trợ lý giọng nói và tác nhân hội thoại, nhưng bạn nên bổ sung bước đánh giá/QA của con người, ghi nhật ký và các biện pháp kiểm soát an toàn trước khi triển khai sản xuất. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Các điểm cần cân nhắc chính là sự đánh đổi giữa năng lực tính toán/độ trễ đối với các phiên âm thanh ngữ cảnh lớn, các hàng rào an toàn cho nội dung giọng nói và nhu cầu xác thực đầu ra ASR/TTS trong miền của bạn. :contentReference[oaicite:49]{index=49}

Tính năng cho gpt-audio-1.5

Khám phá các tính năng chính của gpt-audio-1.5, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho gpt-audio-1.5

Khám phá mức giá cạnh tranh cho gpt-audio-1.5, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách gpt-audio-1.5 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$2/M
Đầu ra:$8/M
Đầu vào:$2.5/M
Đầu ra:$10/M
-20%

Mã mẫu và API cho gpt-audio-1.5

Truy cập mã mẫu toàn diện và tài nguyên API cho gpt-audio-1.5 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của gpt-audio-1.5 trong các dự án của mình.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Thêm mô hình

O

gpt-realtime-1.5

Đầu vào:$3.2/M
Đầu ra:$12.8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh.
O

Whisper-1

Đầu vào:$24/M
Đầu ra:$24/M
Chuyển giọng nói thành văn bản, tạo bản dịch
O

TTS

Đầu vào:$12/M
Đầu ra:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Theo Yêu cầu:$0.006608
[Tổng hợp giọng nói] Mới ra mắt: chuyển văn bản thành âm thanh phát sóng trực tuyến, có chức năng xem trước ● Có thể đồng thời tạo audio_id, dùng được với bất kỳ Keling API nào.
K

Kling video-to-audio

K

Kling video-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển đổi video sang âm thanh
K

Kling text-to-audio

K

Kling text-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển văn bản thành âm thanh