ModelDukunganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Sumber Daya
Model AIBlogPerusahaanCatatan PerubahanTentang
2025 CometAPI. Semua hak dilindungi undang-undang.Kebijakan PrivasiSyarat dan Ketentuan Layanan
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Masukan:$2/M
Keluaran:$8/M
Model suara terbaik untuk input audio dan output audio dengan Chat Completions.
Baru
Penggunaan komersial
Ikhtisar
Fitur
Harga
API

Spesifikasi teknis gpt-audio-1.5

Itemgpt-audio-1.5 (spesifikasi publik)
Keluarga modelKeluarga GPT Audio (varian audio-first)
Jenis inputTeks, audio (ucapan masuk)
Jenis outputTeks, audio (ucapan keluar), output terstruktur (panggilan fungsi didukung)
Jendela konteks128.000 token.
Token output maks16.384 (didokumentasikan dalam daftar terkait gpt-audio).
Tingkat performaKecerdasan lebih tinggi; Kecepatan sedang (seimbang).
Profil latensiDioptimalkan untuk interaksi suara (latensi sedang/rendah tergantung endpoint).
KetersediaanChat Completions API (audio masuk/keluar) dan playground platform; terintegrasi di berbagai surface realtime/suara.
Catatan keamanan / penggunaanGuardrail untuk konten suara; perlakukan output model dengan prosedur keamanan dan verifikasi seperti biasa untuk agen suara produksi.

Catatan: gpt-realtime-1.5 adalah varian audio/suara realtime-first yang sangat terkait, dioptimalkan untuk latensi lebih rendah dan sesi realtime; lihat perbandingan di bawah.


Apa itu gpt-audio-1.5?

gpt-audio-1.5 adalah model GPT berkemampuan audio yang mendukung input ucapan dan output ucapan melalui Chat Completions serta API terkait yang mendukung audio. Model ini diposisikan sebagai model audio utama yang tersedia secara umum untuk membangun agen suara dan pengalaman yang mengutamakan ucapan sambil menyeimbangkan kualitas dan kecepatan.


Fitur utama

  1. Dukungan speech-in / speech-out: Menangani input lisan dan mengembalikan respons lisan atau tekstual untuk alur suara yang alami.
  2. Konteks besar untuk alur kerja audio: Mendukung konteks yang sangat besar (didokumentasikan 128k token), memungkinkan banyak putaran percakapan, riwayat percakapan panjang, atau sesi multimodal besar.
  3. Kompatibilitas streaming & Chat Completions: Bekerja di dalam Chat Completions dengan respons audio streaming dan output terstruktur berbasis function call.
  4. Performa/latensi seimbang: Disetel untuk memberikan respons audio berkualitas tinggi pada throughput sedang—cocok untuk chatbot dan asisten suara saat kualitas menjadi prioritas.
  5. Ekosistem & integrasi: Didukung di playground platform dan tersedia di berbagai endpoint realtime/suara resmi serta integrasi mitra (catatan Azure/Microsoft Foundry merujuk pada model audio serupa).

gpt-audio-1.5 vs model audio terkait

Propertygpt-audio-1.5gpt-realtime-1.5
Fokus utamaAudio masuk/keluar berkualitas tinggi untuk Chat Completions dan alur percakapan.S2S (speech-to-speech) realtime dengan latensi lebih rendah untuk agen suara langsung dan skenario streaming.
Jendela konteks128k token.32k token (varian realtime yang didokumentasikan).
Token output maks16.384 (didokumentasikan).Biasanya dikonfigurasi untuk respons realtime yang lebih pendek (dokumen mencantumkan token maks yang lebih kecil).
Penggunaan terbaikChatbot, asisten dengan dukungan suara saat semantik chat penuh + audio diperlukan.Agen suara langsung, kios, dan antarmuka percakapan berlatensi rendah.

Kasus penggunaan representatif

  • Agen suara percakapan untuk dukungan pelanggan dan help desk internal.
  • Asisten berkemampuan suara yang disematkan dalam aplikasi, perangkat, dan kios.
  • Alur kerja hands-free (dikte, pencarian suara, aksesibilitas).
  • Pengalaman multimodal yang menggabungkan audio dengan teks / gambar melalui Chat Completions.

Keterbatasan & pertimbangan operasional

  • Bukan pengganti langsung untuk QA manusia: Selalu validasi output ucapan dan tindakan lanjutan dengan tinjauan manusia dalam alur produksi.
  • Perencanaan sumber daya: Konteks besar dan I/O audio dapat meningkatkan komputasi dan latensi—rancang strategi streaming/segmentasi untuk sesi panjang.
  • Batasan keamanan & kebijakan: Output suara dapat memiliki daya persuasi; ikuti pedoman keamanan platform dan guardrail saat menerapkannya dalam skala besar.
  • Cara mengakses API GPT Audio 1.5

Langkah 1: Daftar untuk mendapatkan API Key

Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console Anda. Dapatkan kredensial akses API key untuk antarmuka tersebut. Klik “Add Token” pada API token di pusat pribadi, dapatkan token key: sk-xxxxx lalu kirimkan.

cometapi-key

Langkah 2: Kirim Permintaan ke API GPT Audio 1.5

Pilih endpoint “gpt-audio-1.5” untuk mengirim permintaan API dan atur request body. Metode permintaan dan request body diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. Base URL adalah Chat Completions

Masukkan pertanyaan atau permintaan Anda ke dalam field content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Langkah 3: Ambil dan Verifikasi Hasil

Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API akan merespons dengan status tugas dan data output.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

Apa batas token konteks dan output resmi untuk API gpt-audio-1.5?

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Dapatkah gpt-audio-1.5 menangani speech-to-text dan text-to-speech dalam API?

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Kapan saya harus menggunakan gpt-audio-1.5 dibandingkan gpt-realtime-1.5 untuk agen suara?

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Apakah gpt-audio-1.5 mendukung streaming dan function calling untuk integrasi alat?

Is gpt-audio-1.5 suitable for production customer support voice agents?

Apakah gpt-audio-1.5 cocok untuk agen suara dukungan pelanggan di lingkungan produksi?

What are the main limitations to consider when deploying gpt-audio-1.5?

Apa keterbatasan utama yang perlu dipertimbangkan saat menerapkan gpt-audio-1.5?

Fitur untuk gpt-audio-1.5

Jelajahi fitur-fitur utama dari gpt-audio-1.5, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk gpt-audio-1.5

Jelajahi harga kompetitif untuk gpt-audio-1.5, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana gpt-audio-1.5 dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.
Harga Comet (USD / M Tokens)Harga Resmi (USD / M Tokens)Diskon
Masukan:$2/M
Keluaran:$8/M
Masukan:$2.5/M
Keluaran:$10/M
-20%

Kode contoh dan API untuk gpt-audio-1.5

Akses kode sampel komprehensif dan sumber daya API untuk gpt-audio-1.5 guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh gpt-audio-1.5 dalam proyek Anda.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Model Lainnya

O

gpt-realtime-1.5

Masukan:$3.2/M
Keluaran:$12.8/M
Model suara terbaik untuk input audio, output audio.
O

Whisper-1

Masukan:$24/M
Keluaran:$24/M
Ucapan ke teks, menghasilkan terjemahan
O

TTS

Masukan:$12/M
Keluaran:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Per Permintaan:$0.006608
[Sintesis Ucapan] Baru diluncurkan: konversi teks ke audio siaran secara online, dengan fungsi pratinjau ● Dapat sekaligus menghasilkan audio_id yang dapat digunakan dengan API Keling apa pun.
K

Kling video-to-audio

K

Kling video-to-audio

Per Permintaan:$0.03304
Kling video-ke-audio
K

Kling text-to-audio

K

Kling text-to-audio

Per Permintaan:$0.03304
Kling teks ke audio