ModellerDestekKurumsalBlog
500+ Yapay Zeka Modeli API'si, Hepsi Tek Bir API'de. Sadece CometAPI'de
Modeller API
Geliştirici
Hızlı BaşlangıçDokümantasyonAPI Kontrol Paneli
Kaynaklar
Yapay Zeka ModelleriBlogKurumsalDeğişiklik GünlüğüHakkında
2025 CometAPI. Tüm hakları saklıdır.Gizlilik PolitikasıHizmet Şartları
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Giriş:$2/M
Çıktı:$8/M
Chat Completions ile ses girişi ve ses çıkışı için en iyi ses modeli.
Yeni
Ticari kullanım
Genel Bakış
Özellikler
Fiyatlandırma
API

gpt-audio-1.5'in teknik özellikleri

Öğegpt-audio-1.5 (kamuya açık özellikler)
Model ailesiGPT Audio ailesi (ses-öncelikli varyant)
Girdi türleriMetin, ses (konuşma girişi)
Çıktı türleriMetin, ses (konuşma çıkışı), yapılandırılmış çıktılar (işlev çağrıları desteklenir)
Bağlam penceresi128,000 token.
Maksimum çıktı token'ı16,384 (ilgili gpt-audio listelemesinde belgelendi).
Performans katmanıDaha yüksek zekâ; Orta hız (dengeli).
Gecikme profiliSesli etkileşimler için optimize edilmiştir (uç noktaya bağlı olarak orta/düşük gecikme).
KullanılabilirlikChat Completions API (ses girişi/çıkışı) ve platform playground'ları; gerçek zamanlı/ses yüzeyleri genelinde entegredir.
Güvenlik / kullanım notlarıSesli içerik için koruma mekanizmaları; üretim ses ajanlarında model çıktısını olağan güvenlik ve doğrulama süreçleriyle ele alın.

Not: gpt-realtime-1.5, daha düşük gecikme ve gerçek zamanlı oturumlar için optimize edilmiş, yakından ilişkili gerçek zamanlı ses/ses-öncelikli bir varyanttır; aşağıda karşılaştırın.


gpt-audio-1.5 nedir?

gpt-audio-1.5, Chat Completions ve ilgili ses destekli API'ler üzerinden hem konuşma girişi hem de konuşma çıkışını destekleyen, ses yetenekli bir GPT modelidir. Kalite ve hızı dengeleyerek, ses ajanları ve konuşma-öncelikli deneyimler geliştirmek için genel erişime açık başlıca ses modeli olarak konumlandırılmıştır.


Başlıca özellikler

  1. Konuşma girişi / konuşma çıkışı desteği: Konuşulan girdiyi işler ve doğal ses akışları için sesli veya metinsel yanıtlar döndürür.
  2. Ses iş akışları için geniş bağlam: Çok büyük bağlamı (belgelendiği üzere 128k token) destekler; çok turlu, uzun sohbet geçmişi veya büyük çok modlu oturumlar sağlar.
  3. Akış ve Chat Completions uyumluluğu: Akış halinde sesli yanıtlar ve işlev çağrısı yapısal çıktılarıyla Chat Completions içinde çalışır.
  4. Dengeli performans/gecikme: Orta verimde yüksek kaliteli sesli yanıtlar sunacak şekilde ayarlanmıştır—kalitenin önemli olduğu sohbet botları ve sesli asistanlar için uygundur.
  5. Ekosistem ve entegrasyonlar: Platformun playground'larında desteklenir ve resmi gerçek zamanlı/ses uç noktaları ile iş ortağı entegrasyonları genelinde kullanılabilir (Azure/Microsoft Foundry notları benzer ses modellerine atıfta bulunur).

gpt-audio-1.5 ve ilgili ses modelleri

Özellikgpt-audio-1.5gpt-realtime-1.5
Birincil odakChat Completions ve konuşmaya dayalı akışlar için yüksek kaliteli ses girişi/çıkışı.Canlı ses ajanları ve akış senaryoları için daha düşük gecikmeli gerçek zamanlı S2S (konuştan konuşmaya).
Bağlam penceresi128k token.32k token (gerçek zamanlı varyantta belgelendi).
Maksimum çıktı token'ı16,384 (belgelendi).Genellikle daha kısa gerçek zamanlı yanıtlara göre yapılandırılır (belgelerde daha küçük maksimum token listelenir).
En iyi kullanım alanıSohbet botları, tam sohbet semantiği + ses gereken ses özellikli asistanlar.Canlı ses ajanları, kiosklar ve düşük gecikmeli konuşmalı arayüzler.

Temsilî kullanım örnekleri

  • Müşteri desteği ve dahili yardım masaları için konuşmaya dayalı ses ajanları.
  • Uygulamalara, cihazlara ve kiosklara gömülü ses özellikli asistanlar.
  • Eller serbest iş akışları (dikte, sesli arama, erişilebilirlik).
  • Chat Completions aracılığıyla sesi metin/görsellerle harmanlayan çok modlu deneyimler.

Sınırlamalar ve operasyonel hususlar

  • İnsan QA için birebir ikame değildir: Üretim akışlarında ses çıktıları ve müteakip eylemleri her zaman insan incelemesiyle doğrulayın.
  • Kaynak planlaması: Büyük bağlam ve ses G/Ç'si işlem yükünü ve gecikmeyi artırabilir—uzun oturumlar için akış/bölütleme stratejileri tasarlayın.
  • Güvenlik ve politika kısıtları: Ses çıktıları ikna edici güç taşıyabilir; ölçekli dağıtımlarda platform güvenlik yönergeleri ve korumalarına uyun.
  • GPT Audio 1.5 API'ye nasıl erişilir

Adım 1: API Anahtarı için Kaydolun

cometapi.com adresine giriş yapın. Henüz kullanıcımız değilseniz lütfen önce kayıt olun. CometAPI konsoluna giriş yapın. Arayüz için erişim kimlik bilgisi olan API anahtarını alın. Kişisel merkezde API token bölümünde “Add Token”a tıklayın, token anahtarını alın: sk-xxxxx ve gönderin.

CometAPI anahtarı

Adım 2: GPT Audio 1.5 API'sine İstek Gönderin

API isteğini göndermek için “gpt-audio-1.5” uç noktasını seçin ve istek gövdesini ayarlayın. İstek yöntemi ve istek gövdesi web sitemizdeki API belgelerinden alınır. Kolaylık için web sitemiz Apifox testi de sağlar. Hesabınızdaki gerçek CometAPI anahtarınızla <YOUR_API_KEY> öğesini değiştirin. temel URL Chat Completions

Sorunuzu veya isteğinizi content alanına ekleyin—modelin yanıtlayacağı içerik budur. Oluşturulan yanıtı almak için API yanıtını işleyin.

Adım 3: Sonuçları Alın ve Doğrulayın

Oluşturulan yanıtı almak için API yanıtını işleyin. İşlemenin ardından API, görev durumunu ve çıktı verilerini döndürür.

SSS

gpt-audio-1.5 API için resmi bağlam ve çıktı belirteci sınırları nelerdir?

gpt-audio-1.5, 128.000 belirteçlik bir bağlam penceresini destekler ve belgelerde yaklaşık 16.384 maksimum çıktı belirteci yapılandırması listelenir; tam sınırları geliştirici belgelerinde uç noktaya göre doğrulayın. :contentReference[oaicite:44]{index=44}

gpt-audio-1.5 API'de hem konuşmadan metne hem de metinden konuşmaya işlemlerini gerçekleştirebilir mi?

Evet — ses girdilerini kabul eder ve Chat Completions/audio uç noktaları aracılığıyla ses çıktıları veya metinsel yanıtlar döndürebilir. :contentReference[oaicite:45]{index=45}

Bir sesli ajan için gpt-audio-1.5 yerine ne zaman gpt-realtime-1.5 kullanmalıyım?

Daha büyük bağlam gerektiğinde Chat Completions akışlarında daha yüksek kaliteli ses için gpt-audio-1.5'i seçin; düşük gecikmeli, canlı akışlı ses etkileşimleri için gpt-realtime-1.5'i seçin. :contentReference[oaicite:46]{index=46}

gpt-audio-1.5, araç entegrasyonları için akış ve işlev çağırmayı destekliyor mu?

Evet — model, harici araçları ve iş akışlarını entegre etmek için ses yanıtlarının akışını ve yapılandırılmış çıktıları/işlev çağırmayı destekler. :contentReference[oaicite:47]{index=47}

gpt-audio-1.5, üretimde müşteri destekli sesli ajanlar için uygun mu?

Evet — sesli asistanlar ve konuşma ajanları için tasarlanmıştır, ancak üretim dağıtımından önce insan incelemesi/QA, günlükleme ve güvenlik kontrolleri eklemelisiniz. :contentReference[oaicite:48]{index=48}

gpt-audio-1.5'i dağıtırken dikkate alınması gereken başlıca sınırlamalar nelerdir?

Temel hususlar; büyük bağlamlı ses oturumları için hesaplama/gecikme dengeleri, ses içeriği için güvenlik önlemleri ve alanınızda ASR/TTS çıktılarının doğrulanması gerekliliğidir. :contentReference[oaicite:49]{index=49}

gpt-audio-1.5 için Özellikler

gpt-audio-1.5'in performansı ve kullanılabilirliği artırmak için tasarlanmış temel özelliklerini keşfedin. Bu yeteneklerin projelerinize nasıl fayda sağlayabileceğini ve kullanıcı deneyimini nasıl geliştirebileceğini öğrenin.

gpt-audio-1.5 için Fiyatlandırma

gpt-audio-1.5 için çeşitli bütçelere ve kullanım ihtiyaçlarına uygun rekabetçi fiyatlandırmayı keşfedin. Esnek planlarımız sadece kullandığınız kadar ödeme yapmanızı sağlar ve ihtiyaçlarınız büyüdükçe kolayca ölçeklendirme imkanı sunar. gpt-audio-1.5'in maliyetleri yönetilebilir tutarken projelerinizi nasıl geliştirebileceğini keşfedin.
Comet Fiyatı (USD / M Tokens)Resmi Fiyat (USD / M Tokens)İndirim
Giriş:$2/M
Çıktı:$8/M
Giriş:$2.5/M
Çıktı:$10/M
-20%

gpt-audio-1.5 için örnek kod ve API

gpt-audio-1.5 için kapsamlı örnek kodlara ve API kaynaklarına erişerek entegrasyon sürecinizi kolaylaştırın. Ayrıntılı dokümantasyonumuz adım adım rehberlik sağlayarak projelerinizde gpt-audio-1.5'in tüm potansiyelinden yararlanmanıza yardımcı olur.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Daha Fazla Model

O

gpt-realtime-1.5

Giriş:$3.2/M
Çıktı:$12.8/M
Ses girişi ve ses çıkışı için en iyi ses modeli.
O

Whisper-1

Giriş:$24/M
Çıktı:$24/M
请提供需要处理的音频或文本,并说明: - 源语言 - 目标语言(默认土耳其语) - 是否需要保留原格式(如 HTML/Markdown/JSON) - 术语或风格要求(如正式/口语) 我将先进行语音转写(如为音频),再在严格保留结构的前提下进行精准翻译。
O

TTS

Giriş:$12/M
Çıktı:$12/M
OpenAI Metinden Konuşmaya
K

Kling TTS

İstek Başına:$0.006608
[Konuşma Sentezi] Yeni kullanıma sunuldu: önizleme özelliğine sahip çevrimiçi metinden yayın kalitesinde ses ● Aynı anda audio_id oluşturabilir, herhangi bir Keling API'siyle kullanılabilir
K

Kling video-to-audio

K

Kling video-to-audio

İstek Başına:$0.03304
Kling videodan sese
K

Kling text-to-audio

K

Kling text-to-audio

İstek Başına:$0.03304
Kling text-to-audio