GPT-5.6 Series is now live on CometAPI →

O

GPT-4o mini Audio Preview

Giriş:$60/M

Çıktı:$240/M

Yayınlandı:Oct 1, 2025

GPT-4o mini Audio Preview, konuşmaya dayalı ses uygulamaları geliştirmek için kompakt bir çok modlu modeldir. Metnin yanı sıra konuşma girişi ve çıkışını destekler; konuşma tanıma, konuşma sentezi ve yapılandırılmış eylemler için araç/işlev çağırma ile metin-ses karışık diyaloglarını mümkün kılar. Tipik kullanım alanları arasında sesli asistanlar, özetlemeli akışlı transkripsiyon, IVR ve çağrı botu iş akışları ve ses özellikli uygulama içi yardımcılar bulunur. Teknik öne çıkanlar arasında ses G/Ç, akışlı yanıtlar, talimat izleme ve sohbet ile araç API'leri üzerinden entegrasyon yer alır.

Ticari kullanım

`gpt-4o-mini-audio-preview` Teknik Özellikleri

Özellik	Ayrıntılar
Model Kimliği	`gpt-4o-mini-audio-preview`
Model Türü	Kompakt çok modlu ses önizleme modeli
Temel Modaliteler	Metin girdi/çıktısı, konuşma girişi, konuşma çıkışı
Birincil Arayüz Kalıbı	Çok modlu mesaj içeriğiyle sohbet tabanlı etkileşimler
Ses Yetenekleri	Konuşma tanıma, konuşma sentezi, karma metin-ses konuşması
Akış Desteği	Evet, gerçek zamanlı konuşma akışları için uygun
Araç / İşlev Çağırma	Yapılandırılmış eylemler ve iş akışı entegrasyonu için desteklenir
En Uygun Olduğu Alanlar	Sesli asistanlar, akış sırasında transkripsiyon, IVR, çağrı-bot iş akışları, uygulama içi ses yardımcıları
Etkileşim Tarzı	Talimat izleyen, çok modlu diyalog turlarına sahip konuşma modeli
Entegrasyon Kalıbı	CometAPI üzerinden `gpt-4o-mini-audio-preview` model kimliği kullanılarak API tabanlı erişim

`gpt-4o-mini-audio-preview` nedir?

gpt-4o-mini-audio-preview, konuşmaya dayalı ses deneyimleri oluşturmak isteyen geliştiriciler için tasarlanmış kompakt bir çok modlu modeldir. Standart metin etkileşimlerine ek olarak hem konuşma girişi hem de konuşma çıktısını destekler; bu da kullanıcıların doğal biçimde konuştuğu ve sözlü ya da metin tabanlı yanıt beklediği uygulamalar için oldukça uygundur.

Bu model, bir ürünün otomatik yazıya döküm (transkripsiyon), doğal dil anlama ve konuşma sentezini tek bir konuşma döngüsünde birleştirmesi gerektiğinde özellikle faydalıdır. Yazıya döküm, akıl yürütme ve yanıt üretmeyi ayrı bileşenler olarak ele almak yerine, gpt-4o-mini-audio-preview karma metin-ses diyalogları için birleştirilmiş bir iş akışı sunar.

Ayrıca araç ve işlev çağırmayı da desteklediği için model yalnızca konuşmakla kalmaz. Hesap bilgisi sorgulama, bir müşteri destek isteğini yönlendirme, kayıtları güncelleme ya da daha büyük bir uygulama içinde iş mantığını çağırma gibi yapılandırılmış eylemleri tetikleyebilir. Bu da onu sanal asistanlar, telefon destek ajanları, etkileşimli sesli yanıt sistemleri, özetlemeli transkripsiyon hatları ve ses özellikli ürün asistanları gibi üretim ortamındaki ses sistemleri için güçlü bir seçenek haline getirir.

`gpt-4o-mini-audio-preview`'ün başlıca özellikleri

Konuşma girişi desteği: Uygulamaların konuşmalı istekleri doğal biçimde işlemesine olanak tanımak için ses tabanlı kullanıcı etkileşimlerini kabul eder.
Konuşma çıktısı üretimi: Asistanlar, çağrı otomasyonu ve sözlü yönlendirme deneyimleri için sesli yanıtlar üretir.
Karma metin-ses konuşmaları: Bazı turların konuşma, bazılarının metin olduğu iş akışlarını destekler; hibrit arayüzler için kullanışlıdır.
Kompakt çok modlu tasarım: Duyarlı uygulamalar için uygun, daha hafif bir model ayak izi sunar.
Akışlı yanıtlar: Canlı asistanlar ve akış sırasında transkripsiyon gibi düşük gecikmeli, gerçek zamanlı deneyimleri destekler.
Araç/işlev çağırma: Açık uçlu konuşmanın ötesindeki görevler için yapılandırılmış araçları veya iş işlevlerini çağırmasını sağlar.
Talimat izleme: Yanıtları ürün davranışı ve iş akışı gereksinimleriyle uyumlu tutmak için uygulama düzeyindeki yönergeleri izler.
Transkripsiyon ve özetleme iş akışları: Konuşmalı etkileşimleri yapılandırılmış metin çıktıları, özetler veya aşağı akış eylemlerine dönüştürmek için kullanışlıdır.
IVR ve çağrı-bot kullanımlarına hazır: Konuşmalı etkileşim ve görev yönlendirmesinin merkezde olduğu müşteri destek ve telekom senaryolarına uyar.
Uygulama içi sesli yardım: Ses özellikli yardım, işe alıştırma veya yönlendirilmiş eylemler gereken yazılım ürünlerine gömülebilir.

`gpt-4o-mini-audio-preview`'e nasıl erişilir ve entegre edilir

Adım 1: API anahtarı için kaydolun

gpt-4o-mini-audio-preview’i kullanmaya başlamak için önce CometAPI’de bir hesap oluşturun ve kontrol panelinden API anahtarınızı oluşturun. Bu anahtar, her isteği kimlik doğrulamak ve uygulamanızı modele güvenli şekilde bağlamak için kullanılır.

Adım 2: `gpt-4o-mini-audio-preview` API’sine istek gönderin

Ses girdi/çıktı desteği olan CometAPI’nin OpenAI uyumlu uç noktasını kullanın.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Adım 3: Sonuçları alın ve doğrulayın

API, base64 ile kodlanmış ses çıktısını içeren ek bir audio alanıyla birlikte standart bir sohbet tamamlama yanıtı döndürür. Üretimde kullanmadan önce ses verisinin kodunu çözün ve kalitesini doğrulayın.

GPT-4o mini Audio Preview için Fiyatlandırma

GPT-4o mini Audio Preview için çeşitli bütçelere ve kullanım ihtiyaçlarına uygun rekabetçi fiyatlandırmayı keşfedin. Esnek planlarımız sadece kullandığınız kadar ödeme yapmanızı sağlar ve ihtiyaçlarınız büyüdükçe kolayca ölçeklendirme imkanı sunar. GPT-4o mini Audio Preview'in maliyetleri yönetilebilir tutarken projelerinizi nasıl geliştirebileceğini keşfedin.

Comet Fiyatı (USD / M Tokens)	Resmi Fiyat (USD / M Tokens)	İndirim
Giriş:$60/M Çıktı:$240/M	Giriş:$75/M Çıktı:$300/M	-20%

GPT-4o mini Audio Preview için örnek kod ve API

GPT-4o mini Audio Preview için kapsamlı örnek kodlara ve API kaynaklarına erişerek entegrasyon sürecinizi kolaylaştırın. Ayrıntılı dokümantasyonumuz adım adım rehberlik sağlayarak projelerinizde GPT-4o mini Audio Preview'in tüm potansiyelinden yararlanmanıza yardımcı olur.

GPT-4o mini Audio Preview Sürümleri

GPT-4o mini Audio Preview'nın birden fazla anlık görüntüye sahip olmasının nedeni; güncellemeler sonrası çıktı varyasyonları nedeniyle tutarlılık için eski anlık görüntülere ihtiyaç duyulması, geliştiricilere uyum ve geçiş için bir geçiş dönemi sağlanması ve kullanıcı deneyimini optimize etmek için küresel veya bölgesel uç noktalara karşılık gelen farklı anlık görüntüler içerebilir. Sürümler arasındaki detaylı farklar için lütfen resmi belgelere başvurun.

version
gpt-4o-mini-audio-preview
gpt-4o-mini-audio-preview-2024-12-17