What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 admite una ventana de contexto de 128,000 tokens y la documentación indica una configuración máxima de tokens de salida en torno a 16,384; verifica los límites exactos por endpoint en la documentación para desarrolladores. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Sí — acepta entradas de audio y puede devolver salidas de audio o respuestas de texto a través de los endpoints de Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Elige gpt-audio-1.5 para audio de mayor calidad en flujos de Chat Completions donde se requiera un contexto más amplio; elige gpt-realtime-1.5 para interacciones de voz en transmisión en vivo y de baja latencia. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Sí — el modelo admite respuestas de audio en streaming y salidas estructuradas/llamadas a funciones para integrar herramientas y flujos de trabajo externos. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Sí — está diseñado para asistentes de voz y agentes conversacionales, pero deberías añadir revisión/QA humana, registro y controles de seguridad antes del despliegue en producción. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Las consideraciones clave son los equilibrios entre cómputo/latencia para sesiones de audio con gran contexto, las salvaguardas de seguridad para el contenido de voz y la necesidad de validar las salidas de ASR/TTS en tu dominio. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Entrada:$2/M

Salida:$8/M

Publicado:Feb 24, 2026

Nuevo

Uso comercial

Especificaciones técnicas de gpt-audio-1.5

Elemento	gpt-audio-1.5 (especificaciones públicas)
Familia del modelo	Familia GPT Audio (variante orientada al audio)
Tipos de entrada	Texto, audio (voz de entrada)
Tipos de salida	Texto, audio (voz de salida), salidas estructuradas (se admiten llamadas a funciones)
Ventana de contexto	128,000 tokens.
Máximo de tokens de salida	16,384 (documentado en el listado relacionado de gpt-audio).
Nivel de rendimiento	Mayor inteligencia; velocidad media (equilibrada).
Perfil de latencia	Optimizado para interacciones de voz (latencia media/baja según el endpoint).
Disponibilidad	API de Chat Completions (entrada/salida de audio) y entornos de prueba de la plataforma; integrada en interfaces de tiempo real/voz.
Notas de seguridad/uso	Medidas de protección para contenido de voz; trate las salidas del modelo con las prácticas habituales de seguridad y verificación para agentes de voz en producción.

Nota: gpt-realtime-1.5 es una variante estrechamente relacionada, de audio/voz en tiempo real y orientada a la voz, optimizada para menor latencia y sesiones en tiempo real; consulte la comparación a continuación.

¿Qué es gpt-audio-1.5?

gpt-audio-1.5 es un modelo GPT con capacidades de audio que admite tanto entrada de voz como salida de voz a través de Chat Completions y APIs relacionadas con capacidad de audio. Se posiciona como el principal modelo de audio de disponibilidad general para crear agentes de voz y experiencias con prioridad en la voz, equilibrando calidad y velocidad.

Características principales

Compatibilidad con entrada de voz/salida de voz: Gestiona entrada hablada y devuelve respuestas habladas o textuales para flujos de voz naturales.
Contexto amplio para flujos de audio: Admite un contexto muy grande (128k tokens documentados), lo que permite conversaciones de múltiples turnos, historiales largos o sesiones multimodales de gran tamaño.
Compatibilidad con streaming y Chat Completions: Funciona dentro de Chat Completions con respuestas de audio en streaming y salidas estructuradas mediante llamadas a funciones.
Rendimiento/latencia equilibrados: Ajustado para ofrecer respuestas de audio de alta calidad con rendimiento medio—adecuado para chatbots y asistentes de voz donde la calidad es importante.
Ecosistema e integraciones: Compatible con los entornos de prueba de la plataforma y disponible en los endpoints oficiales de tiempo real/voz y en integraciones de socios (las notas de Azure/Microsoft Foundry hacen referencia a modelos de audio similares).

gpt-audio-1.5 frente a modelos de audio relacionados

Propiedad	gpt-audio-1.5	gpt-realtime-1.5
Enfoque principal	Audio de alta calidad de entrada/salida para Chat Completions y flujos conversacionales.	S2S en tiempo real (voz a voz) con menor latencia para agentes de voz en vivo y escenarios de streaming.
Ventana de contexto	128k tokens.	32k tokens (variante en tiempo real documentada).
Máximo de tokens de salida	16,384 (documentado).	Normalmente configurado para respuestas en tiempo real más cortas (la documentación indica un máximo menor).
Mejor uso	Chatbots, asistentes habilitados para voz donde se requieren semánticas completas de chat + audio.	Agentes de voz en vivo, quioscos y interfaces conversacionales de baja latencia.

Casos de uso representativos

Agentes de voz conversacionales para soporte al cliente y mesas de ayuda internas.
Asistentes habilitados para voz incrustados en apps, dispositivos y quioscos.
Flujos manos libres (dictado, búsqueda por voz, accesibilidad).
Experiencias multimodales que mezclan audio con texto/imágenes a través de Chat Completions.

Limitaciones y consideraciones operativas

No es un sustituto directo de la QA humana: Siempre valide las salidas de voz y las acciones posteriores con revisión humana en flujos de producción.
Planificación de recursos: Un contexto grande y la E/S de audio pueden aumentar el cómputo y la latencia—diseñe estrategias de streaming/segmentación para sesiones largas.
Restricciones de seguridad y políticas: Las salidas de voz pueden tener poder persuasivo; siga las directrices de seguridad de la plataforma y las salvaguardas al desplegar a escala.
Cómo acceder a la API de GPT Audio 1.5

Paso 1: Regístrese para obtener la clave de API

Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su CometAPI console. Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave de token: sk-xxxxx y envíe.

cometapi-key

Paso 2: Enviar solicitudes a la API de GPT Audio 1.5

Seleccione el endpoint “gpt-audio-1.5” para enviar la solicitud de API y establezca el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para su comodidad. Reemplace <YOUR_API_KEY> por su clave real de CometAPI de su cuenta. La URL base es Chat Completions

Inserte su pregunta o solicitud en el campo content—esto es a lo que el modelo responderá. Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recuperar y verificar los resultados

Procese la respuesta de la API para obtener la respuesta generada. Después del procesamiento, la API responde con el estado de la tarea y los datos de salida.

Preguntas frecuentes

Precios para gpt-audio-1.5

Explora precios competitivos para gpt-audio-1.5, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo gpt-audio-1.5 puede mejorar tus proyectos mientras mantienes los costos manejables.

Precio de Comet (USD / M Tokens)	Precio Oficial (USD / M Tokens)	Descuento
Entrada:$2/M Salida:$8/M	Entrada:$2.5/M Salida:$10/M	-20%

Código de ejemplo y API para gpt-audio-1.5

Accede a código de muestra completo y recursos de API para gpt-audio-1.5 para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de gpt-audio-1.5 en tus proyectos.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"