โมเดลสนับสนุนองค์กรบล็อก
500+ AI Model API ทั้งหมดในหนึ่ง API เพียงแค่ใน CometAPI
API โมเดล
นักพัฒนา
เริ่มต้นอย่างรวดเร็วเอกสารประกอบแดชบอร์ด API
ทรัพยากร
โมเดล AIบล็อกองค์กรบันทึกการเปลี่ยนแปลงเกี่ยวกับ
2025 CometAPI สงวนลิขสิทธิ์ทั้งหมดนโยบายความเป็นส่วนตัวข้อกำหนดการให้บริการ
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

อินพุต:$2/M
เอาต์พุต:$8/M
โมเดลเสียงที่ดีที่สุดสำหรับอินพุตเสียงและเอาต์พุตเสียงด้วย Chat Completions.
ใหม่
ใช้งานเชิงพาณิชย์
ภาพรวม
คุณสมบัติ
ราคา
API

ข้อกำหนดทาง技术ของ gpt-audio-1.5

รายการgpt-audio-1.5 (ข้อกำหนดสาธารณะ)
ตระกูลโมเดลตระกูล GPT Audio (รุ่นเน้นเสียงเป็นหลัก)
ประเภทอินพุตข้อความ, เสียง (พูดเข้า)
ประเภทเอาต์พุตข้อความ, เสียง (พูดออก), เอาต์พุตแบบมีโครงสร้าง (รองรับการเรียกฟังก์ชัน)
หน้าต่างบริบท128,000 โทเค็น
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีเอกสารระบุในรายการ gpt-audio ที่เกี่ยวข้อง)
ระดับประสิทธิภาพความฉลาดสูงขึ้น; ความเร็วปานกลาง (สมดุล)
โปรไฟล์เวลาแฝงปรับให้เหมาะกับการโต้ตอบด้วยเสียง (เวลาแฝงระดับกลาง/ต่ำขึ้นกับปลายทาง)
ความพร้อมใช้งานChat Completions API (เสียงเข้า/ออก) และ playgrounds ของแพลตฟอร์ม; ผนวกรวมทั่วทั้งพื้นผิวแบบเรียลไทม์/เสียง
บันทึกด้านความปลอดภัย/การใช้งานมีมาตรการป้องกันสำหรับเนื้อหาเสียง; ควรจัดการผลลัพธ์ของโมเดลด้วยมาตรฐานความปลอดภัยและการตรวจสอบตามปกติสำหรับเอเจนต์เสียงในงานจริง

หมายเหตุ: gpt-realtime-1.5 เป็นรุ่นที่เกี่ยวข้องซึ่งเน้นเสียง/เสียงเป็นหลักแบบเรียลไทม์ ปรับให้เหมาะสำหรับเวลาแฝงต่ำและเซสชันแบบเรียลไทม์; ดูการเปรียบเทียบด้านล่าง


gpt-audio-1.5 คืออะไร?

gpt-audio-1.5 เป็นโมเดล GPT ที่รองรับเสียง สามารถรับทั้งคำพูดเป็นอินพุตและให้เอาต์พุตทั้งเสียงและข้อความผ่าน Chat Completions และ API ที่รองรับเสียงที่เกี่ยวข้อง วางตำแหน่งเป็นโมเดลเสียงหลักที่เปิดให้ใช้งานทั่วไปสำหรับการสร้างเอเจนต์เสียงและประสบการณ์ที่เน้นเสียงเป็นอันดับแรก โดยคงสมดุลระหว่างคุณภาพและความเร็ว


คุณสมบัติหลัก

  1. รองรับเสียงเข้า/เสียงออก: จัดการอินพุตแบบคำพูดและส่งคืนคำตอบเป็นเสียงหรือข้อความเพื่อให้ได้การสนทนาด้วยเสียงอย่างเป็นธรรมชาติ
  2. บริบทขนาดใหญ่สำหรับเวิร์กโฟลว์เสียง: รองรับบริบทขนาดใหญ่มาก (ระบุไว้ 128k โทเค็น) เพื่อรองรับประวัติการสนทนาหลายรอบที่ยาวหรือเซสชันมัลติโหมดขนาดใหญ่
  3. ความเข้ากันได้กับการสตรีมและ Chat Completions: ทำงานภายใน Chat Completions พร้อมการตอบกลับเสียงแบบสตรีมและเอาต์พุตแบบมีโครงสร้างผ่านการเรียกฟังก์ชัน
  4. ประสิทธิภาพ/เวลาแฝงแบบสมดุล: ปรับแต่งเพื่อให้เสียงตอบกลับคุณภาพสูงที่อัตราการส่งผ่านปานกลาง—เหมาะสำหรับแชตบอตและผู้ช่วยเสียงที่ให้ความสำคัญกับคุณภาพ
  5. ระบบนิเวศและการผสานรวม: รองรับใน playgrounds ของแพลตฟอร์มและมีให้ใช้งานในปลายทางแบบเรียลไทม์/เสียงอย่างเป็นทางการและการผสานรวมกับพาร์ทเนอร์ (หมายเหตุของ Azure/Microsoft Foundry อ้างอิงโมเดลเสียงที่คล้ายกัน)

gpt-audio-1.5 เทียบกับโมเดลเสียงที่เกี่ยวข้อง

คุณสมบัติgpt-audio-1.5gpt-realtime-1.5
โฟกัสหลักเสียงเข้า/ออกคุณภาพสูงสำหรับ Chat Completions และโฟลว์การสนทนาRealtime S2S (speech-to-speech) ด้วยเวลาแฝงที่ต่ำกว่า สำหรับเอเจนต์เสียงแบบสดและสถานการณ์สตรีมมิง
หน้าต่างบริบท128k โทเค็น32k โทเค็น (รุ่นเรียลไทม์ระบุไว้)
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีเอกสารระบุ)มักกำหนดไว้สำหรับคำตอบแบบเรียลไทม์ที่สั้นกว่า (เอกสารระบุจำนวนโทเค็นสูงสุดที่ต่ำกว่า)
กรณีใช้งานที่เหมาะสมแชตบอต, ผู้ช่วยที่รองรับเสียงซึ่งต้องการแชตแบบเต็มความหมาย + เสียงเอเจนต์เสียงแบบสด, คีออสก์ และอินเทอร์เฟซสนทนาแบบเวลาแฝงต่ำ

ตัวอย่างกรณีใช้งาน

  • เอเจนต์เสียงเชิงสนทนาสำหรับฝ่ายสนับสนุนลูกค้าและศูนย์ช่วยเหลือภายใน
  • ผู้ช่วยที่รองรับเสียงซึ่งฝังในแอป อุปกรณ์ และคีออสก์
  • เวิร์กโฟลว์แบบไม่ต้องใช้มือ (การบันทึกตามคำบอก, การค้นหาด้วยเสียง, การช่วยการเข้าถึง)
  • ประสบการณ์มัลติโหมดที่ผสานเสียงกับข้อความ/รูปภาพผ่าน Chat Completions

ข้อจำกัดและข้อพิจารณาด้านการปฏิบัติการ

  • ไม่ใช่สิ่งทดแทนการตรวจสอบของมนุษย์แบบเสียบใช้ได้ทันที: ควรตรวจสอบความถูกต้องของเสียงที่สร้างและการกระทำต่อเนื่องด้วยการทบทวนโดยมนุษย์ในกระบวนการผลิตจริงเสมอ
  • การวางแผนทรัพยากร: บริบทขนาดใหญ่และ I/O ของเสียงอาจเพิ่มภาระคำนวณและเวลาแฝง—ออกแบบกลยุทธ์การสตรีมหรือการแบ่งส่วนสำหรับเซสชันยาว
  • ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตเสียงมีอิทธิพลชักจูงได้; ปฏิบัติตามแนวทางความปลอดภัยของแพลตฟอร์มและมาตรการป้องกันเมื่อปรับใช้ในวงกว้าง
  • วิธีเข้าถึง GPT Audio 1.5 API

ขั้นตอนที่ 1: สมัครรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console รับ API key ของอินเทอร์เฟซเป็นข้อมูลรับรองการเข้าถึง คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Audio 1.5 API

เลือกปลายทาง “gpt-audio-1.5” เพื่อส่งคำขอ API และกำหนดค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต

คำถามที่พบบ่อย

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 รองรับขนาดหน้าต่างบริบท 128,000 โทเค็น และเอกสารระบุการกำหนดค่าโทเค็นผลลัพธ์สูงสุดประมาณ 16,384; โปรดยืนยันขีดจำกัดที่แน่นอนของแต่ละ endpoint ในเอกสารสำหรับนักพัฒนา. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

ได้ — รองรับอินพุตเสียงและสามารถส่งคืนเอาต์พุตเสียงหรือการตอบกลับแบบข้อความผ่าน Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

เลือก gpt-audio-1.5 เมื่อคุณต้องการคุณภาพเสียงที่สูงกว่าในโฟลว์ Chat Completions ที่ต้องใช้บริบทขนาดใหญ่; เลือก gpt-realtime-1.5 สำหรับการโต้ตอบด้วยเสียงแบบสตรีมมิงสดที่มีความหน่วงต่ำ. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

ได้ — โมเดลรองรับการสตรีมการตอบกลับแบบเสียงและเอาต์พุตเชิงโครงสร้าง/การเรียกใช้ฟังก์ชัน เพื่อผสานรวมเครื่องมือและเวิร์กโฟลว์ภายนอก. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

ได้ — โมเดลถูกออกแบบมาสำหรับผู้ช่วยเสียงและเอเจนต์สนทนา แต่คุณควรเพิ่มการทบทวนโดยมนุษย์/QA การบันทึกล็อก และการควบคุมด้านความปลอดภัย ก่อนนำไปใช้งานจริง. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

ข้อพิจารณาหลัก ได้แก่ การแลกเปลี่ยนระหว่างทรัพยากรคอมพิวต์/ความหน่วงสำหรับเซสชันเสียงที่มีบริบทขนาดใหญ่ มาตรการคุ้มครองด้านความปลอดภัยสำหรับเนื้อหาเสียง และความจำเป็นในการตรวจสอบความถูกต้องของเอาต์พุต ASR/TTS ในโดเมนของคุณ. :contentReference[oaicite:49]{index=49}

คุณสมบัติสำหรับ gpt-audio-1.5

สำรวจคุณสมบัติหลักของ gpt-audio-1.5 ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ gpt-audio-1.5

สำรวจราคาที่แข่งขันได้สำหรับ gpt-audio-1.5 ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า gpt-audio-1.5 สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$2/M
เอาต์พุต:$8/M
อินพุต:$2.5/M
เอาต์พุต:$10/M
-20%

โค้ดตัวอย่างและ API สำหรับ gpt-audio-1.5

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ gpt-audio-1.5 เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ gpt-audio-1.5 ในโครงการของคุณ
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

โมเดลเพิ่มเติม

O

gpt-realtime-1.5

อินพุต:$3.2/M
เอาต์พุต:$12.8/M
โมเดลเสียงที่ดีที่สุดสำหรับเสียงเข้า, เสียงออก.
O

Whisper-1

อินพุต:$24/M
เอาต์พุต:$24/M
แปลงคำพูดเป็นข้อความ, สร้างคำแปล
O

TTS

อินพุต:$12/M
เอาต์พุต:$12/M
OpenAI การแปลงข้อความเป็นคำพูด
K

Kling TTS

ต่อคำขอ:$0.006608
[สังเคราะห์เสียงพูด] เปิดตัวใหม่: แปลงข้อความเป็นเสียงสำหรับออกอากาศแบบออนไลน์ พร้อมฟังก์ชันพรีวิว ● สามารถสร้าง audio_id ได้พร้อมกัน เพื่อใช้กับ Keling API ใดก็ได้.
K

Kling video-to-audio

K

Kling video-to-audio

ต่อคำขอ:$0.03304
Kling แปลงวิดีโอเป็นเสียง
K

Kling text-to-audio

K

Kling text-to-audio

ต่อคำขอ:$0.03304
Kling แปลงข้อความเป็นเสียง