O

gpt-audio-1.5

อินพุต:$2/M
เอาต์พุต:$8/M
โมเดลเสียงที่ดีที่สุดสำหรับอินพุตเสียงและเอาต์พุตเสียงด้วย Chat Completions.
ใหม่
ใช้งานเชิงพาณิชย์

ข้อกำหนดทาง技术ของ gpt-audio-1.5

รายการgpt-audio-1.5 (ข้อกำหนดสาธารณะ)
ตระกูลโมเดลตระกูล GPT Audio (รุ่นเน้นเสียงเป็นหลัก)
ประเภทอินพุตข้อความ, เสียง (พูดเข้า)
ประเภทเอาต์พุตข้อความ, เสียง (พูดออก), เอาต์พุตแบบมีโครงสร้าง (รองรับการเรียกฟังก์ชัน)
หน้าต่างบริบท128,000 โทเค็น
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีเอกสารระบุในรายการ gpt-audio ที่เกี่ยวข้อง)
ระดับประสิทธิภาพความฉลาดสูงขึ้น; ความเร็วปานกลาง (สมดุล)
โปรไฟล์เวลาแฝงปรับให้เหมาะกับการโต้ตอบด้วยเสียง (เวลาแฝงระดับกลาง/ต่ำขึ้นกับปลายทาง)
ความพร้อมใช้งานChat Completions API (เสียงเข้า/ออก) และ playgrounds ของแพลตฟอร์ม; ผนวกรวมทั่วทั้งพื้นผิวแบบเรียลไทม์/เสียง
บันทึกด้านความปลอดภัย/การใช้งานมีมาตรการป้องกันสำหรับเนื้อหาเสียง; ควรจัดการผลลัพธ์ของโมเดลด้วยมาตรฐานความปลอดภัยและการตรวจสอบตามปกติสำหรับเอเจนต์เสียงในงานจริง

หมายเหตุ: gpt-realtime-1.5 เป็นรุ่นที่เกี่ยวข้องซึ่งเน้นเสียง/เสียงเป็นหลักแบบเรียลไทม์ ปรับให้เหมาะสำหรับเวลาแฝงต่ำและเซสชันแบบเรียลไทม์; ดูการเปรียบเทียบด้านล่าง


gpt-audio-1.5 คืออะไร?

gpt-audio-1.5 เป็นโมเดล GPT ที่รองรับเสียง สามารถรับทั้งคำพูดเป็นอินพุตและให้เอาต์พุตทั้งเสียงและข้อความผ่าน Chat Completions และ API ที่รองรับเสียงที่เกี่ยวข้อง วางตำแหน่งเป็นโมเดลเสียงหลักที่เปิดให้ใช้งานทั่วไปสำหรับการสร้างเอเจนต์เสียงและประสบการณ์ที่เน้นเสียงเป็นอันดับแรก โดยคงสมดุลระหว่างคุณภาพและความเร็ว


คุณสมบัติหลัก

  1. รองรับเสียงเข้า/เสียงออก: จัดการอินพุตแบบคำพูดและส่งคืนคำตอบเป็นเสียงหรือข้อความเพื่อให้ได้การสนทนาด้วยเสียงอย่างเป็นธรรมชาติ
  2. บริบทขนาดใหญ่สำหรับเวิร์กโฟลว์เสียง: รองรับบริบทขนาดใหญ่มาก (ระบุไว้ 128k โทเค็น) เพื่อรองรับประวัติการสนทนาหลายรอบที่ยาวหรือเซสชันมัลติโหมดขนาดใหญ่
  3. ความเข้ากันได้กับการสตรีมและ Chat Completions: ทำงานภายใน Chat Completions พร้อมการตอบกลับเสียงแบบสตรีมและเอาต์พุตแบบมีโครงสร้างผ่านการเรียกฟังก์ชัน
  4. ประสิทธิภาพ/เวลาแฝงแบบสมดุล: ปรับแต่งเพื่อให้เสียงตอบกลับคุณภาพสูงที่อัตราการส่งผ่านปานกลาง—เหมาะสำหรับแชตบอตและผู้ช่วยเสียงที่ให้ความสำคัญกับคุณภาพ
  5. ระบบนิเวศและการผสานรวม: รองรับใน playgrounds ของแพลตฟอร์มและมีให้ใช้งานในปลายทางแบบเรียลไทม์/เสียงอย่างเป็นทางการและการผสานรวมกับพาร์ทเนอร์ (หมายเหตุของ Azure/Microsoft Foundry อ้างอิงโมเดลเสียงที่คล้ายกัน)

gpt-audio-1.5 เทียบกับโมเดลเสียงที่เกี่ยวข้อง

คุณสมบัติgpt-audio-1.5gpt-realtime-1.5
โฟกัสหลักเสียงเข้า/ออกคุณภาพสูงสำหรับ Chat Completions และโฟลว์การสนทนาRealtime S2S (speech-to-speech) ด้วยเวลาแฝงที่ต่ำกว่า สำหรับเอเจนต์เสียงแบบสดและสถานการณ์สตรีมมิง
หน้าต่างบริบท128k โทเค็น32k โทเค็น (รุ่นเรียลไทม์ระบุไว้)
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีเอกสารระบุ)มักกำหนดไว้สำหรับคำตอบแบบเรียลไทม์ที่สั้นกว่า (เอกสารระบุจำนวนโทเค็นสูงสุดที่ต่ำกว่า)
กรณีใช้งานที่เหมาะสมแชตบอต, ผู้ช่วยที่รองรับเสียงซึ่งต้องการแชตแบบเต็มความหมาย + เสียงเอเจนต์เสียงแบบสด, คีออสก์ และอินเทอร์เฟซสนทนาแบบเวลาแฝงต่ำ

ตัวอย่างกรณีใช้งาน

  • เอเจนต์เสียงเชิงสนทนาสำหรับฝ่ายสนับสนุนลูกค้าและศูนย์ช่วยเหลือภายใน
  • ผู้ช่วยที่รองรับเสียงซึ่งฝังในแอป อุปกรณ์ และคีออสก์
  • เวิร์กโฟลว์แบบไม่ต้องใช้มือ (การบันทึกตามคำบอก, การค้นหาด้วยเสียง, การช่วยการเข้าถึง)
  • ประสบการณ์มัลติโหมดที่ผสานเสียงกับข้อความ/รูปภาพผ่าน Chat Completions

ข้อจำกัดและข้อพิจารณาด้านการปฏิบัติการ

  • ไม่ใช่สิ่งทดแทนการตรวจสอบของมนุษย์แบบเสียบใช้ได้ทันที: ควรตรวจสอบความถูกต้องของเสียงที่สร้างและการกระทำต่อเนื่องด้วยการทบทวนโดยมนุษย์ในกระบวนการผลิตจริงเสมอ
  • การวางแผนทรัพยากร: บริบทขนาดใหญ่และ I/O ของเสียงอาจเพิ่มภาระคำนวณและเวลาแฝง—ออกแบบกลยุทธ์การสตรีมหรือการแบ่งส่วนสำหรับเซสชันยาว
  • ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตเสียงมีอิทธิพลชักจูงได้; ปฏิบัติตามแนวทางความปลอดภัยของแพลตฟอร์มและมาตรการป้องกันเมื่อปรับใช้ในวงกว้าง
  • วิธีเข้าถึง GPT Audio 1.5 API

ขั้นตอนที่ 1: สมัครรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console รับ API key ของอินเทอร์เฟซเป็นข้อมูลรับรองการเข้าถึง คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Audio 1.5 API

เลือกปลายทาง “gpt-audio-1.5” เพื่อส่งคำขอ API และกำหนดค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต

คำถามที่พบบ่อย