O

gpt-audio-1.5

อินพุต:$2/M
เอาต์พุต:$8/M
โมเดลเสียงที่ดีที่สุดสำหรับอินพุตเสียงและเอาต์พุตเสียงด้วย Chat Completions.
ใหม่
ใช้งานเชิงพาณิชย์

ข้อมูลจำเพาะทางเทคนิคของ gpt-audio-1.5

รายการgpt-audio-1.5 (สเปกสาธารณะ)
ตระกูลโมเดลตระกูล GPT Audio (รุ่นเน้นเสียงเป็นหลัก)
ประเภทอินพุตข้อความ, เสียง (รับคำพูด)
ประเภทเอาต์พุตข้อความ, เสียง (ส่งคำพูด), เอาต์พุตแบบมีโครงสร้าง (รองรับการเรียกใช้ฟังก์ชัน)
หน้าต่างบริบท128,000 โทเค็น.
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีระบุไว้ในรายการ gpt-audio ที่เกี่ยวข้อง).
ระดับประสิทธิภาพความฉลาดสูง; ความเร็วปานกลาง (สมดุล).
โปรไฟล์ความหน่วงปรับให้เหมาะกับการโต้ตอบด้วยเสียง (ความหน่วงระดับกลาง/ต่ำขึ้นอยู่กับเอ็นด์พอยต์).
ความพร้อมใช้งานChat Completions API (เสียงเข้า/ออก) และ playgrounds ของแพลตฟอร์ม; ผสานใช้งานทั่วช่องทางแบบเรียลไทม์/เสียง.
หมายเหตุด้านความปลอดภัย/การใช้งานมีมาตรการป้องกันสำหรับเนื้อหาเสียง; ควรปฏิบัติต่อผลลัพธ์ของโมเดลด้วยมาตรฐานความปลอดภัยและการตรวจสอบตามปกติสำหรับเอเจนต์เสียงในงานผลิตจริง.

หมายเหตุ: gpt-realtime-1.5 เป็นรุ่นแบบเสียง/เรียลไทม์ที่เกี่ยวข้องอย่างใกล้ชิดและเน้นเสียงเป็นหลัก ปรับให้เหมาะกับความหน่วงต่ำและเซสชันแบบเรียลไทม์; ดูการเปรียบเทียบด้านล่าง.


gpt-audio-1.5 คืออะไร?

gpt-audio-1.5 คือโมเดล GPT ที่รองรับเสียง ซึ่งรองรับทั้งอินพุตเสียงและเอาต์พุตเสียงผ่าน Chat Completions และ API ที่รองรับเสียงที่เกี่ยวข้อง โดยวางตำแหน่งให้เป็นโมเดลเสียงหลักที่พร้อมใช้งานทั่วไปสำหรับการสร้างเอเจนต์เสียงและประสบการณ์ที่เน้นเสียง ขณะที่คงความสมดุลระหว่างคุณภาพและความเร็ว


คุณสมบัติหลัก

  1. รองรับเสียงเข้า/เสียงออก: จัดการอินพุตแบบพูดและส่งคืนการตอบสนองเป็นเสียงหรือข้อความเพื่อให้การสนทนาด้วยเสียงเป็นธรรมชาติ
  2. บริบทขนาดใหญ่สำหรับเวิร์กโฟลว์ด้านเสียง: รองรับบริบทขนาดใหญ่ (ระบุไว้ 128k โทเค็น) เอื้อให้มีประวัติการสนทนาแบบหลายรอบหรือเซสชันมัลติโหมดขนาดใหญ่
  3. รองรับการสตรีมและใช้งานร่วมกับ Chat Completions: ทำงานภายใต้ Chat Completions พร้อมการตอบสนองเสียงแบบสตรีมและเอาต์พุตแบบมีโครงสร้างผ่านการเรียกใช้ฟังก์ชัน
  4. ประสิทธิภาพ/ความหน่วงที่สมดุล: ปรับจูนเพื่อให้เอาต์พุตเสียงคุณภาพสูงที่อัตราผ่านปานกลาง เหมาะสำหรับแชตบอตและผู้ช่วยที่ใช้เสียงซึ่งให้ความสำคัญกับคุณภาพ
  5. ระบบนิเวศและการผสานรวม: รองรับใน playgrounds ของแพลตฟอร์ม และมีให้ใช้ทั่วเอ็นด์พอยต์แบบเรียลไทม์/เสียงและการผสานกับพาร์ทเนอร์ (หมายเหตุของ Azure/Microsoft Foundry อ้างอิงโมเดลเสียงที่คล้ายกัน)

gpt-audio-1.5 เทียบกับโมเดลเสียงที่เกี่ยวข้อง

คุณสมบัติgpt-audio-1.5gpt-realtime-1.5
จุดเน้นหลักเสียงเข้า/ออกคุณภาพสูงสำหรับ Chat Completions และโฟลว์การสนทนาS2S (speech-to-speech) แบบเรียลไทม์ที่มีความหน่วงต่ำกว่า สำหรับเอเจนต์เสียงสดและสถานการณ์สตรีมมิง
หน้าต่างบริบท128k โทเค็น.32k โทเค็น (มีเอกสารสำหรับเวอร์ชันเรียลไทม์).
จำนวนโทเค็นผลลัพธ์สูงสุด16,384 (มีเอกสาร).โดยทั่วไปถูกตั้งค่าให้ตอบกลับสั้นกว่าแบบเรียลไทม์ (เอกสารระบุจำนวนโทเค็นสูงสุดที่น้อยกว่า).
การใช้งานที่เหมาะสมที่สุดแชตบอต ผู้ช่วยที่รองรับเสียงซึ่งต้องการความสามารถสนทนาเต็มรูปแบบพร้อมเสียงเอเจนต์เสียงแบบสด คีออสก์ และส่วนติดต่อการสนทนาที่มีความหน่วงต่ำ

กรณีใช้งานตัวอย่าง

  • เอเจนต์สนทนาด้วยเสียงสำหรับฝ่ายสนับสนุนลูกค้าและศูนย์ช่วยเหลือภายใน
  • ผู้ช่วยที่รองรับเสียงซึ่งฝังในแอป อุปกรณ์ และคีออสก์
  • เวิร์กโฟลว์แบบแฮนด์ฟรี (การถอดคำพูด การค้นหาด้วยเสียง การเข้าถึงสำหรับผู้พิการ)
  • ประสบการณ์แบบมัลติโหมดที่ผสมเสียงกับข้อความ/ภาพผ่าน Chat Completions

ข้อจำกัดและข้อพึงพิจารณาในการปฏิบัติการ

  • ไม่ใช่ตัวแทนทดแทนการตรวจสอบคุณภาพโดยมนุษย์แบบทันที: ควรตรวจสอบผลลัพธ์เสียงและการดำเนินการถัดไปด้วยการทบทวนโดยมนุษย์เสมอในกระบวนการผลิตจริง
  • การวางแผนทรัพยากร: บริบทขนาดใหญ่และ I/O เสียงอาจเพิ่มภาระคอมพิวต์และความหน่วง—ออกแบบกลยุทธ์การสตรีม/การแบ่งช่วงสำหรับเซสชันยาว
  • ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตเสียงอาจมีอิทธิพลโน้มน้าวสูง; ปฏิบัติตามแนวทางความปลอดภัยของแพลตฟอร์มและมาตรการป้องกันเมื่อปรับใช้ในวงกว้าง
  • วิธีเข้าถึง GPT Audio 1.5 API

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console รับคีย์ API สำหรับการเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx แล้วส่ง

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Audio 1.5 API

เลือกเอ็นด์พอยต์ “gpt-audio-1.5” เพื่อส่งคำขอ API และกำหนด request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ base url คือ Chat Completions

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—โมเดลจะตอบต่อสิ่งนี้ จากนั้นประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะส่งสถานะงานและข้อมูลเอาต์พุตกลับมา

คำถามที่พบบ่อย

โมเดลเพิ่มเติม