ข้อกำหนดทาง技术ของ gpt-audio-1.5
| รายการ | gpt-audio-1.5 (ข้อกำหนดสาธารณะ) |
|---|---|
| ตระกูลโมเดล | ตระกูล GPT Audio (รุ่นเน้นเสียงเป็นหลัก) |
| ประเภทอินพุต | ข้อความ, เสียง (พูดเข้า) |
| ประเภทเอาต์พุต | ข้อความ, เสียง (พูดออก), เอาต์พุตแบบมีโครงสร้าง (รองรับการเรียกฟังก์ชัน) |
| หน้าต่างบริบท | 128,000 โทเค็น |
| จำนวนโทเค็นผลลัพธ์สูงสุด | 16,384 (มีเอกสารระบุในรายการ gpt-audio ที่เกี่ยวข้อง) |
| ระดับประสิทธิภาพ | ความฉลาดสูงขึ้น; ความเร็วปานกลาง (สมดุล) |
| โปรไฟล์เวลาแฝง | ปรับให้เหมาะกับการโต้ตอบด้วยเสียง (เวลาแฝงระดับกลาง/ต่ำขึ้นกับปลายทาง) |
| ความพร้อมใช้งาน | Chat Completions API (เสียงเข้า/ออก) และ playgrounds ของแพลตฟอร์ม; ผนวกรวมทั่วทั้งพื้นผิวแบบเรียลไทม์/เสียง |
| บันทึกด้านความปลอดภัย/การใช้งาน | มีมาตรการป้องกันสำหรับเนื้อหาเสียง; ควรจัดการผลลัพธ์ของโมเดลด้วยมาตรฐานความปลอดภัยและการตรวจสอบตามปกติสำหรับเอเจนต์เสียงในงานจริง |
หมายเหตุ: gpt-realtime-1.5 เป็นรุ่นที่เกี่ยวข้องซึ่งเน้นเสียง/เสียงเป็นหลักแบบเรียลไทม์ ปรับให้เหมาะสำหรับเวลาแฝงต่ำและเซสชันแบบเรียลไทม์; ดูการเปรียบเทียบด้านล่าง
gpt-audio-1.5 คืออะไร?
gpt-audio-1.5 เป็นโมเดล GPT ที่รองรับเสียง สามารถรับทั้งคำพูดเป็นอินพุตและให้เอาต์พุตทั้งเสียงและข้อความผ่าน Chat Completions และ API ที่รองรับเสียงที่เกี่ยวข้อง วางตำแหน่งเป็นโมเดลเสียงหลักที่เปิดให้ใช้งานทั่วไปสำหรับการสร้างเอเจนต์เสียงและประสบการณ์ที่เน้นเสียงเป็นอันดับแรก โดยคงสมดุลระหว่างคุณภาพและความเร็ว
คุณสมบัติหลัก
- รองรับเสียงเข้า/เสียงออก: จัดการอินพุตแบบคำพูดและส่งคืนคำตอบเป็นเสียงหรือข้อความเพื่อให้ได้การสนทนาด้วยเสียงอย่างเป็นธรรมชาติ
- บริบทขนาดใหญ่สำหรับเวิร์กโฟลว์เสียง: รองรับบริบทขนาดใหญ่มาก (ระบุไว้ 128k โทเค็น) เพื่อรองรับประวัติการสนทนาหลายรอบที่ยาวหรือเซสชันมัลติโหมดขนาดใหญ่
- ความเข้ากันได้กับการสตรีมและ Chat Completions: ทำงานภายใน Chat Completions พร้อมการตอบกลับเสียงแบบสตรีมและเอาต์พุตแบบมีโครงสร้างผ่านการเรียกฟังก์ชัน
- ประสิทธิภาพ/เวลาแฝงแบบสมดุล: ปรับแต่งเพื่อให้เสียงตอบกลับคุณภาพสูงที่อัตราการส่งผ่านปานกลาง—เหมาะสำหรับแชตบอตและผู้ช่วยเสียงที่ให้ความสำคัญกับคุณภาพ
- ระบบนิเวศและการผสานรวม: รองรับใน playgrounds ของแพลตฟอร์มและมีให้ใช้งานในปลายทางแบบเรียลไทม์/เสียงอย่างเป็นทางการและการผสานรวมกับพาร์ทเนอร์ (หมายเหตุของ Azure/Microsoft Foundry อ้างอิงโมเดลเสียงที่คล้ายกัน)
gpt-audio-1.5 เทียบกับโมเดลเสียงที่เกี่ยวข้อง
| คุณสมบัติ | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| โฟกัสหลัก | เสียงเข้า/ออกคุณภาพสูงสำหรับ Chat Completions และโฟลว์การสนทนา | Realtime S2S (speech-to-speech) ด้วยเวลาแฝงที่ต่ำกว่า สำหรับเอเจนต์เสียงแบบสดและสถานการณ์สตรีมมิง |
| หน้าต่างบริบท | 128k โทเค็น | 32k โทเค็น (รุ่นเรียลไทม์ระบุไว้) |
| จำนวนโทเค็นผลลัพธ์สูงสุด | 16,384 (มีเอกสารระบุ) | มักกำหนดไว้สำหรับคำตอบแบบเรียลไทม์ที่สั้นกว่า (เอกสารระบุจำนวนโทเค็นสูงสุดที่ต่ำกว่า) |
| กรณีใช้งานที่เหมาะสม | แชตบอต, ผู้ช่วยที่รองรับเสียงซึ่งต้องการแชตแบบเต็มความหมาย + เสียง | เอเจนต์เสียงแบบสด, คีออสก์ และอินเทอร์เฟซสนทนาแบบเวลาแฝงต่ำ |
ตัวอย่างกรณีใช้งาน
- เอเจนต์เสียงเชิงสนทนาสำหรับฝ่ายสนับสนุนลูกค้าและศูนย์ช่วยเหลือภายใน
- ผู้ช่วยที่รองรับเสียงซึ่งฝังในแอป อุปกรณ์ และคีออสก์
- เวิร์กโฟลว์แบบไม่ต้องใช้มือ (การบันทึกตามคำบอก, การค้นหาด้วยเสียง, การช่วยการเข้าถึง)
- ประสบการณ์มัลติโหมดที่ผสานเสียงกับข้อความ/รูปภาพผ่าน Chat Completions
ข้อจำกัดและข้อพิจารณาด้านการปฏิบัติการ
- ไม่ใช่สิ่งทดแทนการตรวจสอบของมนุษย์แบบเสียบใช้ได้ทันที: ควรตรวจสอบความถูกต้องของเสียงที่สร้างและการกระทำต่อเนื่องด้วยการทบทวนโดยมนุษย์ในกระบวนการผลิตจริงเสมอ
- การวางแผนทรัพยากร: บริบทขนาดใหญ่และ I/O ของเสียงอาจเพิ่มภาระคำนวณและเวลาแฝง—ออกแบบกลยุทธ์การสตรีมหรือการแบ่งส่วนสำหรับเซสชันยาว
- ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตเสียงมีอิทธิพลชักจูงได้; ปฏิบัติตามแนวทางความปลอดภัยของแพลตฟอร์มและมาตรการป้องกันเมื่อปรับใช้ในวงกว้าง
- วิธีเข้าถึง GPT Audio 1.5 API
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console รับ API key ของอินเทอร์เฟซเป็นข้อมูลรับรองการเข้าถึง คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Audio 1.5 API
เลือกปลายทาง “gpt-audio-1.5” เพื่อส่งคำขอ API และกำหนดค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions
ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับของ API เพื่อให้ได้คำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต