ข้อมูลจำเพาะทางเทคนิคของ gpt-audio-1.5
| รายการ | gpt-audio-1.5 (สเปกสาธารณะ) |
|---|---|
| ตระกูลโมเดล | ตระกูล GPT Audio (รุ่นเน้นเสียงเป็นหลัก) |
| ประเภทอินพุต | ข้อความ, เสียง (รับคำพูด) |
| ประเภทเอาต์พุต | ข้อความ, เสียง (ส่งคำพูด), เอาต์พุตแบบมีโครงสร้าง (รองรับการเรียกใช้ฟังก์ชัน) |
| หน้าต่างบริบท | 128,000 โทเค็น. |
| จำนวนโทเค็นผลลัพธ์สูงสุด | 16,384 (มีระบุไว้ในรายการ gpt-audio ที่เกี่ยวข้อง). |
| ระดับประสิทธิภาพ | ความฉลาดสูง; ความเร็วปานกลาง (สมดุล). |
| โปรไฟล์ความหน่วง | ปรับให้เหมาะกับการโต้ตอบด้วยเสียง (ความหน่วงระดับกลาง/ต่ำขึ้นอยู่กับเอ็นด์พอยต์). |
| ความพร้อมใช้งาน | Chat Completions API (เสียงเข้า/ออก) และ playgrounds ของแพลตฟอร์ม; ผสานใช้งานทั่วช่องทางแบบเรียลไทม์/เสียง. |
| หมายเหตุด้านความปลอดภัย/การใช้งาน | มีมาตรการป้องกันสำหรับเนื้อหาเสียง; ควรปฏิบัติต่อผลลัพธ์ของโมเดลด้วยมาตรฐานความปลอดภัยและการตรวจสอบตามปกติสำหรับเอเจนต์เสียงในงานผลิตจริง. |
หมายเหตุ:
gpt-realtime-1.5เป็นรุ่นแบบเสียง/เรียลไทม์ที่เกี่ยวข้องอย่างใกล้ชิดและเน้นเสียงเป็นหลัก ปรับให้เหมาะกับความหน่วงต่ำและเซสชันแบบเรียลไทม์; ดูการเปรียบเทียบด้านล่าง.
gpt-audio-1.5 คืออะไร?
gpt-audio-1.5 คือโมเดล GPT ที่รองรับเสียง ซึ่งรองรับทั้งอินพุตเสียงและเอาต์พุตเสียงผ่าน Chat Completions และ API ที่รองรับเสียงที่เกี่ยวข้อง โดยวางตำแหน่งให้เป็นโมเดลเสียงหลักที่พร้อมใช้งานทั่วไปสำหรับการสร้างเอเจนต์เสียงและประสบการณ์ที่เน้นเสียง ขณะที่คงความสมดุลระหว่างคุณภาพและความเร็ว
คุณสมบัติหลัก
- รองรับเสียงเข้า/เสียงออก: จัดการอินพุตแบบพูดและส่งคืนการตอบสนองเป็นเสียงหรือข้อความเพื่อให้การสนทนาด้วยเสียงเป็นธรรมชาติ
- บริบทขนาดใหญ่สำหรับเวิร์กโฟลว์ด้านเสียง: รองรับบริบทขนาดใหญ่ (ระบุไว้ 128k โทเค็น) เอื้อให้มีประวัติการสนทนาแบบหลายรอบหรือเซสชันมัลติโหมดขนาดใหญ่
- รองรับการสตรีมและใช้งานร่วมกับ Chat Completions: ทำงานภายใต้ Chat Completions พร้อมการตอบสนองเสียงแบบสตรีมและเอาต์พุตแบบมีโครงสร้างผ่านการเรียกใช้ฟังก์ชัน
- ประสิทธิภาพ/ความหน่วงที่สมดุล: ปรับจูนเพื่อให้เอาต์พุตเสียงคุณภาพสูงที่อัตราผ่านปานกลาง เหมาะสำหรับแชตบอตและผู้ช่วยที่ใช้เสียงซึ่งให้ความสำคัญกับคุณภาพ
- ระบบนิเวศและการผสานรวม: รองรับใน playgrounds ของแพลตฟอร์ม และมีให้ใช้ทั่วเอ็นด์พอยต์แบบเรียลไทม์/เสียงและการผสานกับพาร์ทเนอร์ (หมายเหตุของ Azure/Microsoft Foundry อ้างอิงโมเดลเสียงที่คล้ายกัน)
gpt-audio-1.5 เทียบกับโมเดลเสียงที่เกี่ยวข้อง
| คุณสมบัติ | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| จุดเน้นหลัก | เสียงเข้า/ออกคุณภาพสูงสำหรับ Chat Completions และโฟลว์การสนทนา | S2S (speech-to-speech) แบบเรียลไทม์ที่มีความหน่วงต่ำกว่า สำหรับเอเจนต์เสียงสดและสถานการณ์สตรีมมิง |
| หน้าต่างบริบท | 128k โทเค็น. | 32k โทเค็น (มีเอกสารสำหรับเวอร์ชันเรียลไทม์). |
| จำนวนโทเค็นผลลัพธ์สูงสุด | 16,384 (มีเอกสาร). | โดยทั่วไปถูกตั้งค่าให้ตอบกลับสั้นกว่าแบบเรียลไทม์ (เอกสารระบุจำนวนโทเค็นสูงสุดที่น้อยกว่า). |
| การใช้งานที่เหมาะสมที่สุด | แชตบอต ผู้ช่วยที่รองรับเสียงซึ่งต้องการความสามารถสนทนาเต็มรูปแบบพร้อมเสียง | เอเจนต์เสียงแบบสด คีออสก์ และส่วนติดต่อการสนทนาที่มีความหน่วงต่ำ |
กรณีใช้งานตัวอย่าง
- เอเจนต์สนทนาด้วยเสียงสำหรับฝ่ายสนับสนุนลูกค้าและศูนย์ช่วยเหลือภายใน
- ผู้ช่วยที่รองรับเสียงซึ่งฝังในแอป อุปกรณ์ และคีออสก์
- เวิร์กโฟลว์แบบแฮนด์ฟรี (การถอดคำพูด การค้นหาด้วยเสียง การเข้าถึงสำหรับผู้พิการ)
- ประสบการณ์แบบมัลติโหมดที่ผสมเสียงกับข้อความ/ภาพผ่าน Chat Completions
ข้อจำกัดและข้อพึงพิจารณาในการปฏิบัติการ
- ไม่ใช่ตัวแทนทดแทนการตรวจสอบคุณภาพโดยมนุษย์แบบทันที: ควรตรวจสอบผลลัพธ์เสียงและการดำเนินการถัดไปด้วยการทบทวนโดยมนุษย์เสมอในกระบวนการผลิตจริง
- การวางแผนทรัพยากร: บริบทขนาดใหญ่และ I/O เสียงอาจเพิ่มภาระคอมพิวต์และความหน่วง—ออกแบบกลยุทธ์การสตรีม/การแบ่งช่วงสำหรับเซสชันยาว
- ข้อจำกัดด้านความปลอดภัยและนโยบาย: เอาต์พุตเสียงอาจมีอิทธิพลโน้มน้าวสูง; ปฏิบัติตามแนวทางความปลอดภัยของแพลตฟอร์มและมาตรการป้องกันเมื่อปรับใช้ในวงกว้าง
- วิธีเข้าถึง GPT Audio 1.5 API
ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับ API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console รับคีย์ API สำหรับการเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx แล้วส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT Audio 1.5 API
เลือกเอ็นด์พอยต์ “gpt-audio-1.5” เพื่อส่งคำขอ API และกำหนด request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบผ่าน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ base url คือ Chat Completions
ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—โมเดลจะตอบต่อสิ่งนี้ จากนั้นประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะส่งสถานะงานและข้อมูลเอาต์พุตกลับมา