ข้อมูลจำเพาะทางเทคนิคของ gpt-realtime-1.5
| Item | gpt-realtime-1.5 (ตำแหน่งทางการตลาดสาธารณะ) |
|---|---|
| Model family | GPT Realtime 1.5 (รุ่นย่อยที่ปรับให้เหมาะกับเสียง) |
| Primary modality | Speech-to-speech (S2S) |
| Input types | เสียง (สตรีมมิง), ข้อความ |
| Output types | เสียง (สตรีมมิง), ข้อความ, การเรียกใช้เครื่องมือแบบมีโครงสร้าง |
| API | Realtime API (WebRTC / เซสชันสตรีมมิงแบบคงอยู่) |
| Latency profile | ปรับให้เหมาะกับความหน่วงต่ำสำหรับการโต้ตอบสนทนาแบบสด |
| Session model | เซสชันสตรีมมิงแบบมีสถานะ |
| Tool use | รองรับการเรียกใช้ฟังก์ชันและการผสานรวมเครื่องมือ |
| Target use case | เอเจนต์เสียงสด, ผู้ช่วย, ระบบโต้ตอบ |
หมายเหตุ: ขีดจำกัดโทเค็นและขนาดหน้าต่างบริบทที่แน่ชัดไม่ได้มีการระบุไว้อย่างเด่นชัดในสรุปสาธารณะ; โมเดลนี้ถูกวางตำแหน่งให้เน้นการตอบสนองแบบเรียลไทม์มากกว่าการรองรับบริบทยาวมากเป็นพิเศษ
gpt-realtime-1.5 คืออะไร?
gpt-realtime-1.5 เป็นโมเดลความหน่วงต่ำที่ปรับให้เหมาะกับการสื่อสารแบบ speech-to-speech ซึ่งออกแบบมาสำหรับระบบสนทนาแบบสด แตกต่างจากโมเดลแบบคำขอ-คำตอบทั่วไป โดยทำงานผ่านเซสชันสตรีมมิงแบบคงอยู่ ทำให้รองรับการผลัดกันพูดตามธรรมชาติ การจัดการการขัดจังหวะ และการโต้ตอบด้วยเสียงแบบไดนามิก
โมเดลนี้ถูกสร้างขึ้นโดยเฉพาะสำหรับแอปพลิเคชันที่ความเร็วของการไหลลื่นในการสนทนาสำคัญกว่าความยาวบริบทสูงสุด
ฟีเจอร์หลัก
- การโต้ตอบแบบ speech-to-speech ที่แท้จริง — รับอินพุตเสียงสดและสตรีมคำตอบที่เป็นเสียงแบบเรียลไทม์
- สถาปัตยกรรมความหน่วงต่ำ — ออกแบบมาเพื่อการตอบสนองในการสนทนาของเอเจนต์เสียงในระดับต่ำกว่าหนึ่งวินาที
- การออกแบบที่เน้นสตรีมมิงเป็นหลัก — ทำงานผ่านเซสชันแบบคงอยู่ (WebRTC หรือโปรโตคอลสตรีมมิง)
- การผลัดกันพูดอย่างเป็นธรรมชาติ — รองรับการจัดการการขัดจังหวะและการไหลของบทสนทนาแบบไดนามิก
- รองรับการเรียกใช้เครื่องมือ — สามารถทริกเกอร์การเรียกใช้ฟังก์ชันแบบมีโครงสร้างระหว่างเซสชันเรียลไทม์
- รากฐานสำหรับเอเจนต์เสียงระดับพร้อมใช้งานจริง — สร้างขึ้นโดยเฉพาะสำหรับผู้ช่วยเชิงโต้ตอบ คีออสก์ และอุปกรณ์ฝังตัว
การวางตำแหน่งด้านเบนช์มาร์กและประสิทธิภาพ
OpenAI วางตำแหน่ง gpt-realtime-1.5 ให้เป็นวิวัฒนาการของโมเดลเรียลไทม์รุ่นก่อนหน้า โดยมีการทำตามคำสั่งที่ดีขึ้น ความเสถียรระหว่างเซสชันเสียงที่ยาวนานขึ้น และน้ำเสียงที่เป็นธรรมชาติมากขึ้นเมื่อเทียบกับรุ่นก่อนหน้า
ต่างจากโมเดลที่เน้นการเขียนโค้ด (เช่น รุ่นย่อยของ Codex) ประสิทธิภาพของโมเดลนี้ถูกวัดจากความหน่วงในการสนทนา ความเป็นธรรมชาติของเสียง และความเสถียรของเซสชัน มากกว่าคะแนนเบนช์มาร์กแบบกระดานจัดอันดับ
gpt-realtime-1.5 เทียบกับโมเดลที่เกี่ยวข้อง
| Feature | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| Primary goal | การโต้ตอบด้วยเสียงแบบสด | เวิร์กโฟลว์แชตที่รองรับเสียง |
| Latency | ปรับให้หน่วงต่ำที่สุด | สมดุลระหว่างคุณภาพและความเร็ว |
| Session type | เซสชันสตรีมมิงแบบคงอยู่ | โฟลว์ Chat Completions มาตรฐาน |
| Context size | ปรับเพื่อการตอบสนองรวดเร็ว | รองรับบริบทขนาดใหญ่กว่า |
| Best use case | เอเจนต์เสียงแบบเรียลไทม์ | ผู้ช่วยสนทนาที่มีเสียงประกอบ |
ควรเลือกใช้แต่ละแบบเมื่อใด
- เลือก gpt-realtime-1.5 สำหรับคอลเซ็นเตอร์ คีออสก์ พนักงานต้อนรับ AI หรือผู้ช่วยฝังตัวแบบสด
- เลือก gpt-audio-1.5 สำหรับแอปแชตที่รองรับเสียงซึ่งต้องการหน่วยความจำการสนทนาที่ยาวกว่า หรือเวิร์กโฟลว์แบบหลายโมดัล
กรณีใช้งานตัวอย่าง
- เอเจนต์คอลเซ็นเตอร์ AI
- ผู้ช่วยสำหรับอุปกรณ์อัจฉริยะ
- คีออสก์แบบโต้ตอบ
- ระบบติวสด
- เครื่องมือฝึกภาษาที่ทำงานแบบเรียลไทม์
- แอปพลิเคชันที่ควบคุมด้วยเสียง
- วิธีเข้าถึง GPT realtime 1.5 API
ขั้นตอนที่ 1: สมัคร API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ใช่ผู้ใช้ของเรา โปรดลงทะเบียนก่อน จากนั้นเข้าสู่ระบบที่ CometAPI console รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งข้อมูล

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT realtime 1.5 API
เลือก endpoint “gpt-realtime-1.5” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions
ใส่คำถามหรือคำขอของคุณลงในช่อง content — นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์
ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะของงานและข้อมูลผลลัพธ์