ข้อมูลจำเพาะทางเทคนิคของ gpt-realtime-1.5

รายการ	gpt-realtime-1.5 (การวางตำแหน่งสาธารณะ)
ตระกูลโมเดล	GPT Realtime 1.5 (รุ่นปรับแต่งสำหรับเสียง)
ชนิดสื่อหลัก	แปลงคำพูดเป็นคำพูด (S2S)
ประเภทอินพุต	เสียง (สตรีมมิง), ข้อความ
ประเภทเอาต์พุต	เสียง (สตรีมมิง), ข้อความ, การเรียกใช้เครื่องมือแบบมีโครงสร้าง
API	Realtime API (WebRTC / เซสชันสตรีมมิงแบบคงอยู่)
ลักษณะเวลาแฝง	ปรับให้เหมาะกับการโต้ตอบแบบสนทนาสดที่หน่วงต่ำ
รูปแบบเซสชัน	เซสชันสตรีมมิงแบบมีสถานะ
การใช้เครื่องมือ	รองรับการเรียกใช้ฟังก์ชันและการผสานเครื่องมือ
กรณีใช้งานเป้าหมาย	เอเจนต์เสียงสด, ผู้ช่วย, ระบบเชิงโต้ตอบ

หมายเหตุ: ขีดจำกัดโทเค็นและขนาดหน้าต่างบริบทที่แน่นอนไม่ได้มีการระบุไว้อย่างเด่นชัดในสรุปสาธารณะ; โมเดลนี้ถูกวางตำแหน่งเพื่อความตอบสนองแบบเรียลไทม์ มากกว่าการรองรับเซสชันบริบทที่ยาวเป็นพิเศษ

gpt-realtime-1.5 คืออะไร?

gpt-realtime-1.5 เป็นโมเดลที่ปรับให้มีเวลาแฝงต่ำและเหมาะกับการแปลงคำพูดเป็นคำพูด ออกแบบมาสำหรับระบบสนทนาแบบสด โดยทำงานผ่านเซสชันสตรีมมิงแบบคงอยู่ ซึ่งช่วยให้เกิดการผลัดพูดตามธรรมชาติ การจัดการการขัดจังหวะ และปฏิสัมพันธ์ด้วยเสียงที่ไหลลื่นแบบไดนามิก

มันถูกสร้างขึ้นเพื่อใช้งานในแอปพลิเคชันที่ความเร็วของการไหลของบทสนทนามีความสำคัญมากกว่าความยาวบริบทสูงสุด

คุณสมบัติหลัก

การโต้ตอบแบบคำพูดถึงคำพูดอย่างแท้จริง — รับอินพุตเสียงแบบสดและสตรีมคำตอบที่เป็นคำพูดแบบเรียลไทม์
สถาปัตยกรรมเวลาแฝงต่ำ — ออกแบบมาเพื่อการตอบสนองระดับต่ำกว่าหนึ่งวินาทีในเอเจนต์เสียง
ออกแบบเพื่อการสตรีมเป็นอันดับแรก — ทำงานผ่านเซสชันแบบคงอยู่ (WebRTC หรือโปรโตคอลสตรีมมิง)
การผลัดพูดตามธรรมชาติ — รองรับการจัดการการขัดจังหวะและการไหลของบทสนทนาแบบไดนามิก
รองรับการเรียกใช้เครื่องมือ — สามารถทริกเกอร์การเรียกใช้ฟังก์ชันแบบมีโครงสร้างระหว่างเซสชันแบบเรียลไทม์ได้
รากฐานเอเจนต์เสียงพร้อมใช้งานจริง — สร้างขึ้นโดยเฉพาะสำหรับผู้ช่วยเชิงโต้ตอบ คีออสก์ และอุปกรณ์ฝังตัว

เกณฑ์ทดสอบและการวางตำแหน่งด้านประสิทธิภาพ

OpenAI วางตำแหน่ง gpt-realtime-1.5 ว่าเป็นพัฒนาการจากโมเดลเรียลไทม์รุ่นก่อน ด้วยความสามารถในการปฏิบัติตามคำสั่งที่ดีขึ้น เสถียรภาพระหว่างเซสชันเสียงที่ยาวขึ้น และจังหวะเสียงที่เป็นธรรมชาติมากขึ้นเมื่อเทียบกับรุ่นก่อนหน้า

แตกต่างจากโมเดลที่เน้นการเขียนโค้ด (เช่น สาย Codex) ประสิทธิภาพจะวัดจากเวลาแฝงในการสนทนา ความเป็นธรรมชาติของเสียง และเสถียรภาพของเซสชัน มากกว่าการทดสอบแบบกระดานจัดอันดับ

gpt-realtime-1.5 เทียบกับโมเดลที่เกี่ยวข้อง

คุณลักษณะ	gpt-realtime-1.5	gpt-audio-1.5
เป้าหมายหลัก	ปฏิสัมพันธ์ด้วยเสียงแบบสด	เวิร์กโฟลว์แชทที่รองรับเสียง
เวลาแฝง	ปรับให้มีความหน่วงต่ำที่สุด	สมดุลระหว่างคุณภาพ/ความเร็ว
ชนิดเซสชัน	เซสชันสตรีมมิงแบบคงอยู่	โฟลว์ Chat Completions มาตรฐาน
ขนาดบริบท	ปรับให้เหมาะกับความตอบสนอง	รองรับบริบทที่ใหญ่กว่า
กรณีใช้งานที่เหมาะที่สุด	เอเจนต์เสียงแบบเรียลไทม์	ผู้ช่วยสนทนาที่รองรับเสียงและมัลติโหมด

ควรเลือกใช้เมื่อใด

เลือกใช้ gpt-realtime-1.5 สำหรับคอลเซ็นเตอร์ คีออสก์ พนักงานต้อนรับ AI หรือผู้ช่วยฝังตัวแบบสด
เลือกใช้ gpt-audio-1.5 สำหรับแอปแชทที่รองรับเสียงซึ่งต้องการหน่วยความจำการสนทนาที่ยาวกว่า หรือเวิร์กโฟลว์แบบมัลติโหมด

กรณีใช้งานตัวอย่าง

เอเจนต์คอลเซ็นเตอร์ AI
ผู้ช่วยอุปกรณ์อัจฉริยะ
คีออสก์แบบโต้ตอบ
ระบบติวเตอร์สด
เครื่องมือฝึกภาษาแบบเรียลไทม์
แอปพลิเคชันที่ควบคุมด้วยเสียง
วิธีเข้าถึง GPT realtime 1.5 API

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com. หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console. รับคีย์ API สำหรับสิทธิ์เข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx แล้วส่ง

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT realtime 1.5 API

เลือกเอ็นด์พอยต์ “gpt-realtime-1.5” เพื่อส่งคำขอ API และกำหนด request body วิธีการและ request body สำหรับคำขอสามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบบน Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ base url คือ Chat Completions

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content—โมเดลจะตอบสนองต่อสิ่งนี้ ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์

gpt-realtime-1.5

ข้อมูลจำเพาะทางเทคนิคของ gpt-realtime-1.5

gpt-realtime-1.5 คืออะไร?

คุณสมบัติหลัก

เกณฑ์ทดสอบและการวางตำแหน่งด้านประสิทธิภาพ

gpt-realtime-1.5 เทียบกับโมเดลที่เกี่ยวข้อง

ควรเลือกใช้เมื่อใด

กรณีใช้งานตัวอย่าง

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT realtime 1.5 API

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

คำถามที่พบบ่อย

What is gpt-realtime-1.5 used for in the Realtime API?

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

Does gpt-realtime-1.5 API support function calling during live sessions?

Is gpt-realtime-1.5 suitable for customer support voice bots?

Can gpt-realtime-1.5 handle interruptions during conversation?

Does gpt-realtime-1.5 prioritize latency or long context memory?

What infrastructure is required to integrate gpt-realtime-1.5 API?

คุณสมบัติสำหรับ gpt-realtime-1.5

ราคาสำหรับ gpt-realtime-1.5

โค้ดตัวอย่างและ API สำหรับ gpt-realtime-1.5

โมเดลเพิ่มเติม