โมเดลสนับสนุนองค์กรบล็อก
500+ AI Model API ทั้งหมดในหนึ่ง API เพียงแค่ใน CometAPI
API โมเดล
นักพัฒนา
เริ่มต้นอย่างรวดเร็วเอกสารประกอบแดชบอร์ด API
ทรัพยากร
โมเดล AIบล็อกองค์กรบันทึกการเปลี่ยนแปลงเกี่ยวกับ
2025 CometAPI สงวนลิขสิทธิ์ทั้งหมดนโยบายความเป็นส่วนตัวข้อกำหนดการให้บริการ
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

อินพุต:$3.2/M
เอาต์พุต:$12.8/M
บริบท:32,000
เอาต์พุตสูงสุด:4,096
โมเดลเสียงที่ดีที่สุดสำหรับเสียงเข้า, เสียงออก.
ใหม่
ใช้งานเชิงพาณิชย์
ภาพรวม
คุณสมบัติ
ราคา
API

ข้อมูลจำเพาะทางเทคนิคของ gpt-realtime-1.5

Itemgpt-realtime-1.5 (ตำแหน่งทางการตลาดสาธารณะ)
Model familyGPT Realtime 1.5 (รุ่นย่อยที่ปรับให้เหมาะกับเสียง)
Primary modalitySpeech-to-speech (S2S)
Input typesเสียง (สตรีมมิง), ข้อความ
Output typesเสียง (สตรีมมิง), ข้อความ, การเรียกใช้เครื่องมือแบบมีโครงสร้าง
APIRealtime API (WebRTC / เซสชันสตรีมมิงแบบคงอยู่)
Latency profileปรับให้เหมาะกับความหน่วงต่ำสำหรับการโต้ตอบสนทนาแบบสด
Session modelเซสชันสตรีมมิงแบบมีสถานะ
Tool useรองรับการเรียกใช้ฟังก์ชันและการผสานรวมเครื่องมือ
Target use caseเอเจนต์เสียงสด, ผู้ช่วย, ระบบโต้ตอบ

หมายเหตุ: ขีดจำกัดโทเค็นและขนาดหน้าต่างบริบทที่แน่ชัดไม่ได้มีการระบุไว้อย่างเด่นชัดในสรุปสาธารณะ; โมเดลนี้ถูกวางตำแหน่งให้เน้นการตอบสนองแบบเรียลไทม์มากกว่าการรองรับบริบทยาวมากเป็นพิเศษ


gpt-realtime-1.5 คืออะไร?

gpt-realtime-1.5 เป็นโมเดลความหน่วงต่ำที่ปรับให้เหมาะกับการสื่อสารแบบ speech-to-speech ซึ่งออกแบบมาสำหรับระบบสนทนาแบบสด แตกต่างจากโมเดลแบบคำขอ-คำตอบทั่วไป โดยทำงานผ่านเซสชันสตรีมมิงแบบคงอยู่ ทำให้รองรับการผลัดกันพูดตามธรรมชาติ การจัดการการขัดจังหวะ และการโต้ตอบด้วยเสียงแบบไดนามิก

โมเดลนี้ถูกสร้างขึ้นโดยเฉพาะสำหรับแอปพลิเคชันที่ความเร็วของการไหลลื่นในการสนทนาสำคัญกว่าความยาวบริบทสูงสุด


ฟีเจอร์หลัก

  1. การโต้ตอบแบบ speech-to-speech ที่แท้จริง — รับอินพุตเสียงสดและสตรีมคำตอบที่เป็นเสียงแบบเรียลไทม์
  2. สถาปัตยกรรมความหน่วงต่ำ — ออกแบบมาเพื่อการตอบสนองในการสนทนาของเอเจนต์เสียงในระดับต่ำกว่าหนึ่งวินาที
  3. การออกแบบที่เน้นสตรีมมิงเป็นหลัก — ทำงานผ่านเซสชันแบบคงอยู่ (WebRTC หรือโปรโตคอลสตรีมมิง)
  4. การผลัดกันพูดอย่างเป็นธรรมชาติ — รองรับการจัดการการขัดจังหวะและการไหลของบทสนทนาแบบไดนามิก
  5. รองรับการเรียกใช้เครื่องมือ — สามารถทริกเกอร์การเรียกใช้ฟังก์ชันแบบมีโครงสร้างระหว่างเซสชันเรียลไทม์
  6. รากฐานสำหรับเอเจนต์เสียงระดับพร้อมใช้งานจริง — สร้างขึ้นโดยเฉพาะสำหรับผู้ช่วยเชิงโต้ตอบ คีออสก์ และอุปกรณ์ฝังตัว

การวางตำแหน่งด้านเบนช์มาร์กและประสิทธิภาพ

OpenAI วางตำแหน่ง gpt-realtime-1.5 ให้เป็นวิวัฒนาการของโมเดลเรียลไทม์รุ่นก่อนหน้า โดยมีการทำตามคำสั่งที่ดีขึ้น ความเสถียรระหว่างเซสชันเสียงที่ยาวนานขึ้น และน้ำเสียงที่เป็นธรรมชาติมากขึ้นเมื่อเทียบกับรุ่นก่อนหน้า

ต่างจากโมเดลที่เน้นการเขียนโค้ด (เช่น รุ่นย่อยของ Codex) ประสิทธิภาพของโมเดลนี้ถูกวัดจากความหน่วงในการสนทนา ความเป็นธรรมชาติของเสียง และความเสถียรของเซสชัน มากกว่าคะแนนเบนช์มาร์กแบบกระดานจัดอันดับ


gpt-realtime-1.5 เทียบกับโมเดลที่เกี่ยวข้อง

Featuregpt-realtime-1.5gpt-audio-1.5
Primary goalการโต้ตอบด้วยเสียงแบบสดเวิร์กโฟลว์แชตที่รองรับเสียง
Latencyปรับให้หน่วงต่ำที่สุดสมดุลระหว่างคุณภาพและความเร็ว
Session typeเซสชันสตรีมมิงแบบคงอยู่โฟลว์ Chat Completions มาตรฐาน
Context sizeปรับเพื่อการตอบสนองรวดเร็วรองรับบริบทขนาดใหญ่กว่า
Best use caseเอเจนต์เสียงแบบเรียลไทม์ผู้ช่วยสนทนาที่มีเสียงประกอบ

ควรเลือกใช้แต่ละแบบเมื่อใด

  • เลือก gpt-realtime-1.5 สำหรับคอลเซ็นเตอร์ คีออสก์ พนักงานต้อนรับ AI หรือผู้ช่วยฝังตัวแบบสด
  • เลือก gpt-audio-1.5 สำหรับแอปแชตที่รองรับเสียงซึ่งต้องการหน่วยความจำการสนทนาที่ยาวกว่า หรือเวิร์กโฟลว์แบบหลายโมดัล

กรณีใช้งานตัวอย่าง

  • เอเจนต์คอลเซ็นเตอร์ AI
  • ผู้ช่วยสำหรับอุปกรณ์อัจฉริยะ
  • คีออสก์แบบโต้ตอบ
  • ระบบติวสด
  • เครื่องมือฝึกภาษาที่ทำงานแบบเรียลไทม์
  • แอปพลิเคชันที่ควบคุมด้วยเสียง
  • วิธีเข้าถึง GPT realtime 1.5 API

ขั้นตอนที่ 1: สมัคร API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่ใช่ผู้ใช้ของเรา โปรดลงทะเบียนก่อน จากนั้นเข้าสู่ระบบที่ CometAPI console รับข้อมูลรับรองการเข้าถึง API key ของอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่งข้อมูล

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง GPT realtime 1.5 API

เลือก endpoint “gpt-realtime-1.5” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการร้องขอและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมีการทดสอบ Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions

ใส่คำถามหรือคำขอของคุณลงในช่อง content — นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะของงานและข้อมูลผลลัพธ์

คำถามที่พบบ่อย

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 ออกแบบมาสำหรับการโต้ตอบแบบเสียงต่อเสียงที่มีค่าหน่วงต่ำ โดยใช้เซสชันสตรีมมิงแบบต่อเนื่อง จึงเหมาะอย่างยิ่งสำหรับเอเจนต์เสียงแบบสดและผู้ช่วยแบบโต้ตอบ

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 มุ่งเน้นการสนทนาเสียงแบบสตรีมมิงตามเวลาจริงที่มีความหน่วงต่ำที่สุด ขณะที่ gpt-audio-1.5 ได้รับการปรับให้เหมาะกับเวิร์กโฟลว์แชตที่รองรับเสียงและมีบริบทสูงกว่า

Does gpt-realtime-1.5 API support function calling during live sessions?

ใช่ gpt-realtime-1.5 รองรับการเรียกใช้เครื่องมือแบบมีโครงสร้างภายในเซสชันเรียลไทม์ที่กำลังใช้งานอยู่ ทำให้สามารถผสานรวมกับระบบภายนอกได้

Is gpt-realtime-1.5 suitable for customer support voice bots?

ใช่ โดยได้รับการปรับให้เหมาะโดยเฉพาะสำหรับระบบสนทนาแบบโต้ตอบที่มีค่าหน่วงต่ำ เช่น เอเจนต์คอลเซ็นเตอร์และพนักงานต้อนรับเสมือน

Can gpt-realtime-1.5 handle interruptions during conversation?

ใช่ โมเดลนี้ได้รับการออกแบบมาสำหรับการผลัดกันสนทนาอย่างเป็นธรรมชาติ และสามารถจัดการกับการขัดจังหวะภายในเซสชันเสียงแบบสตรีมมิงได้

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 ให้ความสำคัญกับการตอบสนองของการสนทนาและค่าหน่วงต่ำ มากกว่าหน้าต่างบริบทที่มีขนาดใหญ่มากเป็นพิเศษ

What infrastructure is required to integrate gpt-realtime-1.5 API?

โดยทั่วไปนักพัฒนาจะใช้ WebRTC หรือการเชื่อมต่อแบบสตรีมมิงเพื่อคงไว้ซึ่งเซสชันเสียงแบบต่อเนื่องเมื่อผสานรวม gpt-realtime-1.5 API

คุณสมบัติสำหรับ gpt-realtime-1.5

สำรวจคุณสมบัติหลักของ gpt-realtime-1.5 ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ gpt-realtime-1.5

สำรวจราคาที่แข่งขันได้สำหรับ gpt-realtime-1.5 ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า gpt-realtime-1.5 สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$3.2/M
เอาต์พุต:$12.8/M
อินพุต:$4/M
เอาต์พุต:$16/M
-20%

โค้ดตัวอย่างและ API สำหรับ gpt-realtime-1.5

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ gpt-realtime-1.5 เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ gpt-realtime-1.5 ในโครงการของคุณ

โมเดลเพิ่มเติม

O

gpt-audio-1.5

อินพุต:$2/M
เอาต์พุต:$8/M
โมเดลเสียงที่ดีที่สุดสำหรับอินพุตเสียงและเอาต์พุตเสียงด้วย Chat Completions.
O

Whisper-1

อินพุต:$24/M
เอาต์พุต:$24/M
แปลงคำพูดเป็นข้อความ, สร้างคำแปล
O

TTS

อินพุต:$12/M
เอาต์พุต:$12/M
OpenAI การแปลงข้อความเป็นคำพูด
K

Kling TTS

ต่อคำขอ:$0.006608
[สังเคราะห์เสียงพูด] เปิดตัวใหม่: แปลงข้อความเป็นเสียงสำหรับออกอากาศแบบออนไลน์ พร้อมฟังก์ชันพรีวิว ● สามารถสร้าง audio_id ได้พร้อมกัน เพื่อใช้กับ Keling API ใดก็ได้.
K

Kling video-to-audio

K

Kling video-to-audio

ต่อคำขอ:$0.03304
Kling แปลงวิดีโอเป็นเสียง
K

Kling text-to-audio

K

Kling text-to-audio

ต่อคำขอ:$0.03304
Kling แปลงข้อความเป็นเสียง