ขณะนี้โมเดลเสียง GPT-Realtime พร้อมใช้งานแล้ว รองรับการป้อนข้อมูลภาพ

วันนี้ OpenAI ประกาศว่า ขณะนี้โมเดลเสียง GPT-Realtime พร้อมใช้งานแล้ว รองรับการป้อนข้อมูลภาพซึ่งเป็นการยกระดับ Realtime API จากเวอร์ชันเบต้าไปสู่การใช้งานทั่วไปสำหรับเอเจนต์เสียงที่ใช้งานจริง การเปิดตัวครั้งนี้ทำให้ GPT-Realtime เป็นโมเดลการแปลงเสียงพูดเป็นเสียงพูดที่มีความหน่วงต่ำ ซึ่งสามารถรันการสนทนาด้วยเสียงแบบสองทางได้ พร้อมกับกำหนดการตอบสนองในภาพที่ส่งมาระหว่างเซสชัน

OpenAI อธิบาย gpt-เรียลไทม์ ในฐานะโมเดลการแปลงเสียงพูดเป็นเสียงพูดที่ล้ำหน้าที่สุดในปัจจุบัน ประมวลผลเสียงแบบ end-to-end (แทนที่จะแยกขั้นตอนการแปลงเสียงพูดเป็นข้อความและข้อความเป็นเสียงพูดออกจากกัน) สร้างเสียงพูดที่เป็นธรรมชาติและสื่อความหมายได้มากกว่า และแสดงให้เห็นถึงพัฒนาการที่วัดได้ในด้านความเข้าใจ การปฏิบัติตามคำสั่ง และการเรียกใช้ฟังก์ชัน บริษัทเน้นย้ำถึงการพัฒนาในเกณฑ์มาตรฐานภายใน และกล่าวว่าโมเดลนี้สามารถจับรายละเอียดปลีกย่อยต่างๆ เช่น เสียงหัวเราะ การเปลี่ยนภาษากลางประโยค และความแม่นยำที่สูงขึ้นในเนื้อหาตัวอักษรและตัวเลข

มีอะไรใหม่

อินพุตภาพในเซสชั่นเสียงสด นักพัฒนาสามารถแนบรูปถ่าย ภาพหน้าจอ หรือรูปภาพอื่นๆ ควบคู่ไปกับเสียงหรือข้อความ แบบจำลองสามารถตอบคำถามด้วยภาพ อ่านข้อความในภาพหน้าจอ (แบบ OCR) และรวมความเข้าใจฉากเข้ากับการตอบกลับด้วยเสียงพูด ซึ่งช่วยให้สามารถใช้งานเวิร์กโฟลว์ต่างๆ เช่น การถาม-ตอบด้วยภาพระหว่างการโทร หรือการสนับสนุนแบบหลายรูปแบบสำหรับการบริการลูกค้า
การพูดเป็นคำพูด ความหน่วงต่ำ เสียงแสดงออกได้ชัดเจนยิ่งขึ้น GPT-Realtime มอบเอาต์พุตเสียงเนทีฟพร้อมความหน่วงเวลาไปกลับที่ลดลงเมื่อเทียบกับเชน STT→LLM→TTS รุ่นเก่า และมาพร้อมตัวเลือกเสียงที่สื่อความหมายได้ชัดเจน (รายงานเป็น "Cedar" และ "Marine" ในพื้นที่ครอบคลุม) โมเดลนี้ได้รับการปรับแต่งให้เหมาะกับการติดตามคำสั่งและการสนทนาที่ละเอียดอ่อน
คุณสมบัติการรวมองค์กร การอัปเดต Realtime API เพิ่มความสามารถสำหรับองค์กร เช่น การรองรับเซิร์ฟเวอร์ MCP และการโทรผ่าน SIP เพื่อให้ตัวแทนด้านเสียงสามารถเชื่อมต่อกับเครือข่ายโทรศัพท์และระบบ PBX ได้โดยตรง ฟีเจอร์เพิ่มเติมเหล่านี้มุ่งเป้าไปที่การใช้งานด้านการสนับสนุนลูกค้าและศูนย์ติดต่อลูกค้า

มาตรฐาน

BigBench Audio (เหตุผล): 82.8% — ขึ้นจาก 65.6% ตามแบบจำลองเรียลไทม์ของ OpenAI ในเดือนธันวาคม 2024 นี่คือเกณฑ์มาตรฐานการใช้เหตุผลแบบพาดหัวที่รายงานสำหรับงานการใช้เหตุผลแบบเสียง

MultiChallenge (คำแนะนำต่อไปนี้, เสียง): ~30.5% vs ~% 20.6 ก่อนหน้านี้ — แสดงให้เห็นถึงการปฏิบัติตามคำแนะนำแบบหลายขั้นตอนหรือแบบเสียงที่ซับซ้อนได้ดีขึ้น

ComplexFuncBench (การเรียกใช้ฟังก์ชันสำเร็จ): ~66.5% vs ~% 49.7 ก่อนหน้านี้ — มีความน่าเชื่อถือดีกว่าเมื่อโมเดลต้องเรียกใช้เครื่องมือ/ฟังก์ชันระหว่างเซสชันเสียง

ต้นทุนและเวลาแฝง: OpenAI ระบุว่าโมเดลใหม่นี้ช่วยลดต้นทุนเสียงต่อโทเค็น (ลดลงประมาณ 20% จากการดูตัวอย่างแบบเรียลไทม์ครั้งก่อน) และทำงานเป็นโมเดลแบบครบวงจรเพียงแบบเดียว (ไม่มีเชน STT → LM → TTS ที่แยกจากกัน) ซึ่งช่วยลดเวลาแฝงแบบครบวงจรในกระบวนการโต้ตอบแบบเรียลไทม์

OpenAI กล่าวว่า gpt-realtime แบบจำลองนี้แสดงให้เห็นถึงการปรับปรุงที่สำคัญในเกณฑ์มาตรฐานเชิงวัตถุวิสัยและพฤติกรรมการใช้งานจริงที่หลากหลาย เช่น คะแนนที่สูงขึ้นใน BigBench Audio และการประเมินการติดตามคำสั่ง/การเรียกฟังก์ชัน รวมถึงการจัดการตัวอักษรและตัวเลข คำรหัส และการสลับภาษาในเสียงสดที่ดีขึ้น บริษัทยังได้เปิดตัวเสียงใหม่สองเสียง (Cedar และ Marin) และรายงานว่าราคาลดลง 20% เมื่อเทียบกับแบบจำลองตัวอย่างแบบเรียลไทม์รุ่นก่อนหน้า

API แบบเรียลไทม์และ gpt-realtime ขณะนี้โมเดลดังกล่าวเปิดให้นักพัฒนาใช้งานได้แล้ว (GA) นอกจากนี้ OpenAI ยังได้ลดราคา Realtime API ลงด้วยการอัปเดตครั้งนี้ โดยลดปริมาณอินพุตเสียงลงเหลือ 32 ดอลลาร์ต่อหนึ่งล้านโทเค็น และลดปริมาณเอาต์พุตเสียงลงเหลือ 64 ดอลลาร์ต่อหนึ่งล้านโทเค็น ซึ่งลดลง 20% จากราคาเดิม ช่วยให้นักพัฒนามีโซลูชันที่ประหยัดยิ่งขึ้น

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ จีพีที-5 ผ่าน CometAPI รุ่นล่าสุดที่ระบุไว้เป็นข้อมูล ณ วันที่เผยแพร่บทความ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

การบูรณาการล่าสุด gpt-realtime จะปรากฏบน CometAPI เร็วๆ นี้ โปรดติดตามชม!

มีอะไรใหม่

มาตรฐาน

เริ่มต้นใช้งาน

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว