ข้อมูลจำเพาะทางเทคนิคของ `gpt-4o-mini-audio-preview`

คุณลักษณะ	รายละเอียด
รหัสโมเดล	`gpt-4o-mini-audio-preview`
ประเภทโมเดล	โมเดลมัลติโมดัลขนาดกะทัดรัดสำหรับพรีวิวเสียง
โหมดหลัก	ข้อความเข้า/ออก, เสียงพูดเข้า, เสียงพูดออก
รูปแบบอินเทอร์เฟซหลัก	การโต้ตอบแบบแชตที่มีเนื้อหาข้อความหลายรูปแบบ
ความสามารถด้านเสียง	การรู้จำคำพูด, การสังเคราะห์เสียงพูด, บทสนทนาแบบผสมข้อความ-เสียง
รองรับสตรีมมิง	ใช่ เหมาะสำหรับโฟลว์การสนทนาแบบเรียลไทม์
การเรียกใช้เครื่องมือ / ฟังก์ชัน	รองรับสำหรับการดำเนินการแบบมีโครงสร้างและการผสานเวิร์กโฟลว์
เหมาะสำหรับ	ผู้ช่วยเสียง, การถอดความแบบสตรีมมิง, IVR, เวิร์กโฟลว์คอลบอต, ผู้ช่วยเสียงในแอป
รูปแบบการโต้ตอบ	โมเดลสนทนาที่ทำตามคำสั่ง โดยรองรับรอบสนทนาแบบมัลติโมดัล
รูปแบบการผสานใช้งาน	การเข้าถึงผ่าน API ด้วย CometAPI โดยใช้รหัสโมเดล `gpt-4o-mini-audio-preview`

`gpt-4o-mini-audio-preview` คืออะไร?

gpt-4o-mini-audio-preview คือโมเดลมัลติโมดัลขนาดกะทัดรัดที่ออกแบบมาสำหรับนักพัฒนาที่ต้องการสร้างประสบการณ์การสนทนาทางเสียง รองรับทั้งอินพุตเสียงพูดและเอาต์พุตเสียงนอกเหนือจากการโต้ตอบด้วยข้อความมาตรฐาน จึงเหมาะกับแอปพลิเคชันที่ผู้ใช้พูดคุยตามธรรมชาติและคาดหวังคำตอบเป็นเสียงหรือข้อความ

โมเดลนี้มีประโยชน์เป็นพิเศษเมื่อผลิตภัณฑ์ต้องผสานการรู้จำคำพูดอัตโนมัติ การทำความเข้าใจภาษาธรรมชาติ และการสังเคราะห์เสียง เข้าไว้ในวงจรการสนทนาเดียว แทนที่จะมองการถอดความ การให้เหตุผล และการสร้างคำตอบเป็นส่วนประกอบที่แยกจากกัน gpt-4o-mini-audio-preview ทำให้สามารถใช้เวิร์กโฟลว์แบบรวมสำหรับบทสนทนาแบบผสมข้อความ-เสียงได้

นอกจากนี้ยังรองรับการเรียกใช้เครื่องมือและฟังก์ชัน ทำให้ทำได้มากกว่าการสนทนาเพียงอย่างเดียว โดยสามารถเรียกใช้การกระทำแบบมีโครงสร้าง เช่น ค้นหาข้อมูลบัญชี ส่งต่อคำขอฝ่ายสนับสนุนลูกค้า อัปเดตรายการ หรือเรียกใช้ตรรกะทางธุรกิจภายในแอปพลิเคชันขนาดใหญ่ จึงเหมาะอย่างยิ่งสำหรับระบบเสียงระดับผลิตจริง เช่น ผู้ช่วยเสมือน ระบบตอบรับอัตโนมัติทางโทรศัพท์ (IVR) คอลบอต ไปป์ไลน์การถอดความพร้อมสรุป และผู้ช่วยผลิตภัณฑ์ที่รองรับเสียง

คุณสมบัติหลักของ `gpt-4o-mini-audio-preview`

รองรับอินพุตเสียงพูด: รับการโต้ตอบของผู้ใช้ผ่านเสียงเพื่อให้แอปพลิเคชันประมวลผลคำขอที่พูดได้อย่างเป็นธรรมชาติ
สร้างเอาต์พุตเสียงพูด: สร้างคำตอบเป็นเสียงสำหรับผู้ช่วย ระบบโทรอัตโนมัติ และประสบการณ์แนะนำด้วยเสียง
บทสนทนาแบบผสมข้อความ-เสียง: รองรับเวิร์กโฟลว์ที่บางรอบเป็นเสียงและบางรอบเป็นข้อความ เหมาะสำหรับอินเทอร์เฟซแบบไฮบริด
การออกแบบมัลติโมดัลขนาดกะทัดรัด: มอบความสามารถด้านเสียงในโมเดลที่มีขนาดเบา ตอบสนองได้รวดเร็ว เหมาะกับแอปพลิเคชันที่ต้องการความคล่องตัว
การตอบสนองแบบสตรีม: ช่วยรองรับประสบการณ์หน่วงต่ำแบบเรียลไทม์ เช่น ผู้ช่วยสดและระบบถอดความแบบสตรีม
การเรียกใช้เครื่องมือ/ฟังก์ชัน: ทำให้โมเดลเรียกใช้เครื่องมือหรือฟังก์ชันเชิงธุรกิจแบบมีโครงสร้างเพื่อทำงานเกินกว่าบทสนทนาเปิดกว้าง
การทำตามคำสั่ง: ปฏิบัติตามแนวทางระดับแอปเพื่อให้คำตอบสอดคล้องกับพฤติกรรมของผลิตภัณฑ์และข้อกำหนดเวิร์กโฟลว์
เวิร์กโฟลว์การถอดความและสรุปผล: มีประโยชน์ในการแปลงการสนทนาด้วยเสียงให้เป็นข้อความที่มีโครงสร้าง สรุป หรือการกระทำต่อเนื่อง
พร้อมใช้งานสำหรับ IVR และคอลบอต: เหมาะกับงานสนับสนุนลูกค้าและงานโทรศัพท์ที่เน้นการสนทนาด้วยเสียงและการกำหนดเส้นทางงาน
ผู้ช่วยเสียงในแอป: สามารถฝังในซอฟต์แวร์ที่ต้องการความช่วยเหลือด้วยเสียง การเริ่มต้นใช้งาน หรือการดำเนินการแบบมีคำแนะนำ

วิธีเข้าถึงและผสาน `gpt-4o-mini-audio-preview`

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ในการเริ่มใช้งาน gpt-4o-mini-audio-preview ให้สร้างบัญชีบน CometAPI และสร้างคีย์ API จากแดชบอร์ด คีย์นี้ใช้ยืนยันตัวตนทุกคำขอและเชื่อมต่อแอปของคุณกับโมเดลอย่างปลอดภัย

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `gpt-4o-mini-audio-preview`

ใช้เอ็นด์พอยต์ที่เข้ากันได้กับ OpenAI ของ CometAPI ซึ่งรองรับอินพุต/เอาต์พุตเสียง

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง

API จะส่งคืนการตอบกลับแบบ chat completion มาตรฐาน พร้อมฟิลด์ audio เพิ่มเติมที่มีเอาต์พุตเสียงที่เข้ารหัสแบบ base64 ให้ถอดรหัสข้อมูลเสียงและตรวจสอบคุณภาพก่อนนำไปใช้จริง

ข้อมูลจำเพาะทางเทคนิคของ `gpt-4o-mini-audio-preview`

คุณลักษณะ	รายละเอียด
รหัสโมเดล	`gpt-4o-mini-audio-preview`
ประเภทโมเดล	โมเดลมัลติโมดัลขนาดกะทัดรัดสำหรับพรีวิวเสียง
โหมดหลัก	ข้อความเข้า/ออก, เสียงพูดเข้า, เสียงพูดออก
รูปแบบอินเทอร์เฟซหลัก	การโต้ตอบแบบแชตที่มีเนื้อหาข้อความหลายรูปแบบ
ความสามารถด้านเสียง	การรู้จำคำพูด, การสังเคราะห์เสียงพูด, บทสนทนาแบบผสมข้อความ-เสียง
รองรับสตรีมมิง	ใช่ เหมาะสำหรับโฟลว์การสนทนาแบบเรียลไทม์
การเรียกใช้เครื่องมือ / ฟังก์ชัน	รองรับสำหรับการดำเนินการแบบมีโครงสร้างและการผสานเวิร์กโฟลว์
เหมาะสำหรับ	ผู้ช่วยเสียง, การถอดความแบบสตรีมมิง, IVR, เวิร์กโฟลว์คอลบอต, ผู้ช่วยเสียงในแอป
รูปแบบการโต้ตอบ	โมเดลสนทนาที่ทำตามคำสั่ง โดยรองรับรอบสนทนาแบบมัลติโมดัล
รูปแบบการผสานใช้งาน	การเข้าถึงผ่าน API ด้วย CometAPI โดยใช้รหัสโมเดล `gpt-4o-mini-audio-preview`