ข้อมูลจำเพาะทางเทคนิคของ `gpt-4o-transcribe`

รายการ	รายละเอียด
รหัสโมเดล	`gpt-4o-transcribe`
ประเภทโมเดล	การถอดเสียงจากเสียงเป็นข้อความ
รูปแบบหลัก	อินพุตเสียง เอาต์พุตข้อความ
เวิร์กโฟลว์ที่รองรับ	การถอดเสียงแบบสตรีมมิงเรียลไทม์และการถอดเสียงแบบแบตช์
การรองรับภาษา	การรู้จำคำพูดหลายภาษา
การรองรับรูปแบบเสียง	รูปแบบเสียงที่ใช้กันทั่วไป
ลักษณะเอาต์พุต	ข้อความที่ถอดเสียงพร้อมเครื่องหมายวรรคตอนและการแบ่งประโยค
โปรไฟล์ความหน่วง	ความหน่วงต่ำ เหมาะสำหรับการใช้งานแบบโต้ตอบ
โปรไฟล์การประมวลผล	รองรับทั้งเสียงสั้นและการประมวลผลเนื้อหายาว
รูปแบบการผสานการทำงาน	API ที่เหมาะสำหรับเวิร์กโฟลว์แบบโต้ตอบและฝั่งเซิร์ฟเวอร์
กรณีการใช้งานทั่วไป	คำบรรยายสด, อินพุตผู้ช่วยเสียง, บันทึกการประชุม, การถอดเสียงสื่อ, การถอดเสียงการบันทึกการโทร

`gpt-4o-transcribe` คืออะไร?

gpt-4o-transcribe เป็นโมเดลถอดเสียงจากเสียงเป็นข้อความที่ออกแบบมาสำหรับการรู้จำคำพูดหลายภาษา พร้อมความหน่วงต่ำและการรองรับ API ที่เหมาะกับการใช้งานในสภาพแวดล้อมโปรดักชัน โมเดลนี้จะแปลงเสียงพูดให้เป็นข้อความที่อ่านได้ โดยคงโครงสร้างที่เป็นประโยชน์ไว้ เช่น เครื่องหมายวรรคตอนและขอบเขตประโยค ซึ่งช่วยให้แอปพลิเคชันปลายน้ำแสดงทรานสคริปต์ที่สะอาดขึ้นและประมวลผลเนื้อหาคำพูดได้อย่างมีประสิทธิภาพยิ่งขึ้น

โมเดลนี้เหมาะสำหรับการถอดเสียงทั้งแบบสตรีมมิงและไม่สตรีมมิง ในผลิตภัณฑ์แบบโต้ตอบ มันสามารถรองรับคำบรรยายสด อินเทอร์เฟซควบคุมด้วยเสียง และอินพุตผู้ช่วยแบบเรียลไทม์ ในเวิร์กโฟลว์ฝั่งแบ็กเอนด์หรือออฟไลน์ มันสามารถถอดเสียงจากไฟล์บันทึกที่อัปโหลด เช่น การประชุม สัมภาษณ์ สายสนับสนุนลูกค้า และไฟล์สื่อ การรองรับเสียงแบบเนื้อหายาวและรูปแบบเสียงที่ใช้กันทั่วไปทำให้ใช้งานได้จริงในสภาพแวดล้อมการปรับใช้ที่หลากหลาย

คุณสมบัติเด่นของ `gpt-4o-transcribe`

การถอดเสียงหลายภาษา: รู้จำคำพูดได้หลากหลายภาษา เหมาะกับผลิตภัณฑ์ระดับโลกและไปป์ไลน์เนื้อหาหลายภาษา
การรู้จำที่มีความหน่วงต่ำ: ออกแบบมาเพื่อให้ผลลัพธ์รวดเร็ว สำคัญต่อคำบรรยายสด อินเทอร์เฟซเสียง และแอปพลิเคชันเชิงโต้ตอบ
รองรับการสตรีมแบบเรียลไทม์: ใช้ในเวิร์กโฟลว์สตรีมมิง โดยส่งเสียงทีละส่วนและรับข้อความขณะประมวลผล
รองรับการถอดเสียงแบบแบตช์: เหมาะกับงานออฟไลน์หรือฝั่งเซิร์ฟเวอร์ที่ประมวลผลไฟล์เสียงครบชุด
เอาต์พุตข้อความที่มีโครงสร้าง: ให้ทรานสคริปต์พร้อมเครื่องหมายวรรคตอนและการแบ่งประโยค เพื่อการอ่านที่ดีและการพาร์สปลายน้ำที่ง่ายขึ้น
การประมวลผลเสียงเนื้อหายาว: เหมาะกับการบันทึกยาวๆ เช่น การประชุม บรรยาย พอดแคสต์ และคลังการโทร
เหมาะกับการใช้งานอย่างกว้างขวาง: รองรับกรณีใช้งาน เช่น บันทึกการประชุม การถอดเสียงสื่อ การวิเคราะห์สายลูกค้า และอินพุตสำหรับผู้ช่วยเสียง
รูปแบบการผสานการทำงานที่ยืดหยุ่น: เหมาะกับทั้งประสบการณ์ฝั่งหน้าแบบโต้ตอบและไปป์ไลน์อัตโนมัติฝั่งแบ็กเอนด์ผ่านการเข้าถึงด้วย API

วิธีเข้าถึงและผสานการทำงานกับ `gpt-4o-transcribe`

ขั้นตอนที่ 1: สมัครเพื่อรับคีย์ API

เริ่มต้นโดยสมัครใช้งานบนแพลตฟอร์ม CometAPI และสร้างคีย์ API จากแดชบอร์ด หลังจากสร้างคีย์แล้ว ให้เก็บรักษาอย่างปลอดภัยและใช้สำหรับตรวจสอบสิทธิ์ในทุกคำขอ คีย์นี้จะให้สิทธิ์เข้าถึง API ของ gpt-4o-transcribe และโมเดลอื่นๆ ที่มีบน CometAPI

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `gpt-4o-transcribe`

เมื่อคีย์ API พร้อมแล้ว ให้ส่งคำขอไปยังเอ็นด์พอยต์ของ CometAPI และระบุ gpt-4o-transcribe เป็นโมเดล ใส่เฮดเดอร์การตรวจสอบสิทธิ์ที่จำเป็น และส่งอินพุตเสียงตามเวิร์กโฟลว์ของคุณ เช่น ส่งชิ้นส่วนเสียงแบบสตรีมสำหรับการถอดเสียงแบบเรียลไทม์ หรือส่งไฟล์เสียงทั้งไฟล์สำหรับการประมวลผลแบบแบตช์ จากนั้นแอปพลิเคชันของคุณสามารถนำข้อความที่ได้ไปใช้สำหรับคำบรรยาย ทรานสคริปต์ การทำดัชนีค้นหา การสร้างบันทึก หรือภารกิจปลายน้ำอื่นๆ

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer $COMETAPI_API_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=gpt-4o-transcribe" \
  --form "file=@audio.wav"

ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง

หลังจากส่งคำขอแล้ว ให้ดึงผลการถอดเสียงจากการตอบกลับของ API และตรวจสอบว่าผลลัพธ์ตรงตามข้อกำหนดด้านคุณภาพและรูปแบบของคุณ ทั้งนี้ขึ้นอยู่กับแอปพลิเคชันของคุณ คุณอาจต้องตรวจสอบความครบถ้วนของทรานสคริปต์ คุณภาพของเครื่องหมายวรรคตอน การแบ่งประโยค สมมติฐานเกี่ยวกับเวิร์กโฟลว์ของผู้พูด และการจัดการภาษา เมื่อยืนยันแล้ว สามารถจัดเก็บทรานสคริปต์ แสดงให้ผู้ใช้ หรือส่งต่อไปยังระบบวิเคราะห์และประมวลผลภาษาปลายน้ำได้

ข้อมูลจำเพาะทางเทคนิคของ `gpt-4o-transcribe`

รายการ	รายละเอียด
รหัสโมเดล	`gpt-4o-transcribe`
ประเภทโมเดล	การถอดเสียงจากเสียงเป็นข้อความ
รูปแบบหลัก	อินพุตเสียง เอาต์พุตข้อความ
เวิร์กโฟลว์ที่รองรับ	การถอดเสียงแบบสตรีมมิงเรียลไทม์และการถอดเสียงแบบแบตช์
การรองรับภาษา	การรู้จำคำพูดหลายภาษา
การรองรับรูปแบบเสียง	รูปแบบเสียงที่ใช้กันทั่วไป
ลักษณะเอาต์พุต	ข้อความที่ถอดเสียงพร้อมเครื่องหมายวรรคตอนและการแบ่งประโยค
โปรไฟล์ความหน่วง	ความหน่วงต่ำ เหมาะสำหรับการใช้งานแบบโต้ตอบ
โปรไฟล์การประมวลผล	รองรับทั้งเสียงสั้นและการประมวลผลเนื้อหายาว
รูปแบบการผสานการทำงาน	API ที่เหมาะสำหรับเวิร์กโฟลว์แบบโต้ตอบและฝั่งเซิร์ฟเวอร์
กรณีการใช้งานทั่วไป	คำบรรยายสด, อินพุตผู้ช่วยเสียง, บันทึกการประชุม, การถอดเสียงสื่อ, การถอดเสียงการบันทึกการโทร