ข้อมูลจำเพาะทาง技术ของ `whisper-1`

ข้อมูลจำเพาะ	รายละเอียด
รหัสโมเดล	`whisper-1`
ประเภทโมเดล	ถอดเสียงเป็นข้อความและแปลคำพูด
กรณีใช้งานหลัก	การถอดเสียง การรู้จำคำพูดหลายภาษา การแปลคำพูดเป็นภาษาอังกฤษ
รูปแบบอินพุต	เสียง
รูปแบบเอาต์พุต	ข้อความ
เอนด์พอยต์ที่รองรับ	`/v1/audio/transcriptions`, `/v1/audio/translations`
การรองรับสตรีมมิง	ไม่รองรับสำหรับ `whisper-1`
การรองรับพรอมต์	รองรับ โดยควบคุมรูปแบบ เครื่องหมายวรรคตอน และสไตล์ได้ในขอบเขตจำกัด
ความสามารถด้านภาษา	การรู้จำคำพูดหลายภาษาและการระบุภาษา
รูปแบบการผสานการทำงานทั่วไป	อัปโหลดไฟล์ผ่าน multipart form data
รูปแบบไฟล์เสียงที่พบบ่อย	`m4a`, `mp3`, `mp4`, `mpeg`, `mpga`, `wav`, `webm`
เหมาะที่สุดสำหรับ	การแปลงเนื้อหาที่พูดให้เป็นข้อความที่อ่านได้หรือคำแปลภาษาอังกฤษ

`whisper-1` คืออะไร?

whisper-1 เป็นโมเดลรู้จำเสียงพูดที่พร้อมใช้งานผ่าน CometAPI สำหรับแปลงเสียงเป็นข้อความและสร้างคำแปลจากเสียงพูดเป็นภาษาอังกฤษ โมเดลนี้ออกแบบมาสำหรับนักพัฒนาที่ต้องการการถอดเสียงที่เชื่อถือได้สำหรับคำพูดที่บันทึกไว้ การสัมภาษณ์ การประชุม บันทึกเสียง คำบรรยาย และเวิร์กโฟลว์เสียงหลายภาษา

โมเดลนี้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันที่ต้องการการรู้จำคำพูดอัตโนมัติหลายภาษา สามารถถอดเสียงในภาษาต้นทางหรือแปลเนื้อหาที่พูดเป็นภาษาอังกฤษ ทำให้มีประโยชน์สำหรับผลิตภัณฑ์ระดับโลก ไปป์ไลน์การประมวลผลสื่อ เครื่องมือสนับสนุน และโซลูชันด้านการเข้าถึง

เนื่องจาก whisper-1 ทำงานกับไฟล์เสียงที่อัปโหลดและส่งกลับผลลัพธ์เป็นข้อความ จึงผสานเข้ากับงานอัตโนมัติฝั่งแบ็กเอนด์ การทำดัชนีเนื้อหา การสร้างคำบรรยาย การเสริมประสิทธิภาพการค้นหา และไปป์ไลน์การวิเคราะห์ได้อย่างลงตัว

คุณสมบัติหลักของ `whisper-1`

การถอดเสียงพูดเป็นข้อความ: แปลงเสียงพูดให้เป็นข้อความสำหรับเอกสาร คำบรรยาย คลังเก็บ และเวิร์กโฟลว์ของแอปพลิเคชัน
การแปลคำพูด: สร้างคำแปลเป็นข้อความภาษาอังกฤษจากเสียงพูดที่ไม่ใช่ภาษาอังกฤษ ช่วยให้การประมวลผลเนื้อหาหลายภาษาง่ายขึ้น
การรู้จำหลายภาษา: รองรับการรู้จำได้หลายภาษา ทำให้เหมาะสำหรับการปรับใช้ระดับสากลและข้ามภูมิภาค
การจัดรูปแบบด้วยความช่วยเหลือจากพรอมต์: รองรับพรอมต์เพื่อช่วยกำหนดเครื่องหมายวรรคตอน การใช้ตัวพิมพ์ใหญ่ ศัพท์เฉพาะ และสไตล์ของข้อความถอดเสียง
เวิร์กโฟลว์ API แบบใช้ไฟล์: ทำงานได้ดีกับไฟล์เสียงที่อัปโหลด ทำให้ง่ายต่อการผสานในงานแบบแบตช์ ระบบสื่อ และบริการฝั่งแบ็กเอนด์
รองรับการระบุภาษา: ใช้ในเวิร์กโฟลว์ที่ต้องตรวจจับหรือจัดการหลายภาษาพูดได้
เหมาะอย่างยิ่งสำหรับงานด้านเนื้อหา: มีประโยชน์สำหรับการสร้างคำบรรยาย การสร้างทรานสคริปต์ที่ค้นหาได้ การบันทึกการโทรของลูกค้า การประมวลผลบทสัมภาษณ์ และการแปลงบันทึกเสียง

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

เพื่อเริ่มใช้งาน whisper-1 ให้สร้างบัญชีบน CometAPI และสร้างคีย์ API จากแดชบอร์ด หลังจากเข้าสู่ระบบ ให้ไปที่ส่วนการจัดการ API สร้างคีย์ใหม่ และเก็บรักษาไว้ให้ปลอดภัย คีย์นี้จำเป็นสำหรับการยืนยันตัวตนทุกคำขอที่คุณส่งไปยัง API ของ whisper-1

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`

เมื่อคุณมีคีย์ API แล้ว คุณสามารถส่งคำขอไปยังเอนด์พอยต์ของ CometAPI โดยใช้รหัสโมเดล whisper-1 ใส่คีย์ API ของคุณในเฮดเดอร์ Authorization และระบุ whisper-1 เป็นโมเดลเป้าหมาย สำหรับเวิร์กโฟลว์ด้านคำพูด ให้ส่งไฟล์เสียงไปยังเอนด์พอยต์สำหรับถอดเสียงหรือแปลที่เหมาะสม

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

สำหรับเวิร์กโฟลว์การแปล ให้ใช้เอนด์พอยต์การแปลโดยใช้รหัสโมเดลเดียวกัน:

curl --request POST \
  --url https://api.cometapi.com/v1/audio/translations \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

เมื่อคำขอได้รับการประมวลผล CometAPI จะส่งคืนผลลัพธ์ข้อความที่สร้างขึ้นสำหรับงาน whisper-1 ของคุณ ตรวจทานการตอบกลับเพื่อยืนยันคุณภาพของทรานสคริปต์ การจัดการภาษา เครื่องหมายวรรคตอน และความครบถ้วน หากจำเป็น ให้ปรับปรุงขั้นตอนเตรียมเสียงล่วงหน้าหรือแนวทางการใช้พรอมต์ แล้วส่งคำขอใหม่เพื่อปรับปรุงความสม่ำเสมอของผลลัพธ์สำหรับการใช้งานจริงของคุณ

ข้อมูลจำเพาะทาง技术ของ `whisper-1`

ข้อมูลจำเพาะ	รายละเอียด
รหัสโมเดล	`whisper-1`
ประเภทโมเดล	ถอดเสียงเป็นข้อความและแปลคำพูด
กรณีใช้งานหลัก	การถอดเสียง การรู้จำคำพูดหลายภาษา การแปลคำพูดเป็นภาษาอังกฤษ
รูปแบบอินพุต	เสียง
รูปแบบเอาต์พุต	ข้อความ
เอนด์พอยต์ที่รองรับ	`/v1/audio/transcriptions`, `/v1/audio/translations`
การรองรับสตรีมมิง	ไม่รองรับสำหรับ `whisper-1`
การรองรับพรอมต์	รองรับ โดยควบคุมรูปแบบ เครื่องหมายวรรคตอน และสไตล์ได้ในขอบเขตจำกัด
ความสามารถด้านภาษา	การรู้จำคำพูดหลายภาษาและการระบุภาษา
รูปแบบการผสานการทำงานทั่วไป	อัปโหลดไฟล์ผ่าน multipart form data
รูปแบบไฟล์เสียงที่พบบ่อย	`m4a`, `mp3`, `mp4`, `mpeg`, `mpga`, `wav`, `webm`
เหมาะที่สุดสำหรับ	การแปลงเนื้อหาที่พูดให้เป็นข้อความที่อ่านได้หรือคำแปลภาษาอังกฤษ

`whisper-1` คืออะไร?

คุณสมบัติหลักของ `whisper-1`

การถอดเสียงพูดเป็นข้อความ: แปลงเสียงพูดให้เป็นข้อความสำหรับเอกสาร คำบรรยาย คลังเก็บ และเวิร์กโฟลว์ของแอปพลิเคชัน
การแปลคำพูด: สร้างคำแปลเป็นข้อความภาษาอังกฤษจากเสียงพูดที่ไม่ใช่ภาษาอังกฤษ ช่วยให้การประมวลผลเนื้อหาหลายภาษาง่ายขึ้น
การรู้จำหลายภาษา: รองรับการรู้จำได้หลายภาษา ทำให้เหมาะสำหรับการปรับใช้ระดับสากลและข้ามภูมิภาค
การจัดรูปแบบด้วยความช่วยเหลือจากพรอมต์: รองรับพรอมต์เพื่อช่วยกำหนดเครื่องหมายวรรคตอน การใช้ตัวพิมพ์ใหญ่ ศัพท์เฉพาะ และสไตล์ของข้อความถอดเสียง
เวิร์กโฟลว์ API แบบใช้ไฟล์: ทำงานได้ดีกับไฟล์เสียงที่อัปโหลด ทำให้ง่ายต่อการผสานในงานแบบแบตช์ ระบบสื่อ และบริการฝั่งแบ็กเอนด์
รองรับการระบุภาษา: ใช้ในเวิร์กโฟลว์ที่ต้องตรวจจับหรือจัดการหลายภาษาพูดได้
เหมาะอย่างยิ่งสำหรับงานด้านเนื้อหา: มีประโยชน์สำหรับการสร้างคำบรรยาย การสร้างทรานสคริปต์ที่ค้นหาได้ การบันทึกการโทรของลูกค้า การประมวลผลบทสัมภาษณ์ และการแปลงบันทึกเสียง

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

curl --request POST \
  --url https://api.cometapi.com/v1/audio/translations \
  --header "Authorization: Bearer YOUR_COMETAPI_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=whisper-1" \
  --form "file=@/path/to/audio.mp3"

Whisper-1

ข้อมูลจำเพาะทาง技术ของ `whisper-1`

`whisper-1` คืออะไร?

คุณสมบัติหลักของ `whisper-1`

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ Whisper-1

โค้ดตัวอย่างและ API สำหรับ Whisper-1

Whisper-1

ข้อมูลจำเพาะทาง技术ของ `whisper-1`

`whisper-1` คืออะไร?

คุณสมบัติหลักของ `whisper-1`

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ Whisper-1

โค้ดตัวอย่างและ API สำหรับ Whisper-1

Whisper-1

ข้อมูลจำเพาะทาง技术ของ whisper-1

whisper-1 คืออะไร?

คุณสมบัติหลักของ whisper-1

วิธีเข้าถึงและผสานการทำงานกับ whisper-1

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ whisper-1

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ Whisper-1

โค้ดตัวอย่างและ API สำหรับ Whisper-1

Whisper-1

ข้อมูลจำเพาะทาง技术ของ whisper-1

whisper-1 คืออะไร?

คุณสมบัติหลักของ whisper-1

วิธีเข้าถึงและผสานการทำงานกับ whisper-1

ขั้นตอนที่ 1: ลงทะเบียนเพื่อรับคีย์ API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ whisper-1

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ Whisper-1

โค้ดตัวอย่างและ API สำหรับ Whisper-1

ข้อมูลจำเพาะทาง技术ของ `whisper-1`

`whisper-1` คืออะไร?

คุณสมบัติหลักของ `whisper-1`

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`

ข้อมูลจำเพาะทาง技术ของ `whisper-1`

`whisper-1` คืออะไร?

คุณสมบัติหลักของ `whisper-1`

วิธีเข้าถึงและผสานการทำงานกับ `whisper-1`

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `whisper-1`