ข้อกำหนดทางเทคนิคของ `tts-1-1106`

คุณลักษณะ	รายละเอียด
รหัสโมเดล	`tts-1-1106`
ตระกูลผู้ให้บริการ	ตระกูลโมเดลแปลงข้อความเป็นคำพูดของ OpenAI
ความสามารถหลัก	แปลงอินพุตข้อความให้เป็นเสียงพูดที่ฟังเป็นธรรมชาติ
เอ็นด์พอยต์ที่ใช้ทั่วไป	`/v1/audio/speech`
โฟกัสการปรับแต่ง	การสร้างเสียงที่หน่วงต่ำ เหมาะกับงานเรียลไทม์
รูปแบบอินพุต	ข้อความ
รูปแบบเอาต์พุต	เสียง
รูปแบบเอาต์พุตที่รองรับ	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`
การรองรับเสียงพูด	ใช้งานร่วมกับเสียง TTS ที่มีให้ในตัวของ OpenAI ได้; ตระกูล `tts-1` / `tts-1-hd` รองรับชุดย่อยที่เล็กกว่า รวมถึง `alloy`, `ash`, `coral`, `echo`, `fable`, `nova`, `onyx`, `sage` และ `shimmer`
ความยาวอินพุตสูงสุด	4096 อักขระต่อคำขอ
ข้อมูลราคาอ้างอิง	OpenAI ระบุราคาการสร้างเสียง TTS ที่ $15.00 ต่อ 1M อักขระสำหรับหมวด TTS
หมายเหตุด้านการปฏิบัติตามข้อกำหนด	ควรแจ้งผู้ใช้ปลายทางอย่างชัดเจนเมื่อเสียงที่ได้ยินถูกสร้างโดย AI

`tts-1-1106` คืออะไร?

tts-1-1106 เป็นตัวระบุตามแพลตฟอร์มของ CometAPI สำหรับโมเดลแปลงข้อความเป็นคำพูดของ OpenAI ในตระกูล tts-1 ที่ออกแบบมาเพื่อเปลี่ยนข้อความที่เขียนให้เป็นเสียงพูด OpenAI ระบุว่า tts-1 เป็นโมเดลที่ปรับให้เหมาะกับความเร็วและการใช้งานแบบเรียลไทม์ ทำให้เหมาะกับแอปพลิเคชันเชิงโต้ตอบที่ต้องการการสร้างเสียงอย่างรวดเร็วมากกว่าคุณภาพการเรนเดอร์แบบออฟไลน์สูงสุด

ในการใช้งานจริง โมเดลคลาสนี้ใช้ในสถานการณ์ เช่น การบรรยาย ผู้ช่วยเสียง ฟีเจอร์ช่วยการเข้าถึง อินเทอร์เฟซสนทนา และการเล่นเสียงอัตโนมัติ เข้าถึงผ่านเวิร์กโฟลว์การสร้างเสียงของ Audio API โดยนักพัฒนาส่งข้อความ เลือกเสียงที่รองรับ และรับไฟล์เสียงในรูปแบบเอาต์พุตที่เลือก

เนื่องจากส่วนต่อท้าย -1106 ดูเหมือนจะเป็นตัวระบุฝั่งแพลตฟอร์มมากกว่าจะเป็นชื่อโมเดลสาธารณะของ OpenAI การตีความที่ปลอดภัยที่สุดคือ tts-1-1106 จะแมปกับพฤติกรรมและรูปแบบการผสานใช้งานของตระกูลการสร้างเสียง tts-1 ของ OpenAI ซึ่งหมายความว่านักพัฒนาควรคาดหวังโมเดล TTS ที่รวดเร็ว มุ่งเน้นการสังเคราะห์ที่ตอบสนองไว การใช้เอ็นด์พอยต์เสียงแบบมาตรฐาน และการเลือกเสียงที่มีมาให้ในตัว

คุณสมบัติหลักของ `tts-1-1106`

การสร้างเสียงที่เน้นเรียลไทม์: ตระกูล tts-1 พื้นฐานถูกปรับให้เหมาะกับความเร็ว ทำให้เหมาะสำหรับงานสด ผู้ช่วย และประสบการณ์เสียงที่ไวต่อความหน่วง
การแปลงข้อความเป็นเสียงที่เป็นธรรมชาติ: แปลงข้อความธรรมดาให้เป็นเสียงพูดที่ฟังสมจริงสำหรับการเล่น การบรรยาย และฟีเจอร์ที่มีเสียงในผลิตภัณฑ์
รองรับหลายรูปแบบเอาต์พุต: นักพัฒนาสามารถขอไฟล์เสียงเป็น mp3, opus, aac, flac, wav หรือ pcm แบบดิบ รองรับทั้งการเล่นสื่อทั่วไปและการผสานที่หน่วงต่ำ
ตัวเลือกเสียงในตัว: ตระกูลโมเดลรองรับชุดเสียงมาตรฐาน ช่วยให้เลือกสไตล์การพูดให้เหมาะกับโทนของผลิตภัณฑ์ได้โดยไม่ต้องฝึกโมเดลผู้พูดแบบกำหนดเอง
ผสาน API ได้ตรงไปตรงมา: ออกแบบให้ทำงานผ่านเอ็นด์พอยต์การพูดมาตรฐาน ลดความซับซ้อนในการนำไปใช้สำหรับทีมที่ใช้งาน Audio API ที่เข้ากันกับ OpenAI อยู่แล้ว
ความยืดหยุ่นด้านภาษา: OpenAI ระบุว่า TTS stack โดยทั่วไปสอดคล้องกับการรองรับภาษาของ Whisper ทำให้สร้างเสียงได้หลายภาษา แม้ว่าเสียงจะปรับให้เหมาะกับภาษาอังกฤษเป็นหลัก
รองรับการสตรีม: Speech API ของ OpenAI รองรับการส่งเสียงแบบสตรีม ทำให้เริ่มเล่นได้ก่อนที่ไฟล์จะเสร็จสมบูรณ์ทั้งหมดในกรณีที่รองรับ
เหมาะสำหรับการใช้งานจริงในโปรดักชัน: ด้วยขีดจำกัดอัตราที่มีเอกสารกำกับ พฤติกรรมเอ็นด์พอยต์มาตรฐาน และแนวทางการใช้งานเกี่ยวกับการเปิดเผยว่าเป็นเสียง AI ตระกูลโมเดลนี้เหมาะสำหรับการนำไปใช้งานจริง

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 1: สมัครและรับ API Key

สมัครใช้ CometAPI และสร้าง API key จากแดชบอร์ด จัดเก็บคีย์อย่างปลอดภัยและตั้งค่าเป็นตัวแปรสภาพแวดล้อมในแอปพลิเคชัน เพื่อให้แบ็กเอนด์ของคุณสามารถยืนยันตัวตนเมื่อเรียกใช้งาน tts-1-1106 API

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`

ส่งคำขอ POST ไปยังเอ็นด์พอยต์สร้างเสียงที่เข้ากันกับ OpenAI ผ่าน CometAPI โดยตั้งค่า model เป็น tts-1-1106 และใส่ข้อความอินพุตพร้อมตัวเลือกที่รองรับ เช่น voice และ response_format

curl --request POST \
  --url https://api.cometapi.com/v1/audio/speech \
  --header "Authorization: Bearer $COMETAPI_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "tts-1-1106",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

บันทึกไฟล์เสียงที่ส่งกลับมาหรือสตรีมผลลัพธ์โดยตรงในแอปของคุณ จากนั้นตรวจสอบว่าเนื้อหาเสียง เสียงที่เลือก รูปแบบ และคุณภาพการเล่น ตรงกับผลลัพธ์ที่คุณคาดหวังสำหรับ tts-1-1106

ข้อกำหนดทางเทคนิคของ `tts-1-1106`

คุณลักษณะ	รายละเอียด
รหัสโมเดล	`tts-1-1106`
ตระกูลผู้ให้บริการ	ตระกูลโมเดลแปลงข้อความเป็นคำพูดของ OpenAI
ความสามารถหลัก	แปลงอินพุตข้อความให้เป็นเสียงพูดที่ฟังเป็นธรรมชาติ
เอ็นด์พอยต์ที่ใช้ทั่วไป	`/v1/audio/speech`
โฟกัสการปรับแต่ง	การสร้างเสียงที่หน่วงต่ำ เหมาะกับงานเรียลไทม์
รูปแบบอินพุต	ข้อความ
รูปแบบเอาต์พุต	เสียง
รูปแบบเอาต์พุตที่รองรับ	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`
การรองรับเสียงพูด	ใช้งานร่วมกับเสียง TTS ที่มีให้ในตัวของ OpenAI ได้; ตระกูล `tts-1` / `tts-1-hd` รองรับชุดย่อยที่เล็กกว่า รวมถึง `alloy`, `ash`, `coral`, `echo`, `fable`, `nova`, `onyx`, `sage` และ `shimmer`
ความยาวอินพุตสูงสุด	4096 อักขระต่อคำขอ
ข้อมูลราคาอ้างอิง	OpenAI ระบุราคาการสร้างเสียง TTS ที่ $15.00 ต่อ 1M อักขระสำหรับหมวด TTS
หมายเหตุด้านการปฏิบัติตามข้อกำหนด	ควรแจ้งผู้ใช้ปลายทางอย่างชัดเจนเมื่อเสียงที่ได้ยินถูกสร้างโดย AI

`tts-1-1106` คืออะไร?

คุณสมบัติหลักของ `tts-1-1106`

การสร้างเสียงที่เน้นเรียลไทม์: ตระกูล tts-1 พื้นฐานถูกปรับให้เหมาะกับความเร็ว ทำให้เหมาะสำหรับงานสด ผู้ช่วย และประสบการณ์เสียงที่ไวต่อความหน่วง
การแปลงข้อความเป็นเสียงที่เป็นธรรมชาติ: แปลงข้อความธรรมดาให้เป็นเสียงพูดที่ฟังสมจริงสำหรับการเล่น การบรรยาย และฟีเจอร์ที่มีเสียงในผลิตภัณฑ์
รองรับหลายรูปแบบเอาต์พุต: นักพัฒนาสามารถขอไฟล์เสียงเป็น mp3, opus, aac, flac, wav หรือ pcm แบบดิบ รองรับทั้งการเล่นสื่อทั่วไปและการผสานที่หน่วงต่ำ
ตัวเลือกเสียงในตัว: ตระกูลโมเดลรองรับชุดเสียงมาตรฐาน ช่วยให้เลือกสไตล์การพูดให้เหมาะกับโทนของผลิตภัณฑ์ได้โดยไม่ต้องฝึกโมเดลผู้พูดแบบกำหนดเอง
ผสาน API ได้ตรงไปตรงมา: ออกแบบให้ทำงานผ่านเอ็นด์พอยต์การพูดมาตรฐาน ลดความซับซ้อนในการนำไปใช้สำหรับทีมที่ใช้งาน Audio API ที่เข้ากันกับ OpenAI อยู่แล้ว
ความยืดหยุ่นด้านภาษา: OpenAI ระบุว่า TTS stack โดยทั่วไปสอดคล้องกับการรองรับภาษาของ Whisper ทำให้สร้างเสียงได้หลายภาษา แม้ว่าเสียงจะปรับให้เหมาะกับภาษาอังกฤษเป็นหลัก
รองรับการสตรีม: Speech API ของ OpenAI รองรับการส่งเสียงแบบสตรีม ทำให้เริ่มเล่นได้ก่อนที่ไฟล์จะเสร็จสมบูรณ์ทั้งหมดในกรณีที่รองรับ
เหมาะสำหรับการใช้งานจริงในโปรดักชัน: ด้วยขีดจำกัดอัตราที่มีเอกสารกำกับ พฤติกรรมเอ็นด์พอยต์มาตรฐาน และแนวทางการใช้งานเกี่ยวกับการเปิดเผยว่าเป็นเสียง AI ตระกูลโมเดลนี้เหมาะสำหรับการนำไปใช้งานจริง

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 1: สมัครและรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`

curl --request POST \
  --url https://api.cometapi.com/v1/audio/speech \
  --header "Authorization: Bearer $COMETAPI_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "tts-1-1106",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

tts-1-1106

ข้อกำหนดทางเทคนิคของ `tts-1-1106`

`tts-1-1106` คืออะไร?

คุณสมบัติหลักของ `tts-1-1106`

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 1: สมัครและรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ tts-1-1106

โค้ดตัวอย่างและ API สำหรับ tts-1-1106

tts-1-1106

ข้อกำหนดทางเทคนิคของ `tts-1-1106`

`tts-1-1106` คืออะไร?

คุณสมบัติหลักของ `tts-1-1106`

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 1: สมัครและรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ tts-1-1106

โค้ดตัวอย่างและ API สำหรับ tts-1-1106

tts-1-1106

ข้อกำหนดทางเทคนิคของ tts-1-1106

tts-1-1106 คืออะไร?

คุณสมบัติหลักของ tts-1-1106

วิธีเข้าถึงและผสาน tts-1-1106

ขั้นตอนที่ 1: สมัครและรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ tts-1-1106

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ tts-1-1106

โค้ดตัวอย่างและ API สำหรับ tts-1-1106

tts-1-1106

ข้อกำหนดทางเทคนิคของ tts-1-1106

tts-1-1106 คืออะไร?

คุณสมบัติหลักของ tts-1-1106

วิธีเข้าถึงและผสาน tts-1-1106

ขั้นตอนที่ 1: สมัครและรับ API Key

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ tts-1-1106

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ราคาสำหรับ tts-1-1106

โค้ดตัวอย่างและ API สำหรับ tts-1-1106

ข้อกำหนดทางเทคนิคของ `tts-1-1106`

`tts-1-1106` คืออะไร?

คุณสมบัติหลักของ `tts-1-1106`

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`

ข้อกำหนดทางเทคนิคของ `tts-1-1106`

`tts-1-1106` คืออะไร?

คุณสมบัติหลักของ `tts-1-1106`

วิธีเข้าถึงและผสาน `tts-1-1106`

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ `tts-1-1106`