Thông số kỹ thuật của `gpt-4o-transcribe`

Mục	Chi tiết
ID mô hình	`gpt-4o-transcribe`
Loại mô hình	Phiên âm âm thanh thành văn bản
Phương thức chính	Âm thanh đầu vào, văn bản đầu ra
Quy trình được hỗ trợ	Phiên âm phát trực tuyến theo thời gian thực và phiên âm theo lô
Hỗ trợ ngôn ngữ	Nhận dạng giọng nói đa ngôn ngữ
Hỗ trợ định dạng âm thanh	Các định dạng âm thanh phổ biến
Đặc tính đầu ra	Văn bản đã phiên âm có dấu câu và tách câu
Đặc tính độ trễ	Độ trễ thấp, phù hợp cho các trường hợp sử dụng tương tác
Đặc tính xử lý	Hỗ trợ cả âm thanh ngắn và dạng dài
Kiểu tích hợp	API phù hợp cho quy trình tương tác và phía máy chủ
Trường hợp sử dụng điển hình	Phụ đề trực tiếp, đầu vào trợ lý giọng nói, ghi chú cuộc họp, phiên âm phương tiện, phiên âm ghi âm cuộc gọi

`gpt-4o-transcribe` là gì?

gpt-4o-transcribe là một mô hình chuyển âm thanh thành văn bản được thiết kế cho nhận dạng giọng nói đa ngôn ngữ với độ trễ thấp và hỗ trợ API hướng sản xuất. Nó chuyển đổi âm thanh lời nói thành văn bản dễ đọc đồng thời giữ lại cấu trúc hữu ích như dấu câu và ranh giới câu, giúp các ứng dụng hạ nguồn trình bày bản chép sạch hơn và xử lý nội dung lời nói hiệu quả hơn.

Mô hình phù hợp cho cả các kịch bản phiên âm phát trực tuyến và không phát trực tuyến. Trong các sản phẩm tương tác, nó có thể cung cấp phụ đề trực tiếp, giao diện điều khiển bằng giọng nói và đầu vào trợ lý theo thời gian thực. Trong các quy trình backend hoặc ngoại tuyến, nó có thể phiên âm các bản ghi đã tải lên như cuộc họp, phỏng vấn, cuộc gọi hỗ trợ khách hàng và tệp phương tiện. Việc hỗ trợ âm thanh dạng dài và các định dạng âm thanh phổ biến khiến nó phù hợp với nhiều môi trường triển khai.

Các tính năng chính của `gpt-4o-transcribe`

Phiên âm đa ngôn ngữ: Nhận dạng lời nói trên nhiều ngôn ngữ, hữu ích cho sản phẩm toàn cầu và quy trình nội dung đa ngôn ngữ.
Nhận dạng độ trễ thấp: Được thiết kế cho phản hồi phiên âm nhanh, quan trọng với phụ đề trực tiếp, giao diện giọng nói và ứng dụng tương tác.
Hỗ trợ phát trực tuyến theo thời gian thực: Có thể dùng trong quy trình phát trực tuyến, nơi âm thanh được gửi từng phần và văn bản được trả về khi âm thanh được xử lý.
Hỗ trợ phiên âm theo lô: Hoạt động tốt cho công việc ngoại tuyến hoặc phía máy chủ xử lý các tệp âm thanh đã tải lên.
Đầu ra văn bản có cấu trúc: Tạo bản chép có dấu câu và phân đoạn câu để cải thiện khả năng đọc và dễ phân tích hạ nguồn.
Xử lý âm thanh dạng dài: Phù hợp cho các bản ghi kéo dài như cuộc họp, bài giảng, podcast và kho lưu trữ cuộc gọi.
Phạm vi ứng dụng rộng: Hỗ trợ các trường hợp như ghi chú cuộc họp, phiên âm phương tiện, phân tích cuộc gọi khách hàng và đầu vào giọng nói cho trợ lý.
Mẫu tích hợp linh hoạt: Phù hợp cho cả trải nghiệm tương tác ở frontend và các pipeline tự động ở backend thông qua truy cập dựa trên API.

Cách truy cập và tích hợp `gpt-4o-transcribe`

Bước 1: Đăng ký lấy API Key

Để bắt đầu, đăng ký trên nền tảng CometAPI và tạo khóa API từ bảng điều khiển. Sau khi tạo khóa, hãy lưu trữ an toàn và sử dụng nó để xác thực mọi yêu cầu. Khóa này cấp cho bạn quyền truy cập API gpt-4o-transcribe và các mô hình khác có sẵn qua CometAPI.

Bước 2: Gửi yêu cầu tới API `gpt-4o-transcribe`

Khi khóa API đã sẵn sàng, hãy gửi yêu cầu đến endpoint CometAPI và chỉ định gpt-4o-transcribe làm mô hình. Bao gồm các header xác thực cần thiết và cung cấp dữ liệu âm thanh theo quy trình của bạn, chẳng hạn như gửi từng khối âm thanh cho phiên âm thời gian thực hoặc tệp âm thanh hoàn chỉnh cho xử lý theo lô. Ứng dụng của bạn sau đó có thể sử dụng văn bản trả về cho phụ đề, bản chép, lập chỉ mục tìm kiếm, tạo ghi chú hoặc các tác vụ hạ nguồn khác.

curl --request POST \
  --url https://api.cometapi.com/v1/audio/transcriptions \
  --header "Authorization: Bearer $COMETAPI_API_KEY" \
  --header "Content-Type: multipart/form-data" \
  --form "model=gpt-4o-transcribe" \
  --form "file=@audio.wav"

Bước 3: Truy xuất và xác minh kết quả

Sau khi gửi yêu cầu, lấy kết quả phiên âm từ phản hồi API và kiểm tra xem kết quả có đáp ứng yêu cầu về chất lượng và định dạng của bạn hay không. Tùy vào ứng dụng, bạn có thể cần kiểm tra độ đầy đủ của bản chép, chất lượng dấu câu, phân đoạn câu, các giả định về luồng công việc liên quan đến người nói và xử lý ngôn ngữ. Khi đã xác nhận, bản phiên âm có thể được lưu trữ, hiển thị cho người dùng hoặc chuyển vào các hệ thống phân tích và xử lý ngôn ngữ ở hạ nguồn.

Thông số kỹ thuật của `gpt-4o-transcribe`

Mục	Chi tiết
ID mô hình	`gpt-4o-transcribe`
Loại mô hình	Phiên âm âm thanh thành văn bản
Phương thức chính	Âm thanh đầu vào, văn bản đầu ra
Quy trình được hỗ trợ	Phiên âm phát trực tuyến theo thời gian thực và phiên âm theo lô
Hỗ trợ ngôn ngữ	Nhận dạng giọng nói đa ngôn ngữ
Hỗ trợ định dạng âm thanh	Các định dạng âm thanh phổ biến
Đặc tính đầu ra	Văn bản đã phiên âm có dấu câu và tách câu
Đặc tính độ trễ	Độ trễ thấp, phù hợp cho các trường hợp sử dụng tương tác
Đặc tính xử lý	Hỗ trợ cả âm thanh ngắn và dạng dài
Kiểu tích hợp	API phù hợp cho quy trình tương tác và phía máy chủ
Trường hợp sử dụng điển hình	Phụ đề trực tiếp, đầu vào trợ lý giọng nói, ghi chú cuộc họp, phiên âm phương tiện, phiên âm ghi âm cuộc gọi