Thông số kỹ thuật của `gpt-4o-mini-audio-preview`

Thông số	Chi tiết
ID mô hình	`gpt-4o-mini-audio-preview`
Loại mô hình	Mô hình đa phương thức nhỏ gọn có xem trước âm thanh
Phương thức lõi	Văn bản vào/ra, đầu vào giọng nói, đầu ra giọng nói
Mẫu giao diện chính	Tương tác dựa trên trò chuyện với nội dung thông điệp đa phương thức
Khả năng âm thanh	Nhận dạng giọng nói, tổng hợp giọng nói, hội thoại kết hợp văn bản-âm thanh
Hỗ trợ truyền phát	Có, phù hợp cho luồng hội thoại theo thời gian thực
Gọi công cụ / hàm	Được hỗ trợ cho các hành động có cấu trúc và tích hợp quy trình làm việc
Phù hợp nhất cho	Trợ lý giọng nói, phiên âm dạng streaming, IVR, quy trình call-bot, trợ lý âm thanh trong ứng dụng
Kiểu tương tác	Mô hình hội thoại tuân thủ chỉ dẫn với các lượt trao đổi đa phương thức
Mẫu tích hợp	Truy cập dựa trên API qua CometAPI bằng ID mô hình `gpt-4o-mini-audio-preview`

`gpt-4o-mini-audio-preview` là gì?

gpt-4o-mini-audio-preview là một mô hình đa phương thức nhỏ gọn được thiết kế cho nhà phát triển muốn xây dựng trải nghiệm hội thoại bằng âm thanh. Nó hỗ trợ cả đầu vào giọng nói và đầu ra giọng nói bên cạnh tương tác văn bản tiêu chuẩn, phù hợp với các ứng dụng nơi người dùng giao tiếp tự nhiên và mong đợi phản hồi bằng giọng nói hoặc văn bản.

Mô hình này đặc biệt hữu ích khi một sản phẩm cần kết hợp nhận dạng giọng nói tự động, hiểu ngôn ngữ tự nhiên và tổng hợp giọng nói trong một vòng lặp hội thoại duy nhất. Thay vì coi phiên âm, suy luận và tạo phản hồi là các thành phần tách rời, gpt-4o-mini-audio-preview cho phép một quy trình thống nhất cho đối thoại văn bản-âm thanh kết hợp.

Vì cũng hỗ trợ gọi công cụ và hàm, mô hình có thể làm nhiều hơn là trò chuyện. Nó có thể kích hoạt các hành động có cấu trúc như tra cứu thông tin tài khoản, định tuyến yêu cầu hỗ trợ khách hàng, cập nhật hồ sơ hoặc gọi logic nghiệp vụ trong một ứng dụng lớn hơn. Điều đó khiến nó phù hợp mạnh mẽ cho các hệ thống giọng nói trong môi trường sản xuất như trợ lý ảo, tổng đài hỗ trợ điện thoại, hệ thống trả lời tương tác (IVR), pipeline phiên âm kèm tóm tắt và trợ lý sản phẩm có hỗ trợ âm thanh.

Các tính năng chính của `gpt-4o-mini-audio-preview`

Hỗ trợ đầu vào giọng nói: Tiếp nhận tương tác do âm thanh dẫn dắt để ứng dụng xử lý yêu cầu nói một cách tự nhiên.
Tạo đầu ra giọng nói: Tạo phản hồi âm thanh cho trợ lý, tự động hóa cuộc gọi và trải nghiệm hướng dẫn bằng giọng nói.
Hội thoại văn bản-âm thanh kết hợp: Hỗ trợ quy trình trong đó một số lượt là giọng nói và số khác là văn bản, hữu ích cho giao diện lai.
Thiết kế đa phương thức nhỏ gọn: Cung cấp khả năng âm thanh trong một mô hình gọn nhẹ, phù hợp cho ứng dụng phản hồi nhanh.
Phản hồi dạng streaming: Giúp cung cấp trải nghiệm độ trễ thấp, thời gian thực như trợ lý trực tiếp và hệ thống phiên âm streaming.
Gọi công cụ/hàm: Cho phép mô hình gọi các công cụ có cấu trúc hoặc hàm nghiệp vụ cho các tác vụ vượt ngoài hội thoại mở.
Tuân thủ chỉ dẫn: Tuân theo định hướng ở cấp ứng dụng để giữ phản hồi phù hợp với hành vi sản phẩm và yêu cầu quy trình.
Quy trình phiên âm và tóm tắt: Hữu ích để biến tương tác nói thành đầu ra văn bản có cấu trúc, bản tóm tắt hoặc hành động tiếp theo.
Sẵn sàng cho IVR và call-bot: Phù hợp với kịch bản hỗ trợ khách hàng và viễn thông, nơi tương tác nói và định tuyến tác vụ là trọng tâm.
Hỗ trợ âm thanh trong ứng dụng: Có thể nhúng vào sản phẩm phần mềm cần trợ giúp bằng giọng nói, onboarding hoặc hành động hướng dẫn.

Cách truy cập và tích hợp `gpt-4o-mini-audio-preview`

Bước 1: Đăng ký để lấy khóa API

Để bắt đầu sử dụng gpt-4o-mini-audio-preview, trước tiên hãy tạo tài khoản trên CometAPI và tạo khóa API từ bảng điều khiển. Khóa này được dùng để xác thực mọi yêu cầu và kết nối ứng dụng của bạn một cách an toàn tới mô hình.

Bước 2: Gửi yêu cầu tới API `gpt-4o-mini-audio-preview`

Sử dụng endpoint tương thích với OpenAI của CometAPI có hỗ trợ đầu vào/đầu ra âm thanh.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Bước 3: Truy xuất và xác minh kết quả

API trả về phản hồi hoàn thành hội thoại chuẩn với một trường audio bổ sung chứa đầu ra âm thanh được mã hóa base64. Giải mã dữ liệu âm thanh và kiểm tra chất lượng trước khi dùng trong môi trường sản xuất.

Thông số kỹ thuật của `gpt-4o-mini-audio-preview`

Thông số	Chi tiết
ID mô hình	`gpt-4o-mini-audio-preview`
Loại mô hình	Mô hình đa phương thức nhỏ gọn có xem trước âm thanh
Phương thức lõi	Văn bản vào/ra, đầu vào giọng nói, đầu ra giọng nói
Mẫu giao diện chính	Tương tác dựa trên trò chuyện với nội dung thông điệp đa phương thức
Khả năng âm thanh	Nhận dạng giọng nói, tổng hợp giọng nói, hội thoại kết hợp văn bản-âm thanh
Hỗ trợ truyền phát	Có, phù hợp cho luồng hội thoại theo thời gian thực
Gọi công cụ / hàm	Được hỗ trợ cho các hành động có cấu trúc và tích hợp quy trình làm việc
Phù hợp nhất cho	Trợ lý giọng nói, phiên âm dạng streaming, IVR, quy trình call-bot, trợ lý âm thanh trong ứng dụng
Kiểu tương tác	Mô hình hội thoại tuân thủ chỉ dẫn với các lượt trao đổi đa phương thức
Mẫu tích hợp	Truy cập dựa trên API qua CometAPI bằng ID mô hình `gpt-4o-mini-audio-preview`