Các tính năng chính
- Tính hiện thực vật lý & tính liên tục: mô phỏng tốt hơn tính tồn tại của vật thể, chuyển động và vật lý để giảm tạo tác hình ảnh.
- Âm thanh đồng bộ: tạo ra lời thoại và hiệu ứng âm thanh khớp với hành động trên màn hình.
- Khả năng điều hướng & phạm vi phong cách: kiểm soát tinh vi hơn đối với bố cục khung hình, lựa chọn phong cách và điều kiện hóa prompt cho các thẩm mỹ khác nhau.
- Các điều khiển sáng tạo: chuỗi nhiều cảnh nhất quán hơn, cải thiện tính hiện thực vật lý và chuyển động, và các điều khiển về phong cách và thời gian so với Sora 1.
Chi tiết kỹ thuật
OpenAI mô tả các mô hình thuộc họ Sora là tận dụng các quy trình khuếch tán video tiềm ẩn với các bộ khử nhiễu dựa trên transformer và điều kiện hóa đa phương thức để tạo ra các khung hình nhất quán theo thời gian và âm thanh được căn chỉnh. Sora 2 tập trung vào việc cải thiện tính vật lý của chuyển động (tuân theo động lượng, lực nổi), các cảnh quay dài hơn và nhất quán, cùng đồng bộ hóa rõ ràng giữa hình ảnh được tạo và lời nói/hiệu ứng âm thanh được tạo. Các tài liệu công khai nhấn mạnh an toàn ở cấp độ mô hình và các cơ chế kiểm duyệt nội dung (chặn cứng đối với một số nội dung bị cấm, ngưỡng nâng cao cho người vị thành niên, và quy trình xin đồng ý đối với hình ảnh/diện mạo).
Hạn chế & cân nhắc an toàn
- Vẫn còn khiếm khuyết: Sora 2 có thể mắc lỗi (tạo tác theo thời gian, vật lý chưa hoàn hảo trong các trường hợp biên, lỗi giọng nói/phát âm) —Sora 2 đã cải thiện nhưng chưa hoàn hảo. OpenAI nêu rõ rằng mô hình vẫn có các dạng lỗi.
- Rủi ro lạm dụng: tạo hình ảnh/diện mạo không có sự đồng ý, deepfake, lo ngại về bản quyền, và rủi ro đối với sức khỏe tinh thần/sự tham gia của thanh thiếu niên. OpenAI đang triển khai luồng xin đồng ý, quyền xuất hiện cameo nghiêm ngặt hơn, ngưỡng kiểm duyệt cho người vị thành niên, và các đội ngũ kiểm duyệt con người.
- Giới hạn nội dung & pháp lý: Ứng dụng và mô hình chặn nội dung khiêu dâm/bạo lực và hạn chế việc tạo diện mạo nhân vật công chúng khi không có sự đồng ý; cũng có báo cáo cho biết OpenAI sử dụng cơ chế chọn không tham gia (opt-out) đối với các nguồn có bản quyền. Người triển khai nên đánh giá rủi ro SHTT và quyền riêng tư/pháp lý trước khi sử dụng trong sản xuất.
- các triển khai hiện tại nhấn mạnh đoạn clip ngắn (tính năng ứng dụng đề cập các clip sáng tạo dài ~10 giây), và việc tải lên nội dung siêu thực nặng hoặc không hạn chế bị hạn chế trong
Trường hợp sử dụng chính và thực tiễn
- Sáng tạo xã hội & clip lan truyền: tạo nhanh và phối lại các clip dọc ngắn cho các nguồn cấp mạng xã hội (trường hợp sử dụng ứng dụng Sora).
- Dựng mẫu & tiền trực quan hóa: dựng nhanh mô phỏng cảnh, storyboard, hình ảnh ý tưởng với âm thanh tạm thời đồng bộ cho các đội ngũ sáng tạo.
- Quảng cáo & nội dung ngắn: thử nghiệm sáng tạo dạng proof-of-concept và các tài sản chiến dịch nhỏ, trong đó quyền đạo đức/pháp lý được bảo đảm.
- Nghiên cứu & tăng cường chuỗi công cụ: công cụ cho các phòng thí nghiệm truyền thông nghiên cứu mô hình hóa thế giới và căn chỉnh đa phương thức (tùy thuộc vào giấy phép và các biện pháp an toàn).