Sora được huấn luyện như thế nào?

Mô hình tạo video của OpenAI Sora đại diện cho một bước tiến đáng kể trong AI tạo sinh, cho phép tổng hợp video full HD từ các lời nhắc văn bản đơn giản. Kể từ khi ra mắt vào tháng 2024 năm XNUMX, Sora đã khơi dậy sự phấn khích về tiềm năng sáng tạo của nó và mối quan tâm về các tác động về mặt đạo đức và pháp lý của nó. Dưới đây là một cuộc khám phá toàn diện về Sora được đào tạo như thế nàodựa trên các báo cáo và thông tin kỹ thuật mới nhất.

Sora là gì?

Sora là công cụ chuyển đổi văn bản thành video tiên phong của OpenAI, tạo ra các đoạn video clip chân thực, có độ phân giải cao từ các mô tả văn bản ngắn gọn. Không giống như các mô hình trước đây chỉ giới hạn ở một vài giây cảnh quay có độ phân giải thấp, Sora có thể tạo ra các video dài tới 1 phút ở độ phân giải Full HD (1920×1080), với chuyển động mượt mà và các cảnh chi tiết.

Sora cung cấp những khả năng gì?

Tạo video theo văn bản: Người dùng nhập một lời nhắc (ví dụ: “trận tuyết rơi yên bình ở công viên Tokyo”) và Sora sẽ xuất ra một đoạn video clip khớp với mô tả đó.
Chỉnh sửa và mở rộng: Sora có thể mở rộng các video hiện có, điền vào các khung hình bị thiếu và thay đổi hướng hoặc phong cách phát lại.
Tĩnh sang chuyển động:Mô hình này có thể làm hoạt hình các hình ảnh tĩnh, biến đổi ảnh chụp hoặc hình minh họa thành các cảnh chuyển động.
Sự thay đổi thẩm mỹ:Thông qua mã thông báo kiểu dáng, người dùng có thể điều chỉnh ánh sáng, phân loại màu sắc và hiệu ứng điện ảnh.

Kiến trúc nào tạo nên sức mạnh của Sora?

Sora được xây dựng trên nền tảng biến đổi tương tự như GPT-4, nhưng điều chỉnh biểu diễn đầu vào để xử lý các chiều thời gian và không gian của video:

Mã thông báo bản vá không gian-thời gian:Các khung hình video được chia thành các mảng 3D để ghi lại cả vùng điểm ảnh và sự tiến triển của chúng theo thời gian.
Sự khuếch tán tiến triển:Bắt đầu từ tiếng ồn, Sora khử nhiễu theo từng bước, tinh chỉnh các chi tiết không gian và chuyển động mạch lạc song song.
Điều hòa đa phương thức: Văn bản nhúng từ mô hình ngôn ngữ lớn hướng dẫn quá trình khuếch tán, đảm bảo sự liên kết ngữ nghĩa với lời nhắc của người dùng.

Sora được đào tạo như thế nào?

Những tập dữ liệu nào đã được sử dụng?

OpenAI chưa tiết lộ đầy đủ các tập dữ liệu độc quyền hỗ trợ Sora, nhưng bằng chứng và báo cáo hiện có cho thấy một tập dữ liệu đào tạo tổng hợp:

Kho lưu trữ video công cộng: Hàng triệu giờ video không bị hạn chế bản quyền từ các nền tảng như Pexels, Internet Archive và các thư viện cảnh quay được cấp phép.
YouTube và nội dung trò chơi:Các cuộc điều tra chỉ ra rằng để làm phong phú thêm các kịch bản động (ví dụ: chuyển động của nhân vật, vật lý), OpenAI đã kết hợp các cảnh quay từ các buổi phát trực tiếp trò chơi và bản ghi trò chơi—bao gồm cả video Minecraft—làm dấy lên câu hỏi về việc tuân thủ giấy phép.
Clip do người dùng đóng góp:Trong giai đoạn thử nghiệm beta, những người thử nghiệm Sora đã gửi video cá nhân làm tài liệu tham khảo về phong cách, OpenAI đã sử dụng video này để tinh chỉnh.
Tiền đào tạo tổng hợp:Các nhà nghiên cứu đã tạo ra các chuỗi chuyển động theo thuật toán (ví dụ: hình dạng chuyển động, cảnh tổng hợp) để thúc đẩy sự hiểu biết của mô hình về vật lý trước khi đưa vào cảnh quay thực tế.

Quá trình xử lý trước nào đã được thực hiện?

Trước khi đào tạo, tất cả dữ liệu video đều được xử lý chuyên sâu để chuẩn hóa định dạng và đảm bảo tính ổn định khi đào tạo:

Chuẩn hóa độ phân giải:Các clip được thay đổi kích thước và đệm thành độ phân giải đồng nhất là 1920×1080, với tốc độ khung hình được đồng bộ hóa ở mức 30 FPS.
Phân đoạn thời gian:Các video dài hơn được cắt thành các phân đoạn 1 phút để phù hợp với thế hệ của Sora.
Tăng dữ liệu:Các kỹ thuật như cắt ngẫu nhiên, thay đổi màu, đảo ngược thời gian và chèn nhiễu đã làm phong phú thêm tập dữ liệu, cải thiện độ mạnh mẽ đối với các kiểu chuyển động và ánh sáng đa dạng.
Gắn thẻ siêu dữ liệu: Các tập lệnh phân tích cú pháp văn bản đi kèm (tiêu đề, chú thích) để tạo các ví dụ ghép nối (video, văn bản), cho phép giám sát điều kiện hóa văn bản.
Kiểm toán thiên vị:Trong giai đoạn đầu của quá trình, một số đoạn clip đã được xem xét thủ công để xác định và giảm thiểu những thành kiến rõ ràng về nội dung (ví dụ: định kiến giới), mặc dù các phân tích sau đó cho thấy vẫn còn nhiều thách thức.

OpenAI xây dựng phương pháp đào tạo của Sora như thế nào?

Dựa trên những hiểu biết sâu sắc từ khuôn khổ tạo hình ảnh của DALL·E 3, quy trình đào tạo của Sora tích hợp các kiến trúc chuyên biệt và các hàm mất mát được thiết kế riêng cho tính nhất quán về mặt thời gian và mô phỏng vật lý.

Kiến trúc mô hình và mục tiêu đào tạo trước

Sora sử dụng kiến trúc dựa trên máy biến áp được tối ưu hóa cho dữ liệu video, với các cơ chế chú ý không gian thời gian nắm bắt cả chi tiết cấp khung hình và quỹ đạo chuyển động. Trong quá trình đào tạo trước, mô hình học cách dự đoán các bản vá che trên các khung hình tuần tự—mở rộng các khung hình che về phía trước và phía sau để nắm bắt tính liên tục.

Chuyển thể từ DALL·E 3

Các khối tổng hợp hình ảnh cốt lõi trong Sora bắt nguồn từ các kỹ thuật khuếch tán của DALL·E 3, được nâng cấp để xử lý chiều thời gian bổ sung. Sự thích nghi này bao gồm việc điều chỉnh cả nhúng văn bản và khung video trước đó, cho phép tạo ra các clip mới hoặc mở rộng các clip hiện có một cách liền mạch.

Mô phỏng thế giới vật lý

Mục tiêu đào tạo chính là truyền đạt một "mô hình thế giới" trực quan có khả năng mô phỏng các tương tác vật lý—chẳng hạn như trọng lực, va chạm vật thể và chuyển động của máy ảnh. Báo cáo kỹ thuật của OpenAI nêu bật việc sử dụng các thuật ngữ mất mát lấy cảm hứng từ vật lý phụ trợ để phạt các đầu ra không hợp lý về mặt vật lý, mặc dù mô hình vẫn gặp khó khăn với các động lực phức tạp như chuyển động chất lỏng và bóng đổ sắc thái.

Những thách thức và tranh cãi nào đã phải đối mặt?

Mối quan ngại về mặt pháp lý và đạo đức?

Việc sử dụng nội dung do người dùng tạo ra và có sẵn công khai đã gây ra sự giám sát pháp lý:

Tranh chấp bản quyền:Các ngành công nghiệp sáng tạo tại Vương quốc Anh đã vận động hành lang để phản đối việc cho phép các công ty AI đào tạo về tác phẩm của nghệ sĩ mà không có sự đồng ý rõ ràng, gây ra cuộc tranh luận tại quốc hội trong khi Sora ra mắt tại Vương quốc Anh vào tháng 2025 năm XNUMX.
Điều khoản dịch vụ của nền tảng:YouTube đã đánh dấu các vi phạm tiềm ẩn phát sinh từ việc thu thập video của người dùng để đào tạo AI, khiến OpenAI phải xem xét lại chính sách thu thập của mình.
Vụ án:Theo tiền lệ của các vụ kiện chống lại mô hình văn bản và hình ảnh, các công cụ video tạo hình như Sora có thể phải đối mặt với các vụ kiện tập thể về việc sử dụng trái phép các cảnh quay có bản quyền.

Sai lệch trong dữ liệu đào tạo?

Bất chấp những nỗ lực giảm thiểu, Sora vẫn thể hiện những thành kiến có hệ thống:

Định kiến về giới tính và nghề nghiệp:Một phân tích của WIRED phát hiện ra rằng các video do Sora tạo ra thường mô tả các CEO và phi công là nam giới, trong khi phụ nữ chủ yếu xuất hiện trong các vai trò chăm sóc hoặc dịch vụ.
Đại diện chủng tộc:Người mẫu phải vật lộn với nhiều tông màu da và đặc điểm khuôn mặt khác nhau, thường mặc định là nước da sáng hơn hoặc hình ảnh theo phong cách phương Tây.
Khả năng thể chất:Những người khuyết tật thường được miêu tả là sử dụng xe lăn, phản ánh sự hiểu biết hạn hẹp về khuyết tật.
Đường dẫn giải pháp:OpenAI đã đầu tư vào các nhóm giảm thiểu sự thiên vị và có kế hoạch kết hợp dữ liệu đào tạo mang tính đại diện hơn và các kỹ thuật tăng cường phản chứng.

Những tiến bộ nào đã thúc đẩy cải thiện đào tạo?

Mô phỏng và mô hình hóa thế giới?

Khả năng tạo ra các cảnh chân thực của Sora phụ thuộc vào các mô-đun mô phỏng thế giới tiên tiến:

Các nghiên cứu trước đây dựa trên vật lý: Được đào tạo trước trên các tập dữ liệu tổng hợp mô hình hóa lực hấp dẫn, động lực học chất lưu và phản ứng va chạm, Sora xây dựng một công cụ vật lý trực quan trong các lớp biến áp của nó.
Mạng lưới liên kết thời gian:Các mô-đun phụ chuyên biệt đảm bảo tính nhất quán trên các khung hình, giảm hiện tượng nhấp nháy và rung chuyển thường gặp trong các phương pháp chuyển văn bản thành video trước đây.

Cải thiện tính chân thực về mặt vật lý?

Những đột phá kỹ thuật quan trọng đã nâng cao độ trung thực của đầu ra của Sora:

Sự khuếch tán độ phân giải cao:Các chiến lược khuếch tán phân cấp trước tiên tạo ra các mẫu chuyển động có độ phân giải thấp, sau đó nâng cấp lên Full HD, bảo toàn cả chuyển động toàn cục và chi tiết nhỏ.
Sự chú ý theo thời gian: Sự tự chú ý về thời gian cho phép mô hình tham chiếu đến các khung hình ở xa, đảm bảo tính nhất quán lâu dài (ví dụ: hướng và quỹ đạo của nhân vật được duy trì trong nhiều giây).
Chuyển đổi phong cách động: Bộ điều hợp phong cách thời gian thực kết hợp nhiều kiểu thẩm mỹ trực quan, cho phép chuyển đổi giữa kiểu điện ảnh, phim tài liệu hoặc hoạt hình trong một clip duy nhất.

Hướng đi tương lai cho việc đào tạo Sora là gì?

Kỹ thuật để giảm sự thiên vị?

OpenAI và cộng đồng AI rộng lớn hơn đang khám phá các phương pháp để giải quyết những thành kiến cố hữu:

Tăng cường dữ liệu phản thực tế: Tổng hợp các phiên bản thay thế của clip đào tạo (ví dụ: hoán đổi giới tính hoặc dân tộc) để buộc mô hình tách các thuộc tính khỏi vai trò.
Sự thiên vị đối nghịch: Tích hợp các yếu tố phân biệt để trừng phạt các kết quả đầu ra mang tính khuôn mẫu trong quá trình đào tạo.
Đánh giá của con người trong vòng lặp: Quan hệ đối tác liên tục với nhiều nhóm người dùng khác nhau để kiểm tra và cung cấp phản hồi về kết quả mô hình trước khi công bố rộng rãi.

Mở rộng sự đa dạng của tập dữ liệu?

Đảm bảo nguồn tài liệu đào tạo phong phú hơn là rất quan trọng:

Quan hệ đối tác video toàn cầu:Cấp phép nội dung từ các cơ quan truyền thông không phải phương Tây để đại diện cho nhiều nền văn hóa, môi trường và kịch bản hơn.
Tinh chỉnh theo từng miền cụ thể: Đào tạo các biến thể chuyên biệt của Sora trên các cảnh quay y tế, pháp lý hoặc khoa học—cho phép tạo video chính xác, phù hợp với lĩnh vực.
Mở chuẩn mực:Hợp tác với các nhóm nghiên cứu để tạo ra các tập dữ liệu chuẩn hóa, có sẵn công khai để đánh giá văn bản thành video, thúc đẩy tính minh bạch và cạnh tranh.

Kết luận

Sora đi đầu trong thế hệ chuyển văn bản thành video, kết hợp khuếch tán dựa trên máy biến áp, tập đoàn video quy mô lớn và các tiên nghiệm mô phỏng thế giới để tạo ra các clip thực tế chưa từng có. Tuy nhiên, đường ống đào tạo của nó—được xây dựng trên các tập dữ liệu lớn, một phần không minh bạch—đặt ra những thách thức cấp bách về mặt pháp lý, đạo đức và liên quan đến thiên vị. Khi OpenAI và cộng đồng rộng lớn hơn phát triển các kỹ thuật để loại bỏ thiên vị, tuân thủ cấp phép và đa dạng hóa tập dữ liệu, các phiên bản tiếp theo của Sora hứa hẹn tổng hợp video tự nhiên hơn nữa, mở khóa các ứng dụng sáng tạo và chuyên nghiệp mới trong khi đòi hỏi sự quản lý thận trọng để bảo vệ quyền nghệ thuật và công bằng xã hội.

Bắt đầu

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả gia đình Gemini của Google—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp, bạn chỉ định khách hàng của mình tại https://api.cometapi.com/v1 và chỉ định mô hình mục tiêu trong mỗi yêu cầu.

Các nhà phát triển có thể truy cập Giao diện lập trình Sora thông qua Sao chổiAPI. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo Hướng dẫn API để có hướng dẫn chi tiết.