5 bản cập nhật lớn cho API Sora 2: Giải thích chi tiết

Developed by OpenAI, Sora 2 đại diện cho một bước nhảy vọt lớn trong lĩnh vực media tạo sinh, thay đổi cách các nhà phát triển, doanh nghiệp và chuyên gia sáng tạo xây dựng các ứng dụng ưu tiên video. Kể từ khi ra mắt vào cuối năm 2025, hệ sinh thái API—bao gồm quyền truy cập thông qua các nhà cung cấp bên thứ ba như CometAPI—đã trưởng thành đáng kể, giới thiệu các khả năng mới nhằm hướng đến khả năng mở rộng, độ chân thực và độ tin cậy đạt chuẩn sản xuất.

Tổng quan về Năm Cập nhật Cốt lõi

Bản cập nhật API Sora 2 mới nhất giới thiệu năm cải tiến lớn:

Feature	Description	Impact
Tính nhất quán vai trò	Danh tính nhân vật được duy trì xuyên suốt các cảnh	Giải quyết vấn đề tính liên tục
Độ dài video 20 giây	Tăng từ 12 giây	Hỗ trợ kể chuyện
Tạo hàng loạt	Các tác vụ video bất đồng bộ	Sản xuất có thể mở rộng
Mở rộng video	Mở rộng clip bằng toàn bộ ngữ cảnh	Quy trình chỉnh sửa tốt hơn
Đầu ra đa định dạng	1080p + dọc/ngang	Xuất bản đa nền tảng

Những cập nhật này cùng nhau giải quyết ba nút thắt cốt lõi trong video AI:

Tính liên tục
Độ dài
Khả năng mở rộng

Sora 2 và Pro là gì

Sora 2 là mô hình tạo video AI thế hệ mới do OpenAI ra mắt. Mô hình này có thể tự động tạo ra các video chất lượng cao chứa hình ảnh và âm thanh từ các đầu vào như văn bản và hình ảnh, đồng thời phù hợp cho phát triển ứng dụng và sản xuất nội dung quy mô lớn. Sora 2 Pro là phiên bản cao cấp hơn dựa trên nền tảng này, cung cấp độ phân giải cao hơn, độ chân thực hình ảnh mạnh hơn, thời lượng video dài hơn và khả năng điều khiển tinh chỉnh hơn. Tuy nhiên, nó cũng có chi phí tính toán và giá thành cao hơn, và chủ yếu hướng đến các bối cảnh như sản xuất phim truyền hình chuyên nghiệp, sáng tạo quảng cáo và các tình huống khác có yêu cầu chất lượng cực kỳ cao.

Bản cập nhật tháng 3 năm 2026 đánh dấu một cột mốc quan trọng: lần đầu tiên, video do AI tạo ra không chỉ ấn tượng về mặt hình ảnh mà còn có thể mở rộng về mặt vận hành cho các quy trình làm việc doanh nghiệp.

1. Tính nhất quán vai trò (Duy trì nhân vật)

Một trong những đột phá quan trọng nhất là tính nhất quán nhân vật, còn được gọi là “tính nhất quán vai trò”.

Cải tiến thực tế lớn nhất đối với nhiều nhóm là khả năng tái sử dụng tài sản nhân vật qua nhiều lần tạo. Bạn có thể tải lên một chủ thể không phải con người có thể tái sử dụng và tham chiếu nó trong nhiều video để giữ cho ngoại hình cốt lõi, phong cách và sự hiện diện trên màn hình được nhất quán. Động vật, linh vật và đồ vật là những trường hợp sử dụng nổi bật, và tài liệu cho biết một video đơn lẻ có thể bao gồm tối đa hai nhân vật.

Điều đó quan trọng vì “tính nhất quán vai trò” từ lâu đã là một trong những vấn đề khó nhất trong sản xuất video AI. Một chiến dịch thường cần cùng một linh vật, đạo cụ sản phẩm hoặc biểu tượng hình ảnh xuất hiện trong nhiều cảnh quay mà không bị sai lệch. Bản cập nhật của OpenAI làm giảm nhu cầu phải nhắc lại cùng một ràng buộc danh tính trong mọi prompt và khiến mô hình trở nên hữu ích hơn cho kể chuyện theo tập, tài sản thương hiệu và sản xuất sáng tạo theo mẫu. Đây là một suy luận từ quy trình tham chiếu nhân vật mới và mô tả của OpenAI về tính nhất quán hình ảnh mạnh hơn qua nhiều lần tạo.

Tuy nhiên, có một giới hạn quan trọng: các lượt tải lên nhân vật mô tả ngoại hình con người bị chặn theo mặc định, người thật không thể được tạo, và hình ảnh đầu vào có khuôn mặt người hiện đang bị từ chối. Nói cách khác, công cụ nhất quán này rất mạnh, nhưng nó không phải là một tính năng tổng quát kiểu “làm cho bất kỳ người nào cũng trông giống hệt nhau mọi lúc”. Nó được tối ưu hóa cho các chủ thể không phải con người và nội dung tuân thủ chính sách.

Trước đây, các mô hình video AI gặp phải độ trôi thị giác, khi nhân vật thay đổi khó lường giữa các cảnh quay. Hệ thống mới đảm bảo tính liên tục xuyên suốt các cảnh.

Thông tin hiệu năng:

Tính nhất quán chỉ bằng prompt: ~70% độ chính xác
Hệ thống gốc (Sora 2): 95%+ tính nhất quán

Vì sao điều này quan trọng:

Thiết yếu cho kể chuyện
Quan trọng đối với xây dựng thương hiệu và marketing
Cho phép sản xuất nội dung theo tập

việc tạo nhân vật sử dụng một clip MP4 dài 2–4 giây, ở 720p–1080p, theo tỷ lệ 16:9 hoặc 9:16. Tài liệu cũng cho biết video nguồn nhân vật hoạt động tốt nhất khi tỷ lệ khung hình của chúng khớp với đầu ra được yêu cầu, và một video đơn lẻ có thể bao gồm tối đa hai nhân vật

2) Giới hạn độ dài 20 giây là một thay đổi thực sự về quy trình làm việc

Thời lượng tối đa của Sora 2 đã tăng từ 12 giây lên 20 giây. Đó là thêm 8 giây, tương đương thời lượng chạy nhiều hơn 66,7% so với trước đây. Theo góc độ sản xuất video, đó là đủ không gian cho một màn hé lộ dài hơn, một nhịp hành động bổ sung hoặc một bản demo sản phẩm hoàn chỉnh hơn mà không phải ghép nhiều lần tạo lại với nhau ngay lập tức.

Trường hợp sử dụng:

Quảng cáo mạng xã hội (tối ưu 15–20 giây)
Các chuỗi kể chuyện ngắn
Trình diễn sản phẩm

Bối cảnh kỹ thuật:

Video dài hơn đòi hỏi:

Độ mạch lạc theo thời gian tốt hơn
Xử lý bộ nhớ được cải thiện
Phối hợp diffusion + transformer nâng cao

3) Đầu ra đa định dạng & độ phân giải

API Sora mới nhất rõ ràng được xây dựng cho các kênh phân phối hiện đại. Tài liệu của OpenAI cho biết nên dùng sora-2-pro khi bạn cần xuất 1080p ở 1920×1080 hoặc 1080×1920, và hướng dẫn về nhân vật cho biết clip nguồn hoạt động tốt nhất ở 16:9 hoặc 9:16. Điều đó giúp API phù hợp rõ ràng với YouTube, landing page, bài thuyết trình, TikTok, Reels, Shorts và các vị trí quảng cáo dọc.

Vì sao điều này quan trọng:

Video dọc thống trị các nền tảng như TikTok/Reels
Loại bỏ nhu cầu hậu xử lý

📈 Nâng cấp chất lượng:

Đầu ra 1080p đạt chuẩn chuyên nghiệp
Phù hợp cho mục đích thương mại

4) Mở rộng video giúp kể chuyện dài hơn mượt mà hơn

Bản cập nhật cũng bổ sung tính năng mở rộng video, được OpenAI mô tả là một cách để tiếp tục một clip đã hoàn thành và tạo ra một kết quả ghép nối mới. Quy trình mở rộng sử dụng toàn bộ clip nguồn làm ngữ cảnh, chứ không chỉ khung hình cuối cùng, điều này đặc biệt quan trọng để giữ chuyển động, hướng máy quay và tính liên tục của cảnh.

Đây là một khác biệt tinh tế nhưng quan trọng so với việc tiếp tục đơn giản dựa trên khung hình. Nếu mô hình nhìn thấy toàn bộ clip nguồn, nó có thể bảo toàn tốt hơn nhịp độ và chuyển động giữa các phân đoạn. Điều đó sẽ giúp việc xây dựng các cảnh giống như được thiết kế như một cú máy liên tục trở nên dễ dàng hơn, thay vì là các đầu ra kết nối lỏng lẻo. Đây là một suy luận từ giải thích của OpenAI rằng các phần mở rộng sử dụng toàn bộ clip ban đầu làm ngữ cảnh và được thiết kế để giữ chuyển động và tính liên tục.

OpenAI cũng cho biết mỗi lần mở rộng có thể thêm tối đa 20 giây, một video đơn lẻ có thể được mở rộng tối đa sáu lần, và tổng độ dài tối đa có thể đạt 120 giây. Tuy nhiên, hiện tại các phần mở rộng chỉ chấp nhận video nguồn và prompt, và chúng không hỗ trợ nhân vật hoặc tham chiếu hình ảnh. Điều đó tạo ra một ranh giới rõ ràng: phần mở rộng dành cho tính liên tục, trong khi tham chiếu nhân vật dành cho danh tính có thể tái sử dụng.

Lợi ích chính:

Duy trì tính liên tục của cảnh
Mở rộng mạch truyện một cách tự nhiên
Tránh các chuyển tiếp đột ngột

Khác biệt so với các mô hình trước:

Mô hình cũ: chỉ dùng khung hình cuối
Sora 2: dùng toàn bộ ngữ cảnh clip

5) Tạo hàng loạt là nâng cấp lớn nhất về khả năng mở rộng

Hỗ trợ Batch API là bản cập nhật có khả năng quan trọng nhất đối với các nhóm sản xuất. OpenAI cho biết Batch API có thể được sử dụng để gửi các hàng đợi render ngoại tuyến lớn, và tài liệu của họ nói rằng nó phù hợp cho danh sách cảnh quay, hàng đợi render theo lịch, pipeline duyệt và quy trình làm việc studio. Trong hướng dẫn Batch dành riêng cho video, OpenAI cho biết Batch hiện chỉ hỗ trợ POST /v1/videos, các yêu cầu phải dùng JSON thay vì multipart, tài sản nên được tải lên trước, và input_reference nên được cung cấp trong phần thân yêu cầu JSON.

Ngoài ra còn có một động lực thực sự về chi phí. OpenAI cho biết Batch API tiết kiệm 50% cho cả đầu vào và đầu ra và chạy tác vụ bất đồng bộ trong 24 giờ. Trên trang giá, mức giá tiêu chuẩn sora-2-pro 1080p là $0.70 mỗi giây, trong khi giá Batch cho cùng cấp là $0.35 mỗi giây. Điều đó có nghĩa là một clip 1080p dài 20 giây sẽ có giá khoảng $14.00 theo giá tiêu chuẩn và khoảng $7.00 thông qua Batch, trước mọi chi phí quy trình làm việc khác. So sánh đó là một phép tính trực tiếp dựa trên bảng giá được OpenAI công bố.

Đối với các nhóm sản xuất nhiều clip cùng lúc, điều này có thể thay đổi tính kinh tế của việc thử nghiệm. Thay vì trả toàn bộ giá cho mọi lần render, các nhóm có thể xếp hàng một loạt biến thể với khối lượng lớn qua đêm và xem lại những đầu ra tốt nhất vào ngày hôm sau. Đó chính xác là loại quy trình mà Batch được xây dựng để phục vụ, và hướng dẫn giới hạn tốc độ của OpenAI cũng xác nhận rằng các công việc Batch được tính khác với các yêu cầu trực tuyến tiêu chuẩn.

Kết luận

Xét tổng thể, năm cập nhật này khiến Sora 2 bớt giống một công cụ tạo mới lạ và giống một nền tảng sản xuất hơn. Tham chiếu nhân vật có thể tái sử dụng cải thiện tính nhất quán. Các clip 20 giây giảm bớt chi phí ghép nối. Xuất 1080p khiến gói cao cấp trở nên thiết thực cho các sản phẩm hoàn thiện chất lượng cao. Mở rộng video cải thiện tính liên tục. Tạo hàng loạt bổ sung quy mô và hiệu quả chi phí.

Các nhà phát triển hiện có thể truy cập Sora 2 và Sora 2 Pro thông qua CometAPI(CometAPI là nền tảng tổng hợp một cửa cho các API mô hình lớn như GPT APIs, Nano Banana APIs, v.v.) ngay bây giờ.Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.

Ready to Go?

Tổng quan về Năm Cập nhật Cốt lõi

Sora 2 và Pro là gì

1. Tính nhất quán vai trò (Duy trì nhân vật)

Thông tin hiệu năng:

Vì sao điều này quan trọng:

2) Giới hạn độ dài 20 giây là một thay đổi thực sự về quy trình làm việc

Trường hợp sử dụng:

Bối cảnh kỹ thuật:

3) Đầu ra đa định dạng & độ phân giải

Vì sao điều này quan trọng:

📈 Nâng cấp chất lượng:

4) Mở rộng video giúp kể chuyện dài hơn mượt mà hơn

Lợi ích chính:

Khác biệt so với các mô hình trước:

5) Tạo hàng loạt là nâng cấp lớn nhất về khả năng mở rộng

Kết luận

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm