Genie 3: Mô hình thế giới thời gian thực mới của DeepMind có thể định nghĩa lại AI tương tác không?

Trong một động thái nhấn mạnh tốc độ phát triển của AI vượt ra ngoài văn bản và hình ảnh, Google DeepMind hôm nay đã công bố Genie 3, một "mô hình thế giới" đa năng có khả năng biến các lời nhắc văn bản hoặc hình ảnh đơn giản thành môi trường 3D tương tác, có thể điều hướng và chạy theo thời gian thực. Hệ thống này là một bước tiến vượt bậc so với các thử nghiệm mô hình thế giới và video tạo hình trước đây: Genie 3 có thể tạo ra các môi trường 720p, kéo dài nhiều phút với tốc độ khoảng 24 khung hình/giây, và — quan trọng hơn — nó có thể duy trì bộ nhớ không gian để những thay đổi do người dùng thực hiện vẫn được duy trì khi bối cảnh phát triển. DeepMind định vị Genie 3 như một cột mốc nghiên cứu để xây dựng các tác nhân hiện thân có năng lực hơn và cho các môi trường đào tạo tổng hợp, chẳng hạn như có thể tăng tốc độ học tập của robot hoặc tạo ra các hình thức phương tiện truyền thông tương tác mới.

Genie 3 là gì? Ưu điểm của nó là gì?

Những gì Genie 3 làm được mà các mô hình trước đó không làm được: Genie 3 được DeepMind mô tả là mô hình thế giới đầu tiên trong dòng sản phẩm của nó có khả năng tương tác thời gian thực với các cảnh được tạo ra duy trì tính nhất quán trong nhiều phút. Trong khi các hệ thống trước đây (bao gồm các nguyên mẫu DeepMind trước đây và các công cụ tạo video khác) chỉ tạo ra các clip ngắn hoặc kết xuất tĩnh, Genie 3 cho phép người dùng bước vào một cảnh, thay đổi một vật thể, thay đổi thời tiết hoặc di chuyển một nhân vật — và mô hình sẽ ghi nhớ những thay đổi đó khi môi trường tiếp tục phát triển. Trong các bản trình diễn do DeepMind phát hành, mô hình đã tạo ra các môi trường ở độ phân giải 720p và 24 FPS, duy trì tính động nhất quán trong nhiều phút thay vì vài giây, và nó hỗ trợ “các sự kiện thế giới có thể thúc đẩy” để người sáng tạo có thể sử dụng lời nhắc tiếp theo để thay đổi những gì thế giới đang làm.

Cách thức thực hiện

DeepMind định hình Genie 3 là thế hệ tiếp theo mô hình thế giới: một kiến trúc thần kinh được đào tạo để hiểu và mô phỏng động lực của môi trường thay vì chỉ tạo ra các khung hình tĩnh. Hệ thống kết hợp khả năng tạo video với bộ nhớ không gian và mô hình động lực, cho phép tổng hợp các cảnh 3D có kết cấu và mô phỏng cách các vật thể, ánh sáng và tác nhân hoạt động theo thời gian. Thực tế, người dùng cung cấp một lời nhắc văn bản hoặc hình ảnh ngắn; mô hình sẽ mở rộng lời nhắc đó thành một cảnh có thể chơi được, được kết xuất và cập nhật ở tốc độ khung hình tương tác. Mặc dù bài đăng trên blog kỹ thuật của DeepMind không công bố chi tiết kích thước mô hình cốt lõi hoặc công thức đào tạo đầy đủ, nhưng bước tiến cơ bản nằm ở khả năng bảo tồn được cải thiện của mô hình. đối tượng vĩnh viễn, bố cục cảnh và tính nhất quán theo từng phút.

Khả năng đã được chứng minh

Trong các tài liệu DeepMind công bố cùng với thông báo, Genie 3 đã trình diễn một số khả năng nổi bật khiến các nhà nghiên cứu và báo chí vô cùng phấn khích:

Khám phá tương tác theo thời gian thực. Môi trường được tạo ra chạy ở tốc độ khoảng 24 FPS và có thể điều hướng theo thời gian thực, cho phép trải nghiệm "có thể chơi được" thay vì các đoạn video clip riêng lẻ.
Những thay đổi liên tục và trí nhớ không gian. Các hành động như sơn tường hoặc di chuyển ghế vẫn được duy trì và được quan sát sau đó trong phiên, cho thấy mức độ ghi nhớ về vị trí và trạng thái của đối tượng.
Sự kiện thế giới đáng chú ý. Người dùng có thể chèn hướng dẫn mới vào giữa phiên (ví dụ: "làm mưa" hoặc "tạo ra một nhân vật") và mô hình sẽ cập nhật cảnh một cách mạch lạc.
Thời gian chạy kéo dài. Trong khi các mô hình trước đây được đo bằng giây liên tục, Genie 3 thể hiện hành vi nhất quán trên phút của sự tương tác.

Những tính năng này kết hợp lại khiến Genie 3 giống một công cụ tạo nội dung tương tác và mô phỏng hơn là một bản trình diễn video mang tính sáng tạo.

Tính khả dụng và hạn chế hiện tại

DeepMind và các bài báo đưa tin đi kèm đều khẳng định rõ ràng rằng Genie 3 là không một sản phẩm hướng đến người tiêu dùng ngay lập tức. Mô hình hiện đang trong chương trình nghiên cứu/thử nghiệm và chỉ được cung cấp cho một nhóm đối tác nội bộ và bên ngoài hạn chế để đánh giá; vẫn chưa có ngày phát hành rộng rãi cho công chúng. Ngoài ra, DeepMind và các nhà phân tích độc lập lưu ý những hạn chế kỹ thuật quan trọng: mặc dù các cảnh có thể tương tác trong vài phút, hệ thống vẫn chưa có khả năng mô phỏng thực tế địa lý vô hạn hoặc quy mô lớn, và nó vẫn có thể sai sót hoặc gây ảo giác — đặc biệt là đối với các sự kiện thực tế chi tiết hoặc vật lý phức tạp.

Tóm lại, Genie 3 là một cột mốc nghiên cứu, chưa phải là một nền tảng hoàn thiện. Các buổi trình diễn công khai và tài liệu giải thích đã được phát hành, nhưng chưa có lịch trình triển khai ngay lập tức cho người tiêu dùng.

Trường hợp sử dụng

Một trong những trường hợp sử dụng quan trọng nhất mà DeepMind nhấn mạnh là môi trường đào tạo tổng hợp dành cho các tác nhân và robot được thể hiện. Các thế giới mô phỏng — nếu đủ thực tế và nhất quán nội tại — có thể đóng vai trò là các tập dữ liệu khổng lồ, chi phí thấp để dạy robot cách điều hướng, xử lý hàng tồn kho hoặc phối hợp nhiều tác nhân trước khi các chính sách này được chuyển giao vào thế giới thực. DeepMind định hình rõ ràng Genie 3 như một công cụ để đẩy nhanh quá trình nghiên cứu các tác nhân học hỏi bằng cách tương tác với môi trường, có khả năng rút ngắn vòng lặp giữa mô phỏng và triển khai thực tế. Truyền thông đã nhiều lần đề cập đến robot kho bãi, hậu cần và các ứng dụng công nghiệp khác, nơi khối lượng lớn kinh nghiệm tổng hợp có thể giảm nhu cầu thử nghiệm thực tế tốn kém.

Ngoài robot, các ngành công nghiệp sáng tạo — trò chơi, VR/AR, tiền hình ảnh hóa phim và giáo dục — cũng sẽ được hưởng lợi. Hãy tưởng tượng một nhà thiết kế trò chơi phác thảo một cảnh bằng ngôn ngữ tự nhiên và ngay lập tức bước vào một nguyên mẫu có thể chơi được, hoặc một nhà giáo dục tạo ra một bối cảnh lịch sử nhập vai để học sinh khám phá. Những khả năng đó đã và đang tạo nên sự phấn khích trong cộng đồng game và XR.

An toàn, trách nhiệm và quản trị — một sự chú ý cần thiết

Thông báo của DeepMind bao gồm một phần về trách nhiệm: nhóm thừa nhận những rủi ro phát sinh khi các mô hình có thể tạo ra những thế giới ảo thuyết phục. Những rủi ro này bao gồm từ việc sử dụng sai mục đích (môi trường deepfake hoặc mô phỏng giả mạo một cách thuyết phục) đến các lỗi an toàn trong các ứng dụng hạ nguồn (quá tin tưởng kết quả huấn luyện mô phỏng trong các hệ thống robot quan trọng). DeepMind tuyên bố sẽ tiếp tục nghiên cứu các biện pháp giảm thiểu — bao gồm các khuôn khổ đánh giá, nhóm đỏ và triển khai hạn chế với các đối tác — các biện pháp bảo vệ về mặt thủ tục, tính minh bạch về các hạn chế và đánh giá cẩn thận sẽ rất cần thiết khi các mô hình thế giới phát triển mạnh mẽ.

Những điều chưa biết về kỹ thuật và những câu hỏi nổi bật

Blog và tài liệu báo chí của DeepMind cần phải đạt trình độ cao; họ cố tình tránh công bố đầy đủ chi tiết kiến trúc, tập dữ liệu huấn luyện hoặc số lượng tham số mô hình. Các câu hỏi kỹ thuật quan trọng vẫn còn bỏ ngỏ cho cộng đồng nghiên cứu:

Làm thế nào để đạt được tính nhất quán theo chiều dài? DeepMind thảo luận về các cơ chế mà Genie 3 duy trì tính vĩnh viễn của đối tượng trong nhiều phút (mô-đun bộ nhớ, bộ đệm theo giai đoạn, ánh xạ rõ ràng) theo thuật ngữ khái niệm, nhưng các chi tiết kỹ thuật có thể tái tạo và điểm chuẩn sẽ rất quan trọng để xác minh.
Nó có thể áp dụng vào ngành robot tốt như thế nào? Việc chuyển đổi từ mô phỏng sang thực tế rất khó khăn; liệu vật lý và động lực học mô phỏng của Genie 3 có "đủ gần" để các chính sách có thể chuyển sang phần cứng thực tế hay không cần phải có xác nhận thực nghiệm.
Các chế độ hỏng hóc là gì? Mô hình này có thể gây ảo giác về địa lý, dự đoán sai vật lý, hoặc trôi dạt theo những cách tinh vi và nguy hiểm nếu không được tính đến. Cần có các bộ đánh giá mạnh mẽ và kiểm toán độc lập.

Trả lời những câu hỏi này sẽ quyết định tốc độ Genie 3 chuyển từ bản demo nghiên cứu sang công cụ thực tế cho ngành công nghiệp.

Ý nghĩa đối với ngành: trò chơi, sáng tạo nội dung và nền tảng đám mây

Nếu khả năng của Genie 3 được mở rộng và có sẵn trong các API dành cho nhà phát triển hoặc dịch vụ đám mây, thì tác động kinh doanh sẽ rất lớn:

Sự phát triển trò chơi: Tạo mẫu nhanh và tạo nội dung có thể rút ngắn chu kỳ phát triển; nội dung thủ tục có thể được gieo mầm bằng ngôn ngữ tự nhiên và sau đó được tinh chỉnh bởi các nhà thiết kế. Những bình luận ban đầu trên báo chí game và blog XR suy đoán rằng những công cụ như vậy có thể thay đổi cách các nhóm nhỏ và nhà phát triển độc lập xây dựng thế giới.
Sản xuất và phương tiện truyền thông ảo: Các nhà làm phim và nghệ sĩ VFX có thể sử dụng công nghệ tạo cảnh tương tác để hình dung trước, lập bảng phân cảnh và thậm chí là trợ lý sáng tạo trong việc sản xuất môi trường nền hoặc cảnh quay ảo.
Nhu cầu về điện toán và đám mây: Mô hình hóa thế giới tương tác theo thời gian thực ở quy mô lớn sẽ cần cơ sở hạ tầng phục vụ đáng kể; các nhà cung cấp đám mây và GPU có thể thấy nhu cầu về các loại ngăn xếp suy luận có độ trễ thấp hỗ trợ tạo tốc độ khung hình cao.

Những trường hợp sử dụng này ngụ ý các mô hình sản phẩm và định giá mới — từ API dành cho nhà phát triển trả tiền khi chơi đến các hợp đồng mô phỏng doanh nghiệp dành cho robot và hậu cần.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Sao chổiAPI Chúng tôi cam kết sẽ theo dõi những động thái mới nhất của các mô hình, bao gồm cả Genie 3, sẽ được phát hành đồng thời với bản phát hành chính thức. Xin hãy đón chờ và tiếp tục theo dõi CometAPI. Trong thời gian chờ đợi, bạn có thể theo dõi các mô hình khác, khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Các nhà phát triển có thể truy cập GPT-5 ,GPT-5 Nano và GPT-5 Mini thông qua Sao chổiAPICác mô hình mới nhất của cometAPI được liệt kê tính đến ngày bài viết được xuất bản. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Ghi chú kết thúc

Genie 3 là lời nhắc nhở rằng câu chuyện AI tạo sinh đang mở rộng: chúng ta không còn chỉ tự động hóa văn xuôi và hình ảnh — chúng ta đang đào tạo các hệ thống có khả năng tưởng tượng, dựng hình và duy trì toàn bộ thế giới. Thông báo của DeepMind đánh dấu một bước ngoặt quan trọng trên hành trình đó — một hành trình mang lại cả cơ hội và trách nhiệm ngang bằng. Khi các nhà nghiên cứu và chuyên gia thúc đẩy các mô hình này, tính minh bạch, xác thực cẩn thận và quản trị sẽ quyết định liệu thế giới mô phỏng có trở thành phòng thí nghiệm an toàn cho sự đổi mới hay nguồn gốc của rủi ro xã hội mới.

Genie 3 là một minh chứng nổi bật cho thấy AI tạo sinh đang tiến vào lĩnh vực thế giới tương tác, bền bỉSự kết hợp giữa khả năng kết xuất thời gian thực, tính nhất quán nhiều phút và các sự kiện có thể nhắc nhở của mô hình đánh dấu một bước tiến đáng kể trong mô hình hóa thế giới, và ứng dụng của nó trong nghiên cứu robot, trò chơi điện tử và sản xuất ảo ngay lập tức trở nên rõ ràng. Tóm lại: ranh giới của mô hình thế giới vừa được mở rộng — con đường từ bước tiến đó đến các sản phẩm hàng ngày sẽ được định hình bởi kỹ thuật, quản trị và xác thực cẩn thận.