Gemini Diffusion là gì? Tất cả những gì bạn cần biết

CometAPI
AnnaMay 25, 2025
Gemini Diffusion là gì? Tất cả những gì bạn cần biết

Vào ngày 20 tháng 2025 năm XNUMX, Google DeepMind đã lặng lẽ ra mắt Sự khuếch tán của Song Tử, một mô hình khuếch tán văn bản thử nghiệm hứa hẹn sẽ định hình lại bối cảnh của AI tạo sinh. Được giới thiệu trong Google I/O 2025, nguyên mẫu nghiên cứu tiên tiến này tận dụng các kỹ thuật khuếch tán—trước đây phổ biến trong việc tạo hình ảnh và video—để tạo ra văn bản và mã mạch lạc bằng cách tinh chỉnh nhiễu ngẫu nhiên theo từng bước. Các điểm chuẩn ban đầu cho thấy nó sánh ngang và trong một số trường hợp vượt trội hơn các mô hình dựa trên máy biến áp hiện có của Google về cả tốc độ và chất lượng.

Sự khuếch tán của Gemini là gì?

Sự khuếch tán được áp dụng như thế nào vào việc tạo văn bản và mã?

Các mô hình ngôn ngữ lớn truyền thống (LLM) dựa trên kiến ​​trúc hồi quy tự động, tạo nội dung từng mã thông báo một bằng cách dự đoán từ tiếp theo dựa trên tất cả các đầu ra trước đó. Ngược lại, Sự khuếch tán của Song Tử bắt đầu bằng một trường “nhiễu” ngẫu nhiên và tinh chỉnh nhiễu này theo từng bước thành văn bản mạch lạc hoặc mã thực thi thông qua một chuỗi các bước khử nhiễu. Mô hình này phản ánh cách các mô hình khuếch tán như Imagen và Stable Diffusion tạo ra hình ảnh, nhưng đây là lần đầu tiên một phương pháp như vậy được mở rộng để tạo văn bản với tốc độ tương đương sản xuất.

Tại sao “tiếng ồn thành lời kể” lại quan trọng

Hãy tưởng tượng đến nhiễu trên màn hình tivi khi không có tín hiệu—nhấp nháy ngẫu nhiên không có hình dạng. Trong AI dựa trên sự khuếch tán, nhiễu đó là điểm khởi đầu; mô hình “điêu khắc” ý nghĩa từ sự hỗn loạn, dần dần áp đặt cấu trúc và ngữ nghĩa. Quan điểm toàn diện này ở mỗi giai đoạn tinh chỉnh cho phép tự điều chỉnh vốn có, giảm thiểu các vấn đề như sự không mạch lạc hoặc “ảo giác” có thể gây ảnh hưởng đến các mô hình từng token.

Những đổi mới và năng lực chính

  • Thế hệ tăng tốc:Gemini Diffusion có thể tạo ra toàn bộ khối văn bản cùng lúc, giúp giảm đáng kể độ trễ so với các phương pháp tạo từng mã thông báo.()
  • Sự kết hợp được tăng cường:Bằng cách tạo ra các phân đoạn văn bản lớn hơn cùng một lúc, mô hình đạt được tính nhất quán theo ngữ cảnh cao hơn, tạo ra các đầu ra mạch lạc hơn và có cấu trúc logic hơn.()
  • Tinh chỉnh lặp đi lặp lại:Kiến trúc của mô hình cho phép sửa lỗi theo thời gian thực trong quá trình tạo, cải thiện độ chính xác và chất lượng của đầu ra cuối cùng.()

Tại sao Google phát triển Gemini Diffusion?

Xử lý các nút thắt về tốc độ và độ trễ

Các mô hình hồi quy tự động, mặc dù mạnh mẽ, nhưng phải đối mặt với những hạn chế về tốc độ cơ bản: mỗi mã thông báo phụ thuộc vào ngữ cảnh trước đó, tạo ra một nút thắt tuần tự. Gemini Diffusion phá vỡ ràng buộc này bằng cách cho phép tinh chỉnh song song trên tất cả các vị trí, dẫn đến Tốc độ tạo ra end-to-end nhanh hơn 4–5 lần so với các đối tác hồi quy tự động có kích thước tương tự. Sự tăng tốc này có thể chuyển thành độ trễ thấp hơn cho các ứng dụng thời gian thực, từ chatbot đến trợ lý mã.

Tiên phong trong con đường mới đến AGI

Ngoài tốc độ, góc nhìn toàn cầu, lặp đi lặp lại của diffusion phù hợp với các khả năng chính của trí tuệ nhân tạo tổng quát (AGI): lý luận, mô hình hóa thế giới và tổng hợp sáng tạo. Ban lãnh đạo của Google DeepMind hình dung Gemini Diffusion là một phần của chiến lược rộng hơn nhằm xây dựng các hệ thống AI chủ động, nhận thức ngữ cảnh tốt hơn có thể hoạt động liền mạch trên các môi trường kỹ thuật số và vật lý.

Gemini Diffusion hoạt động như thế nào?

Vòng lặp tiêm nhiễu và khử nhiễu

  1. Khởi tạo:Mô hình bắt đầu với một tenxơ nhiễu ngẫu nhiên.
  2. Các bước khử nhiễu:Ở mỗi lần lặp lại, mạng nơ-ron sẽ dự đoán cách giảm tiếng ồn một chút, dựa trên các mẫu ngôn ngữ hoặc mã đã học.
  3. Sàng lọc:Các bước lặp lại sẽ hội tụ về một đầu ra nhất quán, với mỗi lần thực hiện cho phép sửa lỗi trên toàn bộ bối cảnh thay vì chỉ dựa vào các mã thông báo trước đó.

đổi mới kiến ​​trúc

  • Song song:Bằng cách tách biệt các phụ thuộc mã thông báo, sự khuếch tán cho phép cập nhật đồng thời, tối đa hóa việc sử dụng phần cứng.
  • Hiệu quả tham số:Các điểm chuẩn ban đầu cho thấy hiệu suất ngang bằng với các mô hình hồi quy tự động lớn hơn mặc dù có kiến ​​trúc nhỏ gọn hơn.
  • Tự sửa lỗi:Bản chất lặp đi lặp lại vốn hỗ trợ các điều chỉnh giữa thế hệ, rất quan trọng đối với các tác vụ phức tạp như gỡ lỗi mã hoặc suy luận toán học.

Tiêu chuẩn nào chứng minh hiệu suất của Gemini Diffusion?

Tốc độ lấy mẫu mã thông báo

Báo cáo thử nghiệm nội bộ của Google tốc độ lấy mẫu trung bình là 1,479 token mỗi giây, một bước nhảy vọt đáng kể so với các mô hình Gemini Flash trước đây, mặc dù có chi phí khởi động trung bình là 0.84 giây cho mỗi yêu cầu. Chỉ số này nhấn mạnh khả năng khuếch tán cho các ứng dụng thông lượng cao.

Đánh giá mã hóa và lý luận

  • HumanEval (mã hóa): Tỷ lệ đỗ là 89.6%, gần bằng với tỷ lệ đỗ 2.0% của Gemini 90.2 Flash-Lite.
  • MBPP (mã hóa): 76.0%, so với 75.8% của Flash-Lite.
  • BIG-Bench Extra Hard (lý luận): 15.0%, thấp hơn so với 21.0% của Flash-Lite.
  • MMLU toàn cầu (đa ngôn ngữ): 69.1%, so với 79.0% của Flash-Lite.

Những kết quả hỗn hợp này cho thấy khả năng đặc biệt của sự khuếch tán đối với các nhiệm vụ lặp đi lặp lại, cục bộ (ví dụ: mã hóa) và làm nổi bật các lĩnh vực - suy luận logic phức tạp và hiểu biết đa ngôn ngữ - nơi vẫn cần phải cải tiến về mặt kiến ​​trúc.

Mô hình Gemini Diffusion so với các mô hình Gemini trước đây như thế nào?

Flash-Lite so với Pro so với Diffusion

  • Gemini 2.5 Flash-Lite cung cấp khả năng suy luận tiết kiệm chi phí và tối ưu hóa độ trễ cho các tác vụ chung.
  • Song Tử 2.5 Pro tập trung vào lý luận sâu sắc và mã hóa, có chế độ “Suy nghĩ sâu sắc” để phân tích các vấn đề phức tạp.
  • Sự khuếch tán của Song Tử chuyên về sản xuất siêu nhanh và đầu ra tự hiệu chỉnh, định vị mình là phương pháp bổ sung chứ không phải là phương pháp thay thế trực tiếp.

Điểm mạnh và hạn chế

  • Điểm mạnh: Tốc độ, khả năng chỉnh sửa, hiệu quả tham số, hiệu suất mạnh mẽ trên các tác vụ mã hóa.
  • Hạn chế: Hiệu suất yếu hơn trong lý luận trừu tượng và chuẩn mực đa ngôn ngữ; dung lượng bộ nhớ lớn hơn do nhiều lần khử nhiễu; độ trưởng thành của hệ sinh thái chậm hơn so với công cụ hồi quy tự động.

Làm thế nào để bạn có thể truy cập Gemini Diffusion?

Tham gia chương trình truy cập sớm

Google đã mở một danh sách chờ đối với bản demo Gemini Diffusion thử nghiệm—các nhà phát triển và nhà nghiên cứu có thể đăng ký qua blog Google DeepMind. Quyền truy cập sớm nhằm mục đích thu thập phản hồi, tinh chỉnh các giao thức an toàn và tối ưu hóa độ trễ trước khi triển khai rộng rãi hơn.

Khả năng tích hợp và khả dụng trong tương lai

Mặc dù chưa có ngày phát hành chính thức nào được công bố, Google đã gợi ý về sẵn sàng nói chung phù hợp với bản cập nhật Gemini 2.5 Flash-Lite sắp tới. Các đường dẫn tích hợp dự kiến ​​bao gồm:

  • Studio AI của Google để thử nghiệm tương tác.
  • API Song Tử để triển khai liền mạch trong quy trình sản xuất.
  • Nền tảng của bên thứ ba (ví dụ: Hugging Face) lưu trữ các điểm kiểm tra được phát hành trước cho nghiên cứu học thuật và các tiêu chuẩn do cộng đồng thúc đẩy.

Bằng cách tái hiện lại việc tạo văn bản và mã thông qua lăng kính khuếch tán, Google DeepMind khẳng định vị thế trong chương tiếp theo của sự đổi mới AI. Cho dù Gemini Diffusion mở ra một tiêu chuẩn mới hay cùng tồn tại với những gã khổng lồ tự hồi quy, sự kết hợp giữa tốc độ và khả năng tự sửa lỗi hứa hẹn sẽ định hình lại cách chúng ta xây dựng, tinh chỉnh và tin tưởng các hệ thống AI tạo sinh.

Bắt đầu

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả gia đình Gemini—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.

Các nhà phát triển có thể truy cập Gemini 2.5 Flash Pre API  (người mẫu:gemini-2.5-flash-preview-05-20) Và API Gemini 2.5 Pro (người mẫu:gemini-2.5-pro-preview-05-06)vv thông qua Sao chổiAPI. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%