Gemini 2.5 Pro I/O: Giải thích chi tiết về chức năng

Gemini 2.5 Pro I/O Edition là bản cập nhật mang tính bước ngoặt cho mô hình AI hàng đầu của Google DeepMind, mang đến sức mạnh mã hóa vô song, khả năng nhập/xuất mở rộng và quy trình làm việc của nhà phát triển được tinh chỉnh. Được phát hành sớm trước Google I/O 2025, phiên bản xem trước này nâng cao khả năng phát triển giao diện người dùng và giao diện người dùng bằng cách đảm bảo vị trí hàng đầu trên Bảng xếp hạng WebDev Arena, đạt được khả năng hiểu video tiên tiến và giới thiệu những cải tiến mạnh mẽ trong việc gọi hàm và giảm lỗi. Với mức giá giống hệt phiên bản trước—1.25 đô la cho mỗi triệu mã thông báo vào và 10 đô la cho mỗi triệu mã thông báo ra—phiên bản này cung cấp giải pháp tiết kiệm chi phí so với các đối thủ cạnh tranh trong khi vẫn duy trì cửa sổ ngữ cảnh 200,000 mã thông báo hào phóng. Các chức năng I/O đa phương thức như "video thành mã" và tạo ứng dụng nhắc nhở đơn giản hóa việc tạo nguyên mẫu và sự chứng thực từ các nhà lãnh đạo trong ngành nhấn mạnh giá trị thực tế của nó. Nhìn về phía trước, Google có kế hoạch mở rộng khả năng ngữ cảnh và tích hợp các tính năng I/O nâng cao, củng cố vị thế của Gemini như một công cụ không thể thiếu cho các thách thức mã hóa trong thế giới thực.

Gemini 2.5 Pro I/O Edition là gì?

Genesis và mốc thời gian phát hành

Gemini 2.5 Pro I/O Edition được công bố vào ngày 6 tháng 2025 năm 25, như một bản xem trước sớm được thiết kế để cung cấp cho các nhà phát triển một khởi đầu trước hội nghị dành cho nhà phát triển I/O của Google vào cuối tháng đó. Phiên bản này thay thế bản phát hành ngày 03 tháng 25 (05-06) bằng một mô hình được cập nhật có nhãn "2.5-XNUMX", tự động định tuyến người dùng Gemini XNUMX Pro hiện tại đến phiên bản mới mà không cần bất kỳ hành động nào.

Điểm khác biệt của phiên bản I/O là gì?

Không giống như các bản cập nhật tiêu chuẩn tập trung vào tối ưu hóa backend, I/O Edition nhấn mạnh khả năng mã hóa mạnh hơn đáng kể trong cả chuyển đổi mã front-end và mã cơ bản. Nó giới thiệu các chức năng I/O đa phương thức tinh chỉnh—chẳng hạn như hiểu video và tạo ứng dụng tương tác—mở rộng tiện ích của mô hình vượt ra ngoài văn bản và mã thành các miền phương tiện phong phú hơn.

Những cải tiến đáng chú ý trong Gemini 2.5 Pro là gì?

Hiệu suất mã hóa đã được nâng cao như thế nào?

Gemini 2.5 Pro hiện cung cấp khả năng tạo mã và tái cấu trúc "được cải thiện đáng kể", xử lý các tác vụ tái cấu trúc back-end phức tạp với mức trừu tượng hóa "nhà phát triển cấp cao" và các lựa chọn kiến trúc. Trong các tiêu chuẩn Cognition nội bộ, lần đầu tiên nó đã vượt qua các trường hợp thử nghiệm dành cho nhà phát triển nâng cao, thể hiện thiết kế lại mô-đun mạnh mẽ, viết lại API và triển khai logic nhiều bước mà không cần tinh chỉnh thêm.

Hơn nữa, độ tin cậy khi gọi hàm của nó đã được cải thiện: tỷ lệ lỗi đã giảm đáng kể trong khi tỷ lệ kích hoạt đã tăng lên, cho phép xây dựng quy trình làm việc của agentic mượt mà hơn, kết nối nhiều lệnh gọi hàm. Các nhà phát triển hiện tại sử dụng API Gemini sẽ thấy quá trình chuyển đổi liền mạch, vì hệ thống tự động mặc định theo mô hình đã nâng cấp mà không cần bất kỳ thay đổi mã nào.

Những khả năng nào của giao diện người dùng và front-end đã được thêm vào?

Trong lĩnh vực phát triển front-end, Gemini 2.5 Pro vươn lên vị trí số 1 trên bảng xếp hạng WebDev Arena—bảng xếp hạng sở thích của con người về các mô hình AI để xây dựng các ứng dụng web có chức năng và thẩm mỹ đẹp—vượt qua Claude 3.7 Sonnet và các phiên bản Gemini trước đó hơn 140 điểm ELO.

Mô hình có thể tự động dịch các bản thiết kế mẫu thành các thành phần HTML, CSS và JavaScript sẵn sàng cho sản xuất, hoàn chỉnh với các bố cục phản hồi và kiểu dáng nhất quán. Nó nhận dạng các yếu tố trực quan như tương tác nút, kiểu chữ, khoảng cách và hoạt ảnh, tái tạo chúng một cách trung thực để đảm bảo các mô-đun UI mới hòa trộn liền mạch với các hệ thống thiết kế hiện có. Ví dụ, các nhà phát triển sử dụng Ứng dụng Gemini 95 Starter có thể yêu cầu "trình phát video phù hợp với kiểu dáng" và mô hình sẽ suy ra các mã thông báo thiết kế của dự án và đưa ra một thành phần sẵn sàng sử dụng trong vòng vài giây.

Gemini 2.5 Pro kết hợp khả năng hiểu video với khả năng tạo mã như thế nào?

Gemini 2.5 Pro mở rộng khả năng đa phương thức gốc của nó vào video: nó đạt được điểm số 84.8 phần trăm trên chuẩn VideoMME mới, xếp hạng trong số các mô hình lớn "hiểu video" hàng đầu hiện có. Tận dụng thế mạnh này, các nhà phát triển có thể cung cấp một clip YouTube và nhận được một ứng dụng học tập hoặc trình diễn tương tác hoàn toàn—hoàn chỉnh với nội dung được trích xuất, màn hình UI tùy chỉnh và các tập lệnh logic cơ bản.

Bản demo "Video to Learning App" của Google AI Studio minh họa quy trình làm việc này: một video hướng dẫn được thu thập, các điểm chính được ánh xạ thành các mô-đun tương tác và một ứng dụng giáo dục hoàn chỉnh được tạo ra mà không cần sự can thiệp của con người. Sự tiến bộ này báo hiệu sự thay đổi từ "mã điều khiển bằng ngôn ngữ" sang việc tạo ra "sản phẩm điều khiển bằng video" trong bối cảnh AI đa phương thức.

Các nhà phát triển có thể truy cập Gemini 2.5 Pro ở đâu và bằng cách nào?

Nền tảng và mô hình định giá nào được áp dụng?

Phiên bản Gemini 2.5 Pro I/O có sẵn ngay lập tức thông qua API Gemini trong Google AI Studio và thông qua Vertex AI dành cho khách hàng doanh nghiệp. Bản phát hành xem trước vẫn giữ nguyên mức giá như phiên bản trước, đảm bảo không có thêm chi phí nào cho những người dùng đầu tiên.

Theo mặc định, tất cả các lệnh gọi API hiện có nhắm mục tiêu đến điểm cuối Gemini 2.5 đều được tự động chuyển hướng đến mô hình Pro mới (05‑06), loại bỏ chi phí di chuyển cho các nhóm phát triển. Các thẻ mô hình chi tiết, ghi lại kết quả chuẩn và các thay đổi về tính năng, đã được công bố cùng với bản phát hành để minh bạch.

CometAPI hiện đã hỗ trợ gọi Gemini 2.5 Pro I/O API (tên model: ggemini-2.5-pro-preview-05-06).

Gemini 2.5 Pro so với các đối thủ cạnh tranh như thế nào?

Song Tử 2.5 Pro

Xếp hạng của nó trên WebDev Arena như thế nào?

Với Điểm Arena là 1419.95, Gemini 2.5 Pro dẫn đầu bảng WebDev Arena, vượt xa Claude 3.7 Sonnet (1357.10) và GPT‑4.1 (1261.35) với biên độ đáng kể. Bước nhảy vọt này phản ánh sở thích của người dùng đối với sự kết hợp giữa độ trung thực trong thiết kế, khả năng bảo trì mã và độ hoàn thiện giao diện người dùng của Gemini.

Các tiêu chuẩn AI rộng hơn tiết lộ điều gì?

Ngoài front-end, Gemini 2.5 Pro mở rộng lợi thế của mình trên các chuẩn mực lập luận và mã hóa chung. Trên LMArena—một tổ hợp các bài kiểm tra hiểu biết và giải quyết vấn đề về AI—nó dẫn trước đối thủ gần nhất 39 điểm ELO, theo Demis Hassabis, CEO của Google DeepMind.

Khả năng đa phương thức của nó, bao gồm văn bản, âm thanh, hình ảnh, video và mã, tiếp tục giúp nó trở nên nổi bật trên thị trường nơi lý luận AI tích hợp đang nhanh chóng trở thành tiêu chuẩn.

Những trường hợp sử dụng thực tế nào làm nổi bật khả năng của nó?

Tạo nguyên mẫu ứng dụng từ một lời nhắc duy nhất

Một trong những tính năng được ca ngợi nhất của I/O Edition là khả năng tạo ra các ứng dụng web tương tác đầy đủ từ một dấu nhắc duy nhất. Trong ứng dụng Gemini, người dùng có thể nhập chủ đề thiết kế hoặc mẫu trực quan và nhận mã hoàn chỉnh cho các ứng dụng đang hoạt động, rút ngắn đáng kể chu kỳ tạo mẫu.

Quy trình làm việc và tích hợp của Agentic

Mô hình nâng cao cung cấp năng lượng cho các quy trình làm việc của tác nhân tinh vi, như minh họa bằng tích hợp với Replit Agent và tác nhân mã của Cursor. Các đường ống này tự động hóa các tác vụ phức tạp như tái cấu trúc định tuyến phụ trợ và định dạng thành phần UI với sự can thiệp tối thiểu của con người.

Các nhà phát triển đã cung cấp phản hồi gì?

Sự chứng thực của các nhà lãnh đạo ngành

Silas Alberti của Cognition ca ngợi sự trưởng thành của mô hình, trích dẫn khả năng thực hiện các tác vụ tái cấu trúc quy mô lớn với chất lượng ra quyết định cấp cao. Michele Catasta của Replit nhấn mạnh sự cân bằng vượt trội giữa “khả năng so với độ trễ”, lưu ý tính phù hợp của mô hình đối với các tác vụ nhạy cảm với độ trễ. Paul Couvert, nhà giáo dục AI và là người sáng lập BlueShell, và Pietro Schirano, CEO của EverArt, đã nhấn mạnh điểm mạnh của mô hình trong việc tạo mã và giao diện người dùng thông qua các xác nhận trên phương tiện truyền thông xã hội.

Tích hợp vào các nền tảng như Replit và Cursor

Các thử nghiệm nội bộ của Cursor cho thấy ít lỗi gọi công cụ hơn và độ tin cậy được cải thiện, thúc đẩy công ty tích hợp Phiên bản I/O vào tác nhân mã cốt lõi của mình. Tương tự như vậy, Replit đang khám phá tích hợp sâu hơn để hỗ trợ mã hóa thời gian thực, tận dụng chức năng gọi hàm được cải thiện của mô hình và I/O đa phương thức.

Khởi động nhanh

CometAPI cung cấp quyền truy cập vào hơn 500 mô hình AI, bao gồm các mô hình đa phương thức chuyên biệt và mã nguồn mở cho trò chuyện, hình ảnh, mã, v.v. Điểm mạnh chính của nó nằm ở việc đơn giản hóa quy trình tích hợp AI phức tạp theo truyền thống. Với nó, quyền truy cập vào các công cụ AI hàng đầu như Claude, OpenAI, Deepseek và Gemini có sẵn thông qua một đăng ký thống nhất duy nhất. Bạn có thể sử dụng API trong CometAPI để tạo nhạc và tác phẩm nghệ thuật, tạo video và xây dựng quy trình làm việc của riêng bạn

Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp API Gemini 2.5 Provà bạn sẽ nhận được 1 đô la trong tài khoản của mình sau khi đăng ký và đăng nhập! Chào mừng bạn đến đăng ký và trải nghiệm CometAPI.CometAPI trả tiền khi bạn sử dụng,API Gemini 2.5 Pro (tên mẫu: gemini-2.5-pro-preview-05-06) trong CometAPI Giá được cấu trúc như sau:

Mã thông báo đầu vào: $1/M mã thông báo
Mã thông báo đầu ra: 8 đô la/M mã thông báo

Để tích hợp nhanh chóng, vui lòng xem Tài liệu API