Gemma 3n: Tính năng, Kiến trúc và nhiều hơn nữa

CometAPI
AnnaMay 26, 2025
Gemma 3n: Tính năng, Kiến trúc và nhiều hơn nữa

AI mới nhất trên thiết bị của Google, Gemma 3n, đại diện cho bước tiến nhảy vọt trong việc tạo ra các mô hình tạo ra tiên tiến nhỏ gọn, hiệu quả và bảo vệ quyền riêng tư. Được ra mắt ở dạng xem trước tại Google I/O vào cuối tháng 2025 năm 3, Gemma XNUMXn đã khuấy động sự phấn khích trong số các nhà phát triển và nhà nghiên cứu vì nó mang các khả năng AI đa phương thức tiên tiến trực tiếp đến các thiết bị di động và thiết bị biên. Bài viết này tổng hợp các thông báo mới nhất, thông tin chi tiết của nhà phát triển và các điểm chuẩn độc lập.

Gemma 3n là gì?

Gemma 3n là thành viên mới nhất của gia đình Gemma của Google về các mô hình AI tạo sinh, được thiết kế dành riêng cho trên thiết bị suy luận về phần cứng bị hạn chế về tài nguyên như điện thoại thông minh, máy tính bảng và hệ thống nhúng. Không giống như các phiên bản trước đó—Gemma 3 và các biến thể trước đó, chủ yếu được tối ưu hóa cho việc sử dụng đám mây hoặc GPU đơn—kiến trúc của Gemma 3n ưu tiên độ trễ thấp, giảm dấu chân bộ nhớsử dụng tài nguyên động, cho phép người dùng chạy các tính năng AI nâng cao mà không cần kết nối Internet liên tục.

Tại sao lại là “3n”?

Chữ “n” trong Gemma 3n là viết tắt của “lồng nhau,” phản ánh việc sử dụng mô hình Máy biến hình Matryoshka (Hoặc MatFormer) kiến ​​trúc. Thiết kế này lồng các mô hình con nhỏ hơn vào bên trong một mô hình lớn hơn, tương tự như búp bê lồng nhau của Nga, cho phép kích hoạt có chọn lọc chỉ các thành phần cần thiết cho một tác vụ nhất định. Bằng cách đó, Gemma 3n có thể giảm đáng kể mức tiêu thụ điện toán và năng lượng so với các mô hình kích hoạt tất cả các tham số trên mọi yêu cầu.

Bản xem trước và hệ sinh thái

Google đã mở Gemma 3n xem trước tại I/O, cung cấp thông qua Google AI Studio, Google GenAI SDK và trên các nền tảng như Hugging Face theo giấy phép xem trước. Mặc dù trọng số vẫn chưa hoàn toàn là mã nguồn mở, các nhà phát triển có thể thử nghiệm các biến thể được điều chỉnh theo hướng dẫn trong trình duyệt hoặc tích hợp chúng vào các nguyên mẫu thông qua API mà Google đang nhanh chóng mở rộng.


Gemma 3n hoạt động như thế nào?

Hiểu được cơ chế của Gemma 3n là rất quan trọng để đánh giá tính phù hợp của nó đối với các ứng dụng trên thiết bị. Sau đây chúng tôi sẽ phân tích ba cải tiến kỹ thuật cốt lõi của nó.

Kiến trúc máy biến áp Matryoshka (MatFormer)

Ở trung tâm của Gemma 3n nằm MatFormer, một biến thể máy biến áp bao gồm các mô hình con lồng nhau có nhiều kích cỡ khác nhau. Đối với các tác vụ nhẹ—ví dụ, tạo văn bản với các lời nhắc ngắn—chỉ mô hình con nhỏ nhất được kích hoạt, tiêu thụ CPU, bộ nhớ và năng lượng tối thiểu. Đối với các tác vụ phức tạp hơn—chẳng hạn như tạo mã hoặc lý luận đa phương thức—các mô hình con "bên ngoài" lớn hơn được tải động. Tính linh hoạt này làm cho Gemma 3n tính toán thích ứng, mở rộng việc sử dụng tài nguyên theo nhu cầu.

Bộ nhớ đệm nhúng từng lớp (PLE)

Để bảo tồn bộ nhớ hơn nữa, Gemma 3n sử dụng Bộ nhớ đệm PLE, chuyển các nhúng ít khi sử dụng trên mỗi lớp sang bộ nhớ ngoài hoặc bộ nhớ chuyên dụng nhanh hơn. Thay vì nằm cố định trong RAM, các tham số này là được lấy ngay lập tức trong quá trình suy luận chỉ khi cần thiết. Bộ nhớ đệm PLE giúp giảm dung lượng bộ nhớ tối đa tới 40% so với nhúng luôn được tải, theo các thử nghiệm ban đầu.

Tải tham số có điều kiện

Ngoài MatFormer và bộ nhớ đệm PLE, Gemma 3n hỗ trợ tải tham số có điều kiện. Các nhà phát triển có thể xác định trước các phương thức (văn bản, hình ảnh, âm thanh) mà ứng dụng của họ yêu cầu; Gemma 3n sau đó bỏ qua việc tải trọng số cụ thể cho phương thức không sử dụng, cắt giảm thêm việc sử dụng RAM. Ví dụ, một chatbot chỉ có văn bản có thể loại trừ hoàn toàn các tham số về hình ảnh và âm thanh, hợp lý hóa thời gian tải và giảm kích thước ứng dụng.

Điểm chuẩn hiệu suất cho thấy điều gì?

Các đánh giá ban đầu cho thấy sự cân bằng ấn tượng giữa tốc độ, hiệu quả và độ chính xác của Gemma 3n.

So sánh GPU đơn

Mặc dù Gemma 3n được thiết kế cho các thiết bị biên, nhưng nó vẫn hoạt động cạnh tranh trên một GPU duy nhất. The Verge đưa tin rằng Gemma 3 (người anh em họ lớn hơn của nó) hoạt động tốt hơn các mẫu hàng đầu như LLaMA và GPT trong cài đặt GPU đơn, thể hiện năng lực kỹ thuật của Google trong việc kiểm tra hiệu quả và an toàn The Verge. Trong khi các báo cáo kỹ thuật đầy đủ cho Gemma 3n sắp ra mắt, các thử nghiệm ban đầu cho thấy thông lượng tăng 20 tầm 30% so với Gemma 3 trên phần cứng tương đương.

Điểm số của Chatbot Arena

Các đánh giá độc lập trên các nền tảng như Chatbot Arena cho thấy biến thể 3 tham số B của Gemma 4n vượt trội GPT-4.1 Nano trong các nhiệm vụ hỗn hợp, bao gồm lý luận toán học và chất lượng đàm thoại. Trợ lý biên tập của KDnuggets đã lưu ý khả năng duy trì các cuộc đối thoại mạch lạc, giàu ngữ cảnh của Gemma 3n với Điểm Elo tốt hơn 1.5 lần so với thế hệ trước, đồng thời giảm độ trễ phản hồi gần một nửa.

Thông lượng và độ trễ trên thiết bị

Trên các điện thoại thông minh hàng đầu hiện đại (ví dụ: Snapdragon 8 Gen 3, Apple A17), Gemma 3n đạt được 5–10 token/giây về suy luận chỉ dành cho CPU, mở rộng quy mô 20–30 token/giây khi tận dụng NPU hoặc DSP trên thiết bị. Mức sử dụng bộ nhớ đạt đỉnh khoảng 2 GB của RAM trong các tác vụ đa phương thức phức tạp, phù hợp với hầu hết các ngân sách phần cứng di động cao cấp.


Gemma 3n cung cấp những tính năng gì?

Bộ tính năng của Gemma 3n không chỉ dừng lại ở hiệu suất thô mà còn tập trung vào khả năng ứng dụng trong thế giới thực.

Hiểu biết đa phương thức

  • bản văn: Hỗ trợ đầy đủ cho việc tạo văn bản theo hướng dẫn, tóm tắt, dịch và tạo mã.
  • Tầm nhìn: Phân tích và chú thích hình ảnh, hỗ trợ đầu vào có độ phân giải cao và không vuông.
  • Bài nghe: Nhận dạng giọng nói tự động (ASR) trên thiết bị và dịch giọng nói thành văn bản trên hơn 140 ngôn ngữ.
  • Video (Sắp ra mắt):Google đã chỉ ra sự hỗ trợ sắp tới cho việc xử lý đầu vào video trong các bản cập nhật Gemma 3n trong tương lai.

Quyền riêng tư được đặt lên hàng đầu và sẵn sàng ngoại tuyến

Bằng cách chạy hoàn toàn trên thiết bị, Gemma 3n đảm bảo dữ liệu không bao giờ rời khỏi phần cứng của người dùng, giải quyết các mối lo ngại ngày càng tăng về quyền riêng tư. Khả năng ngoại tuyến cũng có nghĩa là các ứng dụng vẫn hoạt động trong môi trường kết nối thấp—rất quan trọng đối với công việc thực địa, du lịch và các ứng dụng doanh nghiệp an toàn.

Sử dụng tài nguyên động

  • Kích hoạt mô hình phụ có chọn lọc qua MatFormer
  • Tải tham số có điều kiện bỏ qua các trọng số phương thức chưa sử dụng
  • Bộ nhớ đệm PLE để dỡ bỏ các nhúng

Các tính năng này kết hợp với nhau để cho phép các nhà phát triển tùy chỉnh hồ sơ tài nguyên theo nhu cầu chính xác của họ—cho dù đó là dung lượng tối thiểu cho các ứng dụng nhạy cảm với pin hay triển khai đầy đủ tính năng cho các tác vụ đa phương tiện.

Xuất sắc đa ngôn ngữ

Kho dữ liệu đào tạo của Gemma 3n trải dài trên 140 ngôn ngữ được nói, với hiệu suất đặc biệt mạnh mẽ được báo cáo ở các thị trường có tác động lớn như Nhật Bản, Hàn Quốc, Đức và Tây Ban Nha. Các thử nghiệm ban đầu cho thấy 2 × cải thiện độ chính xác trong các tác vụ không phải tiếng Anh so với các mô hình trên thiết bị trước đây.

An toàn và Lọc nội dung

Gemma 3n tích hợp bộ phân loại an toàn hình ảnh (tương tự như ShieldGemma 2) để lọc nội dung khiêu dâm hoặc bạo lực. Thiết kế ưu tiên quyền riêng tư của Google đảm bảo các bộ lọc này chạy cục bộ, giúp các nhà phát triển tin tưởng rằng nội dung do người dùng tạo ra vẫn tuân thủ mà không cần lệnh gọi API bên ngoài.

Những trường hợp sử dụng điển hình của Gemma 3n là gì?

Bằng cách kết hợp sức mạnh đa phương thức với hiệu quả trên thiết bị, Gemma 3n mở ra những ứng dụng mới trên nhiều ngành công nghiệp.

Ứng dụng tiêu dùng nào được hưởng lợi nhiều nhất?

  • Trợ lý hỗ trợ camera: Mô tả hoặc dịch cảnh theo thời gian thực trực tiếp trên thiết bị, không có độ trễ đám mây.
  • Giao diện Voice-First: Trợ lý giọng nói riêng tư, ngoại tuyến trên ô tô hoặc thiết bị nhà thông minh.
  • Thực tế ảo tăng cường: Nhận dạng đối tượng trực tiếp và chèn chú thích trên kính AR.

Gemma 3n được sử dụng như thế nào trong các tình huống doanh nghiệp?

  • Kiểm tra hiện trường: Công cụ kiểm tra ngoại tuyến cho các tiện ích và cơ sở hạ tầng, tận dụng khả năng suy luận hình ảnh-văn bản trên thiết bị di động.
  • Xử lý tài liệu an toàn:AI tại chỗ để phân tích tài liệu nhạy cảm trong lĩnh vực tài chính hoặc chăm sóc sức khỏe, đảm bảo dữ liệu không bao giờ rời khỏi thiết bị.
  • Hỗ trợ đa ngôn ngữ: Biên dịch và tóm tắt tức thời các thông tin liên lạc quốc tế theo thời gian thực.

Những hạn chế và cân nhắc là gì?

Mặc dù đây là một bước tiến lớn, nhưng các nhà phát triển cần phải nhận thức được những hạn chế hiện tại.

Có những sự đánh đổi nào tồn tại?

  • Chất lượng so với Tốc độ:Các mô hình con có tham số thấp hơn cung cấp phản hồi nhanh hơn nhưng độ trung thực đầu ra giảm đôi chút; việc lựa chọn sự kết hợp phù hợp phụ thuộc vào nhu cầu ứng dụng.
  • Quản lý cửa sổ ngữ cảnh:Mặc dù 128 nghìn mã thông báo là đáng kể, nhưng các ứng dụng yêu cầu đối thoại dài hơn hoặc xử lý tài liệu mở rộng vẫn có thể cần đến các mô hình dựa trên đám mây.
  • Tương thích phần cứng:Các thiết bị cũ thiếu NPU hoặc GPU hiện đại có thể suy luận chậm hơn, hạn chế các trường hợp sử dụng thời gian thực.

Thế còn AI có trách nhiệm thì sao?

Bản phát hành của Google đi kèm với các thẻ mẫu nêu chi tiết các đánh giá thiên vị, biện pháp giảm thiểu an toàn và hướng dẫn sử dụng được khuyến nghị để giảm thiểu tác hại và đảm bảo triển khai có đạo đức.


Kết luận

Gemma 3n báo hiệu một kỷ nguyên mới trong AI tạo ra trên thiết bị, kết hợp những cải tiến máy biến áp tiên tiến với các tối ưu hóa triển khai trong thế giới thực. MatFormer kiến trúc, Bộ nhớ đệm PLEtải tham số có điều kiện mở khóa suy luận chất lượng cao trên phần cứng từ điện thoại hàng đầu đến các thiết bị biên nhúng. Với khả năng đa phương thức, bảo vệ quyền riêng tư mạnh mẽ và điểm chuẩn ban đầu mạnh mẽ—cộng với khả năng truy cập dễ dàng thông qua Google AI Studio, SDK và Hugging Face—Gemma 3n mời các nhà phát triển tái hiện trải nghiệm hỗ trợ AI ở bất cứ nơi nào người dùng ở.

Cho dù bạn đang xây dựng một trợ lý ngôn ngữ sẵn sàng cho du lịch, một công cụ chú thích ảnh ngoại tuyến đầu tiên hay một chatbot doanh nghiệp tư nhân, Gemma 3n cung cấp hiệu suất và tính linh hoạt mà bạn cần mà không ảnh hưởng đến quyền riêng tư. Khi Google tiếp tục mở rộng chương trình xem trước và thêm các tính năng như hiểu video, thì đây là thời điểm hoàn hảo để khám phá tiềm năng của Gemma 3n cho dự án AI tiếp theo của bạn.

Bắt đầu

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả gia đình Gemini—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.

Các nhà phát triển có thể truy cập Gemini 2.5 Flash Pre API  (người mẫu:gemini-2.5-flash-preview-05-20) Và API Gemini 2.5 Pro (người mẫu:gemini-2.5-pro-preview-05-06)vv thông qua Sao chổiAPI. Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%