Google DeepMind chính thức phát hành Gemma 4 vào ngày 2 tháng 4 năm 2026, đánh dấu một cột mốc quan trọng trong AI nguồn mở. Dòng mô hình này mang lại mức độ thông minh tiên phong tính theo mỗi tham số, được xây dựng từ cùng nghiên cứu và công nghệ vận hành Gemini 3. Khác với các phiên bản Gemma trước với giấy phép tùy chỉnh, Gemma 4 phát hành dưới giấy phép Apache 2.0 hoàn toàn cấp phép rộng rãi, cho phép sử dụng, sửa đổi và phân phối lại cho mục đích thương mại mà không bị hạn chế.
Gemma 4 nổi bật nhờ năng lực đa phương thức (đầu vào văn bản + hình ảnh trên mọi kích cỡ, thêm âm thanh trên các mô hình biên), hỗ trợ gốc cho suy luận nâng cao và quy trình tác tử, cửa sổ ngữ cảnh dài lên đến 256K token, và tối ưu hóa cho mọi thứ từ smartphone và Raspberry Pi đến GPU cao cấp. Nó hỗ trợ hơn 140 ngôn ngữ và nhấn mạnh hiệu quả, đưa AI mạnh mẽ đến phần cứng người dùng và thiết bị biên mà không cần phụ thuộc đám mây.
CometAPI cung cấp API cho mô hình nguồn mở và nguồn đóng xuất sắc.
Gemma 4 là gì?
Gemma 4 là gia đình LLM đa phương thức mở mới nhất của Google DeepMind, được tạo ra dành riêng cho suy luận nâng cao, quy trình AI mang tính tác tử và triển khai hiệu quả trên thiết bị. Nó tối đa hóa “độ thông minh trên mỗi tham số” bằng cách tận dụng phát hiện từ nghiên cứu độc quyền Gemini 3, đồng thời vẫn hoàn toàn mở trọng số và nguồn mở.
Những cải tiến chủ chốt so với Gemma trước đây gồm:
- Đa phương thức nguyên sinh: Hiểu văn bản + hình ảnh (mọi mô hình), với hỗ trợ âm thanh trên các biến thể edge nhỏ hơn.
- Chế độ suy nghĩ có thể cấu hình: Suy luận từng bước với đầu ra <|think|> có cấu trúc.
- Gọi hàm và sử dụng công cụ nguyên sinh: Lý tưởng cho tác tử tự hoạt động.
- Ngữ cảnh mở rộng: Lên đến 256K token trên các mô hình lớn.
- Kiến trúc attention lai: Kết hợp attention cửa sổ trượt cục bộ và attention toàn cục để tối ưu hiệu năng và ngữ cảnh dài.
- Per-Layer Embeddings (PLE) trong các mô hình nhỏ hơn và bộ nhớ đệm KV dùng chung để tiết kiệm bộ nhớ.
- Hỗ trợ đa ngôn ngữ rộng: Tiền huấn luyện trên dữ liệu bao phủ 140+ ngôn ngữ với độ nhạy văn hóa.
Được phát hành theo Apache 2.0, Gemma 4 loại bỏ các hạn chế giấy phép trước đây vốn cản trở doanh nghiệp. Giờ đây, nhà phát triển có thể tinh chỉnh, triển khai và thương mại hóa không ma sát—định vị nó là đối thủ trực tiếp với hệ sinh thái hoàn toàn mở như Llama và Qwen.
Gemma 4 nhắm đến phần cứng đa dạng: thiết bị biên (điện thoại, IoT, Raspberry Pi, Jetson Nano) cho AI ngoại tuyến độ trễ thấp, và workstation/GPU cho máy chủ nội bộ hiệu năng cao. Thiết kế “ưu tiên cục bộ” này đề cao quyền riêng tư, tiết kiệm chi phí và suy luận không độ trễ.
Các mô hình nguồn mở xếp trên nó trên bảng xếp hạng Arena chủ yếu đến từ các nhóm Trung Quốc. Gemma 4 không khác nhiều so với Qwen 3.5 và GLM-5, nhưng khác biệt đáng kể so với GPT-OSS-120B của OpenAI.
Giờ đây, nhà phát triển có thể tìm GLM-5, Qwen 3.5, v.v. trên CometAPI.

Bốn phiên bản của Gemma 4
Google phát hành Gemma 4 với bốn kích cỡ được tối ưu kỹ lưỡng, cân bằng giữa hiệu năng, hiệu quả và kịch bản triển khai. Hai mẫu dùng kiến trúc dense với Per-Layer Embeddings (PLE) sáng tạo để tối ưu cho edge; một mẫu là Mixture-of-Experts (MoE) cho hiệu năng cao với chi phí tham số hoạt động thấp; và một mẫu dense đầu bảng.
| Model | Architecture | Total Params | Active Params (MoE) | Effective Params | Context Length | Modalities | Target Hardware |
|---|---|---|---|---|---|---|---|
| Gemma 4 E2B | Dense + PLE | ~5.1B (incl. embeddings) | N/A | 2.3B | 128K | Text, Image, Audio | Điện thoại thông minh, Raspberry Pi, IoT biên |
| Gemma 4 E4B | Dense + PLE | ~8B (incl. embeddings) | N/A | 4.5B | 128K | Text, Image, Audio | Thiết bị di động, GPU nhẹ, Jetson |
| Gemma 4 26B A4B | MoE (8 active / 128 total + 1 shared) | 25.2B | 3.8B–4B | N/A | 256K | Text, Image | Máy trạm, GPU phổ thông, máy chủ cục bộ |
| Gemma 4 31B | Dense | 30.7B | N/A | N/A | 256K | Text, Image | GPU cao cấp (chạy vừa trên một H100/A100 ở FP16) |
Gemma 4 E2B và E4B (tối ưu cho biên): Dùng PLE để bổ sung chuyên biệt theo lớp với chi phí tham số tối thiểu. Lý tưởng cho thiết bị chạy pin hoặc hạn chế bộ nhớ. Bộ mã hóa âm thanh (Conformer kiểu USM, ~300M tham số) cho phép chuyển giọng nói thành văn bản và dịch.
Gemma 4 26B A4B (MoE): Chỉ kích hoạt ~4B tham số trong suy luận dù tổng cỡ hơn 25B. Mang lại hiệu năng gần 31B với chi phí tính toán thấp hơn đáng kể—phù hợp cho mở rộng tiết kiệm chi phí.
Gemma 4 31B (Dense): Đầu bảng cho năng lực tối đa. Chạy vừa trên một GPU 80GB ở độ chính xác đầy đủ và nằm trong top các mô hình mở trên bảng xếp hạng.
Tất cả mô hình có biến thể tinh chỉnh theo hướng dẫn (“-it”) tối ưu cho trò chuyện, suy luận và dùng công cụ, cùng bản nền tiền huấn luyện để tinh chỉnh. Hai mô hình lớn theo hai hướng khác nhau: mẫu 31B Dense theo đuổi chất lượng tối đa và là nền tảng tốt nhất để tinh chỉnh; mẫu 26B MoE ưu tiên tốc độ, chỉ kích hoạt 3.8 tỷ tham số khi suy luận nên tạo từ nhanh hơn nhiều, nhưng chất lượng tổng thể hơi thấp hơn.
Hai mô hình nhỏ hơn, E2B và E4B, được thiết kế riêng cho điện thoại và thiết bị IoT: chúng có thể chạy hoàn toàn ngoại tuyến, tiết kiệm bộ nhớ và năng lượng. Hơn nữa, các mô hình nhỏ này có khả năng mà các mô hình lớn không có: đầu vào âm thanh gốc, cho phép nhận dạng giọng nói trực tiếp.
Năng lực cốt lõi của Gemma 4
Gemma 4 xuất sắc ở những lĩnh vực quan trọng cho ứng dụng AI thực tế:
1. Suy luận nâng cao & Chế độ suy nghĩ
Suy luận từng bước có thể cấu hình qua system prompt hoặc enable_thinking=True. Xuất các thẻ <|think|> có cấu trúc rồi mới đến câu trả lời cuối. Cải thiện mạnh hiệu năng trên tác vụ phức tạp mà không cần tinh chỉnh thêm.
2. Hiểu đa phương thức
- Thị giác: Phát hiện vật thể (hộp giới hạn JSON), OCR (đa ngôn ngữ), phân tích tài liệu/PDF, hiểu biểu đồ, hiểu giao diện UI, nhận dạng chữ viết tay, và xử lý ảnh độ phân giải biến đổi (ngân sách token: 70–1120 token).
- Video: Tối đa 60 giây (xử lý khung hình 1 fps).
- Âm thanh (chỉ E2B/E4B): ASR và dịch giọng nói thành văn bản (tối đa 30 giây).
- Đầu vào xen kẽ: Trộn văn bản, hình ảnh và âm thanh theo bất kỳ thứ tự nào.
3. Quy trình tác tử & Gọi hàm
Hỗ trợ sử dụng công cụ gốc cho tác tử tự chủ thực hiện lập kế hoạch nhiều bước, gọi API, điều hướng ứng dụng và hoàn thành nhiệm vụ. Mạnh trên τ2-bench (sử dụng công cụ mang tính tác tử).
4. Lập trình & Công cụ cho nhà phát triển
Tạo mã, hoàn thành, gỡ lỗi và hiểu ở cấp kho mã vượt trội. Hỗ trợ đầu ra có cấu trúc JSON để tích hợp liền mạch. Đạt 80.0% (31B) trên LiveCodeBench v6, định vị như một trợ lý lập trình ưu tiên cục bộ phù hợp cho kịch bản phát triển ngoại tuyến.
5. Ngữ cảnh dài & Đa ngôn ngữ
Xử lý tin cậy 128K–256K token (đã kiểm thử trên MRCR needle-in-haystack). Tiền huấn luyện trên dữ liệu đa dạng tới mốc cắt tháng 1/2025, với hiệu năng liên ngôn ngữ mạnh. Không chỉ là dịch đa ngôn ngữ; nó được huấn luyện gốc và bao phủ hơn 140 ngôn ngữ.
Dữ liệu điểm chuẩn: Phân tích hiệu năng Gemma 4
Gemma 4 đặt ra chuẩn mực mới cho các mô hình mở. Hai biến thể 31B và 26B đạt điểm số trước đây chỉ dành cho hệ thống độc quyền lớn hơn nhiều, trong khi các mô hình biên vượt qua đàn anh Gemma 3 lớn hơn.
Kết quả điểm chuẩn đầy đủ (Mô hình tinh chỉnh theo hướng dẫn)
| Benchmark | Category | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (không think) |
|---|---|---|---|---|---|---|
| MMLU Pro | Suy luận & Kiến thức | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 (no tools) | Toán | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| GPQA Diamond | Khoa học trình độ sau đại học | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2 (avg) | Sử dụng công cụ mang tính tác tử | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| LiveCodeBench v6 | Lập trình | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | Lập trình thi đấu | 2150 | 1718 | 940 | 633 | 110 |
| MMMU Pro | Suy luận đa phương thức | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| MATH-Vision | Toán + Thị giác | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MRCR v2 (8-needle, 128K) | Ngữ cảnh dài | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
Những điểm nổi bật:
- Bước nhảy vọt so với Gemma 3: Mẫu 31B nâng điểm Toán AIME từ 20.8% lên 89.2% và LiveCodeBench từ 29.1% lên 80.0%.
- Hiệu quả MoE: 26B A4B gần như sánh 31B trong khi dùng ít tính toán hơn khi suy luận.
- Thống trị trên edge: E4B và E2B vượt Gemma 3 27B ở nhiều chỉ số dù nhỏ hơn 6–10 lần.
- Xếp hạng bảng: 31B đạt ~1452 trên Arena AI (văn bản); 26B A4B ~1441. Biến thể 26B được cho là vượt các mô hình lớn hơn nhiều như Qwen 3.5 397B về ưu tiên người dùng và lập trình.
Điểm chuẩn thị giác và âm thanh xác nhận hiệu năng đa phương thức mạnh mẽ ngay từ đầu mà không cần tinh chỉnh chuyên biệt.
Hệ sinh thái và hỗ trợ công cụ
Gemma 4 có tích hợp hệ sinh thái rộng ngay lập tức:
- Hugging Face: Hỗ trợ ngày đầu với
transformers,pipeline("any-to-any"), GGUF, ONNX và bộ xử lý đa phương thức. - Runtime cục bộ: Ollama, Llama.cpp (LM Studio, Jan), MLX (Apple Silicon với TurboQuant), Mistral.rs (Rust), Transformers.js (suy luận trình duyệt WebGPU).
- Tinh chỉnh: TRL, Unsloth, PEFT, Vertex AI và hỗ trợ đầy đủ tập dữ liệu đa phương thức.
- Tối ưu phần cứng: NVIDIA RTX/DGX Spark/Jetson (qua TensorRT-LLM), Google AI Edge tools và triển khai trên thiết bị Android/iOS.
- Khung tác tử: OpenClaw, Hermes, Pi và kiểm thử mô phỏng CARLA.
- Cloud/Studio: Google AI Studio để thử nhanh; Kaggle Models để tải về.
Hệ sinh thái này giúp triển khai Gemma 4 chỉ trong vài phút trên laptop, máy chủ hoặc thiết bị biên.
Hạn chế & An toàn:
- Mốc cắt dữ liệu huấn luyện: Tháng 1/2025 (không có kiến thức thời gian thực nếu không dùng công cụ).
- Âm thanh chỉ giới hạn giọng nói (không phải nhạc); video tối đa 60 giây.
- Vẫn có rủi ro ảo giác nội dung—hãy dùng chế độ suy nghĩ và xác minh.
- An toàn: Lọc và đánh giá nghiêm ngặt theo Nguyên tắc AI của Google; nhà phát triển nên bổ sung cơ chế bảo vệ theo ứng dụng.
Vì sao Gemma 4 quan trọng vào năm 2026
Gemma 4 dân chủ hóa AI tuyến đầu. Bằng cách kết hợp trí tuệ đa phương thức, năng lực tác tử và sự tự do Apache 2.0 với hiệu quả không phụ thuộc phần cứng, nó trao quyền cho nhà phát triển và doanh nghiệp xây dựng giải pháp AI an toàn, riêng tư, tiết kiệm chi phí ở quy mô lớn. Đột phá về “độ thông minh trên mỗi tham số”—đặc biệt thể hiện ở các mô hình biên vượt qua các mô hình mở đầu bảng trước đây—báo hiệu sự chuyển dịch hướng đến AI thực sự phổ cập.
Dù là chạy mô hình 2B trên điện thoại hay “quái vật” 31B cục bộ, Gemma 4 chứng minh AI nguồn mở đã bắt kịp (và nhiều trường hợp vượt qua) các lựa chọn đóng trong tính hữu dụng thực tế.
