Gemini Embedding 2 là mô hình embedding đa phương thức gốc đầu tiên của Google, ánh xạ văn bản, hình ảnh, âm thanh, video và PDF vào một không gian vector ngữ nghĩa đơn nhất gồm 3,072 chiều (có thể cấu hình kích thước đầu ra). Mô hình giới thiệu Matryoshka Representation Learning để cung cấp embedding lồng nhau/cắt ngắn, cải thiện hiệu năng đa ngôn ngữ (100+ ngôn ngữ) và các điều khiển được tối ưu hóa cho embedding theo tác vụ (ví dụ: task:search, task:code).
Gemini Embedding 2 là gì?
Gemini Embedding 2 là một mô hình embedding hợp nhất từ Google, ánh xạ nhiều phương thức đầu vào — văn bản, hình ảnh, âm thanh, video và tài liệu — vào cùng một không gian vector ngữ nghĩa. Mỗi embedding (theo mặc định) là một vector số thực 3,072 chiều biểu diễn ý nghĩa ngữ nghĩa của đầu vào để các mục tương đồng về ngữ nghĩa (bất kể phương thức) nằm gần nhau trong không gian vector. Các năng lực nổi bật gồm:
- Phủ rộng ngôn ngữ và định dạng: một mô hình duy nhất chấp nhận văn bản, hình ảnh, âm thanh, video và tài liệu và đặt chúng vào một không gian vector ngữ nghĩa duy nhất. Gemini Embedding 2 được ghi nhận là nắm bắt được ý định ngữ nghĩa trên 100+ ngôn ngữ và chấp nhận các định dạng tệp phổ biến (PNG/JPEG, MP4/MOV, MP3/WAV, PDF), với các giới hạn cụ thể cho từng yêu cầu (ví dụ: tối đa vài hình ảnh hoặc vài chục giây âm thanh/video cho mỗi yêu cầu — xem “Cách sử dụng” bên dưới).
- Đa phương thức thực sự: một mô hình duy nhất chấp nhận văn bản, hình ảnh, âm thanh, video và tài liệu và đặt chúng vào một không gian vector ngữ nghĩa để bạn có thể so sánh hoặc truy xuất xuyên phương thức (ví dụ: văn bản → hình ảnh, âm thanh → văn bản).
- Số chiều mặc định lớn với cắt ngắn linh hoạt: mô hình xuất ra vector 3072 chiều theo mặc định, nhưng sử dụng Matryoshka Representation Learning (MRL) để tập trung nội dung ngữ nghĩa quan trọng nhất vào các chiều đầu tiên, nhờ đó bạn có thể cắt ngắn xuống 1536, 768 (hoặc thấp hơn) mà chỉ giảm nhẹ chất lượng truy xuất. Điều này giúp cân bằng chi phí lưu trữ và tính toán.
Tại sao điều này quan trọng. Trước đây, embedding phần lớn chỉ dành cho văn bản hoặc cần các bộ mã hóa riêng cho từng phương thức với các lớp căn chỉnh xuyên phương thức phức tạp. Gemini Embedding 2 loại bỏ rào cản đó bằng cách hỗ trợ gốc nhiều định dạng — do đó một truy vấn văn bản có thể truy xuất một hình ảnh hoặc một đoạn clip ngắn theo mức độ tương đồng ngữ nghĩa mà không cần chuyển giọng nói thành văn bản hoặc ánh xạ thủ công. Điều này đơn giản hóa RAG (retrieval-augmented generation), tìm kiếm ngữ nghĩa và các pipeline truy xuất đa phương thức.
Tính năng & năng lực chính (mới có gì)
1. Đa phương thức gốc thực sự (một không gian embedding)
Một mô hình duy nhất chấp nhận văn bản, hình ảnh, âm thanh, video và tài liệu và đặt chúng vào một không gian vector ngữ nghĩa. Gemini Embedding 2 ánh xạ văn bản, hình ảnh, âm thanh, video và tài liệu vào cùng một không gian embedding để truy xuất xuyên phương thức (văn bản→hình ảnh, âm thanh→văn bản) hoạt động trực tiếp mà không cần căn chỉnh qua nhiều mô hình. Điều này giảm độ phức tạp của pipeline và đơn giản hóa các stack RAG (Retrieval-Augmented Generation).
2. Vector mặc định 3,072 chiều với đầu ra có thể điều chỉnh
Gemini Embedding 2 xuất ra vector 3072 chiều theo mặc định, nhưng sử dụng Matryoshka Representation Learning (MRL) để tập trung nội dung ngữ nghĩa quan trọng nhất vào các chiều đầu tiên, nhờ đó bạn có thể cắt ngắn xuống 1536, 768 (hoặc thấp hơn) mà chỉ giảm nhẹ chất lượng truy xuất. Điều này giúp cân bằng chi phí lưu trữ và tính toán.
3. Matryoshka Representation Learning (MRL)
MRL tạo ra các embedding “lồng nhau” — giống búp bê Nga — nên các lát cắt kích thước thấp vẫn bảo toàn ngữ nghĩa cấp cao. Điều này cho phép hệ thống chọn điểm vận hành (cân bằng lưu trữ/độ chính xác) mà không cần duy trì nhiều mô hình embedding riêng biệt. Phân tích blog ban đầu và tài liệu mô tả kỹ thuật này là một đổi mới cốt lõi cho sự linh hoạt.
4. Gợi ý tác vụ / mục tiêu embedding tùy chỉnh
API chấp nhận các gợi ý task (ví dụ: task:search, task:code retrieval, task:semantic-similarity) để mô hình có thể tối ưu hình học embedding cho các quan hệ hạ nguồn cụ thể — tương tự điều kiện hóa theo tác vụ trong các hệ embedding trước đây nhưng được mở rộng cho đầu vào đa phương thức.
5. Độ phủ ngôn ngữ và phương thức
Gemini Embedding 2 được ghi nhận là nắm bắt ý định ngữ nghĩa trên 100+ ngôn ngữ và chấp nhận các định dạng tệp phổ biến (PNG/JPEG, MP4/MOV, MP3/WAV, PDF), với các giới hạn cụ thể cho từng yêu cầu (ví dụ: tối đa vài hình ảnh hoặc vài chục giây âm thanh/video cho mỗi yêu cầu — xem “Cách sử dụng” bên dưới).
Điểm chuẩn hiệu năng

Tóm tắt điểm chuẩn chính:
- MTEB (Massive Text Embedding Benchmark): Đạt thứ hạng cao trên các bảng xếp hạng MTEB đa ngôn ngữ cho tiếng Anh và tác vụ đa ngôn ngữ; phân tích cho thấy cải thiện đáng kể so với các mô hình embedding trước đó của Gemini và nhiều lựa chọn độc quyền khác.
- Truy xuất đa phương thức: Vượt trội hoặc ngang bằng các embedding đơn phương thức hàng đầu khi dùng cho tương đồng xuyên phương thức (ví dụ: truy xuất văn bản→hình ảnh), nhờ huấn luyện đa phương thức gốc.
- Độ trễ & thông lượng: Tạo embedding được lưu trữ trên đám mây, nhưng các trường hợp nhạy cảm độ trễ có thể ưu tiên vector cắt ngắn hoặc các mô hình embedding nhẹ thay thế cho nhu cầu on-edge.
Gemini Embedding 2 so với gemini-embedding-001 và text-embedding-3-large
| Thuộc tính | Gemini Embedding 2 (embedding-2) | Gemini Embedding (gemini-embedding-001) | OpenAI text-embedding-3-large |
|---|---|---|---|
| Phát hành / khả dụng | Mar 10, 2026 — public preview (Gemini API / Vertex AI). | Gemini embedding trước đó (biến thể chỉ văn bản) — GA sớm hơn. | Công bố Jan 2024 (chỉ văn bản, GA). |
| Phương thức được hỗ trợ | Văn bản, hình ảnh, âm thanh, video, tài liệu (PDF) — không gian vector hợp nhất. | Văn bản (chủ yếu). | Chỉ văn bản (đa ngôn ngữ chất lượng cao). |
| Số chiều embedding mặc định | 3072 (MRL / khuyến nghị cắt ngắn: 1536, 768). | 3072 (bản lớn) — chỉ văn bản. | 3072 (text-embedding-3-large). |
| MTEB báo cáo (ví dụ) | Cao-khoảng 60 trên MTEB; hiển thị 68.17 ở 1536 trong bảng của nhà cung cấp (xem tài liệu). | gemini-embedding-001 báo cáo ~68.32 trung bình trên một số BXH. | ~64.6 (MTEB trung bình do OpenAI báo cáo cho text-embedding-3-large). |
| Hỗ trợ audio/video gốc | Có (embedding trực tiếp audio/video). | Không (chỉ văn bản). | Không (chỉ văn bản). |
| Trường hợp sử dụng điển hình | Truy xuất đa phương thức, RAG, tìm kiếm ngữ nghĩa trên nhiều loại tệp, truy xuất giọng nói, tìm kiếm video. | Truy xuất văn bản, RAG đa ngôn ngữ. | Truy xuất văn bản, tìm kiếm ngữ nghĩa, RAG — hiệu năng văn bản đa ngôn ngữ mạnh. |
Thông số kỹ thuật & giới hạn
Kích thước embedding mặc định & có thể điều chỉnh
- Mặc định: 3,072 chiều.
- Có thể điều chỉnh: tham số
output_dimensionalitycho phép yêu cầu đầu ra số chiều thấp hơn để tiết kiệm lưu trữ/CPU. Các bài toán với kho vector cực lớn thường giảm số chiều xuống 512–1,024 vì lý do chi phí nhưng chấp nhận một mức đánh đổi độ chính xác.
Phương thức được hỗ trợ và giới hạn mỗi yêu cầu
- Hình ảnh: PNG, JPEG — tối đa 6 hình ảnh mỗi yêu cầu (giới hạn do nhà cung cấp báo cáo).
- Video: MP4, MOV — nhà cung cấp báo cáo tối đa ~128 giây mỗi video cho một yêu cầu embedding.
- Âm thanh: MP3, WAV — nhà cung cấp báo cáo tối đa ~80 giây mỗi đầu vào âm thanh.
- Tài liệu: PDF — tối đa 6 trang mỗi yêu cầu (theo báo cáo nhà cung cấp).
- Giới hạn token cho nội dung văn bản: mô hình hỗ trợ đầu vào token lớn; tồn tại giới hạn token thực tế cho mỗi yêu cầu (kiểm tra tài liệu API và hạn ngạch Vertex AI).
Khả dụng & truy cập
- Public preview: Gemini Embedding 2 được phát hành ở dạng public preview và có sẵn qua Gemini API và Google Cloud Vertex AI để sử dụng thử nghiệm ngay lập tức
Câu hỏi thường gặp (FAQ)
Q1: Gemini Embedding 2 hỗ trợ những phương thức nào?
A: Văn bản, hình ảnh (PNG/JPEG), video (MP4/MOV), âm thanh (MP3/WAV) và tài liệu PDF — tất cả đều được ánh xạ vào cùng một không gian vector ngữ nghĩa.
Q2: Kích thước vector mặc định của Gemini Embedding 2 là bao nhiêu?
A: Mặc định là 3,072 chiều. Bạn có thể yêu cầu đầu ra số chiều nhỏ hơn qua API.
Q3: Gemini Embedding 2 hiện đã khả dụng chưa?
A: Có — mô hình đã được công bố ở dạng public preview và có sẵn qua Gemini API và Vertex AI (kiểm tra model id gemini-embedding-2-preview và changelog hiện tại).
Q4: So với embedding từ các nhà cung cấp khác thì như thế nào?
A: Các thử nghiệm độc lập từ nhà cung cấp báo cáo Gemini Embedding 2 nằm trong nhóm dẫn đầu các mô hình độc quyền cho văn bản đa ngôn ngữ và cho thấy hiệu năng tiên tiến với một số tác vụ đa phương thức. Thứ hạng chính xác thay đổi theo tác vụ và bộ dữ liệu; hãy thử nghiệm trên dữ liệu của bạn.
Q5: Tôi có cần chuyển giọng nói thành văn bản để dùng Gemini Embedding 2 không?
A: Không — Gemini Embedding 2 có thể nhận trực tiếp âm thanh và tạo embedding mà không cần chuyển thành văn bản trước, cho phép truy xuất ngữ nghĩa âm thanh đầu-cuối.
Q6: Làm thế nào để giảm chi phí lưu trữ cho vector 3,072 chiều?
A: Các lựa chọn gồm yêu cầu output_dimensionality thấp hơn, dùng float16/quantization/PQ và lưu trữ các biểu diễn nén trong cơ sở dữ liệu vector. Bài viết từ nhà cung cấp cung cấp quy trình và thực tiễn tốt nhất.
Tiếp theo là gì — tôi có nên áp dụng ngay bây giờ không?
Gemini Embedding 2 là bước tiến lớn trong việc hợp nhất truy xuất đa phương thức và đơn giản hóa kiến trúc vốn trước đây cần các bộ truy xuất riêng cho văn bản, thị giác và giọng nói. Các điểm ra quyết định chính cho việc áp dụng:
- Áp dụng sớm nếu sản phẩm của bạn cần truy xuất xuyên phương thức mạnh mẽ (văn bản↔hình ảnh/video/âm thanh), hoặc nếu việc duy trì nhiều bộ truy xuất đơn phương thức là tốn kém và phức tạp.
- Thí điểm ngay nếu bạn muốn đánh giá cắt ngắn MRL và đo lường chi phí so với chất lượng (duy trì triển khai lai: 1536 làm chính, 3072 để tái xếp hạng).
- Chờ nếu khối lượng công việc của bạn cực kỳ nhạy cảm chi phí và chỉ cần truy xuất văn bản — các mô hình chỉ-văn-bản hàng đầu (ví dụ, OpenAI text-embedding-3-large) vẫn cạnh tranh và đôi khi rẻ hơn tùy pipeline và hợp đồng.
Nhà phát triển có thể truy cập Gemini Embedding 2 và OpenAI text-embedding-3 API qua CometAPI ngay bây giờ. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và nhận được API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Ready to Go?→ Sign up for cometapi today !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
