Что такое Gemini Embedding 2?

Gemini Embedding 2 — первая у Google по-настоящему мультимодальная модель эмбеддингов, которая отображает текст, изображения, аудио, видео и PDF в единое 3,072-мерное семантическое векторное пространство (с настраиваемым размером выхода). Она вводит обучение представлений Matryoshka (MRL), чтобы предоставлять вложенные/усечённые эмбеддинги, улучшенную многоязычную производительность (100+ языков) и оптимизированные настройки для задач-специфичных эмбеддингов (например, task:search, task:code).

Gemini Embedding 2 — единая модель эмбеддингов от Google, которая отображает несколько входных модальностей — текст, изображения, аудио, видео и документы — в единое семантическое векторное пространство. Каждый эмбеддинг (по умолчанию) — это 3,072-мерный вектор с плавающей точкой, представляющий семантическое значение входных данных, чтобы семантически похожие объекты (независимо от модальности) располагались близко друг к другу в векторном пространстве. Ключевые возможности:

Широкий охват языков и форматов: одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство. Согласно документации, Gemini Embedding 2 фиксирует семантическое намерение на 100+ языках и принимает распространённые форматы файлов (PNGs/JPEGs, MP4/MOV, MP3/WAV, PDF) с конкретными ограничениями на запрос (например, до нескольких изображений или десятков секунд аудио/видео на запрос — см. «Как использовать» ниже).
Настоящая мультимодальность: одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство, чтобы можно было сравнивать и извлекать данные между модальностями (например, текст → изображение, аудио → текст).
Большая размерность по умолчанию с гибким усечением: модель по умолчанию выдаёт векторы размерности 3072, но использует Matryoshka Representation Learning (MRL), чтобы концентрировать наиболее важное семантическое содержание в первых измерениях, поэтому можно усекать до 1536, 768 (или ниже) с лишь умеренным падением качества извлечения. Это снижает затраты на хранение и вычисления.

Почему это важно. Исторически эмбеддинги были преимущественно только текстовыми или требовали отдельных энкодеров для каждой модальности со сложными слоями межмодального выравнивания. Gemini Embedding 2 снимает этот барьер благодаря нативной поддержке нескольких форматов — текстовый запрос может напрямую извлечь изображение или короткий клип по семантической близости без промежуточной транскрипции или ручного сопоставления. Это упрощает RAG (генерацию с дополнением извлечением), семантический поиск и мультимодальные конвейеры извлечения.

Ключевые возможности и функции (что нового)

1. Настоящая нативная мультимодальность (одно пространство эмбеддингов)

Одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство. Gemini Embedding 2 отображает текст, изображения, аудио, видео и документы в то же пространство эмбеддингов, поэтому кросс-модальное извлечение (текст→изображение, аудио→текст) работает напрямую без межмодельного выравнивания. Это снижает сложность конвейера и упрощает стеки RAG (Retrieval-Augmented Generation).

2. Векторы по умолчанию размерности 3,072 с настраиваемым выходом

Gemini Embedding 2 по умолчанию выдаёт векторы размерности 3072, но использует Matryoshka Representation Learning (MRL), чтобы концентрировать наиболее важное семантическое содержание в первых измерениях, поэтому можно усекать до 1536, 768 (или ниже) с лишь умеренным падением качества извлечения. Это снижает затраты на хранение и вычисления.

3. Matryoshka Representation Learning (MRL)

MRL создаёт «вложенные» эмбеддинги — как русские матрёшки — так что срезы меньшей размерности сохраняют высокоуровневую семантику. Это позволяет системам выбирать рабочую точку (компромисс хранение/точность) без поддержки нескольких отдельных моделей эмбеддингов. Ранние блоги и документация описывают эту технику как ключевую инновацию ради гибкости.

4. Подсказки по задачам / настраиваемые цели эмбеддингов

API принимает подсказки task (например, task:search, task:code retrieval, task:semantic-similarity), чтобы модель оптимизировала геометрию эмбеддингов под конкретные downstream-взаимосвязи — аналогично кондиционированию по задаче в ранних системах эмбеддингов, но расширено на мультимодальные входы.

5. Широта языков и модальностей

Согласно документации, Gemini Embedding 2 фиксирует семантическое намерение на 100+ языках и принимает распространённые форматы файлов (PNGs/JPEGs, MP4/MOV, MP3/WAV, PDF) с конкретными ограничениями на запрос (например, до нескольких изображений или десятков секунд аудио/видео на запрос — см. «Как использовать» ниже).

Результаты производительности

Что такое Gemini Embedding 2?

Краткое резюме бенчмарков:

MTEB (Massive Text Embedding Benchmark): Сообщается о сильных позициях на многоязычных таблицах лидеров MTEB по английским и многоязычным задачам; анализы показывают заметный рост по сравнению с предыдущими моделями эмбеддингов Gemini и многими проприетарными альтернативами.
Мультимодальное извлечение: Превосходит или сопоставим с ведущими одно-модальными эмбеддингами при кросс-модальной семантической близости (например, извлечение изображения по тексту) благодаря нативному мультимодальному обучению.
Задержка и пропускная способность: Генерация эмбеддингов в облаке, но сценарии, чувствительные к задержке, могут предпочесть усечённые векторы или альтернативные лёгкие модели эмбеддингов для задач на периферии.

Gemini Embedding 2 vs gemini-embedding-001 и text-embedding-3-large

Attribute	Gemini Embedding 2 (embedding-2)	Gemini Embedding (gemini-embedding-001)	OpenAI text-embedding-3-large
Release / availability	10 марта 2026 — публичная предварительная версия (Gemini API / Vertex AI).	Ранний эмбеддинг Gemini (варианты только для текста) — GA ранее.	Анонсирован в январе 2024 (только текст, GA).
Modalities supported	Текст, изображения, аудио, видео, документы (PDF) — единое векторное пространство.	Текст (в основном).	Только текст (высококачественный многоязычный).
Default embedding dim.	3072 (MRL / рекомендованное усечение: 1536, 768).	3072 (для большого) — только текст.	3072 (text-embedding-3-large).
Reported MTEB (example)	High-60s на MTEB; показывает 68.17 при 1536 в таблице вендора (см. доки).	gemini-embedding-001 сообщала ~68.32 среднее в некоторых списках лидеров.	~64.6 (MTEB среднее, заявленное OpenAI для text-embedding-3-large).
Native audio/video support	Да (прямое эмбеддирование аудио/видео).	Нет (только текст).	Нет (только текст).
Typical use cases	Мультимодальное извлечение, RAG, семантический поиск по типам файлов, поиск по речи, поиск по видео.	Текстовое извлечение, многоязычный RAG.	Текстовое извлечение, семантический поиск, RAG — сильная многоязычная текстовая производительность.

Технические характеристики и ограничения

Размер эмбеддинга по умолчанию и настраиваемый

По умолчанию: 3,072 измерений.
Настраиваемый: параметр output_dimensionality позволяет запрашивать выход меньшей размерности для экономии хранения/CPU. Варианты использования с массивными векторными хранилищами часто уменьшают размерность до 512–1,024 ради снижения затрат, принимая некоторые компромиссы по точности.

Поддерживаемые модальности и лимиты на запрос

Изображения: PNG, JPEG — до 6 изображений на запрос (по данным вендора).
Видео: MP4, MOV — вендор сообщает до ~128 секунд видео для одного запроса на эмбеддинг.
Аудио: MP3, WAV — вендор сообщает до ~80 секунд на один аудиовход.
Документы: PDFs — до 6 страниц на запрос (по данным вендора).
Лимит токенов для текста: модель поддерживает большие текстовые входы; существуют практические лимиты токенов на запрос (см. API-документацию и квоты Vertex AI).

Доступность и доступ

Публичная предварительная версия: Gemini Embedding 2 выпущена как публичная предварительная версия и доступна через Gemini API и Vertex AI в Google Cloud для немедленного экспериментального использования

Часто задаваемые вопросы (FAQ)

Q1: Какие модальности поддерживает Gemini Embedding 2?
A: Текст, изображения (PNG/JPEG), видео (MP4/MOV), аудио (MP3/WAV) и PDF-документы — все отображаются в одном семантическом векторном пространстве.

Q2: Каков размер вектора по умолчанию для Gemini Embedding 2?
A: По умолчанию — 3,072 измерения. Вы можете запросить меньшую размерность выхода через API.

Q3: Доступна ли Gemini Embedding 2 уже сейчас?
A: Да — она анонсирована как публичная предварительная версия и доступна через Gemini API и Vertex AI (проверьте идентификатор модели gemini-embedding-2-preview и актуальный changelog).

Q4: Как она сравнивается с эмбеддингами других провайдеров?
A: Независимые тесты вендоров сообщают, что Gemini Embedding 2 входит в число топовых проприетарных моделей для многоязычного текста и показывает state-of-the-art для ряда мультимодальных задач. Точные рейтинги зависят от задачи и датасета; тестируйте на своих данных.

Q5: Нужно ли транскрибировать аудио, чтобы использовать Gemini Embedding 2?
A: Нет — Gemini Embedding 2 может принимать аудио напрямую и создавать эмбеддинги без предварительной транскрипции в текст, позволяя выполнять энд-ту-энд семантическое извлечение аудио.

Q6: Как снизить затраты на хранение векторов размерности 3,072?
A: Варианты включают запрос меньшей output_dimensionality, использование float16/квантования/PQ и хранение сжатых представлений в вашей векторной БД. Посты вендора содержат рабочие процессы и лучшие практики.

Что дальше — стоит ли внедрять сейчас?

Gemini Embedding 2 — значительный шаг к унификации мультимодального извлечения и упрощает архитектуры, которым ранее требовались отдельные ретриверы для текста, визуальных данных и речи. Ключевые точки принятия решения:

Внедряйте скорее, если вашему продукту требуется устойчивое кросс-модальное извлечение (текст↔изображение/видео/аудио) или если поддержание нескольких одно-модальных ретриверов затратно и сложно.
Пилотируйте сейчас, если хотите оценить усечение MRL и измерить компромисс стоимость/качество (держите гибридное развёртывание: 1536 как основной, 3072 для повторного ранжирования).
Подождите, если ваша нагрузка крайне чувствительна к затратам и требуется только текстовое извлечение — топовые модели только для текста (например, OpenAI text-embedding-3-large) остаются конкурентоспособными и иногда дешевле, в зависимости от вашего конвейера и контракта.

Разработчики уже могут получить доступ к Gemini Embedding 2 и API OpenAI text-embedding-3 через CometAPI. Для начала изучите возможности модели в Playground и обратитесь к API guide за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили API-ключ. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам интегрироваться.

Готовы начать?→ Sign up for cometapi today !

Если хотите больше советов, гайдов и новостей об ИИ, следите за нами в VK, X и Discord!

Что такое Gemini Embedding 2?