Что такое Gemini Embedding 2?

CometAPI
AnnaMar 11, 2026
Что такое Gemini Embedding 2?

Gemini Embedding 2 — первая у Google по-настоящему мультимодальная модель эмбеддингов, которая отображает текст, изображения, аудио, видео и PDF в единое 3,072-мерное семантическое векторное пространство (с настраиваемым размером выхода). Она вводит обучение представлений Matryoshka (MRL), чтобы предоставлять вложенные/усечённые эмбеддинги, улучшенную многоязычную производительность (100+ языков) и оптимизированные настройки для задач-специфичных эмбеддингов (например, task:search, task:code).

Что такое Gemini Embedding 2?

Gemini Embedding 2 — единая модель эмбеддингов от Google, которая отображает несколько входных модальностей — текст, изображения, аудио, видео и документы — в единое семантическое векторное пространство. Каждый эмбеддинг (по умолчанию) — это 3,072-мерный вектор с плавающей точкой, представляющий семантическое значение входных данных, чтобы семантически похожие объекты (независимо от модальности) располагались близко друг к другу в векторном пространстве. Ключевые возможности:

  • Широкий охват языков и форматов: одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство. Согласно документации, Gemini Embedding 2 фиксирует семантическое намерение на 100+ языках и принимает распространённые форматы файлов (PNGs/JPEGs, MP4/MOV, MP3/WAV, PDF) с конкретными ограничениями на запрос (например, до нескольких изображений или десятков секунд аудио/видео на запрос — см. «Как использовать» ниже).
  • Настоящая мультимодальность: одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство, чтобы можно было сравнивать и извлекать данные между модальностями (например, текст → изображение, аудио → текст).
  • Большая размерность по умолчанию с гибким усечением: модель по умолчанию выдаёт векторы размерности 3072, но использует Matryoshka Representation Learning (MRL), чтобы концентрировать наиболее важное семантическое содержание в первых измерениях, поэтому можно усекать до 1536, 768 (или ниже) с лишь умеренным падением качества извлечения. Это снижает затраты на хранение и вычисления.

Почему это важно. Исторически эмбеддинги были преимущественно только текстовыми или требовали отдельных энкодеров для каждой модальности со сложными слоями межмодального выравнивания. Gemini Embedding 2 снимает этот барьер благодаря нативной поддержке нескольких форматов — текстовый запрос может напрямую извлечь изображение или короткий клип по семантической близости без промежуточной транскрипции или ручного сопоставления. Это упрощает RAG (генерацию с дополнением извлечением), семантический поиск и мультимодальные конвейеры извлечения.

Ключевые возможности и функции (что нового)

1. Настоящая нативная мультимодальность (одно пространство эмбеддингов)

Одна модель принимает текст, изображения, аудио, видео и документы и помещает их в одно семантическое векторное пространство. Gemini Embedding 2 отображает текст, изображения, аудио, видео и документы в то же пространство эмбеддингов, поэтому кросс-модальное извлечение (текст→изображение, аудио→текст) работает напрямую без межмодельного выравнивания. Это снижает сложность конвейера и упрощает стеки RAG (Retrieval-Augmented Generation).

2. Векторы по умолчанию размерности 3,072 с настраиваемым выходом

Gemini Embedding 2 по умолчанию выдаёт векторы размерности 3072, но использует Matryoshka Representation Learning (MRL), чтобы концентрировать наиболее важное семантическое содержание в первых измерениях, поэтому можно усекать до 1536, 768 (или ниже) с лишь умеренным падением качества извлечения. Это снижает затраты на хранение и вычисления.

3. Matryoshka Representation Learning (MRL)

MRL создаёт «вложенные» эмбеддинги — как русские матрёшки — так что срезы меньшей размерности сохраняют высокоуровневую семантику. Это позволяет системам выбирать рабочую точку (компромисс хранение/точность) без поддержки нескольких отдельных моделей эмбеддингов. Ранние блоги и документация описывают эту технику как ключевую инновацию ради гибкости.

4. Подсказки по задачам / настраиваемые цели эмбеддингов

API принимает подсказки task (например, task:search, task:code retrieval, task:semantic-similarity), чтобы модель оптимизировала геометрию эмбеддингов под конкретные downstream-взаимосвязи — аналогично кондиционированию по задаче в ранних системах эмбеддингов, но расширено на мультимодальные входы.

5. Широта языков и модальностей

Согласно документации, Gemini Embedding 2 фиксирует семантическое намерение на 100+ языках и принимает распространённые форматы файлов (PNGs/JPEGs, MP4/MOV, MP3/WAV, PDF) с конкретными ограничениями на запрос (например, до нескольких изображений или десятков секунд аудио/видео на запрос — см. «Как использовать» ниже).

Результаты производительности

Что такое Gemini Embedding 2?

Краткое резюме бенчмарков:

  • MTEB (Massive Text Embedding Benchmark): Сообщается о сильных позициях на многоязычных таблицах лидеров MTEB по английским и многоязычным задачам; анализы показывают заметный рост по сравнению с предыдущими моделями эмбеддингов Gemini и многими проприетарными альтернативами.
  • Мультимодальное извлечение: Превосходит или сопоставим с ведущими одно-модальными эмбеддингами при кросс-модальной семантической близости (например, извлечение изображения по тексту) благодаря нативному мультимодальному обучению.
  • Задержка и пропускная способность: Генерация эмбеддингов в облаке, но сценарии, чувствительные к задержке, могут предпочесть усечённые векторы или альтернативные лёгкие модели эмбеддингов для задач на периферии.

Gemini Embedding 2 vs gemini-embedding-001 и text-embedding-3-large

AttributeGemini Embedding 2 (embedding-2)Gemini Embedding (gemini-embedding-001)OpenAI text-embedding-3-large
Release / availability10 марта 2026 — публичная предварительная версия (Gemini API / Vertex AI).Ранний эмбеддинг Gemini (варианты только для текста) — GA ранее.Анонсирован в январе 2024 (только текст, GA).
Modalities supportedТекст, изображения, аудио, видео, документы (PDF) — единое векторное пространство.Текст (в основном).Только текст (высококачественный многоязычный).
Default embedding dim.3072 (MRL / рекомендованное усечение: 1536, 768).3072 (для большого) — только текст.3072 (text-embedding-3-large).
Reported MTEB (example)High-60s на MTEB; показывает 68.17 при 1536 в таблице вендора (см. доки).gemini-embedding-001 сообщала ~68.32 среднее в некоторых списках лидеров.~64.6 (MTEB среднее, заявленное OpenAI для text-embedding-3-large).
Native audio/video supportДа (прямое эмбеддирование аудио/видео).Нет (только текст).Нет (только текст).
Typical use casesМультимодальное извлечение, RAG, семантический поиск по типам файлов, поиск по речи, поиск по видео.Текстовое извлечение, многоязычный RAG.Текстовое извлечение, семантический поиск, RAG — сильная многоязычная текстовая производительность.

Технические характеристики и ограничения

Размер эмбеддинга по умолчанию и настраиваемый

  • По умолчанию: 3,072 измерений.
  • Настраиваемый: параметр output_dimensionality позволяет запрашивать выход меньшей размерности для экономии хранения/CPU. Варианты использования с массивными векторными хранилищами часто уменьшают размерность до 512–1,024 ради снижения затрат, принимая некоторые компромиссы по точности.

Поддерживаемые модальности и лимиты на запрос

  • Изображения: PNG, JPEG — до 6 изображений на запрос (по данным вендора).
  • Видео: MP4, MOV — вендор сообщает до ~128 секунд видео для одного запроса на эмбеддинг.
  • Аудио: MP3, WAV — вендор сообщает до ~80 секунд на один аудиовход.
  • Документы: PDFs — до 6 страниц на запрос (по данным вендора).
  • Лимит токенов для текста: модель поддерживает большие текстовые входы; существуют практические лимиты токенов на запрос (см. API-документацию и квоты Vertex AI).

Доступность и доступ

  • Публичная предварительная версия: Gemini Embedding 2 выпущена как публичная предварительная версия и доступна через Gemini API и Vertex AI в Google Cloud для немедленного экспериментального использования

Часто задаваемые вопросы (FAQ)

Q1: Какие модальности поддерживает Gemini Embedding 2?
A: Текст, изображения (PNG/JPEG), видео (MP4/MOV), аудио (MP3/WAV) и PDF-документы — все отображаются в одном семантическом векторном пространстве.

Q2: Каков размер вектора по умолчанию для Gemini Embedding 2?
A: По умолчанию — 3,072 измерения. Вы можете запросить меньшую размерность выхода через API.

Q3: Доступна ли Gemini Embedding 2 уже сейчас?
A: Да — она анонсирована как публичная предварительная версия и доступна через Gemini API и Vertex AI (проверьте идентификатор модели gemini-embedding-2-preview и актуальный changelog).

Q4: Как она сравнивается с эмбеддингами других провайдеров?
A: Независимые тесты вендоров сообщают, что Gemini Embedding 2 входит в число топовых проприетарных моделей для многоязычного текста и показывает state-of-the-art для ряда мультимодальных задач. Точные рейтинги зависят от задачи и датасета; тестируйте на своих данных.

Q5: Нужно ли транскрибировать аудио, чтобы использовать Gemini Embedding 2?
A: Нет — Gemini Embedding 2 может принимать аудио напрямую и создавать эмбеддинги без предварительной транскрипции в текст, позволяя выполнять энд-ту-энд семантическое извлечение аудио.

Q6: Как снизить затраты на хранение векторов размерности 3,072?
A: Варианты включают запрос меньшей output_dimensionality, использование float16/квантования/PQ и хранение сжатых представлений в вашей векторной БД. Посты вендора содержат рабочие процессы и лучшие практики.

Что дальше — стоит ли внедрять сейчас?

Gemini Embedding 2 — значительный шаг к унификации мультимодального извлечения и упрощает архитектуры, которым ранее требовались отдельные ретриверы для текста, визуальных данных и речи. Ключевые точки принятия решения:

  • Внедряйте скорее, если вашему продукту требуется устойчивое кросс-модальное извлечение (текст↔изображение/видео/аудио) или если поддержание нескольких одно-модальных ретриверов затратно и сложно.
  • Пилотируйте сейчас, если хотите оценить усечение MRL и измерить компромисс стоимость/качество (держите гибридное развёртывание: 1536 как основной, 3072 для повторного ранжирования).
  • Подождите, если ваша нагрузка крайне чувствительна к затратам и требуется только текстовое извлечение — топовые модели только для текста (например, OpenAI text-embedding-3-large) остаются конкурентоспособными и иногда дешевле, в зависимости от вашего конвейера и контракта.

Разработчики уже могут получить доступ к Gemini Embedding 2 и API OpenAI text-embedding-3 через CometAPI. Для начала изучите возможности модели в Playground и обратитесь к API guide за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили API-ключ. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам интегрироваться.

Готовы начать?→ Sign up for cometapi today !

Если хотите больше советов, гайдов и новостей об ИИ, следите за нами в VK, X и Discord!

Доступ к топовым моделям по низкой цене

Читать далее