Gemini Embedding 2 は、テキスト、画像、音声、動画、PDF を単一の 3,072 次元セマンティックベクトル空間に写像する、Google 初のネイティブなマルチモーダル埋め込みモデル(出力サイズは可変)です。Matryoshka Representation Learning を導入し、ネスト/トランケート可能な埋め込み、向上した多言語性能(100+ 言語)、およびタスク特化型埋め込みのための最適化された制御(例: task:search, task:code)を提供します。
Gemini Embedding 2 とは?
Gemini Embedding 2 は、Google による統合型の埋め込みモデルで、テキスト、画像、音声、動画、ドキュメントといった複数の入力モダリティを単一のセマンティックベクトル空間に写像します。各埋め込みは(デフォルトで)3,072 次元の浮動小数点ベクトルで、入力の意味的な内容を表現し、意味的に類似した項目(モダリティに関わらず)がベクトル空間上で近くなるようにします。主な機能は以下の通りです。
- 幅広い言語とフォーマットへの対応: テキスト、画像、音声、動画、ドキュメントを単一のセマンティックベクトル空間に配置できる単一モデル。Gemini Embedding 2 は、100+ 言語にわたる意図の把握と一般的なファイル形式(PNG/JPEG、MP4/MOV、MP3/WAV、PDF)の受け入れが文書化されており、リクエストごとの具体的な上限があります(例: 1 回のリクエストで数枚の画像または数十秒の音声/動画まで—下記「How to use」を参照)。
- 真のマルチモーダリティ: テキスト、画像、音声、動画、ドキュメントを単一のセマンティックベクトル空間に配置できる単一モデルのため、モダリティをまたいだ比較や検索(例: テキスト → 画像、音声 → テキスト)が直接可能です。
- 大きなデフォルト次元と柔軟なトランケーション: モデルはデフォルトで3072 次元ベクトルを出力しますが、Matryoshka Representation Learning (MRL) により重要な意味情報を先頭次元に集中させるため、1536、768(またはそれ以下)へのトランケーションでも検索品質の低下を小さく抑えられます。これにより、ストレージと計算コストのトレードオフを改善できます。
なぜ重要か。 従来、埋め込みは主にテキスト専用だったり、モダリティごとに別個のエンコーダと複雑なクロスモーダル整合層を必要としていました。Gemini Embedding 2 は複数フォーマットをネイティブにサポートすることでその障壁を取り除き、テキストクエリで画像や短いクリップを意味的類似性に基づいて取得できるようにします(中間の転写や手作業のマッピングは不要)。これにより、RAG(retrieval-augmented generation)、セマンティック検索、マルチモーダル検索パイプラインが簡素化されます。
主な機能と特長(新機能)
1. 真のネイティブ・マルチモーダリティ(単一の埋め込み空間)
テキスト、画像、音声、動画、ドキュメントを受け取り、それらを同一のセマンティックベクトル空間に配置する単一モデル。Gemini Embedding 2 はテキスト、画像、音声、動画、ドキュメントを同一の埋め込み空間に写像するため、クロスモーダル検索(テキスト→画像、音声→テキスト)が、クロスモデルの整合なく直接機能します。これにより、パイプラインの複雑さが減り、RAG(Retrieval-Augmented Generation)スタックが簡素化されます。
2. デフォルト 3,072 次元ベクトルと可変出力
Gemini Embedding 2 はデフォルトで3072 次元ベクトルを出力しますが、Matryoshka Representation Learning (MRL) により最重要の意味情報を先頭次元に集中させるため、1536、768(またはそれ以下)へのトランケーションでも検索品質低下は比較的わずかです。これにより、ストレージと計算コストのトレードオフを最適化できます。
3. Matryoshka Representation Learning (MRL)
MRL は「マトリョーシカ(入れ子)」のような埋め込みを生成し、低次元のスライスでも高次のセマンティクスを保持します。これにより、複数の別個の埋め込みモデルを運用せずに、(ストレージ/精度の)動作点を柔軟に選べます。初期のブログ分析やドキュメントでは、この手法が柔軟性における中核的イノベーションと説明されています。
4. タスクヒント/目的特化の埋め込み
API は task ヒント(例: task:search, task:code retrieval, task:semantic-similarity)を受け付け、特定の下流関係に合わせて埋め込み幾何を最適化できます。これは従来の埋め込みシステムにおけるタスク条件付けに類似しますが、マルチモーダル入力に拡張されています。
5. 言語とモダリティの広さ
Gemini Embedding 2 は、100+ 言語にわたる意味意図の把握が文書化されており、一般的なファイル形式(PNG/JPEG、MP4/MOV、MP3/WAV、PDF)を受け付けます。リクエストごとの具体的な上限があります(例: 1 回のリクエストで数枚の画像、または数十秒の音声/動画—下記「How to use」を参照)。
パフォーマンスベンチマーク

主要ベンチマークの要約:
- MTEB (Massive Text Embedding Benchmark): 英語および多言語タスクの MTEB リーダーボードで強力な順位を報告。Gemini の既存埋め込みモデルや多くのプロプライエタリ代替を上回る意味のある向上が分析で示されています。
- マルチモーダル検索: ネイティブなマルチモーダル学習により、クロスモーダル類似(例: テキスト→画像検索)で、シングルモーダルの先行モデルに対して同等以上の性能を示します。
- レイテンシとスループット: クラウドでホストされる埋め込み生成ですが、レイテンシに敏感なユースケースでは、トランケートしたベクトルや、エッジ向けの軽量埋め込みモデルを選好する場合があります。
Gemini Embedding 2 と gemini-embedding-001 および text-embedding-3-large の比較
| Attribute | Gemini Embedding 2 (embedding-2) | Gemini Embedding (gemini-embedding-001) | OpenAI text-embedding-3-large |
|---|---|---|---|
| Release / availability | Mar 10, 2026 — public preview (Gemini API / Vertex AI). | Earlier Gemini embedding (text-only variants) — GA earlier. | Announced Jan 2024 (text-only GA). |
| Modalities supported | Text, images, audio, video, documents (PDF) — unified vector space. | Text (primarily). | Text only (high-quality multilingual). |
| Default embedding dim. | 3072 (MRL / truncation recommended: 1536, 768). | 3072 (for large) — text only. | 3072 (text-embedding-3-large). |
| Reported MTEB (example) | High-60s on MTEB; shows 68.17 at 1536 in vendor table (see docs). | gemini-embedding-001 reported ~68.32 mean in some leaderboards. | ~64.6 (MTEB average reported by OpenAI for text-embedding-3-large). |
| Native audio/video support | Yes (direct audio/video embedding). | No (text only). | No (text only). |
| Typical use cases | Multimodal retrieval, RAG, semantic search across file types, speech retrieval, video search. | Text retrieval, multilingual RAG. | Text retrieval, semantic search, RAG — strong multilingual text performance. |
技術仕様と制限
デフォルトおよび調整可能な埋め込みサイズ
- デフォルト: 3,072 次元。
- 調整可能:
output_dimensionalityパラメータで、低次元の出力をリクエスト可能。巨大なベクタストアを持つユースケースでは、コストの観点から 512–1,024 に次元を下げることが多い一方、一定の精度低下を受け入れます。
サポートされるモダリティとリクエストあたりの上限
- 画像: PNG, JPEG — リクエストあたり最大 6 枚(ベンダー報告の制限)。
- 動画: MP4, MOV — 1 リクエストで 1 本あたり約 ~128 秒まで(ベンダー報告)。
- 音声: MP3, WAV — 入力 1 件あたり約 ~80 秒まで(ベンダー報告)。
- ドキュメント: PDFs — リクエストあたり最大 6 ページ(ベンダー報告)。
- テキストコンテンツのトークン上限: モデルは大きなトークン入力をサポートしますが、実際にはリクエストあたりのトークン上限があります(API ドキュメントおよび Vertex AI のクォータを確認してください)。
提供状況とアクセス
- Public preview: Gemini Embedding 2 はパブリックプレビューとしてリリースされ、Gemini API と Google Cloud の Vertex AI 経由で直ちに試用可能です
よくある質問(FAQ)
Q1: Gemini Embedding 2 はどのモダリティをサポートしますか?
A: テキスト、画像(PNG/JPEG)、動画(MP4/MOV)、音声(MP3/WAV)、PDF ドキュメント—いずれも同一のセマンティックベクトル空間にマッピングします。
Q2: Gemini Embedding 2 のデフォルトのベクトルサイズは?
A: デフォルトは3,072 次元です。API でより小さな出力次元をリクエストできます。
Q3: Gemini Embedding 2 は現在利用可能ですか?
A: はい—パブリックプレビューとして発表されており、Gemini API と Vertex AI で利用可能です(モデル ID gemini-embedding-2-preview と最新の変更履歴を確認してください)。
Q4: 他プロバイダの埋め込みと比較すると?
A: 独立系ベンダーのテストによれば、Gemini Embedding 2 は多言語テキストでトップクラスのプロプライエタリモデル群に位置づけられ、いくつかのマルチモーダルタスクでは最先端の性能を示します。正確な順位はタスクやデータセットにより変動するため、自身のデータで検証してください。
Q5: 音声を使うのに転写は必要ですか?
A: いいえ—Gemini Embedding 2 は音声を直接受け付け、テキストへの転写を行わずに埋め込みを生成できます。これにより、エンドツーエンドの音声セマンティック検索が可能になります。
Q6: 3,072 次元ベクトルのストレージコストを下げるには?
A: output_dimensionality を小さくする、float16/quantization/PQ を利用する、ベクトル DB に圧縮表現を保存する、などの選択肢があります。ベンダーの投稿でワークフローとベストプラクティスが紹介されています。
次のステップ — 今導入すべき?
Gemini Embedding 2 はマルチモーダル検索の統合に大きく寄与し、これまでテキスト、ビジョン、スピーチで別々のリトリーバを要したアーキテクチャを簡素化します。導入判断の要点は次の通りです。
- 早期導入: クロスモーダル検索(テキスト↔画像/動画/音声)が製品要件にあり、複数の単一モダリティ・リトリーバの維持が高コストかつ複雑な場合。
- 今すぐパイロット: MRL トランケーションを評価し、コストと品質のトレードオフを計測したい場合(ハイブリッド運用: 1536 を主力、3072 を再ランキングに使用)。
- 様子見: コストに極めて敏感で、必要なのがテキスト検索のみの場合—テキスト専用のトップモデル(例: OpenAI text-embedding-3-large)は依然として競争力があり、パイプラインや契約によっては安価な場合があります。
Developers can access Gemini Embedding 2 and [OpenAI text-embedding-3 ]API via CometAPI now.To begin, explore the model’s capabilities in the Playground and consult the API guide for detailed instructions. Before accessing, please make sure you have logged in to CometAPI and obtained the API key. CometAPI offer a price far lower than the official price to help you integrate.
Ready to Go?→ Sign up for cometapi today !
If you want to know more tips, guides and news on AI follow us on VK, X and Discord!
