Hvad er Gemini Embedding 2?

CometAPI
AnnaMar 11, 2026
Hvad er Gemini Embedding 2?

Gemini Embedding 2 er Googles første nativt multimodale embedding-model, der kortlægger tekst, billeder, lyd, video og PDF'er til et enkelt 3,072-dimensionelt semantisk vektorrum (med konfigurerbare outputstørrelser). Den introducerer Matryoshka Representation Learning for at levere indlejrede / trunkerede embeddings, forbedret flersproget ydeevne (100+ sprog) og optimerede kontroller til opgavespecifikke embeddings (f.eks. task:search, task:code).

Hvad er Gemini Embedding 2?

Gemini Embedding 2 er en samlet embedding-model fra Google, der placerer flere inputmodaliteter — tekst, billeder, lyd, video og dokumenter — i ét semantisk vektorrum. Hver embedding er (som standard) en 3,072-dimensionel flydende vektor, der repræsenterer den semantiske betydning af inputtet, så semantisk lignende elementer (uanset modalitet) ligger tæt i vektorummet. De vigtigste funktioner er:

  • Bred sproglig og formatmæssig dækning: én model, der accepterer tekst, billeder, lyd, video og dokumenter og placerer dem i ét semantisk vektorrum. Gemini Embedding 2 er dokumenteret til at fange semantisk intention på 100+ sprog og acceptere almindelige filformater (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) med konkrete grænser pr. forespørgsel (f.eks. op til et par billeder eller snesevis af sekunder lyd/video pr. forespørgsel — se “Sådan bruges” nedenfor).
  • Ægte multimodalitet: én model, der accepterer tekst, billeder, lyd, video og dokumenter og placerer dem i ét semantisk vektorrum, så du kan sammenligne eller hente på tværs af modaliteter (f.eks. tekst → billede, lyd → tekst).
  • Stor standarddimensionalitet med fleksibel trunkering: modellen outputter som standard 3072-dimensionelle vektorer, men bruger Matryoshka Representation Learning (MRL) til at koncentrere den vigtigste semantiske information i de første dimensioner, så du kan trunkere til 1536, 768 (eller lavere) med kun beskedne fald i hentekvalitet. Dette reducerer afvejninger mellem lager og compute-omkostninger.

Hvorfor det er vigtigt. Historisk set var embeddings mest tekst-only eller krævede separate encodere pr. modalitet med komplekse tværmodale alignments. Gemini Embedding 2 fjerner den barriere ved nativt at understøtte flere formater — så en tekstforespørgsel kan hente et billede eller et kort klip via semantisk lighed uden mellemliggende transskription eller manuel mapping. Det forenkler RAG (retrieval-augmented generation), semantisk søgning og multimodale hentepipelines.

Nøglefunktioner og muligheder (hvad er nyt)

1. Ægte, nativ multimodalitet (ét embedding-rum)

En enkelt model, der accepterer tekst, billeder, lyd, video og dokumenter og placerer dem i ét semantisk vektorrum. Gemini Embedding 2 placerer tekst, billeder, lyd, video og dokumenter i det samme embedding-rum, så tværmodal hentning (tekst→billede, lyd→tekst) fungerer direkte uden tværmodel-justering. Dette reducerer pipeline-kompleksitet og forenkler RAG-stakke (Retrieval-Augmented Generation).

2. 3,072-dimensionelle standardvektorer med justerbart output

Gemini Embedding 2 outputter som standard 3072-dimensionelle vektorer, men bruger Matryoshka Representation Learning (MRL) til at koncentrere den vigtigste semantiske information i de første dimensioner, så du kan trunkere til 1536, 768 (eller lavere) med kun beskedne fald i hentekvalitet. Dette reducerer afvejninger mellem lager og compute-omkostninger.

3. Matryoshka Representation Learning (MRL)

MRL producerer “indlejrede” embeddings — som russiske babushka-dukker — så skiver med lavere dimensionalitet bevarer overordnede semantikker. Dette gør det muligt for systemer at vælge et driftspunkt (afvejning mellem lager/accuracy) uden at vedligeholde flere separate embedding-modeller. Tidlige bloganalyser og dokumentation beskriver denne teknik som en kerneinnovation for fleksibilitet.

4. Opgave-hints / tilpassede embedding-mål

API'en accepterer task-hints (f.eks. task:search, task:code retrieval, task:semantic-similarity), så modellen kan optimere embedding-geometrien til specifikke downstream-relationer — svarende til opgavekonditionering i tidligere embedding-systemer, men udvidet til multimodale input.

5. Sproglig og modal bredde

Gemini Embedding 2 er dokumenteret til at fange semantisk intention på 100+ sprog og acceptere almindelige filformater (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) med konkrete grænser pr. forespørgsel (f.eks. op til et par billeder eller snesevis af sekunder lyd/video pr. forespørgsel — se “Sådan bruges” nedenfor).

Benchmarkresultater

Hvad er Gemini Embedding 2?

Nøgleopsummering af benchmarks:

  • MTEB (Massive Text Embedding Benchmark): Rapporteret stærk placering på flersprogede MTEB-leaderboards for engelske og flersprogede opgaver; analyser viser meningsfulde løft ift. Geminis tidligere embedding-modeller og mange proprietære alternativer.
  • Multimodal hentning: Overgår eller matcher førende enkeltmodale embeddings ved brug til tværmodal lighed (f.eks. tekst→billede-hentning) takket være nativ multimodal træning.
  • Latens og throughput: Cloud-hostet embedding-generering, men latensfølsomme use cases kan foretrække trunkerede vektorer eller alternative letvægtsembedding-modeller til edge-behov.

Gemini Embedding 2 vs gemini-embedding-001 og text-embedding-3-large

AttributeGemini Embedding 2 (embedding-2)Gemini Embedding (gemini-embedding-001)OpenAI text-embedding-3-large
Release / availabilityMar 10, 2026 — public preview (Gemini API / Vertex AI).Earlier Gemini embedding (text-only variants) — GA earlier.Announced Jan 2024 (text-only GA).
Modalities supportedText, images, audio, video, documents (PDF) — unified vector space.Text (primarily).Text only (high-quality multilingual).
Default embedding dim.3072 (MRL / truncation recommended: 1536, 768).3072 (for large) — text only.3072 (text-embedding-3-large).
Reported MTEB (example)High-60s on MTEB; shows 68.17 at 1536 in vendor table (see docs).gemini-embedding-001 reported ~68.32 mean in some leaderboards.~64.6 (MTEB average reported by OpenAI for text-embedding-3-large).
Native audio/video supportYes (direct audio/video embedding).No (text only).No (text only).
Typical use casesMultimodal retrieval, RAG, semantic search across file types, speech retrieval, video search.Text retrieval, multilingual RAG.Text retrieval, semantic search, RAG — strong multilingual text performance.

Tekniske specifikationer og begrænsninger

Standard- og justerbar embedding-størrelse

  • Standard: 3,072 dimensioner.
  • Justerbar: Parameteren output_dimensionality giver mulighed for at anmode om lavere dimensionelle output for at spare lager/CPU. Use cases med massive vektorlagre reducerer ofte dimensioner til 512–1,024 af omkostningsårsager, men accepterer noget accuracy-tab.

Understøttede modaliteter og begrænsninger pr. forespørgsel

  • Billeder: PNG, JPEG — op til 6 billeder pr. forespørgsel (leverandørrapporterede grænser).
  • Video: MP4, MOV — leverandøren rapporterer op til ~128 sekunder pr. video for embedding i en enkelt forespørgsel.
  • Lyd: MP3, WAV — leverandøren rapporterer op til ~80 sekunder pr. lydinput.
  • Dokumenter: PDF'er — op til 6 sider pr. forespørgsel (leverandørrapportering).
  • Token-grænse for tekstindhold: modellen understøtter store token-input; praktiske grænser pr. forespørgsel findes (tjek API-dokumenter og Vertex AI-kvoter).

Tilgængelighed og adgang

  • Public preview: Gemini Embedding 2 blev frigivet som en offentlig forhåndsvisning og er tilgængelig via Gemini API og Google Clouds Vertex AI til øjeblikkelig eksperimentel brug

Ofte stillede spørgsmål (FAQ)

Q1: What modalities does Gemini Embedding 2 support?
A: Tekst, billeder (PNG/JPEG), video (MP4/MOV), lyd (MP3/WAV) og PDF-dokumenter — alle kortlagt til det samme semantiske vektorrum.

Q2: What is the default vector size for Gemini Embedding 2?
A: Standard er 3,072 dimensioner. Du kan anmode om mindre outputdimensionalitet via API'en.

Q3: Is Gemini Embedding 2 available now?
A: Ja — det blev annonceret som en offentlig forhåndsvisning og er tilgængeligt via Gemini API og Vertex AI (tjek model-id'et gemini-embedding-2-preview og den aktuelle changelog).

Q4: How does it compare to embeddings from other providers?
A: Uafhængige leverandørtests rapporterer, at Gemini Embedding 2 rangerer blandt de bedste proprietære modeller for flersproget tekst og viser state-of-the-art ydeevne for flere multimodale opgaver. Præcise placeringer varierer efter opgave og datasæt; test på dine egne data.

Q5: Will I need to transcribe audio to use Gemini Embedding 2?
A: Nej — Gemini Embedding 2 kan acceptere lyd direkte og producere embeddings uden først at transskribere til tekst, hvilket muliggør end-to-end semantisk lydhentning.

Q6: How do I lower storage costs for 3,072-dim vectors?
A: Muligheder inkluderer at anmode om lavere output_dimensionality, bruge float16/kvantisering/PQ og lagre komprimerede repræsentationer i din vektordatabase. Leverandørindlæg giver workflows og bedste praksis.

Hvad er det næste — bør jeg adoptere det nu?

Gemini Embedding 2 er et stort skridt i at forene multimodal hentning og forenkler arkitekturer, der tidligere krævede separate retrievere til tekst, vision og tale. De vigtigste beslutningspunkter for adoption:

  • Adoptér hurtigere, hvis dit produkt har brug for robust tværmodal hentning (tekst↔billede/video/lyd), eller hvis vedligeholdelse af flere enkeltmodalitetsretrievere er dyrt og komplekst.
  • Pilotér nu, hvis du vil evaluere MRL-trunkering og måle omkostninger vs. kvalitet (behold en hybrid-implementering: 1536 som primær, 3072 til re-ranking).
  • Vent hvis din arbejdsbyrde er ekstremt omkostningsfølsom, og kun teksthentning er påkrævet — top tekst-only-modeller (f.eks. OpenAI text-embedding-3-large) er fortsat konkurrencedygtige og nogle gange billigere afhængigt af din pipeline og kontrakt.

Udviklere kan få adgang til Gemini Embedding 2 og OpenAI text-embedding-3 API via CometAPI nu. For at komme i gang kan du udforske modellens kapabiliteter i Playground og konsultere API guide for detaljerede instruktioner. Før adgang, skal du sørge for, at du er logget ind på CometAPI og har fået API-nøglen. CometAPI tilbyder en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.

Klar til at komme i gang?→ Tilmeld dig CometAPI i dag!

Hvis du vil have flere tips, guider og nyheder om AI, så følg os på VK, X og Discord!

Adgang til topmodeller til lav pris

Læs mere