Che cos'è Gemini Embedding 2?

Gemini Embedding 2 è il primo modello di embedding di Google nativamente multimodale che mappa testo, immagini, audio, video e PDF in un unico spazio vettoriale semantico a 3.072 dimensioni (con dimensioni di output configurabili). Introduce Matryoshka Representation Learning per fornire embedding annidati/troncati, prestazioni multilingue migliorate (100+ lingue) e controlli ottimizzati per embedding specifici al task (ad es., task:search, task:code).

Che cos’è Gemini Embedding 2?

Gemini Embedding 2 è un modello di embedding unificato di Google che mappa più modalità di input — testo, immagini, audio, video e documenti — in un unico spazio vettoriale semantico. Ogni embedding è (per impostazione predefinita) un vettore in virgola mobile a 3.072 dimensioni che rappresenta il significato semantico dell’input, in modo che elementi semanticamente simili (indipendentemente dalla modalità) risultino vicini nello spazio vettoriale. Le capacità principali sono:

Ampia copertura di lingue e formati: un unico modello che accetta testo, immagini, audio, video e documenti e li colloca in un unico spazio vettoriale semantico. È documentato che Gemini Embedding 2 cattura l’intento semantico in 100+ lingue e accetta formati di file comuni (PNG/JPEG, MP4/MOV, MP3/WAV, PDF), con limiti concreti per richiesta (ad es., fino a poche immagini o decine di secondi di audio/video per richiesta — vedi “Come si usa” più sotto).
Vera multimodalità: un unico modello che accetta testo, immagini, audio, video e documenti e li colloca in un unico spazio vettoriale semantico, così da poter confrontare o recuperare tra modalità diverse (ad es., testo → immagine, audio → testo).
Grande dimensionalità predefinita con troncamento flessibile: il modello produce per impostazione predefinita vettori a 3072 dimensioni, ma utilizza la Matryoshka Representation Learning (MRL) per concentrare i contenuti semantici più importanti nelle prime dimensioni, così da poter troncare a 1536, 768 (o meno) con solo modeste perdite di qualità nel retrieval. Questo riduce i compromessi tra costo di archiviazione e calcolo.

Perché è importante. Storicamente, gli embedding erano per lo più solo testo o richiedevano encoder separati per ogni modalità con complessi strati di allineamento cross-modale. Gemini Embedding 2 rimuove questa barriera supportando nativamente più formati — così una query testuale può recuperare un’immagine o una breve clip per similarità semantica senza trascrizione intermedia o mappature manuali. Ciò semplifica le pipeline di RAG (retrieval-augmented generation), di ricerca semantica e di retrieval multimodale.

Funzionalità e capacità principali (novità)

1. Vera multimodalità nativa (un unico spazio di embedding)

Un unico modello che accetta testo, immagini, audio, video e documenti e li colloca in un unico spazio vettoriale semantico. Gemini Embedding 2 mappa testo, immagini, audio, video e documenti nello stesso spazio di embedding, così il retrieval cross-modale (testo→immagine, audio→testo) funziona direttamente senza allineamento tra modelli. Questo riduce la complessità della pipeline e semplifica gli stack RAG (Retrieval-Augmented Generation).

2. Vettori predefiniti a 3.072 dimensioni con output regolabile

Gemini Embedding 2 produce per impostazione predefinita vettori a 3072 dimensioni, ma utilizza la Matryoshka Representation Learning (MRL) per concentrare i contenuti semantici più importanti nelle prime dimensioni, così da poter troncare a 1536, 768 (o meno) con solo modeste perdite di qualità nel retrieval. Questo riduce i compromessi tra costo di archiviazione e calcolo.

3. Matryoshka Representation Learning (MRL)

MRL produce embedding “annidati” — come le bambole russe — in modo che le porzioni a dimensionalità inferiore preservino le semantiche di livello superiore. Questo consente ai sistemi di scegliere un punto di funzionamento (compromesso archiviazione/accuratezza) senza mantenere diversi modelli di embedding separati. Analisi iniziali su blog e documentazione descrivono questa tecnica come un’innovazione centrale per la flessibilità.

4. Suggerimenti di task / obiettivi di embedding personalizzati

L’API accetta suggerimenti task (ad es., task:search, task:code retrieval, task:semantic-similarity) così il modello può ottimizzare la geometria dell’embedding per relazioni specifiche a valle — simile al condizionamento sul task usato in precedenti sistemi di embedding ma esteso agli input multimodali.

5. Ampiezza di lingue e modalità

È documentato che Gemini Embedding 2 cattura l’intento semantico in 100+ lingue e accetta formati di file comuni (PNG/JPEG, MP4/MOV, MP3/WAV, PDF), con limiti concreti per richiesta (ad es., fino a poche immagini o decine di secondi di audio/video per richiesta — vedi “Come si usa” più sotto).

Benchmark delle prestazioni

Che cos'è Gemini Embedding 2?

Sintesi dei benchmark principali:

MTEB (Massive Text Embedding Benchmark): Forte posizionamento riportato nelle classifiche MTEB per compiti in inglese e multilingue; le analisi mostrano un miglioramento significativo rispetto ai precedenti modelli di embedding di Gemini e a molte alternative proprietarie.
Retrieval multimodale: Supera o eguaglia i migliori embedding mono-modali quando usato per similarità cross-modale (ad es., retrieval testo→immagine), grazie all’addestramento multimodale nativo.
Latenza e throughput: Generazione di embedding ospitata nel cloud, ma i casi d’uso sensibili alla latenza possono preferire vettori troncati o modelli di embedding leggeri alternativi per esigenze on-edge.

Gemini Embedding 2 vs gemini-embedding-001 e text-embedding-3-large

Attributo	Gemini Embedding 2 (embedding-2)	Gemini Embedding (gemini-embedding-001)	OpenAI text-embedding-3-large
Rilascio / disponibilità	10 mar 2026 — anteprima pubblica (Gemini API / Vertex AI).	Precedente embedding di Gemini (varianti solo testo) — GA già da prima.	Annunciato a gen 2024 (solo testo, GA).
Modalità supportate	Testo, immagini, audio, video, documenti (PDF) — spazio vettoriale unificato.	Testo (principalmente).	Solo testo (multilingue di alta qualità).
Dimensionalità embedding predefinita	3072 (MRL / troncamento consigliato: 1536, 768).	3072 (per il modello large) — solo testo.	3072 (text-embedding-3-large).
MTEB riportato (esempio)	Fascia alta dei 60 su MTEB; mostra 68.17 a 1536 nella tabella del fornitore (vedi documentazione).	gemini-embedding-001 ha riportato ~68.32 di media in alcune classifiche.	~64.6 (media MTEB riportata da OpenAI per text-embedding-3-large).
Supporto audio/video nativo	Sì (embedding diretto di audio/video).	No (solo testo).	No (solo testo).
Casi d’uso tipici	Retrieval multimodale, RAG, ricerca semantica tra tipi di file, retrieval vocale, ricerca video.	Retrieval testuale, RAG multilingue.	Retrieval testuale, ricerca semantica, RAG — forte performance multilingue sul testo.

Specifiche tecniche e limiti

Dimensione embedding predefinita e regolabile

Predefinita: 3.072 dimensioni.
Regolabile: il parametro output_dimensionality consente di richiedere output a dimensionalità inferiore per risparmiare storage/CPU. Casi d’uso con archivi vettoriali massivi spesso riducono a 512–1.024 per ragioni di costo accettando qualche trade-off di accuratezza.

Modalità supportate e limiti per richiesta

Immagini: PNG, JPEG — fino a 6 immagini per richiesta (limiti riportati dal fornitore).
Video: MP4, MOV — il fornitore riporta fino a ~128 secondi per video in una singola richiesta di embedding.
Audio: MP3, WAV — il fornitore riporta fino a ~80 secondi per input audio.
Documenti: PDF — fino a 6 pagine per richiesta (dato del fornitore).
Limite di token per contenuti testuali: il modello supporta input testuali di grandi dimensioni; esistono limiti pratici di token per richiesta (verificare la documentazione API e le quote Vertex AI).

Disponibilità e accesso

Anteprima pubblica: Gemini Embedding 2 è stato rilasciato in anteprima pubblica ed è disponibile tramite la Gemini API e Google Cloud Vertex AI per uso sperimentale immediato

Domande frequenti (FAQ)

D1: Quali modalità supporta Gemini Embedding 2?
R: Testo, immagini (PNG/JPEG), video (MP4/MOV), audio (MP3/WAV) e documenti PDF — tutti mappati nello stesso spazio vettoriale semantico.

D2: Qual è la dimensione vettoriale predefinita per Gemini Embedding 2?
R: La predefinita è 3.072 dimensioni. Puoi richiedere una dimensionalità di output più piccola tramite l’API.

D3: Gemini Embedding 2 è disponibile ora?
R: Sì — è stato annunciato come anteprima pubblica ed è disponibile tramite la Gemini API e Vertex AI (verifica l’id modello gemini-embedding-2-preview e il changelog attuale).

D4: Come si confronta con gli embedding di altri provider?
R: Test indipendenti di fornitori riportano che Gemini Embedding 2 è tra i migliori modelli proprietari per testo multilingue e mostra prestazioni all’avanguardia per diversi compiti multimodali. Le classifiche esatte variano per compito e dataset; testa sui tuoi dati.

D5: Devo trascrivere l’audio per usare Gemini Embedding 2?
R: No — Gemini Embedding 2 può accettare audio direttamente e produrre embedding senza prima trascriverlo in testo, abilitando il retrieval semantico end-to-end sull’audio.

D6: Come posso ridurre i costi di archiviazione per vettori a 3.072 dimensioni?
R: Opzioni includono richiedere una output_dimensionality inferiore, usare float16/quantization/PQ e archiviare rappresentazioni compresse nel tuo DB vettoriale. Post del fornitore forniscono workflow e best practice.

Cosa viene dopo — dovrei adottarlo ora?

Gemini Embedding 2 è un passo importante verso l’unificazione del retrieval multimodale e semplifica le architetture che in precedenza richiedevano retriever separati per testo, visione e parlato. I punti chiave per decidere l’adozione:

Adotta prima se il tuo prodotto necessita di retrieval cross-modale robusto (testo↔immagine/video/audio) o se mantenere più retriever mono-modali è costoso e complesso.
Pilota ora se vuoi valutare il troncamento MRL e misurare costo vs qualità (mantieni un deployment ibrido: 1536 come primario, 3072 per il re-ranking).
Attendi se il tuo carico è estremamente sensibile ai costi e serve solo retrieval testuale — i migliori modelli solo testo (ad es., OpenAI text-embedding-3-large) restano competitivi e talvolta più economici a seconda della pipeline e del contratto.

Gli sviluppatori possono accedere a Gemini Embedding 2 e all’API OpenAI text-embedding-3 tramite CometAPI già da ora. Per iniziare, esplora le capacità del modello nel Playground e consulta la API guide per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti nell’integrazione.

Pronto a iniziare?→ Sign up for cometapi today !

Se vuoi conoscere altri suggerimenti, guide e novità sull’AI seguici su VK, X e Discord!