Gemini Embedding 2 nedir?

CometAPI
AnnaMar 11, 2026
Gemini Embedding 2 nedir?

Gemini Embedding 2, Google'ın metin, görseller, ses, video ve PDF'leri tek bir 3.072 boyutlu anlamsal vektör uzayına (yapılandırılabilir çıktı boyutlarıyla) eşleyen ilk doğal olarak çok modlu gömme modelidir. İç içe / kırpılmış gömmeler sağlamak için Matryoshka Representation Learning'i tanıtır, geliştirilmiş çok dilli performans (100+ dil) ve görev‑özgü gömmeler için optimize edilmiş kontroller (örn. task:search, task:code) sunar.

Gemini Embedding 2 nedir?

Gemini Embedding 2, Google'dan gelen ve birden fazla girdi modalitesini — metin, görseller, ses, video ve belgeler — tek bir anlamsal vektör uzayına yerleştiren birleşik bir gömme modelidir. Her gömme, varsayılan olarak, girdinin anlamsal anlamını temsil eden 3.072 boyutlu kayan noktalı bir vektördür; böylece anlamsal olarak benzer öğeler (modaliteden bağımsız) vektör uzayında birbirine yakın olur. Başlıca yetenekleri:

  • Geniş dil ve biçim kapsamı: metin, görseller, ses, video ve belgeleri kabul eden ve bunları tek bir anlamsal vektör uzayına yerleştiren tek bir model. Gemini Embedding 2, 100+ dil genelinde anlamsal niyeti yakalayacak şekilde belgelenmiştir ve yaygın dosya biçimlerini (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) kabul eder; istek başına somut sınırlar vardır (örn., istek başına birkaç görsel veya onlarca saniyelik ses/video — aşağıda “Nasıl kullanılır”a bakın).
  • Gerçek çoklu modalite: metin, görseller, ses, video ve belgeleri kabul eden ve bunları tek bir anlamsal vektör uzayına yerleştiren tek bir model; böylece modaliteler arası karşılaştırma veya getirimi (örn., metin → görsel, ses → metin) yapabilirsiniz.
  • Esnek kırpma ile büyük varsayılan boyut: model varsayılan olarak 3072 boyutlu vektörler çıktılar, ancak en önemli anlamsal içeriği ilk boyutlarda yoğunlaştırmak için Matryoshka Representation Learning (MRL) kullanır; böylece 1536, 768 (veya daha altı) boyutlara kırpıldığında getirimin kalitesinde yalnızca sınırlı düşüşler yaşanır. Bu, depolama ve hesaplama maliyeti değiş tokuşlarını azaltır.

Neden önemli. Tarihsel olarak gömmeler çoğunlukla yalnızca metin içindi veya her modalite için ayrı kodlayıcılar ve karmaşık çapraz‑modal hizalama katmanları gerektiriyordu. Gemini Embedding 2, birden fazla biçimi yerel olarak destekleyerek bu engeli kaldırır — böylece bir metin sorgusu, arada yazıya dökme veya manuel eşlemeye gerek kalmadan anlamsal benzerlikle bir görseli veya kısa bir klibi getirebilir. Bu, RAG (retrieval‑augmented generation), anlamsal arama ve çok modlu getirim hatlarını basitleştirir.

Temel özellikler ve yetenekler (yenilikler)

1. Doğal çoklu modalite (tek gömme uzayı)

Metin, görseller, ses, video ve belgeleri kabul eden ve bunları tek bir anlamsal vektör uzayına yerleştiren tek bir model. Gemini Embedding 2, metin, görseller, ses, video ve belgeleri aynı gömme uzayına eşler; böylece modaliteler arası getirim (metin→görsel, ses→metin) doğrudan, çapraz model hizalamasına gerek kalmadan çalışır. Bu, hat karmaşıklığını azaltır ve RAG (Retrieval‑Augmented Generation) yığınlarını basitleştirir.

2. Ayarlanabilir çıktıyla 3.072 boyutlu varsayılan vektörler

Gemini Embedding 2 varsayılan olarak 3072 boyutlu vektörler üretir, ancak Matryoshka Representation Learning (MRL), en önemli anlamsal içeriği ilk boyutlarda yoğunlaştırır; böylece 1536, 768 (veya daha az) boyuta kırpıldığında getirimin kalitesinde yalnızca sınırlı düşüşler olur. Bu, depolama ve hesaplama maliyeti değiş tokuşlarını azaltır.

3. Matryoshka Representation Learning (MRL)

MRL, “iç içe” gömmeler üretir — Matruşka bebekleri gibi — böylece daha düşük boyutlu dilimler bile üst düzey semantiği korur. Bu, sistemlerin birden fazla ayrı gömme modeli tutmadan (depolama/doğruluk) çalışma noktasını seçmesine olanak tanır. Erken blog analizleri ve dokümantasyon, esneklik için bu tekniği temel bir yenilik olarak tanımlar.

4. Görev ipuçları / özelleştirilmiş gömme hedefleri

API, modelin gömme geometrisini belirli aşağı akış ilişkileri için optimize edebilmesi amacıyla task ipuçlarını (örn., task:search, task:code retrieval, task:semantic-similarity) kabul eder — önceki gömme sistemlerinde kullanılan görev koşullandırmasına benzer, ancak çok modlu girdilere genişletilmiştir.

5. Dil ve modalite genişliği

Gemini Embedding 2, 100+ dil genelinde anlamsal niyeti yakalayacak şekilde belgelenmiştir ve yaygın dosya biçimlerini (PNG/JPEG, MP4/MOV, MP3/WAV, PDF) kabul eder; istek başına somut sınırlar vardır (örn., istek başına birkaç görsel veya onlarca saniyelik ses/video — aşağıda “Nasıl kullanılır”a bakın).

Performans kıyaslamaları

Gemini Embedding 2 nedir?

Önemli kıyaslama özeti:

  • MTEB (Massive Text Embedding Benchmark): İngilizce ve çok dilli görevler için çok dilli MTEB lider panolarında güçlü bir konum; analizler, Gemini’nin önceki gömme modellerine ve birçok mülki alternatife kıyasla anlamlı bir artış gösteriyor.
  • Çok modlu getirim: Doğal çok modlu eğitim sayesinde çapraz modalite benzerliğinde (örn., metin→görsel getirim) önde gelen tek‑modlu gömmeleri geride bırakır veya onlarla başa baştır.
  • Gecikme ve verim: Bulut barındırmalı gömme üretimi; ancak gecikmeye hassas kullanım senaryoları, uçta ihtiyaçlar için kırpılmış vektörleri veya alternatif hafif gömme modellerini tercih edebilir.

Gemini Embedding 2 vs gemini-embedding-001 ve text-embedding-3-large

ÖzellikGemini Embedding 2 (embedding-2)Gemini Embedding (gemini-embedding-001)OpenAI text-embedding-3-large
Yayın / kullanılabilirlik10 Mart 2026 — herkese açık önizleme (Gemini API / Vertex AI).Daha önceki Gemini gömme (yalnızca metin varyantları) — daha önce GA.Ocak 2024’te duyuruldu (yalnızca metin GA).
Desteklenen modalitelerMetin, görseller, ses, video, belgeler (PDF) — birleşik vektör uzayı.Metin (ağırlıklı).Yalnızca metin (yüksek kaliteli çok dilli).
Varsayılan gömme boyutu3072 (MRL / kırpma önerilir: 1536, 768).3072 (büyük için) — yalnızca metin.3072 (text-embedding-3-large).
Bildirilen MTEB (örnek)MTEB’de 60’ların üst bandı; dokümanda sağlayıcı tablosunda 1536’da 68.17 gösteriliyor.gemini-embedding-001 bazı panolarda ort. ~68.32 bildirdi.~64.6 (OpenAI, text-embedding-3-large için MTEB ortalamasını raporladı).
Yerel ses/video desteğiEvet (doğrudan ses/video gömme).Hayır (yalnızca metin).Hayır (yalnızca metin).
Tipik kullanım alanlarıÇok modlu getirim, RAG, dosya türleri arasında anlamsal arama, konuşma getirimi, video arama.Metin getirimi, çok dilli RAG.Metin getirimi, anlamsal arama, RAG — güçlü çok dilli metin performansı.

Teknik özellikler ve sınırlar

Varsayılan ve ayarlanabilir gömme boyutu

  • Varsayılan: 3.072 boyut.
  • Ayarlanabilir: Depolama/CPU tasarrufu için output_dimensionality parametresiyle daha düşük boyutlar istenebilir. Çok büyük vektör depolarında kullanım, maliyet nedeniyle genellikle 512–1.024 boyutlara düşürülür; bir miktar doğruluk kaybı kabul edilir.

Desteklenen modaliteler ve istek başına sınırlar

  • Görseller: PNG, JPEG — istek başına en fazla 6 görsel (sağlayıcı tarafından bildirilen sınırlar).
  • Video: MP4, MOV — sağlayıcıya göre tek istekle gömme için video başına ~128 saniyeye kadar.
  • Ses: MP3, WAV — sağlayıcıya göre ses girdi başına ~80 saniyeye kadar.
  • Belgeler: PDF — istek başına en fazla 6 sayfa (sağlayıcı bildirimi).
  • Metinsel içerik için belirteç sınırı: model büyük belirteç girdilerini destekler; pratikte istek başına belirteç üst sınırları vardır (API dokümanlarını ve Vertex AI kotalarını kontrol edin).

Kullanılabilirlik ve erişim

  • Herkese açık önizleme: Gemini Embedding 2, herkese açık önizleme olarak yayınlandı ve Gemini API ile Google Cloud’un Vertex AI’ı üzerinden hemen deneysellik için kullanılabilir

Sıkça sorulan sorular (SSS)

S1: Gemini Embedding 2 hangi modaliteleri destekler?
Y: Metin, görseller (PNG/JPEG), video (MP4/MOV), ses (MP3/WAV) ve PDF belgeler — hepsi aynı anlamsal vektör uzayına eşlenir.

S2: Gemini Embedding 2 için varsayılan vektör boyutu nedir?
Y: Varsayılan 3.072 boyuttur. API üzerinden daha küçük çıktı boyutları talep edebilirsiniz.

S3: Gemini Embedding 2 şu anda mevcut mu?
Y: Evet — herkese açık önizleme olarak duyuruldu ve Gemini API ile Vertex AI üzerinden kullanılabilir (model kimliği gemini-embedding-2-preview ve güncel değişiklik günlüğünü kontrol edin).

S4: Diğer sağlayıcıların gömmeleriyle nasıl karşılaştırılır?
Y: Bağımsız sağlayıcı testleri, Gemini Embedding 2’nin çok dilli metin için en iyi mülki modeller arasında yer aldığını ve çeşitli çok modlu görevlerde son teknoloji performans gösterdiğini rapor ediyor. Kesin sıralamalar göreve ve veri kümesine göre değişir; kendi verinizde test edin.

S5: Gemini Embedding 2’yi kullanmak için sesi yazıya dökmem gerekir mi?
Y: Hayır — Gemini Embedding 2 sesi doğrudan kabul edebilir ve önce metne yazıya dökmeye gerek kalmadan gömmeler üretebilir; uçtan uca ses anlamsal getirimi sağlar.

S6: 3.072 boyutlu vektörler için depolama maliyetlerini nasıl düşürürüm?
Y: Seçenekler arasında daha düşük output_dimensionality talep etmek, float16/kuantizasyon/PQ kullanmak ve vektör veritabanınızda sıkıştırılmış temsiller depolamak bulunur. Sağlayıcı paylaşımları iş akışları ve en iyi uygulamalar sunar.

Sırada ne var — şimdi benimsemeli miyim?

Gemini Embedding 2, çok modlu getirimi birleştirmede büyük bir adım ve daha önce metin, görsel ve konuşma için ayrı getiriciler gerektiren mimarileri basitleştirir. Benimseme için temel karar noktaları:

  • Daha erken benimseyin: ürününüz güçlü modaliteler arası getirim (metin↔görsel/video/ses) gerektiriyorsa veya birden çok tek‑modalite getiriciyi sürdürmek maliyetli ve karmaşıksa.
  • Şimdi pilot uygulama yapın: MRL kırpmasını değerlendirmek ve maliyet‑kaliteyi ölçmek istiyorsanız (hibrit dağıtım: birincil 1536, yeniden sıralama için 3072).
  • Bekleyin: iş yükünüz aşırı maliyet hassassa ve yalnızca metin getirimi gerekiyorsa — en iyi metin‑odaklı modeller (örn., OpenAI text-embedding-3-large) rekabetçi olmaya devam eder ve hattınıza ve sözleşmenize bağlı olarak bazen daha ucuz olabilir.

Geliştiriciler artık Gemini Embedding 2 ve OpenAI text-embedding-3 API’sine CometAPI aracılığıyla erişebilir. Başlamak için modelin yeteneklerini Playground’da keşfedin ve ayrıntılı talimatlar için API guide’a bakın. Erişimden önce lütfen CometAPI’ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI, entegrasyona yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat sunar.

Ready to Go?→ Bugün cometapi’ye kaydolun !

Daha fazla ipucu, rehber ve haber için bizi VK, X ve Discord’da takip edin!

En İyi Modellere Düşük Maliyetle Erişim

Devamını Oku