20 Mayıs 2025'te Google DeepMind sessizce duyuruldu İkizler Yayılımı, üretken yapay zekanın manzarasını yeniden şekillendirmeyi vaat eden deneysel bir metin yayma modeli. Google I/O 2025 sırasında sergilenen bu son teknoloji araştırma prototipi, rastgele gürültüyü yinelemeli olarak iyileştirerek tutarlı metin ve kod üretmek için daha önce görüntü ve video üretiminde popüler olan yayma tekniklerinden yararlanıyor. İlk kıyaslamalar, hem hız hem de kalite açısından Google'ın mevcut transformatör tabanlı modelleriyle rekabet ettiğini ve bazı durumlarda onları geride bıraktığını gösteriyor.
Gemini Yayılımı Nedir?
Yaygınlaştırma metin ve kod üretimine nasıl uygulanır?
Geleneksel büyük dil modelleri (LLM'ler), bir sonraki sözcüğü tüm önceki çıktılara bağlı olarak tahmin ederek her seferinde bir belirteç içerik üreten otoregresif mimarilere güvenir. Buna karşılık, İkizler Yayılımı rastgele "gürültü" alanıyla başlar ve bu gürültüyü bir dizi gürültü giderme adımıyla tutarlı bir metne veya yürütülebilir koda yinelemeli olarak rafine eder. Bu paradigma, Imagen ve Stable Diffusion gibi difüzyon modellerinin görüntü oluşturma biçimini yansıtır, ancak böyle bir yaklaşımın üretim benzeri hızlarda metin üretimi için ölçeklendiği ilk zamandır.
"Gürültüden anlatıya" neden önem verilir?
Sinyal olmadığında televizyon ekranındaki statikliği hayal edin; biçimsiz rastgele titreşimler. Yayılma tabanlı yapay zekada, bu statik başlangıç noktasıdır; model kaostan anlamı "şekillendirir", kademeli olarak yapı ve semantiği empoze eder. Her bir iyileştirme aşamasındaki bu bütünsel görüş, token-token modellerini etkileyebilecek tutarsızlık veya "halüsinasyonlar" gibi sorunları hafifleterek içsel bir kendi kendini düzeltmeye izin verir.
Temel Yenilikler ve Yetenekler
- Hızlandırılmış Üretim: Gemini Diffusion, tüm metin bloklarını aynı anda üretebilir ve bu da jeton bazında üretim yöntemlerine kıyasla gecikmeyi önemli ölçüde azaltır.()
- Geliştirilmiş Tutarlılık: Model, aynı anda daha büyük metin parçaları üreterek daha büyük bağlamsal tutarlılık elde ediyor ve bunun sonucunda daha tutarlı ve mantıksal olarak yapılandırılmış çıktılar elde ediliyor. ()
- Yinelemeli İyileştirme: Modelin mimarisi, üretim süreci sırasında gerçek zamanlı hata düzeltmesine olanak tanıyarak, nihai çıktının doğruluğunu ve kalitesini artırır. ()
Google Gemini Diffusion'ı neden geliştirdi?
Hız ve gecikme darboğazlarını ele alma
Otoregresif modeller güçlü olsa da temel hız sınırlamalarıyla karşı karşıyadır: her belirteç, ardışık bir darboğaz oluşturarak önceki bağlama bağlıdır. Gemini Diffusion, tüm konumlarda paralel iyileştirmeyi etkinleştirerek bu kısıtlamayı ortadan kaldırır ve bunun sonucunda 4–5 kat daha hızlı uçtan uca üretim benzer büyüklükteki otoregresif muadillerine kıyasla. Bu hızlanma, sohbet robotlarından kod asistanlarına kadar gerçek zamanlı uygulamalar için daha düşük gecikmeye dönüşebilir.
AGI'ye giden yeni yolların öncülüğünü yapıyoruz
Hızın ötesinde, difüzyonun yinelemeli, küresel görünümü yapay genel zeka (AGI) için temel yeteneklerle uyumludur: akıl yürütme, dünya modelleme ve yaratıcı sentez. Google DeepMind'ın liderliği, Gemini Diffusion'ı dijital ve fiziksel ortamlarda sorunsuz bir şekilde çalışabilen, daha bağlam farkında, proaktif AI sistemleri oluşturmak için daha geniş bir stratejinin parçası olarak öngörüyor.
Gemini Diffusion'ın perde arkasında nasıl bir çalışma sistemi var?
Gürültü enjeksiyonu ve gürültü giderme döngüsü
- Başlatma:Model rastgele bir gürültü tensörüyle başlar.
- Gürültü Azaltma Adımları:Her yinelemede, bir sinir ağı, öğrenilen dil veya kod kalıpları tarafından yönlendirilerek gürültünün nasıl hafifçe azaltılacağını tahmin eder.
- arıtma: Tekrarlanan adımlar tutarlı bir çıktıya doğru birleşir ve her geçiş, yalnızca geçmiş belirteçlere güvenmek yerine tüm bağlam boyunca hata düzeltmesine olanak tanır.
Mimari yenilikler
- paralellik:Token bağımlılıklarını ayırarak difüzyon, eş zamanlı güncellemeleri mümkün kılarak donanım kullanımını en üst düzeye çıkarır.
- Parametre Verimliliği: İlk kıyaslamalar, daha kompakt bir mimariye rağmen daha büyük otoregresif modellerle aynı performansı gösteriyor.
- Kendini düzeltme:İteratif yapı, kod hata ayıklama veya matematiksel türetmeler gibi karmaşık görevler için kritik öneme sahip olan nesil ortası ayarlamalarını doğal olarak destekler.
Gemini Diffusion'ın performansını hangi ölçütler ortaya koyuyor?
Jeton örnekleme hızı
Google'ın dahili test raporu saniyede 1,479 token'lık ortalama örnekleme hızı, önceki Gemini Flash modellerine göre çarpıcı bir sıçrama, ancak istek başına ortalama 0.84 saniyelik bir başlatma yüküyle. Bu ölçüm, difüzyonun yüksek verimli uygulamalar için kapasitesini vurgular.
Kodlama ve muhakeme değerlendirmeleri
- HumanEval (kodlama): %89.6'lık başarı oranı, Gemini 2.0 Flash-Lite'ın %90.2'lik oranına oldukça yakın.
- MBPP (kodlama): %76.0, Flash-Lite'ın %75.8'ine karşı.
- BIG-Bench Ekstra Sert (mantık): %15.0, Flash-Lite'ın %21.0'ından daha düşük.
- Küresel MMLU (çok dilli): %69.1, Flash-Lite'ın %79.0'ına kıyasla.
Bu karışık sonuçlar, difüzyonun yinelemeli, yerelleştirilmiş görevler (örneğin kodlama) için olağanüstü yeteneğini ortaya koyuyor ve mimari iyileştirmelerin gerekli olduğu alanları (karmaşık mantıksal akıl yürütme ve çok dilli anlayış) vurguluyor.
Gemini Diffusion önceki Gemini modelleriyle karşılaştırıldığında nasıl görünüyor?
Flash-Lite vs. Pro vs. Diffusion
- Gemini 2.5 Flash-Lite Genel görevler için maliyet açısından verimli, gecikmeyi optimize eden çıkarımlar sunar.
- İkizler 2.5 Pro karmaşık problemleri ayrıştırmak için “Derin Düşünme” modunu kullanarak derin akıl yürütme ve kodlamaya odaklanır.
- İkizler Yayılımı son derece hızlı üretim ve kendi kendini düzelten çıktılar konusunda uzmanlaşmış olup, kendisini doğrudan bir ikame olmaktan ziyade tamamlayıcı bir yaklaşım olarak konumlandırıyor.
Güçlü ve kısıtlamalar
- Güçlü: Hız, düzenleme yetenekleri, parametre verimliliği, kod görevlerinde sağlam performans.
- Sınırlamalar: Soyut akıl yürütme ve çok dilli kıyaslamalarda daha zayıf performans; birden fazla gürültü azaltma geçişi nedeniyle daha yüksek bellek ayak izi; ekosistem olgunluğunun otoregresif araçların gerisinde kalması.
Gemini Diffusion'a nasıl erişebilirsiniz?
Erken erişim programına katılım
Google bir bekleme listesi Deneysel Gemini Diffusion demosu için—geliştiriciler ve araştırmacılar Google DeepMind blogu üzerinden kaydolabilirler. Erken erişim, geri bildirim toplamayı, güvenlik protokollerini iyileştirmeyi ve daha geniş bir dağıtımdan önce gecikmeyi optimize etmeyi amaçlar.
Gelecekteki kullanılabilirlik ve entegrasyon
Kesin bir çıkış tarihi duyurulmamış olsa da Google, şu ipuçlarını veriyor: genel uygunluk yaklaşan Gemini 2.5 Flash-Lite güncellemesiyle uyumlu. Öngörülen entegrasyon yolları şunları içerir:
- Google AI Stüdyosu etkileşimli deneyler için.
- Gemini API'si Üretim hatlarında sorunsuz dağıtım için.
- Üçüncü taraf platformlar (örneğin Hugging Face) akademik araştırmalar ve topluluk odaklı kıyaslamalar için önceden yayınlanmış kontrol noktalarına ev sahipliği yapıyor.
Google DeepMind, metin ve kod üretimini yayılma merceğinden yeniden tasarlayarak AI inovasyonunun bir sonraki bölümünde iddiasını ortaya koyuyor. Gemini Diffusion yeni bir standart getirsin veya otoregresif devlerle bir arada var olsun, hız ve kendini düzeltme becerisinin karışımı, üretken AI sistemlerini nasıl inşa ettiğimizi, iyileştirdiğimizi ve güvendiğimizi yeniden şekillendirmeyi vaat ediyor.
Başlamak
CometAPI, Gemini ailesi dahil yüzlerce AI modelini tutarlı bir uç noktada toplayan birleşik bir REST arayüzü sunar; yerleşik API anahtarı yönetimi, kullanım kotaları ve faturalama panoları ile. Birden fazla satıcı URL'si ve kimlik bilgilerini bir arada yürütmek yerine.
Geliştiriciler erişebilir Gemini 2.5 Flash Ön API (model:gemini-2.5-flash-preview-05-20) Ve Gemini 2.5 Pro API (model:gemini-2.5-pro-preview-05-06)vb. aracılığıyla Kuyrukluyıldız API'siBaşlamak için, Oyun Alanında modelin yeteneklerini keşfedin ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun.
