Apakah Gemini Diffusion? Semua yang Anda Perlu Tahu

CometAPI
AnnaMay 25, 2025
Apakah Gemini Diffusion? Semua yang Anda Perlu Tahu

Pada 20 Mei 2025, Google DeepMind telah diperkenalkan secara senyap-senyap Penyebaran Gemini, model penyebaran teks percubaan yang menjanjikan untuk membentuk semula landskap AI generatif. Dipamerkan semasa Google I/O 2025, prototaip penyelidikan terkini ini memanfaatkan teknik resapan—sebelum ini popular dalam penjanaan imej dan video—untuk menghasilkan teks dan kod yang koheren dengan memperhalusi bunyi rawak secara berulang. Penanda aras awal mencadangkan ia menyaingi, dan dalam beberapa kes mengatasi prestasi, model berasaskan pengubah sedia ada Google dalam kedua-dua kelajuan dan kualiti.

Apakah Gemini Diffusion?

Bagaimanakah penyebaran digunakan pada penjanaan teks dan kod?

Model bahasa besar tradisional (LLM) bergantung pada seni bina autoregresif, menjana kandungan satu token pada satu masa dengan meramalkan perkataan seterusnya yang dikondisikan pada semua output sebelumnya. Sebaliknya, Penyebaran Gemini bermula dengan medan "bunyi" rawak dan menapis secara berulang-ulang hingar ini ke dalam teks yang koheren atau kod boleh laku melalui urutan langkah denosing. Paradigma ini mencerminkan cara model resapan seperti Imagen dan Stable Diffusion mencipta imej, tetapi ini adalah kali pertama pendekatan sedemikian telah diskalakan untuk penjanaan teks pada kelajuan seperti pengeluaran.

Mengapa "bising kepada naratif" penting

Bayangkan statik pada skrin televisyen apabila tiada isyarat—kerlipan rawak tanpa bentuk. Dalam AI berasaskan resapan, statik itu adalah titik permulaan; model "mengukir" bermaksud daripada huru-hara, secara beransur-ansur mengenakan struktur dan semantik. Pandangan holistik pada setiap peringkat penghalusan ini membolehkan pembetulan diri yang wujud, mengurangkan isu seperti ketidakselarasan atau "halusinasi" yang boleh melanda model token demi token.

Inovasi dan Keupayaan Utama

  • Penjanaan Dipercepatkan: Resapan Gemini boleh menghasilkan keseluruhan blok teks secara serentak, mengurangkan kependaman dengan ketara berbanding kaedah penjanaan token demi token .()
  • Koheren yang Dipertingkatkan: Dengan menjana segmen teks yang lebih besar sekali gus, model mencapai ketekalan kontekstual yang lebih besar, menghasilkan output yang lebih koheren dan tersusun secara logik .()
  • Penapisan berulang: Seni bina model membenarkan pembetulan ralat masa nyata semasa proses penjanaan, meningkatkan ketepatan dan kualiti output akhir .()

Mengapakah Google membangunkan Gemini Diffusion?

Menangani kesesakan kelajuan dan kependaman

Model autoregresif, walaupun berkuasa, menghadapi had kelajuan asas: setiap token bergantung pada konteks sebelumnya, mewujudkan kesesakan berurutan. Resapan Gemini mengganggu kekangan ini dengan membolehkan penghalusan selari merentas semua kedudukan, mengakibatkan 4–5× penjanaan hujung ke hujung lebih pantas berbanding dengan rakan sejawatan autoregresif bersaiz serupa. Pecutan ini boleh diterjemahkan kepada kependaman yang lebih rendah untuk aplikasi masa nyata, daripada chatbots kepada pembantu kod.

Merintis laluan baharu kepada AGI

Di luar kepantasan, paparan global lelaran difusi sejajar dengan keupayaan utama untuk kecerdasan am buatan (AGI): penaakulan, pemodelan dunia dan sintesis kreatif. Kepimpinan Google DeepMind membayangkan Gemini Diffusion sebagai sebahagian daripada strategi yang lebih luas untuk membina sistem AI proaktif yang lebih peka konteks dan boleh beroperasi dengan lancar merentas persekitaran digital dan fizikal.

Bagaimanakah Gemini Diffusion berfungsi di bawah tudung?

Suntikan bunyi dan gelung denoising

  1. Pengawalan: Model bermula dengan tensor hingar rawak.
  2. Langkah-langkah Menghancurkan: Pada setiap lelaran, rangkaian saraf meramalkan cara mengurangkan sedikit hingar, berpandukan corak bahasa atau kod yang dipelajari.
  3. Penghalusan: Langkah berulang menumpu ke arah output yang koheren, dengan setiap laluan membenarkan pembetulan ralat merentas konteks penuh dan bukannya bergantung semata-mata pada token lalu.

Inovasi seni bina

  • Selari: Dengan menyahganding kebergantungan token, penyebaran membolehkan kemas kini serentak, memaksimumkan penggunaan perkakasan.
  • Kecekapan Parameter: Penanda aras awal menunjukkan prestasi setanding dengan model autoregresif yang lebih besar walaupun seni bina yang lebih padat.
  • Pembetulan Diri: Sifat berulang secara semula jadi menyokong pelarasan generasi pertengahan, yang penting untuk tugas yang kompleks seperti penyahpepijatan kod atau terbitan matematik.

Apakah tanda aras yang menunjukkan prestasi Gemini Diffusion?

Kelajuan pensampelan token

Ujian dalaman Google melaporkan a kadar persampelan purata 1,479 token sesaat, lonjakan dramatik berbanding model Gemini Flash sebelumnya, walaupun dengan overhed permulaan purata 0.84 saat bagi setiap permintaan . Metrik ini menggariskan kapasiti resapan untuk aplikasi pemprosesan tinggi.

Penilaian pengekodan dan penaakulan

  • HumanEval (pengekodan): 89.6% kadar lulus, hampir sama dengan Gemini 2.0 Flash-Lite 90.2%.
  • MBPP (pengekodan): 76.0%, berbanding Flash-Lite 75.8%.
  • BIG-Bench Extra Hard (penaakulan): 15.0%, lebih rendah daripada Flash-Lite 21.0%.
  • MMLU Global (berbilang bahasa): 69.1%, berbanding Flash-Lite 79.0%.

Hasil bercampur ini mendedahkan kebolehan luar biasa resapan untuk tugas lelaran, setempat (cth, pengekodan) dan menyerlahkan kawasan—penaakulan logik yang kompleks dan pemahaman berbilang bahasa—di mana penambahbaikan seni bina masih diperlukan.

Bagaimanakah Resapan Gemini dibandingkan dengan model Gemini sebelumnya?

Flash-Lite lwn Pro lwn Diffusion

  • Gemini 2.5 Flash-Lite menawarkan inferens yang cekap kos dan dioptimumkan kependaman untuk tugas umum.
  • Gemini 2.5 Pro menumpukan pada penaakulan dan pengekodan yang mendalam, menampilkan mod "Pemikiran Dalam" untuk mengurai masalah kompleks.
  • Penyebaran Gemini pakar dalam penjanaan pantas dan output pembetulan sendiri, meletakkan dirinya sebagai pendekatan pelengkap dan bukannya pengganti langsung .

Kekuatan dan batasan

  • Kekuatan: Kelajuan, keupayaan menyunting, kecekapan parameter, prestasi teguh pada tugas kod.
  • Batasan: Prestasi yang lebih lemah pada penaakulan abstrak dan penanda aras berbilang bahasa; jejak memori yang lebih tinggi disebabkan oleh beberapa pas denoising; kematangan ekosistem ketinggalan di belakang alatan autoregresif.

Bagaimanakah anda boleh mengakses Gemini Diffusion?

Menyertai program akses awal

Google telah membuka a waitlist untuk demo eksperimen Gemini Diffusion—pembangun dan penyelidik boleh mendaftar melalui blog Google DeepMind. Akses awal bertujuan untuk mengumpulkan maklum balas, memperhalusi protokol keselamatan dan mengoptimumkan kependaman sebelum pelancaran yang lebih luas.

Ketersediaan dan integrasi masa hadapan

Walaupun tiada tarikh keluaran firma telah diumumkan, Google membayangkan ketersediaan am sejajar dengan kemas kini Gemini 2.5 Flash-Lite yang akan datang. Laluan integrasi yang dijangkakan termasuk:

  • Google AI Studio untuk eksperimen interaktif.
  • API Gemini untuk penggunaan lancar dalam saluran paip pengeluaran.
  • Platform pihak ketiga (cth, Memeluk Wajah) menganjurkan pusat pemeriksaan pra-keluaran untuk penyelidikan akademik dan penanda aras yang didorong oleh komuniti.

Dengan membayangkan semula penjanaan teks dan kod melalui lensa penyebaran, Google DeepMind membuat tuntutan dalam bab seterusnya inovasi AI. Sama ada Gemini Diffusion memulakan standard baharu atau wujud bersama gergasi autoregresif, gabungan kepantasan dan kehebatan pembetulan sendiri menjanjikan untuk membentuk semula cara kami membina, memperhalusi dan mempercayai sistem AI generatif.

Bermula

CometAPI menyediakan antara muka REST bersatu yang mengagregatkan ratusan model AI—termasuk keluarga Gemini—di bawah titik akhir yang konsisten, dengan pengurusan kunci API terbina dalam, kuota penggunaan dan papan pemuka pengebilan. Daripada menyesuaikan berbilang URL vendor dan bukti kelayakan.

Pembangun boleh mengakses Gemini 2.5 Flash Pra API  (model:gemini-2.5-flash-preview-05-20) dan API Gemini 2.5 Pro (model:gemini-2.5-pro-preview-05-06) dan lain-lain melalui CometAPI. Untuk bermula, terokai keupayaan model di Taman Permainan dan rujuk Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun