Pada tanggal 20 Mei 2025, Google DeepMind diam-diam meluncurkan Difusi Gemini, model difusi teks eksperimental yang menjanjikan untuk membentuk kembali lanskap AI generatif. Dipamerkan selama Google I/O 2025, prototipe penelitian canggih ini memanfaatkan teknik difusi—yang sebelumnya populer dalam pembuatan gambar dan video—untuk menghasilkan teks dan kode yang koheren dengan menyempurnakan derau acak secara berulang. Tolok ukur awal menunjukkan bahwa model ini menyaingi, dan dalam beberapa kasus mengungguli, model berbasis transformator Google yang ada dalam hal kecepatan dan kualitas.
Apa itu Difusi Gemini?
Bagaimana difusi diterapkan pada pembuatan teks dan kode?
Model bahasa besar (LLM) tradisional bergantung pada arsitektur autoregresif, menghasilkan konten satu token pada satu waktu dengan memprediksi kata berikutnya yang dikondisikan pada semua keluaran sebelumnya. Sebaliknya, Difusi Gemini dimulai dengan bidang "noise" acak dan secara berulang menyempurnakan noise ini menjadi teks yang koheren atau kode yang dapat dieksekusi melalui serangkaian langkah penghilangan noise. Paradigma ini mencerminkan cara model difusi seperti Imagen dan Stable Diffusion membuat gambar, tetapi ini adalah pertama kalinya pendekatan semacam itu diskalakan untuk pembuatan teks pada kecepatan seperti produksi.
Mengapa “noise-to-narrative” penting
Bayangkan gambar statis pada layar televisi saat tidak ada sinyal—kedipan acak tanpa bentuk. Dalam AI berbasis difusi, gambar statis tersebut adalah titik awal; model tersebut “memahat” makna dari kekacauan, secara bertahap memaksakan struktur dan semantik. Pandangan holistik ini pada setiap tahap penyempurnaan memungkinkan koreksi diri yang inheren, mengurangi masalah seperti inkoherensi atau “halusinasi” yang dapat mengganggu model token demi token.
Inovasi dan Kemampuan Utama
- Generasi yang Dipercepat:Gemini Diffusion dapat menghasilkan seluruh blok teks secara bersamaan, secara signifikan mengurangi latensi dibandingkan dengan metode pembuatan token demi token.()
- Koherensi yang Ditingkatkan: Dengan menghasilkan segmen teks yang lebih besar sekaligus, model mencapai konsistensi kontekstual yang lebih besar, menghasilkan keluaran yang lebih koheren dan terstruktur secara logis. ()
- Penyempurnaan IteratifArsitektur model memungkinkan koreksi kesalahan waktu nyata selama proses pembuatan, meningkatkan akurasi dan kualitas keluaran akhir. ()
Mengapa Google mengembangkan Gemini Diffusion?
Mengatasi hambatan kecepatan dan latensi
Model autoregresif, meskipun kuat, menghadapi keterbatasan kecepatan mendasar: setiap token bergantung pada konteks sebelumnya, yang menciptakan kemacetan berurutan. Gemini Diffusion mengganggu kendala ini dengan memungkinkan penyempurnaan paralel di semua posisi, yang menghasilkan Generasi ujung ke ujung 4–5x lebih cepat dibandingkan dengan rekan autoregresif berukuran serupa. Akselerasi ini dapat menghasilkan latensi yang lebih rendah untuk aplikasi real-time, mulai dari chatbot hingga asisten kode.
Merintis jalur baru menuju AGI
Di luar kecepatan, pandangan global dan iteratif difusi selaras dengan kemampuan utama kecerdasan umum buatan (AGI): penalaran, pemodelan dunia, dan sintesis kreatif. Kepemimpinan Google DeepMind membayangkan Gemini Diffusion sebagai bagian dari strategi yang lebih luas untuk membangun sistem AI proaktif yang lebih sadar konteks yang dapat beroperasi dengan lancar di lingkungan digital dan fisik.
Bagaimana cara kerja Gemini Diffusion?
Loop injeksi dan penghilang kebisingan
- Inisialisasi:Model dimulai dengan tensor derau acak.
- Langkah-langkah Penghilang Kebisingan: Pada setiap iterasi, jaringan saraf memprediksi cara mengurangi sedikit kebisingan, dipandu oleh pola bahasa atau kode yang dipelajari.
- Perbaikan: Langkah-langkah yang diulang-ulang akan bertemu pada keluaran yang koheren, dengan setiap tahapan memungkinkan koreksi kesalahan pada keseluruhan konteks dan bukan hanya bergantung pada token-token sebelumnya.
Inovasi arsitektur
- Paralelisme: Dengan memisahkan ketergantungan token, difusi memungkinkan pembaruan simultan dan memaksimalkan pemanfaatan perangkat keras.
- Efisiensi Parameter: Benchmark awal menunjukkan kinerja yang setara dengan model autoregresif yang lebih besar meskipun arsitekturnya lebih ringkas.
- Koreksi Diri: Sifat iteratifnya secara inheren mendukung penyesuaian pertengahan generasi, yang krusial untuk tugas-tugas kompleks seperti debugging kode atau derivasi matematika.
Tolok ukur apa yang menunjukkan kinerja Gemini Diffusion?
Kecepatan pengambilan sampel token
Laporan pengujian internal Google menunjukkan rata-rata laju pengambilan sampel 1,479 token per detik, lompatan dramatis dibandingkan model Gemini Flash sebelumnya, meskipun dengan overhead startup rata-rata 0.84 detik per permintaan. Metrik ini menggarisbawahi kapasitas difusi untuk aplikasi dengan throughput tinggi.
Evaluasi pengkodean dan penalaran
- HumanEval (pengkodean): Tingkat kelulusan 89.6%, hampir menyamai Gemini 2.0 Flash-Lite yang mencapai 90.2%.
- MBPP (pengkodean): 76.0%, dibandingkan dengan Flash-Lite yang 75.8%.
- Bangku Besar Ekstra Keras (alasan): 15.0%, lebih rendah dari Flash-Lite yang 21.0%.
- MMLU Global (multibahasa): 69.1%, dibandingkan dengan Flash-Lite yang 79.0%.
Hasil campuran ini mengungkap kemampuan difusi yang luar biasa untuk tugas-tugas iteratif dan lokal (misalnya, pengkodean) dan menyoroti area—penalaran logis yang kompleks dan pemahaman multibahasa—di mana penyempurnaan arsitektur tetap diperlukan.
Bagaimana Gemini Diffusion dibandingkan dengan model Gemini sebelumnya?
Flash Lite vs. Pro vs. Difusi
- Gemini 2.5 Flash Lite menawarkan inferensi yang hemat biaya dan dioptimalkan latensi untuk tugas-tugas umum.
- Gemini 2.5 Pro berfokus pada penalaran dan pengkodean mendalam, yang menampilkan mode “Deep Think” untuk menguraikan masalah yang kompleks.
- Difusi Gemini berspesialisasi dalam pembangkitan yang sangat cepat dan keluaran yang dapat mengoreksi sendiri, memposisikan dirinya sebagai pendekatan yang saling melengkapi, bukan pengganti langsung.
Kekuatan dan keterbatasan
- Kekuatan: Kecepatan, kemampuan mengedit, efisiensi parameter, kinerja yang kuat pada tugas kode.
- keterbatasan: Performa lebih lemah pada penalaran abstrak dan tolok ukur multibahasa; jejak memori lebih tinggi akibat beberapa kali proses penghilangan derau; kematangan ekosistem tertinggal di belakang perkakas autoregresif.
Bagaimana Anda dapat mengakses Gemini Diffusion?
Bergabung dengan program akses awal
Google telah membuka daftar tunggu untuk demo Gemini Diffusion eksperimental—pengembang dan peneliti dapat mendaftar melalui blog Google DeepMind. Akses awal bertujuan untuk mengumpulkan umpan balik, menyempurnakan protokol keselamatan, dan mengoptimalkan latensi sebelum peluncuran yang lebih luas.
Ketersediaan dan integrasi di masa mendatang
Meskipun belum ada tanggal rilis pasti yang diumumkan, Google mengisyaratkan ketersediaan umum selaras dengan pembaruan Gemini 2.5 Flash-Lite yang akan datang. Jalur integrasi yang diantisipasi meliputi:
- Google AI Studio untuk eksperimen interaktif.
- API Gemini untuk penerapan yang mulus pada jalur produksi.
- Platform pihak ketiga (misalnya, Hugging Face) yang menyelenggarakan titik pemeriksaan pra-rilis untuk penelitian akademis dan tolok ukur berbasis komunitas.
Dengan menata ulang pembuatan teks dan kode melalui lensa difusi, Google DeepMind mengklaim diri sebagai pelopor inovasi AI. Apakah Gemini Diffusion menghadirkan standar baru atau hidup berdampingan dengan raksasa autoregresif, perpaduan antara kecepatan dan kecakapan mengoreksi diri menjanjikan untuk membentuk kembali cara kita membangun, menyempurnakan, dan memercayai sistem AI generatif.
Mulai
CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—termasuk keluarga Gemini—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.
Pengembang dapat mengakses Gemini 2.5 Flash Pra API (model:gemini-2.5-flash-preview-05-20) Dan Gemini 2.5 Pro API (model:gemini-2.5-pro-preview-05-06)dll melalui API KometUntuk memulai, jelajahi kemampuan model di Playground dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.
