20 мая 2025 года Google DeepMind тихо представила Близнецы Диффузия, экспериментальная модель диффузии текста, которая обещает изменить ландшафт генеративного ИИ. Демонстрируемый во время Google I/O 2025, этот современный исследовательский прототип использует методы диффузии, ранее популярные в генерации изображений и видео, для создания связного текста и кода путем итеративного уточнения случайного шума. Ранние тесты показывают, что он конкурирует, а в некоторых случаях и превосходит существующие модели Google на основе трансформатора как по скорости, так и по качеству.
Что такое диффузия Близнецов?
Как диффузия применяется к генерации текста и кода?
Традиционные большие языковые модели (LLM) опираются на авторегрессивные архитектуры, генерируя контент по одному токену за раз, предсказывая следующее слово, обусловленное всеми предыдущими выходами. В отличие от этого, Близнецы Диффузия начинается с поля рандомизированного «шума» и итеративно очищает этот шум до связного текста или исполняемого кода посредством последовательности шагов шумоподавления. Эта парадигма отражает способ, которым модели диффузии, такие как Imagen и Stable Diffusion, создают изображения, но это первый раз, когда такой подход был масштабирован для генерации текста на скоростях, близких к производственным.
Почему «шум в повествовании» имеет значение
Представьте себе помехи на экране телевизора, когда нет сигнала — случайные мерцания без формы. В диффузионном ИИ эти помехи являются отправной точкой; модель «лепит» смысл из хаоса, постепенно навязывая структуру и семантику. Этот целостный взгляд на каждом этапе уточнения допускает внутреннюю самокоррекцию, смягчая такие проблемы, как непоследовательность или «галлюцинации», которые могут преследовать модели токенов.
Ключевые инновации и возможности
- Ускоренная генерация: Gemini Diffusion может одновременно создавать целые блоки текста, значительно сокращая задержку по сравнению с методами генерации токенов по одному токену. ()
- Улучшенная когерентность: Генерируя более крупные текстовые сегменты одновременно, модель достигает большей контекстной согласованности, что приводит к более связным и логически структурированным результатам. ()
- Итеративное уточнение: Архитектура модели позволяет исправлять ошибки в реальном времени в процессе генерации, повышая точность и качество конечного результата. ()
Почему Google разработал Gemini Diffusion?
Устранение узких мест, связанных со скоростью и задержкой
Авторегрессионные модели, хотя и мощные, сталкиваются с фундаментальными ограничениями скорости: каждый токен зависит от предыдущего контекста, создавая последовательное узкое место. Gemini Diffusion разрушает это ограничение, позволяя параллельное уточнение по всем позициям, что приводит к В 4–5 раз более быстрая генерация от начала до конца по сравнению с авторегрессионными аналогами аналогичного размера. Это ускорение может привести к снижению задержки для приложений реального времени, от чат-ботов до помощников по коду.
Пионерские новые пути к AGI
Помимо скорости, итеративный, глобальный взгляд диффузии соответствует ключевым возможностям общего искусственного интеллекта (AGI): рассуждения, моделирование мира и творческий синтез. Руководство Google DeepMind рассматривает Gemini Diffusion как часть более широкой стратегии по созданию более контекстно-зависимых, проактивных систем ИИ, которые могут бесперебойно работать в цифровых и физических средах.
Как работает Gemini Diffusion изнутри?
Контур шумоподавления и шумоподавления
- Инициализация: Модель начинается со случайного тензора шума.
- Шаги шумоподавления: На каждой итерации нейронная сеть предсказывает, как немного уменьшить шум, руководствуясь усвоенными шаблонами языка или кода.
- утонченность: Повторяющиеся шаги сходятся к согласованному результату, причем каждый проход позволяет исправлять ошибки во всем контексте, а не полагаться исключительно на прошлые токены.
Архитектурные инновации
- параллелизм: Развязывая зависимости токенов, диффузия обеспечивает одновременные обновления, максимизируя использование оборудования.
- Параметр Эффективность: Ранние тесты показывают производительность на уровне более крупных авторегрессионных моделей, несмотря на более компактную архитектуру.
- Самокоррекция: Итеративная природа изначально поддерживает корректировки среднего поколения, что имеет решающее значение для таких сложных задач, как отладка кода или математические выводы.
Какие показатели демонстрируют эффективность Gemini Diffusion?
Скорость выборки токенов
Внутренние тесты Google сообщают о Средняя частота выборки 1,479 токенов в секунду, резкий скачок по сравнению с предыдущими моделями Gemini Flash, хотя и со средними издержками запуска в 0.84 секунды на запрос. Эта метрика подчеркивает способность диффузии работать с высокопроизводительными приложениями.
Оценки кодирования и рассуждения
- HumanEval (кодирование): Процент успешной сдачи экзамена составляет 89.6%, что близко к показателю Gemini 2.0 Flash-Lite в 90.2%.
- МБПП (кодирование): 76.0% против 75.8% у Flash-Lite.
- BIG-Bench Extra Hard (обоснование): 15.0%, что ниже, чем у Flash-Lite (21.0%).
- Глобальный MMLU (многоязычный): 69.1% по сравнению с 79.0% у Flash-Lite.
Эти неоднозначные результаты демонстрируют исключительную способность диффузии решать итеративные, локализованные задачи (например, кодирование) и выделяют области — сложные логические рассуждения и многоязычное понимание — где по-прежнему необходимы архитектурные доработки.
Чем Gemini Diffusion отличается от предыдущих моделей Gemini?
Flash-Lite против Pro против Diffusion
- Gemini 2.5 Flash-Lite предлагает экономичный и оптимизированный по задержкам вывод для общих задач.
- Близнецы 2.5 Про фокусируется на глубоком мышлении и кодировании, используя режим «Глубокое мышление» для разложения сложных проблем.
- Близнецы Диффузия специализируется на сверхбыстрой генерации и самокорректировке выходных данных, позиционируя себя как дополнительный подход, а не как прямую замену.
Сильные стороны и ограничения
- Сильные стороны: Скорость, возможности редактирования, эффективность параметров, надежная производительность при выполнении задач кода.
- ограничения: Более низкая производительность в абстрактных рассуждениях и многоязычных тестах; более высокий объем памяти из-за множественных проходов шумоподавления; зрелость экосистемы отстает от инструментов авторегрессии.
Как можно получить доступ к Gemini Diffusion?
Присоединение к программе раннего доступа
Google открыл лист ожидания для экспериментальной демонстрации Gemini Diffusion — разработчики и исследователи могут зарегистрироваться через блог Google DeepMind. Ранний доступ направлен на сбор отзывов, уточнение протоколов безопасности и оптимизацию задержки перед более широким развертыванием.
Будущая доступность и интеграция
Хотя точная дата релиза пока не объявлена, Google намекает на общедоступность соответствует предстоящему обновлению Gemini 2.5 Flash-Lite. Ожидаемые пути интеграции включают:
- Google AI-студия для интерактивных экспериментов.
- Близнецы API для бесперебойного развертывания в производственных трубопроводах.
- Сторонние платформы (например, Hugging Face), размещающий предварительно выпущенные контрольные точки для академических исследований и контрольных показателей, разработанных сообществом.
Переосмысливая генерацию текста и кода через призму диффузии, Google DeepMind делает ставку на следующую главу инноваций ИИ. Независимо от того, возвещает ли Gemini Diffusion новый стандарт или сосуществует с авторегрессионными гигантами, его сочетание скорости и самокорректирующегося мастерства обещает изменить то, как мы создаем, совершенствуем и доверяем генеративным системам ИИ.
Первые шаги
CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ, включая семейство Gemini, в единой конечной точке со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо жонглирования несколькими URL-адресами поставщиков и учетными данными.
Разработчики могут получить доступ Gemini 2.5 Flash Pre API (модель:gemini-2.5-flash-preview-05-20) и расширение API-интерфейс Gemini 2.5 Pro (модель:gemini-2.5-pro-preview-05-06)и т.д. через CometAPI. Для начала изучите возможности модели на игровой площадке и обратитесь к API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.
