20년 2025월 XNUMX일, 구글 딥마인드가 조용히 공개했습니다. 제미니 확산생성 AI의 지형을 바꿀 것을 약속하는 실험적 텍스트 확산 모델입니다. Google I/O 2025에서 선보인 이 최첨단 연구 프로토타입은 이전에 이미지 및 비디오 생성에 널리 사용되었던 확산 기술을 활용하여 무작위 노이즈를 반복적으로 정제하여 일관된 텍스트와 코드를 생성합니다. 초기 벤치마크 결과에 따르면 속도와 품질 면에서 Google의 기존 변환기 기반 모델과 경쟁하며, 경우에 따라서는 더 뛰어난 성능을 보입니다.
제미니 디퓨전이란 무엇인가요?
확산은 텍스트와 코드 생성에 어떻게 적용되나요?
기존의 대규모 언어 모델(LLM)은 자기회귀 아키텍처에 의존하여 이전 모든 출력을 조건으로 다음 단어를 예측하여 한 번에 하나의 토큰씩 콘텐츠를 생성합니다. 이와는 대조적으로, 제미니 확산 무작위로 생성된 "노이즈" 필드에서 시작하여 일련의 노이즈 제거 단계를 거쳐 이 노이즈를 일관된 텍스트 또는 실행 가능한 코드로 반복적으로 정제합니다. 이 패러다임은 Imagen 및 Stable Diffusion과 같은 확산 모델이 이미지를 생성하는 방식을 반영하지만, 이러한 접근 방식이 프로덕션 수준의 속도로 텍스트를 생성하도록 확장된 것은 이번이 처음입니다.
"소음에서 내러티브로"가 중요한 이유
신호가 없을 때 텔레비전 화면에 나타나는 정적인 현상을 상상해 보세요. 형태 없이 무작위로 깜빡이는 현상 말입니다. 확산 기반 AI에서는 이러한 정적인 현상이 시작점입니다. 모델은 혼돈 속에서 의미를 "조각"하여 점진적으로 구조와 의미를 부여합니다. 각 개선 단계에서 이러한 전체론적 관점을 통해 내재적인 자기 교정이 가능해져 토큰 기반 모델에서 발생할 수 있는 불일치나 "환각"과 같은 문제를 완화할 수 있습니다.
주요 혁신 및 역량
- 가속 생성: Gemini Diffusion은 토큰별 생성 방법에 비해 대기 시간을 크게 줄여 전체 텍스트 블록을 동시에 생성할 수 있습니다.()
- 향상된 일관성: 한 번에 더 큰 텍스트 세그먼트를 생성함으로써 모델은 더 큰 맥락적 일관성을 달성하여 보다 일관되고 논리적으로 구성된 출력을 생성합니다.()
- 반복적 개선: 이 모델의 아키텍처는 생성 프로세스 중에 실시간 오류 수정을 허용하여 최종 출력의 정확도와 품질을 향상시킵니다.()
구글은 왜 Gemini Diffusion을 개발했을까?
속도 및 지연 병목 현상 해결
자기회귀 모델은 강력하지만 근본적인 속도 제한에 직면합니다. 각 토큰이 이전 컨텍스트에 의존하여 순차적인 병목 현상을 발생시킵니다. Gemini Diffusion은 모든 위치에서 병렬 정제를 가능하게 하여 이러한 제약을 해소합니다. 4~5배 더 빠른 엔드투엔드 생성 비슷한 크기의 자기회귀 모델과 비교했을 때, 이러한 가속은 챗봇부터 코드 어시스턴트까지 실시간 애플리케이션의 지연 시간을 단축하는 데 도움이 될 수 있습니다.
AGI를 향한 새로운 경로 개척
속도 외에도, 디퓨전의 반복적이고 글로벌한 관점은 인공 일반 지능(AGI)의 핵심 역량인 추론, 세계 모델링, 그리고 창의적 합성과 일치합니다. 구글 딥마인드 경영진은 제미니 디퓨전을 디지털 및 물리적 환경에서 원활하게 작동할 수 있는 상황 인식적이고 능동적인 AI 시스템을 구축하기 위한 더 광범위한 전략의 일환으로 구상하고 있습니다.
제미니 디퓨전은 어떻게 작동하나요?
노이즈 주입 및 노이즈 제거 루프
- 초기화: 모델은 무작위 노이즈 텐서로 시작합니다.
- 노이즈 제거 단계: 각 반복에서 신경망은 언어나 코드의 학습된 패턴을 기반으로 노이즈를 약간 줄이는 방법을 예측합니다.
- 정제: 반복되는 단계는 일관된 출력을 향해 수렴하며, 각 단계를 거치면서 과거 토큰에만 의존하지 않고 전체 컨텍스트에서 오류를 수정할 수 있습니다.
건축 혁신
- 병행: 토큰 종속성을 분리함으로써, 확산은 동시 업데이트를 가능하게 하여 하드웨어 활용도를 극대화합니다.
- 매개변수 효율성: 초기 벤치마크에서는 보다 컴팩트한 아키텍처에도 불구하고 대규모 자기회귀 모델과 동등한 성능을 보였습니다.
- 자기 교정: 반복적인 특성은 본질적으로 중간 세대 조정을 지원하며, 이는 코드 디버깅이나 수학적 도출과 같은 복잡한 작업에 필수적입니다.
Gemini Diffusion의 성능을 입증하는 벤치마크는 무엇입니까?
토큰 샘플링 속도
Google의 내부 테스트 보고서 초당 평균 1,479개 토큰의 샘플링 속도이전 Gemini Flash 모델에 비해 크게 향상된 성능이지만, 요청당 평균 시작 오버헤드는 0.84초입니다. 이 지표는 고처리량 애플리케이션에 대한 디퓨전의 역량을 강조합니다.
코딩 및 추론 평가
- HumanEval(코딩): 합격률 89.6%로 Gemini 2.0 Flash-Lite의 90.2%와 거의 비슷합니다.
- MBPP(코딩): 76.0%, Flash-Lite의 75.8% 대비.
- BIG-Bench Extra Hard (추론): 15.0%, Flash-Lite의 21.0%보다 낮습니다.
- 글로벌 MMLU(다국어): 69.1%, Flash-Lite의 79.0%와 비교.
이러한 혼합된 결과는 반복적이고 지역화된 작업(예: 코딩)에 대한 확산의 탁월한 적성을 보여주며, 구조적 개선이 여전히 필요한 복잡한 논리적 추론 및 다국어 이해 분야를 강조합니다.
Gemini Diffusion은 이전 Gemini 모델과 어떻게 비교되나요?
플래시라이트 vs. 프로 vs. 디퓨전
- 제미니 2.5 플래시라이트 일반 작업에 대해 비용 효율적이고 지연 시간이 최적화된 추론을 제공합니다.
- 제미니 2.5 프로 복잡한 문제를 분해하기 위한 "딥 씽크" 모드를 특징으로 하며 심층적인 추론과 코딩에 중점을 둡니다.
- 제미니 확산 초고속 생성과 자체 교정 출력을 전문으로 하며, 직접적인 대체물이 아닌 보완적인 접근 방식으로 자리매김하고 있습니다.
강점과 한계
- 장점: 속도, 편집 기능, 매개변수 효율성, 코드 작업에 대한 강력한 성능.
- 제한 사항: 추상적 추론 및 다국어 벤치마크에서 성능이 약함; 여러 번의 잡음 제거 과정으로 인해 메모리 사용량이 증가함; 생태계 성숙도가 자기 회귀 툴보다 뒤처짐.
제미니 디퓨전(Gemini Diffusion)에 어떻게 접속할 수 있나요?
조기 액세스 프로그램 참여
구글이 열렸습니다 대기자 명단 실험적인 Gemini Diffusion 데모에 참여하려면 개발자와 연구원이 Google DeepMind 블로그를 통해 등록할 수 있습니다. 사전 체험판은 광범위한 출시 전에 피드백을 수집하고, 안전 프로토콜을 개선하며, 지연 시간을 최적화하는 것을 목표로 합니다.
향후 가용성 및 통합
아직 확실한 출시 날짜는 발표되지 않았지만 Google은 다음과 같이 암시합니다. 정식 출시 곧 출시될 Gemini 2.5 Flash-Lite 업데이트에 맞춰 조정되었습니다. 예상 통합 경로는 다음과 같습니다.
- 구글 AI 스튜디오 상호작용적인 실험을 위해.
- 제미니 API 프로덕션 파이프라인에 원활하게 배포할 수 있습니다.
- 타사 플랫폼 (예: Hugging Face) 학술 연구와 커뮤니티 중심 벤치마크를 위한 사전 릴리스 체크포인트를 호스팅합니다.
Google DeepMind는 확산이라는 관점에서 텍스트와 코드 생성을 재구성함으로써 AI 혁신의 다음 장을 개척할 발판을 마련했습니다. Gemini Diffusion이 새로운 기준을 제시하든, 자기회귀적 거대 기업과 공존하든, 빠른 속도와 자가교정 능력의 조합은 생성적 AI 시스템을 구축하고, 개선하고, 신뢰하는 방식을 근본적으로 바꿀 것입니다.
시작 가이드
CometAPI는 Gemini 제품군을 포함한 수백 개의 AI 모델을 일관된 엔드포인트로 통합하는 통합 REST 인터페이스를 제공하며, 내장된 API 키 관리, 사용량 할당량 및 청구 대시보드를 통해 여러 공급업체 URL과 자격 증명을 일일이 관리할 필요가 없습니다.
개발자는 액세스할 수 있습니다 제미니 2.5 플래시 사전 API (모델:gemini-2.5-flash-preview-05-20) and 제미니 2.5 프로 API (모델:gemini-2.5-pro-preview-05-06)등을 통해 코멧API시작하려면 Playground에서 모델의 기능을 탐색하고 다음을 참조하세요. API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.
