Google, Google I/O 4에서 Imagen 4, Imagen 3 Ultra 및 Veo 2025 모델 출시

Google은 차세대 생성 AI 모델을 공개할 예정입니다.이미지 4, 이미지 4 울트라및 베오 3—Google I/O 개발자 연례 컨퍼런스에서 20 년 2025 월 XNUMX 일. 미리보기 식별자의 초기 유출(예: imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview)는 이미지 및 비디오 합성 영역 모두에서 단계적 출시와 다양한 기능 계층을 의미합니다. Imagen 4는 Imagen 3보다 사진처럼 사실적인 표현, 신속한 정확도, 그리고 스타일 일관성 측면에서 상당한 향상을 목표로 하며, "Ultra" 버전은 더 높은 해상도 또는 특화된 성능 모드를 제공할 수 있습니다. 비디오 측면에서 Veo 3는 Veo 2에 비해 더욱 일관된 클립 간 연속성과 강력한 스타일 준수를 약속합니다. 세 모델 모두 Google의 Gemini AI 생태계와 긴밀하게 통합되어 동일한 워크플로우 내에서 텍스트 프롬프트에서 이미지 또는 비디오로의 원활한 전환을 지원할 것으로 예상됩니다.

미리보기 식별자 및 출시 전략

단계별 미리보기: 내부 참조 등

imagen-4.0-generate-preview-05-20
imagen-4.0-ultra-generate-exp-05-20
veo-3.0-generate-preview

Google, Google I/O 4에서 Imagen 4, Imagen 3 Ultra 및 Veo 2025 모델 출시

코드 저장소와 API 미리보기에 등장한 것은 Google이 이미지 생성을 위한 표준 및 "울트라" 성능 계층과 초기 테스터를 위한 고급 비디오 모델 미리보기를 제공하려는 의도를 나타냅니다.

Google I/O 출시:

이러한 식별자는 Google이 I/O에서 개발자에게 미리 보기 액세스를 선보이고 잠재적으로 허용할 것임을 강력히 시사합니다. 20 년 2025 월 XNUMX 일Imagen 3 및 Veo 2의 이전 출시를 미러링합니다.

Imagen 4의 새로운 기능

포토리얼리즘과 충실성

향상된 렌더링: Imagen 4는 더욱 사실적인 디테일을 구현하여 아티팩트를 줄이고 색상 정확도를 향상시킨다고 합니다. 초기 루머에 따르면 미묘한 조명이나 반사와 같은 복잡한 프롬프트를 이해하는 능력이 향상되었다고 합니다.
신속한 준수: 이 모델은 사용자 지시를 보다 정확하게 따르고 콘텐츠와 스타일 지침(예: "산 위로 지는 해의 유화")에 더 잘 맞는 이미지를 제공할 것으로 예상됩니다.

스타일 일관성

다중 이미지 응집력: Imagen 4는 여러 출력에서 일관된 시각적 스타일을 유지하도록 설계되었으며, 스토리보딩이나 제품 카탈로그 생성과 같이 균일성이 중요한 사용 사례에 도움이 됩니다.
울트라 변형: "Ultra" 계층(imagen‑4.0‑ultra)은 기업 및 크리에이티브 전문가를 위해 더 높은 해상도의 출력이나 특수 최적화(예: 인쇄 매체에 대한 초고충실도)를 제공할 가능성이 높습니다.

Veo 3의 새로운 기능

향상된 일관성

클립 간 연속성: Veo 3는 연속적인 샷에서 일관된 프레이밍, 조명, 캐릭터 모습이 유지되는 비디오 시퀀스를 생성하여 시간에 따른 시각적 드리프트와 관련된 Veo 2의 한계를 해결하는 것을 목표로 합니다.
스타일 충실도: 이 모델은 예술적 또는 영화적 스타일을 보다 충실하게 재현하는 데 중점을 두고, 원하는 미적 스타일(예: 누아르, 파스텔 애니메이션)로 비디오를 제작하기 쉽게 해줍니다.

SynthID 워터마킹 통합

디지털 워터 마킹: DeepMind의 SynthID 기술(Veo 2에서 도입)을 활용한 Veo 3는 감지할 수 없는 워터마크를 내장하여 AI가 생성한 콘텐츠를 식별하고 오용을 억제하는 데 도움이 됩니다.

Gemini AI와 통합

원활한 액세스: Imagen 4와 Veo 3 모두 Google의 Gemini 인터페이스를 통해 직접 접근할 수 있을 것으로 예상됩니다. 즉, 사용자는 채팅 기반 프롬프트나 Google Photos, Google Slides와 같은 제품 인터페이스를 통해 이미지나 비디오를 생성할 수 있습니다.
쌍둥이자리 보석: 맞춤형 AI "Gems"는 이러한 모델을 통합하여 사용자가 전문화된 도우미(예: 여정 이미지와 개요 비디오를 생성하는 여행 계획 Gem)를 만들고 ChatGPT의 GPT Store와 유사한 마켓플레이스에서 공유할 수 있도록 합니다.

가용성 및 다음 단계

공공 미리보기: 개발자 및 기업 테스터는 Imagen 4(표준 및 Ultra) 및 Veo 3를 실험해 보도록 초대를 받을 수 있습니다. 20 년 2025 월 XNUMX 일 Google I/O에서 공개되고, 이후 몇 주 안에 Labs와 Vertex AI에 더 광범위하게 출시될 예정입니다.

피드백과 반복: 이전 출시와 마찬가지로, Google은 일반 출시 전에 안전 필터, 워터마킹 견고성, 성능 최적화를 개선하기 위해 사용자 피드백을 요청할 가능성이 높습니다.

이 공간보기: 관심 있는 개발자는 다음을 모니터링해야 합니다. 코멧API.

새로운 모델 API는 CometAPI에 등록될 예정이며, Google보다 저렴한 가격으로 통합을 용이하게 할 예정입니다. 앞으로도 많은 관심 부탁드립니다. API doc.