주요 기능
- 네이티브 이미지 생성 및 편집 — 자연어 프롬프트로 이미지를 생성하거나 기존 사진을 편집합니다. (생성 / 편집).
- 다중 이미지 합성 — 여러 입력 이미지를 하나의 사진처럼 사실적인 장면으로 결합합니다.
- 캐릭터 일관성 — 편집과 프롬프트 전반에서 동일한 주제 또는 캐릭터의 외형을 유지합니다. (일관성).
- SynthID 워터마킹 — 모든 출력에는 AI 생성 콘텐츠 식별을 위한 보이지 않는 SynthID가 포함됩니다. (워터마크).
기술 상세
- 아키텍처 및 포지셔닝: Gemini 2.5 Flash 제품군 기반 — 저지연 “Flash” 변형으로, 이전 Flash 티어보다 더 강한 추론을 유지하면서 호출당 응답 속도와 비용 효율을 크게 높이기 위해 모델 크기/처리량을 약간 절충하도록 설계되었습니다.
- 입력 형식 및 제한: 작은 입력에는 인라인 base64 이미지를, 큰 이미지에는 File API를 통한 파일 업로드를 지원합니다(20 MB 초과 권장). 일반적인 MIME 유형(JPEG, PNG)을 지원합니다.
- 작동 모드: 텍스트-이미지, 이미지 편집(인페인팅/의미 기반 마스킹), 스타일 전환, 다중 이미지 합성, 그리고 인터리브드 텍스트+이미지 응답(삽화가 포함된 지침, 레시피 또는 혼합 콘텐츠에 유용).
- 출처 및 안전 메커니즘: AI 출력에 표시되는 워터마크와 숨겨진 SynthID 마커, 그리고 명시적 금지 콘텐츠를 제한하기 위한 정책 집행 레이어.
제한 사항 및 알려진 위험
- 콘텐츠 정책 제약: 모델은 콘텐츠 정책을 집행합니다(예: 노골적인 성적 콘텐츠와 일부 불법 콘텐츠 금지). 그러나 집행이 완벽하지는 않습니다 — 일부 시나리오에서는 공인이나 논쟁적인 상징의 이미지를 생성하는 것이 여전히 가능할 수 있으므로, 정책 검사가 필수적입니다. )
- 실패 모드: 극단적인 편집에서 정체성 드리프트가 발생할 수 있으며, 프롬프트가 충분히 명시되지 않은 경우 간헐적인 의미적 불일치가 생길 수 있고, 매우 복잡한 장면이나 극단적인 시점 변화에서 아티팩트가 나타날 수 있습니다.
- 출처 및 오용: 워터마크와 SynthID가 존재하더라도 오용을 방지하지는 않습니다 — 감지와 출처 확인을 돕지만, 민감한 워크플로에서 인간 검토를 대체할 수는 없습니다.
일반적인 사용 사례
- 제품 및 이커머스: 다중 이미지 합성을 통해 라이프스타일 샷에 제품을 배치/카탈로그화.
- 크리에이티브 툴링/디자인: 디자인 앱에서 빠른 반복 (Adobe Firefly 통합이 언급됨).
- 사진 편집 및 리터칭: 자연어 기반 국소 편집 (객체 제거, 색상/조명 변경, 스타일 변경).
- 스토리텔링/캐릭터 에셋: 패널과 장면 전반에서 캐릭터 일관성을 유지.