主な機能
- ネイティブな画像生成と編集 — 自然言語のプロンプトで画像を生成したり既存の写真を編集できます。 (生成/編集).
- マルチ画像融合 — 複数の入力画像を1つのフォトリアリスティックなシーンに統合します。
- キャラクターの一貫性 — 編集やプロンプトを跨いでも同一の被写体やキャラクターの外観を維持します。 (一貫性).
- SynthID ウォーターマーキング — すべての出力にAI生成コンテンツを識別するための不可視の SynthIDが含まれます。 (透かし).
技術的詳細
- アーキテクチャとポジショニング: Gemini 2.5 Flash ファミリー上に構築 — より高速な呼び出しごとの応答とコスト効率のためにモデルサイズ/スループットをわずかにトレードオフしつつ、従来の Flash ティアより強力な推論を維持する、低レイテンシの “Flash” バリアントとして設計されています。
- 入力形式と制限: 小さな入力にはインライン base64 画像を、大きな画像には File API 経由のファイルアップロードを受け付けます(>20 MB の場合は推奨)。一般的な MIME タイプ(JPEG、PNG)に対応しています。
- 動作モード: テキストから画像生成、画像編集(インペインティング/セマンティックマスキング)、スタイル転送、複数画像の合成、そしてインタリーブされたテキスト+画像のレスポンス(イラスト付き手順、レシピ、混在コンテンツに有用)。
- 出所追跡と安全機構: AI出力には可視のウォーターマークに加え、隠された SynthID マーカーとポリシー施行レイヤーを備え、明示的に不許可なコンテンツを制限します。
制限事項と既知のリスク
- コンテンツポリシーの制約: モデルはコンテンツポリシーを施行します(例:露骨な性的コンテンツや一部の違法コンテンツを不許可)が、施行は完全ではありません — 特定の状況では公的人物や物議を醸すアイコンの画像生成が可能な場合もあるため、ポリシーの確認は不可欠です。 )
- 失敗モード: 極端な編集でアイデンティティのドリフトが発生する可能性、プロンプトが過度に曖昧な場合の意味的な不整合、非常に複雑なシーンや極端な視点変更におけるアーティファクト。
- 出所追跡と悪用: ウォーターマークや SynthID が存在していても、悪用を防止するものではありません — 検出や帰属の支援には役立ちますが、機微なワークフローにおける人によるレビューの代替にはなりません。
代表的なユースケース
- プロダクト & EC: マルチ画像融合により、商品をライフスタイル写真に配置/カタログ化。
- クリエイティブツール / デザイン: デザインアプリでの高速な反復(Adobe Firefly 連携に言及)。
- 写真編集 & レタッチ: 自然言語による局所的な編集(オブジェクトの削除、色/照明の変更、スタイル変更)。
- ストーリーテリング / キャラクターアセット: 複数のコマやシーンをまたいでキャラクターの一貫性を維持。