關鍵功能
- 原生圖片生成與編輯 — 透過自然語言提示生成圖片或編輯現有照片。(生成 / 編輯)。
- 多圖片融合 — 將多張輸入圖片合成一個擬真場景。
- 角色一致性 — 在各次編輯與提示中保持同一主體或角色的外觀一致。(一致性)。
- SynthID 浮水印 — 所有輸出均包含不可見的 SynthID,以識別 AI 生成內容。(浮水印)。
技術細節
- 架構與定位: 基於 Gemini 2.5 Flash 系列 — 設計為低延遲的“Flash”變體,略微犧牲模型大小/吞吐量,以換取更快的每次呼叫回應與成本效率,同時保留比早期 Flash 等級更強的推理能力。
- 輸入格式與限制: 小型輸入可接受內嵌 base64 圖片,較大圖片則可透過 File API 進行檔案上傳(建議 >20 MB 使用)。支援常見 MIME 類型 (JPEG, PNG)。
- 運作模式: 文字轉圖片、圖片編輯(修補填充/語義遮罩)、風格遷移、多圖片合成,以及交織式文字+圖片回應(適用於圖文說明、食譜或混合內容)。
- 來源與安全機制: AI 輸出包含可見浮水印與隱藏的 SynthID 標記,並設有政策執行層以限制明確禁止的內容。
限制與已知風險
- 內容政策約束: 模型會執行內容政策(例如禁止露骨性內容與部分違法內容),但執行並非完美—在某些情境下仍可能生成公眾人物或具爭議的符號,因此政策檢查至關重要。 )
- 失效模式: 在極端編輯下可能出現身分漂移,提示過於不明確時偶有語義不對齊,且在非常複雜的場景或極端視角變化中可能產生偽影。
- 來源與濫用: 儘管存在浮水印與 SynthID,但這些無法阻止濫用—它們有助於檢測與歸因,但並不能替代在敏感流程中的人工審查。
典型使用案例
- 產品與電商: 透過多圖片融合,將產品放入生活化照片。
- 創意工具/設計: 在設計應用中快速迭代(提及與 Adobe Firefly 的整合)。
- 照片編輯與修圖: 以自然語言進行局部編輯(移除物件、變更顏色/光線、變更風格)。
- 敘事/角色素材: 在各分鏡與場景中保持角色一致性。