Wichtige Funktionen
- Native Bildgenerierung und -bearbeitung — Bilder generieren oder vorhandene Fotos über Prompts in natürlicher Sprache bearbeiten. (Generieren / Bearbeiten).
- Multi-Image-Fusion — mehrere Eingabebilder zu einer fotorealistischen Szene kombinieren.
- Charakterkonsistenz — das gleiche Motiv oder die gleiche Figurenerscheinung über Bearbeitungen und Prompts hinweg beibehalten. (Konsistenz).
- SynthID-Wasserzeichen — alle Ausgaben enthalten eine unsichtbare SynthID, um KI-generierte Inhalte zu identifizieren. (Wasserzeichen).
Technische Details
- Architektur & Positionierung: basiert auf der Gemini 2.5 Flash-Familie — konzipiert als Low-Latency‑„Flash“-Variante, die etwas Modellgröße/Durchsatz gegen deutlich schnellere pro‑Call‑Antworten und Kosteneffizienz tauscht, während sie stärkeres Reasoning als frühere Flash‑Tiers beibehält.
- Eingabeformate & Limits: akzeptiert Inline‑Base64‑Bilder für kleine Eingaben und Datei‑Uploads über die File API für größere Bilder (empfohlen für >20 MB). Unterstützt gängige MIME‑Typen (JPEG, PNG).
- Betriebsmodi: Text‑zu‑Bild, Bildbearbeitung (Inpainting / semantische Maskierung), Stiltransfer, Mehrbild‑Komposition und interleaved Text+Bild‑Antworten (nützlich für illustrierte Anleitungen, Rezepte oder gemischte Inhalte).
- Herkunft & Sicherheitsmechanismen: sichtbare Wasserzeichen auf KI‑Ausgaben plus versteckte SynthID‑Marker sowie Richtlinien‑Durchsetzungsschichten zur Begrenzung explizit unzulässiger Inhalte.
Einschränkungen & bekannte Risiken
- Inhaltsrichtlinien‑Beschränkungen: Modelle setzen Inhaltsrichtlinien durch (z. B. das Untersagen expliziter sexueller Inhalte und bestimmter illegaler Inhalte), aber die Durchsetzung ist nicht perfekt — das Generieren von Bildern öffentlicher Personen oder kontroverser Symbole kann in einigen Szenarien dennoch möglich sein, daher sind Richtlinienprüfungen essenziell. )
- Fehlermodi: möglicher Identitätsdrift bei extremen Bearbeitungen, gelegentliche semantische Fehlanpassungen (wenn Prompts unzureichend spezifiziert sind) und Artefakte in sehr komplexen Szenen oder bei extremen Perspektivenwechseln.
- Herkunft & Missbrauch: Auch wenn Wasserzeichen und SynthID vorhanden sind, verhindern sie Missbrauch nicht — sie unterstützen Erkennung und Zuordnung, sind aber kein Ersatz für menschliche Prüfung in sensiblen Workflows.
Typische Anwendungsfälle
- Produkt & E‑Commerce: Produkte per Multi‑Image‑Fusion in Lifestyle‑Aufnahmen platzieren/katalogisieren.
- Kreativ‑Tools / Design: schnelle Iterationen in Design‑Apps (Adobe Firefly‑Integration genannt).
- Bildbearbeitung & Retusche: lokalisierte Bearbeitungen per natürlicher Sprache (Objekte entfernen, Farbe/Beleuchtung ändern, neu stylen).
- Storytelling / Charakter‑Assets: Charaktere über Panels und Szenen hinweg konsistent halten.