Nøkkelfunksjoner
- Native bildegenerering og redigering — generer bilder eller rediger eksisterende fotografier via naturspråklige prompter. (Generer / Rediger).
- Sammenslåing av flere bilder — kombiner flere inndata-bilder til én fotorealistisk scene.
- Karakterkonsistens — behold samme motiv eller karakterutseende på tvers av redigeringer og prompter. (Konsistens).
- SynthID-vannmerking — alle utdata inkluderer en usynlig SynthID for å identifisere KI-generert innhold. (Vannmerke).
Tekniske detaljer
- Arkitektur og posisjonering: bygget på Gemini 2.5 Flash-familien — utformet som en lav-latens “Flash”-variant som bytter bort litt modellstørrelse/gjennomstrømning for langt raskere respons per kall og kostnadseffektivitet, samtidig som den beholder sterkere resonnering enn tidligere Flash-nivåer.
- Inndataformater og -grenser: godtar inline base64-bilder for små inndata og filopplastinger via File API for større bilder (anbefales for >20 MB). Støtter vanlige MIME-typer (JPEG, PNG).
- Driftsmoduser: tekst-til-bilde, bilderedigering (inpainting / semantisk maskering), stiloverføring, sammensetning av flere bilder, og interleaved tekst+bildesvar (nyttig for illustrerte instruksjoner, oppskrifter eller blandet innhold).
- Opprinnelse og sikkerhetsmekanismer: synlige vannmerker på KI-utdata samt skjulte SynthID-markører og policy-håndhevelseslag for å begrense eksplisitt forbudt innhold.
Begrensninger og kjente risikoer
- Begrensninger i innholdspolicy: modellene håndhever innholdspolicyer (f.eks. forbyr eksplisitt seksuelt innhold og noe ulovlig innhold), men håndhevingen er ikke perfekt — det kan fortsatt være mulig å generere bilder av offentlige personer eller kontroversielle symboler i noen scenarier, så policykontroller er essensielle. )
- Feilmodus: mulig identitetsdrift ved ekstreme redigeringer, sporadisk semantisk misjustering (når prompter er under-spesifiserte), og artefakter i svært komplekse scener eller ved ekstreme endringer i synsvinkel.
- Opprinnelse og misbruk: selv om vannmerker og SynthID er til stede, forhindrer disse ikke misbruk — de hjelper med deteksjon og attribusjon, men erstatter ikke menneskelig vurdering i sensitive arbeidsflyter.
Typiske brukstilfeller
- Produkt og e-handel: plassér/katalogiser produkter i livsstilsbilder via sammenslåing av flere bilder.
- Kreative verktøy / design: raske iterasjoner i designapper (Adobe Firefly-integrasjon nevnt).
- Bilderedigering og retusjering: lokaliserte redigeringer fra naturlig språk (fjern objekter, endre farge/lyssetting, endre stil).
- Historiefortelling / karakterressurser: hold karakterer konsistente på tvers av paneler og scener.