So erstellen und bearbeiten Sie Bilder mit der Gemini 2.0 Flash-Vorschau

CometAPI
AnnaMay 9, 2025
So erstellen und bearbeiten Sie Bilder mit der Gemini 2.0 Flash-Vorschau

Seit der Veröffentlichung am 7. Mai 2025 sind die Bildfunktionen von Gemini 2.0 Flash als Vorschau verfügbar. Entwickler und Kreativprofis können damit visuelle Elemente mithilfe natürlicher Sprache erstellen und verfeinern. Dieser Artikel fasst die neuesten Ankündigungen, Praxisberichte und technische Dokumentationen zusammen und führt Sie durch alle Schritte – von der Erstellung Ihres ersten Bild-Prompts bis hin zur präzisen Bearbeitung vorhandener Assets. Jede zweite Überschrift stellt eine Schlüsselfrage zur Orientierung, während die dritte Überschrift die Details erläutert, die Sie für den sofortigen Einstieg in die Entwicklung benötigen.

Was ist die Gemini 2.0 Flash-Vorschau zur Bilderstellung und -bearbeitung?

Gemini 2.0 Flash ist Googles neuestes KI-Modell, optimiert für Geschwindigkeit („Flash“) und multimodale Aufgaben. Es bietet nun Bildgenerierung und -bearbeitung in der Vorschau über Google AI Studio und Vertex AI. Die von Kat Kampf, Produktmanagerin für Google AI Studio, am 7. Mai 2025 angekündigte Vorschau enthüllt den Modellnamen gemini-2.0-flash-preview-image-generation über die GenAI-API, was höhere Anforderungsraten und eine nahtlose Integration in Anwendungen ermöglicht. India Today Tech bestätigt, dass sowohl Benutzer der kostenlosen Version (über die Gemini-App) als auch Entwickler (über AI Studio/Vertex AI) kostenlos mit diesen verbesserten Tools experimentieren können – was eine bedeutende Demokratisierung der fortgeschrittenen Bild-KI darstellt.

Was unterscheidet Gemini 2.0 Flash von früheren Versionen der Bildgeneration?

Im Vergleich zum zuvor in Gemini eingebetteten experimentellen Bildmodell bietet Flash:

  • Verbesserte Bildtreue: Schärfere Details, realistischere Texturen und bessere Handhabung feiner Elemente wie Haare, Blätter und Reflexionen.
  • Verbesserte Textdarstellung: Platziert und formatiert Text präzise in Bildern und reduziert Buchstabenverstümmelungen und falsch ausgerichtete Glyphen, die in früheren Versionen häufig auftraten.
  • Niedrigere Filterblockraten: Lockerere Inhaltsfilter lassen harmlosere Eingabeaufforderungen durch, setzen aber weiterhin die Richtlinien für nicht zugelassenes Material durch und optimieren so die Arbeitsabläufe für konforme Anwendungsfälle.

Wie können Entwickler mit der Gemini 2.0 Flash-Vorschau Bilder generieren?

Das Generieren von Bildern ist so einfach wie das Aufrufen des GenAI SDK oder der REST-API mit Ihrer Eingabeaufforderung und die Angabe, dass Sie sowohl Text- als auch Bildmodalitäten wünschen.

API in Google verwenden:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Dieser Ausschnitt veranschaulicht die minimale Einrichtung: Ersetzen GEMINI_API_KEY Stellen Sie mit Ihrem Schlüssel die contents Fügen Sie Ihrer kreativen Vision eine Zeichenfolge hinzu und erhalten Sie eine URL zum generierten Bild.

Verwenden Sie die Gemini 2.0 Flash-Bildgenerierung in CometAPI

Welche bewährten Methoden zur Eingabeaufforderung führen zu visuellen Darstellungen höchster Qualität?

  1. Seien Sie spezifisch in Bezug auf Stil und Medium: „Aquarellmalerei“, „Neon-Cyberpunk-Szene“ oder „minimalistische Vektorkunst“ helfen dem Modell, seine Ausgabe zu verankern.
  2. Fügen Sie kompositorische Hinweise hinzu: Ausdrücke wie „Drittelregel“, „dramatische Beleuchtung von links“ oder „Vordergrundmotiv scharf“ dienen als Orientierung für die Bildkomposition.
  3. Iterieren Sie mit Folgeaufforderungen: Verwenden Sie Konversationsbearbeitungen (siehe nächster Abschnitt), um den Farbabgleich zu optimieren, Proportionen anzupassen oder Details zu verfeinern, ohne von vorne zu beginnen.

Wie können Sie vorhandene Bilder im Dialog bearbeiten?

Die Bearbeitung erfolgt durch Hochladen eines Bilds oder Auswählen eines zuvor generierten Assets und anschließendes Ausgeben von Anweisungen in natürlicher Sprache zum Ändern bestimmter Bereiche oder Attribute.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

Welche Funktionen zur Konversationsbearbeitung werden unterstützt?

  • Selektive Bearbeitungen: Ändern Sie nur bestimmte Bereiche (z. B. „Augen aufhellen“, „Wegweiser mit Kalligrafie versehen“), ohne die umliegenden Pixel zu beeinflussen.
  • Gemeinsames Zeichnen in Echtzeit: Mit der Gemini Co-Drawing Sample App können mehrere Mitarbeiter direkt in AI Studio skizzieren und Anmerkungen machen, was iterative Arbeitsabläufe beschleunigt.
  • Rekontextualisierung: Platzieren Sie Produkte oder Charaktere in völlig neuen Szenen – ideal für Marketingmodelle oder das schnelle Prototyping visueller Konzepte.
  • Entfernung von Wasserzeichen: Frühe Anwender berichten, dass Gemini 2.0 Flash sichtbare Wasserzeichen entfernen und durch eine neutrale SynthID-Markierung ersetzen kann, wobei jedoch ethische Nutzungsrichtlinien gelten.

Gemini 2.0 Flash

Welche Ratenbegrenzungen und Preise gelten in der Vorschau?

Google hat viele Einschränkungen aus der Experimentalphase aufgehoben: Entwickler profitieren von höheren Minutenkontingenten und vergünstigten Vorschaupreisen.

Wie haben sich die Ratenbegrenzungen verbessert?

  • Erhöhte QPS: Die Anzahl der Anfragen pro Sekunde hat sich im Vergleich zum vorherigen experimentellen Modell verdoppelt und unterstützt stoßweise Arbeitslasten und Echtzeitanwendungen.
  • Bulk-Bearbeitung: Gemini akzeptiert jetzt bis zu 10 Bilder in einem einzigen Stapel zur Bearbeitung und optimiert so Arbeitsabläufe, die konsistente Stilanpassungen für mehrere Assets erfordern.

Wie sehen die Vorschaupreise aus?

  • Bilderzeugung: Ungefähr 0.039 $ pro Bild (3.9 Cent), abgerechnet pro eindeutiger Ausgabe.
  • Bearbeitungsvorgänge: Ähnliche Preise wie bei Generation-Jobs, weitere Rabatte sind geplant, sobald die Vorschau abgeschlossen ist.

Wie greifen Sie heute auf die Vorschau zu und konfigurieren sie?

  1. Anmelden zu Google AI Studio oder Vertex AI in der Google Cloud Console.
  2. Aktivieren der GenAI-API und erstellen Sie unter „Anmeldeinformationen“ einen API-Schlüssel.
  3. Auswählen das Modell gemini-2.0-flash-preview-image-generation in Ihrem Code oder Ihren API-Aufrufen.
  4. Hochladen Quellbilder (bei Bearbeitung) über Cloud Storage oder direkt in der Studio-Benutzeroberfläche.
  5. aufrufen Ihre Eingabeaufforderungen und Überprüfungsergebnisse im Studio-Dashboard oder programmgesteuert.

Welche zukünftigen Verbesserungen können wir erwarten?

Google hat mehrere bevorstehende Verbesserungen angekündigt, sobald Gemini 2.0 Flash über die Vorschauphase hinausgeht:

Erweiterte Fähigkeiten

  • Ausgaben mit höherer Auflösung (bis zu 4K+), ideal für Druck und großformatige Displays.
  • Erweiterte Stilmischung, wobei mehrere künstlerische Referenzen in einem einzigen Bild kombiniert werden.

Breitere Integration

  • Native Unterstützung in Chrome, Docs und Slidesund andere G Suite-Anwendungen, die das Erstellen und Bearbeiten von Bildern mit einem Klick ermöglichen.
  • Verbesserte multimodale Agenten (Projekt Astra), Integration von Bildaufgaben in längere, kontextbezogene Gespräche.

Die Vorschau von Gemini 2.0 Flash ermöglicht sowohl die Bildgenerierung als auch präzise Bearbeitungen über eine intuitive Dialogoberfläche und markiert damit einen Meilenstein in der zugänglichen, skalierbaren KI-gestützten Kreativität. Ob Sie Produktvisualisierungen prototypisieren, gemeinsam an Marketingmaterialien arbeiten oder einfach neue künstlerische Horizonte erkunden – die Vorschau bietet Ihnen die Werkzeuge für schnellere und umfassendere Iterationen als je zuvor. Mit der Weiterentwicklung der Vorschau zur Vollversion erwarten Sie eine noch tiefere Integration in das Google-Ökosystem und immer ausgefeiltere Funktionen, die Ihren nächsten Durchbruch ermöglichen.

Erste Schritte

Entwickler können zugreifen  Gemini 2.0 Flash Exp-Image-Generation-API - durch Konsolidierung, CometAPI. Erkunden Sie zunächst die Funktionen des Modells im Playground und konsultieren Sie die API-Leitfaden (Modellname: gemini-2.0-flash-exp-image-generation) für detaillierte Anweisungen. Beachten Sie, dass einige Entwickler möglicherweise ihre Organisation überprüfen müssen, bevor sie das Modell verwenden können. Die Gemini 2.0 Flash Pre-Image-Generation API wird in Kürze veröffentlicht.

SHARE THIS BLOG

500+ Modelle in einer API

Bis zu 20% Rabatt