Jak tworzyć i edytować obrazy za pomocą podglądu Gemini 2.0 Flash

CometAPI
AnnaMay 9, 2025
Jak tworzyć i edytować obrazy za pomocą podglądu Gemini 2.0 Flash

Od momentu odsłonięcia 7 maja 2025 r. możliwości graficzne Gemini 2.0 Flash były dostępne w wersji zapoznawczej — umożliwiając programistom i profesjonalistom kreatywnym generowanie i udoskonalanie wizualizacji za pomocą konwersacji w języku naturalnym. W tym artykule podsumowano najnowsze ogłoszenia, praktyczne raporty i dokumentację techniczną, aby przeprowadzić Cię przez wszystko, od tworzenia pierwszego monitu o obrazie po wykonywanie precyzyjnych edycji istniejących zasobów. Każdy drugorzędny nagłówek stawia kluczowe pytanie, aby ukierunkować eksplorację, a trzeciorzędne nagłówki rozbijają szczegóły, których potrzebujesz, aby zacząć budować już dziś.

Czym jest podgląd Gemini 2.0 Flash do generowania i edycji obrazów?

Gemini 2.0 Flash to najnowszy model AI firmy Google zoptymalizowany pod kątem szybkości („Flash”) i zadań multimodalnych, oferujący teraz generowanie i edycję obrazów w wersji zapoznawczej za pośrednictwem Google AI Studio i Vertex AI. Zapowiedziany przez Kat Kampf, Product Manager w Google AI Studio 7 maja 2025 r., podgląd ujawnia nazwę modelu gemini-2.0-flash-preview-image-generation poprzez GenAI API, umożliwiając wyższe wskaźniki żądań i bezproblemową integrację z aplikacjami. India Today Tech potwierdza, że ​​zarówno użytkownicy wersji darmowej (za pośrednictwem aplikacji Gemini), jak i deweloperzy (za pośrednictwem AI Studio/Vertex AI) mogą eksperymentować z tymi ulepszonymi narzędziami bezpłatnie, co oznacza znaczącą demokratyzację zaawansowanej sztucznej inteligencji obrazu.

Czym Gemini 2.0 Flash wyróżnia się od poprzednich wersji oprogramowania do generowania obrazów?

W porównaniu z eksperymentalnym modelem obrazu osadzonym wcześniej w Gemini, Flash oferuje:

  • Poprawiona wierność wizualna: Bardziej wyraźne szczegóły, bardziej realistyczne tekstury i lepsze odwzorowanie drobnych elementów, takich jak włosy, liście i odbicia.
  • Ulepszone renderowanie tekstu: Dokładnie rozmieszcza i stylizuje tekst w obrazach, redukując zniekształcone litery i nieprawidłowo wyrównane glify, powszechne w poprzednich wersjach.
  • Niższe wskaźniki blokowania filtrów:Zmniejszone filtry treści przepuszczają mniej rygorystyczne monity, jednocześnie egzekwując zasady dotyczące niedozwolonych materiałów, usprawniając przepływy pracy w przypadku zgodnych z przepisami przypadków użycia.

W jaki sposób programiści mogą generować obrazy za pomocą podglądu Gemini 2.0 Flash?

Aby wygenerować obrazy, wystarczy wywołać GenAI SDK lub REST API za pomocą monitu i określić, że chcesz uzyskać zarówno tryb tekstowy, jak i graficzny.

Użyj API w Google:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Ten fragment kodu ilustruje minimalną konfigurację: zamień GEMINI_API_KEY za pomocą klucza dostosuj contents dostosuj go do swojej wizji twórczej i otrzymaj adres URL wygenerowanego obrazu.

Użyj generowania obrazu Gemini 2.0 Flash w CometAPI

Jakie najlepsze praktyki w zakresie zachęty przynoszą efekty wizualne najwyższej jakości?

  1. Bądź konkretny co do stylu i medium:„Malarstwo akwarelowe”, „neonowa scena cyberpunkowa” lub „minimalistyczna sztuka wektorowa” pomagają modelowi zakotwiczyć jego wynik.
  2. Dodaj wskazówki dotyczące kompozycji:Zwroty takie jak „reguła trójpodziału”, „dramatyczne oświetlenie z lewej strony” lub „obiekt na pierwszym planie w ostrej ostrości” pomagają w kadrowaniu.
  3. Powtarzaj za pomocą kolejnych wskazówek:Używaj edycji konwersacyjnej (patrz następna sekcja), aby poprawić równowagę kolorów, dostosować proporcje lub dopracować szczegóły bez konieczności zaczynania od zera.

Jak można edytować istniejące obrazy w sposób konwersacyjny?

Edycja polega na przesłaniu obrazu lub wybraniu wcześniej wygenerowanego zasobu, a następnie wydaniu instrukcji w języku naturalnym w celu zmiany określonych obszarów lub atrybutów.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

Jakie funkcje edycji konwersacji są obsługiwane?

  • Edycje selektywne: Zmień tylko wyznaczone obszary (np. „rozjaśnij oczy”, „dodaj kaligrafię do drogowskazu”), nie wpływając na otaczające piksele.
  • Współrysowanie w czasie rzeczywistym:Dzięki aplikacji Gemini Co-Drawing Sample wielu współpracowników może szkicować i dodawać adnotacje bezpośrednio w AI Studio, co przyspiesza iteracyjne przepływy pracy.
  • Rekontekstualizacja:Umieszczaj produkty lub postacie w zupełnie nowych scenach — idealne rozwiązanie do makiet marketingowych lub szybkiego prototypowania koncepcji wizualnych.
  • Usuwanie znaku wodnego:Wcześni użytkownicy zgłaszają, że Gemini 2.0 Flash może usuwać widoczne znaki wodne i zastępować je neutralnym znakiem SynthID, choć obowiązują wytyczne dotyczące etycznego użytkowania.

Gemini 2.0 Flash

Jakie limity stawek i ceny obowiązują w wersji zapoznawczej?

Google zniosło wiele ograniczeń obowiązujących w fazie eksperymentalnej: programiści korzystają z wyższych limitów za minutę i niższych stawek za wersję zapoznawczą.

W jaki sposób ulepszono limity stawek?

  • Zwiększone QPS:Liczba żądań na sekundę wzrosła dwukrotnie w porównaniu z poprzednim modelem eksperymentalnym, co pozwala na obsługę obciążeń o dużej intensywności oraz aplikacji czasu rzeczywistego.
  • Edycja zbiorcza:Gemini akceptuje teraz do 10 obrazów w pojedynczej partii do edycji, usprawniając przepływy pracy wymagające spójnych zmian stylu w wielu zasobach.

Jak wyglądają ceny podglądowe?

  • Generowanie obrazu:Około 0.039 USD za obraz (3.9 centa), rozliczane za każdy unikalny wydruk.
  • Operacje edycyjne:Ceny podobne do cen za pracę generacji, z planowanymi dalszymi rabatami po zakończeniu okresu próbnego.

W jaki sposób uzyskujesz obecnie dostęp do podglądu i go konfigurujesz?

  1. Zaloguj do Google AI Studio lub Vertex AI w Google Cloud Console.
  2. Włącz API GenAI i utwórz klucz API w obszarze „Dane uwierzytelniające”.
  3. Wybierz model gemini-2.0-flash-preview-image-generation w kodzie lub wywołaniach API.
  4. Prześlij obrazy źródłowe (w przypadku edycji) za pośrednictwem pamięci masowej w chmurze lub bezpośrednio w interfejsie użytkownika Studio.
  5. odwołać się swoje monity i wyniki przeglądu w panelu Studio lub programowo.

Jakich ulepszeń możemy się spodziewać w przyszłości?

Google zapowiedziało kilka udoskonaleń, które zostaną wprowadzone, gdy Gemini 2.0 Flash wyjdzie poza fazę preview:

Rozszerzone możliwości

  • Wyjścia o wyższej rozdzielczości (do 4K+), idealny do druku i prezentacji na dużą skalę.
  • Zaawansowane mieszanie stylów, łącząc wiele odniesień artystycznych w jednym obrazie.

Szersza integracja

  • Natywne wsparcie w Chrome, Docs, Slidesoraz innych aplikacji G Suite, umożliwiających tworzenie i edycję obrazów jednym kliknięciem.
  • Ulepszone agenty multimodalne (Projekt Astra), integrując zadania związane z obrazami z dłuższymi konwersacjami uwzględniającymi kontekst.

Umożliwiając zarówno generowanie obrazów, jak i precyzyjne edycje za pośrednictwem intuicyjnego interfejsu konwersacyjnego, podgląd Gemini 2.0 Flash wyznacza kamień milowy w dostępnej, skalowalnej kreatywności opartej na sztucznej inteligencji. Niezależnie od tego, czy tworzysz prototypy wizualizacji produktów, współpracujesz nad zasobami marketingowymi, czy po prostu eksplorujesz nowe horyzonty artystyczne, podgląd daje Ci narzędzia do szybszej i bogatszej iteracji niż kiedykolwiek wcześniej. Wraz z rozwojem podglądu do pełnej wersji, spodziewaj się jeszcze głębszej integracji w ekosystemie Google i coraz bardziej zaawansowanych możliwości, które pobudzą Twój kolejny przełom.

Jak zacząć

Deweloperzy mogą uzyskać dostęp  Gemini 2.0 Flash Exp-Image-Generation API przez Interfejs API CometNa początek zapoznaj się z możliwościami modelu w Playground i skonsultuj się z Przewodnik po API (nazwa modelu: gemini-2.0-flash-exp-image-generation) aby uzyskać szczegółowe instrukcje. Należy pamiętać, że niektórzy deweloperzy mogą potrzebować zweryfikować swoją organizację przed użyciem modelu. Gemini 2.0 Flash pre-Image-Generation API zostanie wkrótce uruchomiony.

SHARE THIS BLOG

500+ modeli w jednym API

Do 20% zniżki