Come creare e modificare le immagini con l'anteprima Flash di Gemini 2.0

CometAPI
AnnaMay 9, 2025
Come creare e modificare le immagini con l'anteprima Flash di Gemini 2.0

Fin dal suo lancio, avvenuto il 7 maggio 2025, le funzionalità di Gemini 2.0 Flash per la gestione delle immagini sono disponibili in anteprima, consentendo a sviluppatori e creativi di generare e perfezionare immagini attraverso conversazioni in linguaggio naturale. Questo articolo sintetizza gli ultimi annunci, report pratici e documentazione tecnica per guidarvi in ​​ogni fase, dalla creazione del primo prompt per l'immagine all'esecuzione di modifiche precise su risorse esistenti. Ogni titolo secondario pone una domanda chiave per orientare la vostra esplorazione, mentre i titoli terziari illustrano le specifiche necessarie per iniziare a creare oggi stesso.

In cosa consiste l'anteprima Flash di Gemini 2.0 per la generazione e la modifica delle immagini?

Gemini 2.0 Flash è l'ultimo modello di intelligenza artificiale di Google, ottimizzato per la velocità ("Flash") e le attività multimodali, che ora offre la generazione e la modifica delle immagini in anteprima tramite Google AI Studio e Vertex AI. Annunciata da Kat Kampf, Product Manager di Google AI Studio, il 7 maggio 2025, l'anteprima rivela il nome del modello. gemini-2.0-flash-preview-image-generation Grazie all'API GenAI, che consente tassi di richiesta più elevati e un'integrazione perfetta nelle applicazioni. India Today Tech conferma che sia gli utenti gratuiti (tramite l'app Gemini) che gli sviluppatori (tramite AI Studio/Vertex AI) possono sperimentare questi strumenti aggiornati senza alcun costo, segnando una significativa democratizzazione dell'intelligenza artificiale avanzata per le immagini.

Cosa distingue Gemini 2.0 Flash dalle precedenti versioni di generazione di immagini?

Rispetto al modello di immagine sperimentale precedentemente incorporato in Gemini, Flash offre:

  • Fedeltà visiva migliorata: Dettagli più nitidi, texture più realistiche e migliore gestione di elementi fini come capelli, fogliame e riflessi.
  • Rendering del testo migliorato: Posiziona e formatta con precisione il testo all'interno delle immagini, riducendo le lettere illeggibili e i glifi disallineati comuni nelle versioni precedenti.
  • Tassi di blocco del filtro più bassi: I filtri per i contenuti meno rigidi lasciano passare richieste più innocue, continuando comunque a far rispettare le policy sui materiali non consentiti e semplificando i flussi di lavoro per i casi d'uso conformi.

Come possono gli sviluppatori generare immagini utilizzando l'anteprima Flash di Gemini 2.0?

Per generare immagini è sufficiente richiamare GenAI SDK o REST API con il prompt e specificare che si desiderano sia la modalità testo sia quella immagine.

Utilizza l'API di Google:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Questo frammento illustra la configurazione minima: sostituire GEMINI_API_KEY con la tua chiave, regola la contents alla tua visione creativa e ricevi un URL all'immagine generata.

Utilizzare la generazione di immagini Flash Gemini 2.0 in CometAPI

Quali sono le best practice che producono i contenuti visivi di qualità più elevata?

  1. Sii specifico riguardo allo stile e al mezzo: "Dipinto ad acquerello", "scena cyberpunk al neon" o "arte vettoriale minimalista" aiutano il modello a fissare il suo output.
  2. Includi suggerimenti compositivi: Frasi come "regola dei terzi", "illuminazione drammatica da sinistra" o "soggetto in primo piano a fuoco" guidano l'inquadratura.
  3. Ripeti con prompt di follow-up: Utilizza le modifiche conversazionali (vedi la sezione successiva) per migliorare il bilanciamento del colore, regolare le proporzioni o perfezionare i dettagli senza partire da zero.

Come è possibile modificare le immagini esistenti in modo colloquiale?

La modifica avviene caricando un'immagine o selezionando una risorsa generata in precedenza, quindi impartendo istruzioni in linguaggio naturale per modificare aree o attributi specifici.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

Quali funzionalità di modifica conversazionale sono supportate?

  • Modifiche selettive: Modifica solo le regioni designate (ad esempio, "illumina gli occhi", "aggiungi calligrafia al cartello") senza influenzare i pixel circostanti.
  • Co-disegno in tempo reale:Grazie all'app Gemini Co-Drawing Sample, più collaboratori possono disegnare e annotare direttamente in AI Studio, accelerando i flussi di lavoro iterativi.
  • Ricontestualizzazione: Inserisci prodotti o personaggi in scene completamente nuove: ideale per bozzetti di marketing o per la prototipazione rapida di concetti visivi.
  • Rimozione della filigrana:I primi utilizzatori segnalano che Gemini 2.0 Flash può rimuovere le filigrane visibili e sostituirle con un marchio SynthID neutro, sebbene si applichino linee guida per un utilizzo etico.

Gemelli 2.0 Flash

Quali limiti di tariffa e prezzi si applicano nell'anteprima?

Google ha eliminato molti vincoli della fase sperimentale: gli sviluppatori beneficiano di quote al minuto più elevate e di tariffe di anteprima scontate.

Come sono migliorati i limiti di velocità?

  • QPS aumentato: Richieste al secondo raddoppiate rispetto al precedente modello sperimentale, supportando carichi di lavoro a raffica e applicazioni in tempo reale.
  • Modifica collettiva:Gemini ora accetta fino a 10 immagini in un unico batch per la modifica, semplificando i flussi di lavoro che richiedono adattamenti di stile coerenti su più risorse.

Come si presenta l'anteprima dei prezzi?

  • Generazione di immagini: Circa $ 0.039 per immagine (3.9 centesimi), fatturati per output univoco.
  • Operazioni di modifica: I prezzi sono simili a quelli dei lavori di generazione precedente, con ulteriori sconti previsti una volta conclusa l'anteprima.

Come si accede e si configura l'anteprima oggi?

  1. Registrati su Google AI Studio o Vertex AI nella Google Cloud Console.
  2. Abilita l'API GenAI e creare una chiave API in "Credenziali".
  3. Seleziona il modello gemini-2.0-flash-preview-image-generation nel codice o nelle chiamate API.
  4. Caricare immagini sorgente (in caso di modifica) tramite Cloud Storage o direttamente nell'interfaccia utente di Studio.
  5. invocare i tuoi prompt e i risultati delle revisioni nella dashboard di Studio o a livello di programmazione.

Quali miglioramenti possiamo aspettarci in futuro?

Google ha segnalato diversi miglioramenti imminenti una volta che Gemini 2.0 Flash andrà oltre l'anteprima:

Capacità ampliate

  • Uscite ad alta risoluzione (fino a 4K+), ideale per la stampa e le esposizioni su larga scala.
  • Fusione di stili avanzata, combinando molteplici riferimenti artistici in un'unica immagine.

Integrazione più ampia

  • Supporto nativo in Chrome, Docs, Slidese altre applicazioni G Suite, consentendo la creazione e la modifica delle immagini con un solo clic.
  • Agenti multimodali migliorati (Progetto Astra), integrando attività basate sulle immagini in conversazioni più lunghe e consapevoli del contesto.

Abilitando sia la generazione di immagini che modifiche precise tramite un'interfaccia conversazionale intuitiva, l'anteprima di Gemini 2.0 Flash segna una pietra miliare nella creatività accessibile e scalabile basata sull'intelligenza artificiale. Che tu stia prototipando immagini di prodotto, collaborando a risorse di marketing o semplicemente esplorando nuovi orizzonti artistici, l'anteprima ti offre gli strumenti per iterare in modo più rapido e ricco che mai. Con l'evoluzione dell'anteprima verso la versione completa, aspettati un'integrazione ancora più profonda nell'ecosistema Google e funzionalità sempre più sofisticate per alimentare la tua prossima svolta.

Iniziamo

Gli sviluppatori possono accedere  API di generazione di immagini Flash Exp di Gemini 2.0 attraverso CometaAPIPer iniziare, esplora le capacità del modello nel Playground e consulta il Guida API (nome del modello: gemini-2.0-flash-exp-image-generation) per istruzioni dettagliate. Si noti che alcuni sviluppatori potrebbero dover verificare la propria organizzazione prima di utilizzare il modello. L'API Gemini 2.0 Flash pre-Image-Generation sarà lanciata a breve.

SHARE THIS BLOG

500+ Modelli in Una API

Fino al 20% di sconto