Cómo crear y editar imágenes con la vista previa de Flash de Gemini 2.0

CometAPI
AnnaMay 9, 2025
Cómo crear y editar imágenes con la vista previa de Flash de Gemini 2.0

Desde su lanzamiento el 7 de mayo de 2025, las capacidades de imagen de Gemini 2.0 Flash han estado disponibles en versión preliminar, lo que permite a desarrolladores y profesionales creativos generar y perfeccionar elementos visuales mediante conversaciones en lenguaje natural. Este artículo sintetiza los últimos anuncios, informes prácticos y documentación técnica para guiarte en todo el proceso, desde la creación de tu primer mensaje de imagen hasta la realización de ediciones precisas en recursos existentes. Cada encabezado secundario plantea una pregunta clave para orientar tu exploración, mientras que los encabezados terciarios detallan los detalles que necesitas para empezar a crear hoy mismo.

¿Qué es la vista previa Flash de Gemini 2.0 para la generación y edición de imágenes?

Gemini 2.0 Flash es el último modelo de IA de Google, optimizado para la velocidad ("Flash") y tareas multimodales. Ahora ofrece generación y edición de imágenes en vista previa a través de Google AI Studio y Vertex AI. Anunciado por Kat Kampf, gerente de producto de Google AI Studio, el 7 de mayo de 2025, la vista previa revela el nombre del modelo. gemini-2.0-flash-preview-image-generation A través de la API GenAI, se logran tasas de solicitud más altas y una integración fluida en las aplicaciones. India Today Tech confirma que tanto los usuarios gratuitos (a través de la aplicación Gemini) como los desarrolladores (mediante AI Studio/Vertex AI) pueden experimentar con estas herramientas mejoradas sin costo, lo que marca una importante democratización de la IA de imágenes avanzada.

¿Qué distingue a Gemini 2.0 Flash de las versiones anteriores de generación de imágenes?

En comparación con el modelo de imagen experimental previamente incorporado en Gemini, Flash ofrece:

  • Fidelidad visual mejorada:Detalles más nítidos, texturas más realistas y mejor manejo de elementos finos como el cabello, el follaje y los reflejos.
  • Representación de texto mejorada:Coloca y estiliza con precisión el texto dentro de las imágenes, lo que reduce las letras distorsionadas y los glifos desalineados comunes en versiones anteriores.
  • Tasas de bloqueo de filtros más bajasLos filtros de contenido relajados permiten el paso de mensajes más benignos, al mismo tiempo que aplican la política sobre material no permitido, lo que agiliza los flujos de trabajo para casos de uso compatibles.

¿Cómo pueden los desarrolladores generar imágenes utilizando la vista previa Flash de Gemini 2.0?

Generar imágenes es tan simple como invocar el SDK GenAI o la API REST con su solicitud y especificar que desea modalidades de texto e imagen.

Usar API en Google:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Este fragmento ilustra la configuración mínima: reemplazar GEMINI_API_KEY Con tu llave, ajusta el contents Añade una cadena a tu visión creativa y recibe una URL a la imagen generada.

Utilice la generación de imágenes Flash de Gemini 2.0 en CometAPI

¿Qué prácticas recomendadas de estimulación producen imágenes de la más alta calidad?

  1. Sea específico sobre el estilo y el medio.:“Pintura de acuarela”, “escena cyberpunk neón” o “arte vectorial minimalista” ayudan al modelo a anclar su producción.
  2. Incluir sugerencias de composiciónFrases como “regla de los tercios”, “iluminación dramática desde la izquierda” o “sujeto en primer plano bien enfocado” guían el encuadre.
  3. Iterar con indicaciones de seguimiento:Utilice ediciones conversacionales (ver la siguiente sección) para modificar el equilibrio de color, ajustar las proporciones o refinar los detalles sin empezar desde cero.

¿Cómo puedes editar imágenes existentes de forma conversacional?

La edición funciona cargando una imagen o seleccionando un activo generado previamente y luego emitiendo instrucciones en lenguaje natural para alterar áreas o atributos específicos.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

¿Qué funciones de edición conversacional son compatibles?

  • Ediciones selectivas:Cambia solo las regiones designadas (por ejemplo, “ilumina los ojos”, “agrega caligrafía al cartel”) sin afectar los píxeles circundantes.
  • Dibujo conjunto en tiempo real:A través de la aplicación de muestra de codibujo Gemini, varios colaboradores pueden realizar bocetos y realizar anotaciones directamente en AI Studio, lo que acelera los flujos de trabajo iterativos.
  • recontextualización:Coloque productos o personajes en escenas completamente nuevas: ideal para maquetas de marketing o creación rápida de prototipos de conceptos visuales.
  • eliminación de marca de aguaLos primeros usuarios informan que Gemini 2.0 Flash puede eliminar las marcas de agua visibles y reemplazarlas con una marca SynthID neutral, aunque se aplican pautas de uso ético.

Géminis 2.0 Flash

¿Qué límites de tarifas y precios se aplican en la vista previa?

Google ha eliminado muchas restricciones de la fase experimental: los desarrolladores se benefician de cuotas por minuto más altas y tarifas de vista previa con descuento.

¿Cómo han mejorado los límites de tarifas?

  • Aumento de QPS:Las solicitudes por segundo se duplicaron en comparación con el modelo experimental anterior, lo que permitió soportar cargas de trabajo ráfagas y aplicaciones en tiempo real.
  • Edición masivaGemini ahora acepta hasta 10 imágenes en un solo lote para edición, lo que agiliza los flujos de trabajo que requieren ajustes de estilo consistentes en múltiples activos.

¿Cómo se ve el precio de vista previa?

  • Generación de imagen:Aproximadamente $0.039 por imagen (3.9 centavos), facturados por cada salida única.
  • Editar operaciones:El precio es similar al de los trabajos de generación, con más descuentos planificados una vez que concluya la vista previa.

¿Cómo acceder y configurar la vista previa hoy?

  1. Iniciar Sesión a Google AI Studio o Vertex AI en Google Cloud Console.
  2. Habilitar la API GenAI y crea una clave API en “Credenciales”.
  3. Seleccione el modelo gemini-2.0-flash-preview-image-generation en su código o llamadas API.
  4. Subir imágenes de origen (si se están editando) a través de Cloud Storage o directamente en la interfaz de usuario de Studio.
  5. invocar sus indicaciones y revise los resultados en el panel de Studio o de manera programada.

¿Qué mejoras futuras podemos esperar?

Google ha señalado varias mejoras futuras una vez que Gemini 2.0 Flash pase de la vista previa:

Capacidades ampliadas

  • Salidas de mayor resolución (hasta 4K+), ideal para impresiones y exhibiciones a gran escala.
  • Combinación de estilos avanzada, combinando múltiples referencias artísticas en una sola imagen.

Integración más amplia

  • Compatibilidad nativa con Chrome, Docs y Slidesy otras aplicaciones de G Suite, lo que permite la creación y edición de imágenes con un solo clic.
  • Agentes multimodales mejorados (Proyecto Astra), integrando tareas de imágenes en conversaciones más largas y conscientes del contexto.

Al permitir la generación de imágenes y ediciones precisas mediante una interfaz conversacional intuitiva, la vista previa de Gemini 2.0 Flash marca un hito en la creatividad accesible y escalable impulsada por IA. Ya sea que estés creando prototipos visuales de productos, colaborando en recursos de marketing o simplemente explorando nuevos horizontes artísticos, la vista previa te brinda las herramientas para iterar con mayor rapidez y riqueza que nunca. A medida que la vista previa se convierta en la versión completa, espera una integración aún más profunda en el ecosistema de Google y capacidades cada vez más sofisticadas para impulsar tu próximo avance.

Primeros Pasos

Los desarrolladores pueden acceder  API de generación de imágenes Flash Exp de Gemini 2.0 atravesar CometAPIPara comenzar, explore las capacidades del modelo en el Playground y consulte la Guía de API (nombre del modelo: gemini-2.0-flash-exp-image-generation) para obtener instrucciones detalladas. Tenga en cuenta que algunos desarrolladores podrían necesitar verificar su organización antes de usar el modelo. La API de pregeneración de imágenes de Gemini 2.0 Flash se lanzará próximamente.

SHARE THIS BLOG

500+ Modelos en Una API

Hasta 20% de Descuento