ModelosSoporteEmpresaBlog
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Recursos
Modelos de IABlogEmpresaRegistro de cambiosAcerca de
2025 CometAPI. Todos los derechos reservados.Política de PrivacidadTérminos de Servicio
Home/Models/Google/Nano Banana 2
G

Nano Banana 2

Entrada:$0.4/M
Salida:$2.4/M
コア機能の概要: 解像度: 最大4K(4096×4096)、Proと同等。参照画像の一貫性: 参照画像は最大14枚(オブジェクト10件 + キャラクター4件)、スタイル/キャラクターの一貫性を維持。極端なアスペクト比: 1:4、4:1、1:8、8:1を新規追加、縦長画像・ポスター・バナーに最適。テキストレンダリング: 高度なテキスト生成、インフォグラフィックおよびマーケティングポスターのレイアウトに最適。検索機能の強化: Google Search + Image Searchを統合。グラウンディング: 思考プロセスを内蔵、複雑なプロンプトは生成前に推論。
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API
Versiones

Especificaciones técnicas de Gemini 3.1 Flash Image Preview

ElementoGemini 3.1 Flash Image Preview
ProveedorGoogle
Familia de modelosGemini 3.1 (nivel Flash)
Enfoque principalGeneración multimodal rápida con vista previa de imagen
Tipos de entradaTexto, imagen
Tipos de salidaTexto, imagen (generación de vista previa)
Ventana de contextoHasta 1M tokens (estándar del nivel Flash de Gemini 3.x)
Nivel de latenciaBaja latencia, alto rendimiento
Compatibilidad con streamingSí
Llamadas a herramientasSí (framework de herramientas de la API de Gemini)
Versión3.1

¿Qué es Nano Banana 2?

Nano Banana 2 es el apodo popular usado por la prensa y la comunidad de desarrolladores para el recién lanzado modelo Gemini-3.1-Flash-Image. Google lo posiciona como el motor de imágenes del nivel “Flash” que ofrece una fidelidad visual casi de nivel Pro con mucha menor latencia y costo, adecuado para generación a gran escala, edición iterativa rápida y flujos de trabajo de producto integrados en los servicios de Google. Hereda el razonamiento multimodal de Gemini 3.1 y añade capacidades centradas en imagen (texto legible en imágenes, composición multiimagen, compatibilidad con relaciones de aspecto amplias, 4K nativo).

Características principales

  • Generación de alta velocidad y multirresolución: Velocidad de nivel Flash con opciones de salida 0.5K / 1K / 2K / 4K y nuevas relaciones de aspecto extremas (1:4, 4:1, 1:8, 8:1).
  • Anclaje web en tiempo real: Integra resultados de búsqueda de texto e imagen para anclar el contenido generado en información actual de la web cuando se habilita “Thinking” o el anclaje de búsqueda. Útil para referencias actualizadas e infografías factuales.
  • Renderizado de texto mejorado: Mejor renderizado de texto corto y texto gráfico (fuentes, tamaños) que en modelos Flash anteriores; aún imperfecto en párrafos largos/texto muy pequeño.
  • Edición multientrada y flujos multivueltas: Sólida compatibilidad para combinar varias imágenes como entradas y realizar ediciones iterativas a lo largo de varias vueltas.

📊 Rendimiento en benchmarks — Generación y edición de imágenes (puntuaciones Elo)

CapacidadGemini 3.1 Flash Image (Nano Banana 2)Gemini 2.5 Flash Image (Nano Banana)Gemini 3 Pro Image (Nano Banana Pro)GPT-Image 1.5Seedream 5.0 LiteGrok Imagine Image Pro
Texto a imagen — Preferencia general1079.0 ± 7.01073.0 ± 5.0942.0 ± 6.01021.0 ± 5.01047.0 ± 5.0928.0 ± 8.0
Texto a imagen — Calidad visual1140.0 ± 6.01129.0 ± 6.0929.0 ± 6.01043.0 ± 5.0975.0 ± 5.0759.0 ± 10.0
Texto a imagen — Infografías (factualidad)1114.0 ± 14.01074.0 ± 12.0881.0 ± 13.01102.0 ± 13.0985.0 ± 12.0890.0 ± 22.0
Edición — General1065.0 ± 9.01047.0 ± 9.0913.0 ± 9.01051.0 ± 10.0995.0 ± 8.0937.0 ± 9.0
Edición — Personajes1056.0 ± 7.01049.0 ± 7.0952.0 ± 7.01050.0 ± 8.01025.0 ± 7.0894.0 ± 8.0
Edición — Creativa1023.0 ± 7.01031.0 ± 7.0976.0 ± 7.01004.0 ± 7.01017.0 ± 7.0938.0 ± 7.0
Edición — Objeto/Entorno1029.0 ± 8.01018.0 ± 8.0945.0 ± 8.01042.0 ± 10.0976.0 ± 8.0946.0 ± 9.0
Edición — Entrada múltiple1037.0 ± 8.01016.0 ± 8.0919.0 ± 9.01056.0 ± 12.01014.0 ± 9.0N/A
Edición — Estilización1045.0 ± 7.01031.0 ± 7.0862.0 ± 8.01045.0 ± 9.0996.0 ± 7.0984.0 ± 7.0

Conclusiones clave de esta tabla de benchmarks:

  • En las categorías de generación de texto a imagen y edición de imágenes, Gemini 3.1 Flash Image lidera de forma consistente o iguala las puntuaciones más altas entre los modelos de nivel Flash y muchos modelos de imagen competitivos.
  • El modelo muestra resultados especialmente sólidos en los benchmarks de Calidad visual e Infografías (factualidad), lo que indica que destaca no solo en calidad estética, sino también en renderizar contenido estructuralmente preciso.
  • En edición con entrada múltiple, Nano Banana 2 también muestra una generalización robusta, con puntuaciones superiores a su generación Flash anterior.

Estas evaluaciones se realizan mediante comparaciones Elo lado a lado por humanos en un conjunto diverso de benchmarks, reflejando tanto la preferencia como la fidelidad en tareas comunes de generación/edición de imágenes.

Nano Banana 2 vs Nano Banana vs Nano Banana Pro

ModeloPosicionamientoBenchmark representativo/notas
Gemini 3.1 Flash Image (Nano Banana 2)Nivel Flash: velocidad + alta calidad visual (2K–4K)Preferencia general 1079.0 ± 7.0; calidad visual 1140 ± 6.0 (GenAI-Bench interno).
Gemini 2.5 Flash Image (Nano Banana)Versión Flash anterior (menor fidelidad)Ligeramente menores puntuaciones de preferencia/calidad visual frente a 3.1.
Gemini 3 Pro Image (Nano Banana Pro)Nivel Pro: mayor fidelidad percibida en tareas complejas, mayor costo/latenciaCompromisos diferentes; algunas métricas muestran clasificaciones relativas distintas en tareas especializadas.
GPT-Image 1.5 / otros modelos comercialesCompetidores (abiertos/cerrados)En benchmarks internos de Google, GPT-Image y otros quedaron por debajo de Gemini 3.1 en calidad visual y preferencia general en la evaluación reportada. Comparaciones independientes de terceros varían.

Cuándo elegir Flash Image Preview:

  • Vista previa de imagen en tiempo real en aplicaciones
  • Generación de imágenes a gran escala sensible a los costos
  • Asistentes de diseño interactivos

Cómo acceder e integrar Nano Banana 2

Paso 1: Regístrate para obtener la clave de API

Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Inicia sesión en tu Consola de CometAPI. Obtén la credencial de acceso (API key) de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave de token: sk-xxxxx y envíala.

Paso 2: Envía solicitudes a la API de Nano Banana 2

Selecciona el endpoint “gemini-3.1-flash-image-preview8” para enviar la solicitud de API y configura el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece pruebas en Apifox para tu comodidad. Reemplaza <YOUR_API_KEY> por tu clave de CometAPI real de tu cuenta. Dónde invocarlo: Gemini genera imagen

Nano Banana 2 admite edición de imágenes, generación de imágenes y flujos de trabajo con múltiples imágenes. Para la edición de imágenes, debes proporcionar la URL de la imagen. Para más parámetros, consulta la documentación.

Paso 3: Recupera y verifica los resultados

Procesa la respuesta de la API para obtener el resultado generado. Tras el procesamiento, la API devuelve el estado de la tarea y los datos de salida. Puedes descargar directamente la imagen en tu equipo desde el playground (normalmente en formato PNG). En el proceso de la API se genera una URL de imagen; descárgala a la brevedad.

Preguntas Frecuentes

What exactly is Nano Banana 2 and what does it do?

Nano Banana 2 es el modelo más reciente de Google para generación y edición de imágenes con IA, basado en la tecnología de imagen Gemini Flash para ofrecer generación visual rápida y de alta calidad y un seguimiento preciso de instrucciones en entradas de texto e imagen.

How does Nano Banana 2 relate to Gemini 3.1 Flash Image?

Nano Banana 2 es, en esencia, la marca orientada al consumidor del modelo Gemini 3.1 Flash Image de Google, que combina capacidades avanzadas de versiones anteriores de Nano Banana con la velocidad de los modelos Flash.

What improvements does Nano Banana 2 add over earlier Nano Banana models?

Nano Banana 2 aporta mayor velocidad de generación, detalles más nítidos, mejor fidelidad a las instrucciones, renderizado de texto mejorado/traducción localizada y un control creativo más amplio, a la vez que pone muchas funciones de nivel profesional a disposición del nivel básico.

What kinds of images and resolutions can Nano Banana 2 generate?

El modelo admite salidas flexibles con varias relaciones de aspecto y resoluciones de hasta 4K, adecuadas para redes sociales, anuncios, pantallas y contenido profesional.

Can Nano Banana 2 maintain consistency in complex compositions?

Sí — mantiene la coherencia entre múltiples sujetos y objetos (p. ej., hasta cinco personajes y 14 objetos en un flujo de trabajo con un único prompt), lo que ayuda en escenas narrativas y tareas tipo storyboard.

What image generation use cases is Gemini 3.1 Flash Image best suited for?

Es ideal para la creación y edición de imágenes de nivel profesional, infografías, coherencia entre múltiples imágenes, renderizado de texto y salidas multilingües localizadas, especialmente cuando los flujos de trabajo requieren control preciso e iteraciones repetidas.

Does Nano Banana 2 use real-time information or world knowledge?

Nano Banana 2 incorpora conocimientos del mundo real e integración con la búsqueda de imágenes para ayudar a generar sujetos, infografías y elementos visuales con contexto de ubicación más precisos.

Can Gemini 3.1 Flash Image generate detailed text within images or diagrams?

Sí — puede generar y renderizar texto claro dentro de las imágenes, pero el texto extremadamente pequeño o denso de varios párrafos a veces sigue siendo un desafío.

Características para Nano Banana 2

Explora las características clave de Nano Banana 2, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para Nano Banana 2

Explora precios competitivos para Nano Banana 2, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo Nano Banana 2 puede mejorar tus proyectos mientras mantienes los costos manejables.

nano-banana-2(image)

variant / aliasPrice
gemini-3.1-flash-image (0.5K)≈ $0.03600
gemini-3.1-flash-image (1K)≈ $0.05360
gemini-3.1-flash-image (2K)≈ $0.08080
gemini-3.1-flash-image (4K)≈ $0.12080
gemini-3.1-flash-image-preview (0.5K)≈ $0.03600
gemini-3.1-flash-image-preview (1K)≈ $0.05360
gemini-3.1-flash-image-preview (2K)≈ $0.08080
gemini-3.1-flash-image-preview (4K)≈ $0.12080

Código de ejemplo y API para Nano Banana 2

Accede a código de muestra completo y recursos de API para Nano Banana 2 para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de Nano Banana 2 en tus proyectos.
POST
/v1beta/models/{model}:generateContent
Python
JavaScript
Curl
from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

Python Code Example

from google import genai
from google.genai import types
from PIL import Image
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

prompt = (
    "A woman leaning on a wooden railing of a traditional Chinese building. "
    "She is wearing a blue cheongsam with pink and red floral motifs and a headdress "
    "made of colorful flowers, including roses and lilacs. Realistic painting style, "
    "focusing on the textural details of the clothing patterns and wooden buildings."
)
aspect_ratio = "9:16"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(aspect_ratio=aspect_ratio),
    ),
)

os.makedirs("./output", exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        output_path = "./output/gemini-3.1-flash-image-preview.png"
        image.save(output_path)
        print(f"Image saved to {output_path}")

JavaScript Code Example

import fs from "fs";
import path from "path";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-image-preview";

const prompt =
  "A woman leaning on a wooden railing of a traditional Chinese building. " +
  "She is wearing a blue cheongsam with pink and red floral motifs and a headdress " +
  "made of colorful flowers, including roses and lilacs. Realistic painting style, " +
  "focusing on the textural details of the clothing patterns and wooden buildings.";

const response = await fetch(`${base_url}/models/${model}:generateContent`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        role: "user",
        parts: [{ text: prompt }],
      },
    ],
    generationConfig: {
      responseModalities: ["IMAGE"],
      imageConfig: {
        aspectRatio: "9:16",
      },
    },
  }),
});

const data = await response.json();

const outputDir = "./output";
if (!fs.existsSync(outputDir)) {
  fs.mkdirSync(outputDir, { recursive: true });
}

for (const candidate of data.candidates) {
  for (const part of candidate.content.parts) {
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageBuffer = Buffer.from(part.inlineData.data, "base64");
      const outputPath = path.join(outputDir, "gemini-3.1-flash-image-preview.png");
      fs.writeFileSync(outputPath, imageBuffer);
      console.log(`Image saved to ${outputPath}`);
    }
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

Versiones de Nano Banana 2

La razón por la cual Nano Banana 2 tiene múltiples instantáneas puede incluir factores potenciales como variaciones en la salida tras actualizaciones que requieren instantáneas anteriores para mantener la coherencia, ofrecer a los desarrolladores un período de transición para adaptación y migración, y diferentes instantáneas que corresponden a endpoints globales o regionales para optimizar la experiencia del usuario. Para conocer las diferencias detalladas entre versiones, consulte la documentación oficial.
ID del modelodescripciónDisponibilidadSolicitud
gemini-3.1-flash-imageRecomendado, apunta al modelo más reciente✅Gemini genera imágenes
gemini-3.1-flash-image-previewVista previa oficial✅Gemini genera imágenes

Más modelos

D

Doubao Seedream 5

Por Solicitud:$0.028
Seedream 5.0 Lite es un modelo unificado multimodal de generación de imágenes, dotado de capacidades de pensamiento profundo y búsqueda en línea, que presenta una mejora integral en sus capacidades de comprensión, razonamiento y generación.
F

FLUX 2 MAX

Por Solicitud:$0.008
FLUX.2 [max] es un modelo de inteligencia visual de primer nivel de Black Forest Labs (BFL) diseñado para flujos de trabajo de producción: marketing, fotografía de producto, comercio electrónico, flujos creativos y cualquier aplicación que requiera una identidad coherente de personajes/productos, renderizado de texto preciso y detalle fotorrealista a resoluciones de varios megapíxeles. La arquitectura está diseñada para un seguimiento sólido de instrucciones, fusión de múltiples referencias (hasta diez imágenes de entrada) y generación fundamentada (capacidad de incorporar contexto web actualizado al producir imágenes).
X

Black Forest Labs/FLUX 2 MAX

Por Solicitud:$0.056
FLUX.2 [max] es la variante insignia y de la más alta calidad de la familia FLUX.2 de Black Forest Labs (BFL). Se posiciona como un modelo de generación texto→imagen y de edición de imágenes de nivel profesional que se centra en la máxima fidelidad, el cumplimiento del prompt y la consistencia de edición en personajes, objetos, iluminación y color. BFL y los registros de socios describen FLUX.2 [max] como la variante de primer nivel de FLUX.2, con funciones para edición con múltiples referencias y generación fundamentada.
O

GPT Image 1.5

Entrada:$6.4/M
Salida:$25.6/M
GPT-Image-1.5 es el modelo de imagen de OpenAI dentro de la familia GPT Image. Es un modelo GPT multimodal nativo diseñado para generar imágenes a partir de prompts de texto y realizar ediciones de alta fidelidad en imágenes de entrada, siguiendo de cerca las instrucciones del usuario.
D

Doubao Seedream 4.5

Por Solicitud:$0.032
Seedream 4.5 es el modelo de imagen multimodal de ByteDance/Seed (texto→imagen + edición de imágenes) que se centra en una fidelidad de imagen de nivel de producción, una mayor adherencia al prompt y una consistencia de edición considerablemente mejorada (preservación del sujeto, renderizado de texto/tipografía y realismo facial).
R

Black Forest Labs/FLUX 2 PRO

R

Black Forest Labs/FLUX 2 PRO

Por Solicitud:$0.06
FLUX 2 PRO es el modelo insignia comercial de la serie FLUX 2, que ofrece generación de imágenes de última generación con una calidad y un nivel de detalle sin precedentes. Diseñado para aplicaciones profesionales y empresariales, ofrece una fidelidad superior a los prompts, resultados fotorrealistas y capacidades artísticas excepcionales. Este modelo representa la vanguardia de la tecnología de síntesis de imágenes con IA.

Blog relacionado

¿Cuánto costará OpenClaw en 2026? Desglose completo de precios
Apr 13, 2026
openclaw

¿Cuánto costará OpenClaw en 2026? Desglose completo de precios

El software principal de OpenClaw es 100% gratuito (licencia MIT). Los costos mensuales reales van de $0–$13 para uso personal ligero** (alojamiento de nivel gratuito + modelos económicos) a **$25–$100 para equipos pequeños y $100–$200+ para automatización intensiva. El plan gestionado oficial de OpenClaw Cloud tiene una tarifa fija de $59/mes ($29.50 el primer mes). Los tokens de API son la mayor variable—una optimización inteligente puede reducirlos en un 90%.
GPT Image 1.5 vs Seedream 4.5: ¿Cuál es mejor en 2026?
Apr 12, 2026
gpt-image-1-5
seedream-4-5

GPT Image 1.5 vs Seedream 4.5: ¿Cuál es mejor en 2026?

GPT Image 1.5 (OpenAI, dic. de 2025) destaca por una generación 4× más rápida (5–15 segundos), puntuaciones ELO de LM Arena de primer nivel (~1,264–1,285) y una capacidad superior para seguir instrucciones en tareas de edición. Seedream 4.5 (ByteDance, dic. de 2025) destaca en tipografía, resolución 4K, coherencia entre múltiples imágenes (hasta 14 referencias) y un precio fijo de $0.04/imagen. Elige GPT Image 1.5 por su velocidad y versatilidad; Seedream 4.5 para trabajos comerciales con gran carga de diseño. Ambos son accesibles a un precio asequible mediante la plataforma unificada de **CometAPI**, con ahorros de 20%+ e integración con una sola clave.
¿Cuánto tiempo tarda ChatGPT en generar una imagen en 2026?
Apr 9, 2026
chat-gpt

¿Cuánto tiempo tarda ChatGPT en generar una imagen en 2026?

En 2026, ChatGPT suele generar una imagen en **5–20 segundos** utilizando su modelo más reciente, GPT-Image 1.5 (el sucesor de DALL·E 3). Los prompts simples se completan en tan solo 3–8 segundos, mientras que las solicitudes complejas o de alto nivel de detalle pueden tardar 20–60 segundos durante las horas punta. Los usuarios gratuitos a menudo esperan más (30–60+ segundos), mientras que los suscriptores de Plus/Pro se benefician de un procesamiento prioritario. Estos tiempos representan una mejora importante respecto a los promedios de 15–30 segundos de DALL·E 3 en 2024–2025, gracias a la actualización GPT-Image 1.5 de diciembre de 2025 de OpenAI, que ofrece una inferencia hasta 4× más rápida.
Alibaba Wan2.7-Image Análisis 2026: revolucionario modelo unificado de IA para imágenes
Apr 3, 2026

Alibaba Wan2.7-Image Análisis 2026: revolucionario modelo unificado de IA para imágenes

Wan2.7-Image es el nuevo modelo de imagen unificado de Alibaba Cloud, anunciado el 1 de abril de 2026. Combina generación de imágenes, edición de imágenes y comprensión visual en un único flujo de trabajo, admite la entrada de múltiples imágenes y está diseñado para una generación más rápida que la variante Pro. Alibaba afirma que el modelo puede manejar tareas de texto a imagen, edición de imágenes, generación de conjuntos de imágenes y múltiples imágenes de referencia, mientras que Wan2.7-Image-Pro añade salida 4K y una composición más estable.
Modelo de imágenes Unit-1 de Luma AI (2026): análisis integral y comparación
Mar 24, 2026

Modelo de imágenes Unit-1 de Luma AI (2026): análisis integral y comparación

Uni-1 de Luma AI es un modelo multimodal autorregresivo de imágenes de próxima generación que unifica la generación de imágenes y la comprensión visual en una única arquitectura. A diferencia de los modelos de difusión, procesa tokens de texto e imagen en una secuencia compartida, permitiendo un razonamiento superior, edición y flujos de trabajo creativos de múltiples turnos. Uni-1 supera a competidores como GPT Image 1.5 y Nano Banana 2 en benchmarks basados en lógica como RISEBench.