Funciones clave
- Generación de texto a imagen: convierte indicaciones en lenguaje natural en imágenes con un sólido seguimiento de instrucciones.
- Edición de imágenes / inpainting: acepta imágenes de referencia y máscaras para realizar ediciones específicas.
- Diseño optimizado en costos (“mini”): una huella más pequeña que OpenAI y observadores describen como mucho más barata por imagen que el modelo grande (los mensajes de OpenAI/DevDay y los primeros informes indican ~80% menos costoso).
- Controles de salida flexibles: admite tamaño, formato de salida (JPEG/PNG/WEBP), compresión y un control de calidad (low/medium/high/auto en el cookbook).
Detalles técnicos (arquitectura y capacidades)
- Familia de modelos y entrada/salida: miembro de la familia gpt-image-1; acepta prompts de texto e imágenes de entrada (para ediciones) y devuelve imágenes generadas. Los parámetros de quality/size controlan la resolución (máximo típico ~1536×1024 en esta familia; consulte la documentación para ver los tamaños exactos compatibles).
- Compromisos operativos: diseñado como un modelo de menor tamaño; sacrifica parte de la fidelidad máxima a cambio de mejoras en rendimiento y costo, manteniendo un sólido seguimiento de prompts y funciones de edición.
- Seguridad y metadatos: sigue las barreras de seguridad de OpenAI para imágenes e incorpora opciones de metadatos C2PA para la procedencia cuando están disponibles.
Entradas y salidas — el uso canónico admite:
- Prompt de texto (cadena) para generar una imagen nueva.
- Imagen + máscara para realizar ediciones específicas/inpainting.
- Imágenes de referencia para controlar el estilo o la composición.
Estos se exponen a través de la Images API (nombre del modelogpt-image-1-mini).
Limitaciones
- Menor fidelidad máxima: en comparación con el modelo grande gpt-image-1, mini puede perder algo de microdetalle y fotorrealismo de máximo nivel (compromiso esperado a cambio del costo).
- Renderizado de texto y detalles pequeños: como muchos modelos de imagen, puede tener dificultades con texto pequeño legible, gráficos densos o texturas extremadamente finas; espere posprocesar o usar modelos de mayor capacidad para esas necesidades.
- Alcance de edición: las funciones de edición de imágenes/inpainting están disponibles, pero sugieren algunas limitaciones de edición en comparación con las herramientas web interactivas de ChatGPT; las ediciones son eficaces para muchas tareas, pero pueden requerir refinamiento iterativo.
- Restricciones de seguridad y políticas: las salidas están sujetas a las barreras de moderación/seguridad de OpenAI (contenido explícito, restricciones sobre contenido con derechos de autor, salidas no permitidas). Los desarrolladores pueden controlar la sensibilidad de moderación mediante parámetros de API cuando se ofrezcan.
Casos de uso recomendados
- Generación de contenido de alto volumen (recursos de marketing, miniaturas, arte conceptual rápido) — donde el costo por imagen es el factor principal.
- Edición programática / plantillas — inpainting masivo o generación de variantes a partir de un recurso base.
- Aplicaciones interactivas con restricciones de presupuesto — interfaces de chat o herramientas de diseño integradas donde la velocidad de respuesta y el costo importan más que la fidelidad absoluta máxima.
- Prototipado y generación de imágenes para A/B testing — genere rápidamente muchas imágenes candidatas y amplíe selectivamente o vuelva a ejecutar en modelos más grandes para las versiones finales.
- Cómo acceder a la API de gpt-image-1-mini
Paso 1: Regístrese para obtener una clave API
Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su consola de CometAPI. Obtenga la credencial de acceso, la clave API de la interfaz. Haga clic en “Add Token” en la sección de token API del centro personal, obtenga la clave del token: sk-xxxxx y envíela.
Paso 2: Envíe solicitudes a la API de gpt-image-1-mini
Seleccione el endpoint “\**gpt-image-1-mini \**” para enviar la solicitud API y configure el cuerpo de la solicitud. El método de solicitud y el cuerpo de la solicitud se obtienen de la documentación API de nuestro sitio web. Nuestro sitio web también proporciona pruebas con Apifox para su comodidad. Sustituya <YOUR_API_KEY> por su clave real de CometAPI de su cuenta.
Inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo. Procese la respuesta de la API para obtener la respuesta generada.
Paso 3: Recuperar y verificar resultados
Procese la respuesta de la API para obtener la respuesta generada. Después del procesamiento, la API responde con el estado de la tarea y los datos de salida.