La fijación de precios es la decisión más trascendental al elegir un LLM de frontera, y también es la dimensión en la que la mayoría de las comparaciones publicadas quedan desactualizadas en menos de un trimestre. Este artículo despeja esa confusión. A continuación se presenta una visión actualizada y con fuentes de los precios por token de entrada y salida en los cuatro modelos que concentran la mayor parte del tráfico de modelos de frontera en producción en 2026 (GPT-5.5 de OpenAI, Claude Sonnet 4.6 de Anthropic, Gemini 3.5 Flash de Google y DeepSeek V4), junto con las palancas que cambian de forma significativa su factura a escala: caché de prompts, procesamiento por lotes y recargos por contexto largo.
La pieza se articula en dos preguntas. Primera: a precio de lista, ¿cuánto cuesta cada modelo por millón de tokens y cómo se comparan las tarifas cotizadas en las entradas y salidas que realmente impulsan una factura en producción? Segunda: si se aplica una carga representativa (100 millones de tokens al mes, 80% de entrada y 20% de salida, con tasas de acierto de caché realistas), ¿cuál es la factura mensual en dólares en cada modelo? La primera respuesta establece la tarjeta de tarifas; la segunda indica en qué se convierte esa tarjeta de tarifas cuando toca un patrón real de producción.
Lectura rápida: Entre los cuatro modelos de frontera, el precio de lista abarca aproximadamente dos órdenes de magnitud. DeepSeek V4 es el más barato con $0.435 por millón de tokens de entrada; Claude Opus 4.7 es el más caro con $5.00. La forma de su carga de trabajo, en particular la tasa de aciertos de caché y la relación entrada/salida, cambia cuál es el modelo más barato en la práctica, a menudo más de lo que sugiere la tarjeta de tarifas.
Por qué una comparación de precios “como con como” es más difícil de lo que parece
Las páginas de precios de los proveedores están escritas para los clientes de ese proveedor, no para alguien que evalúa cuatro opciones lado a lado. El resultado es que compararlas produce tres trampas persistentes:
- Los tokens no son iguales entre proveedores. Claude Opus 4.7 incluye un nuevo tokenizador que puede producir hasta un 35% más de tokens para el mismo texto de entrada que Opus 4.6. El tokenizador de Gemini difiere del de OpenAI. La tarjeta de tarifas es por millón de tokens, pero el conteo de tokens para el mismo prompt varía entre proveedores, lo que significa que la tarifa de cabecera es solo una primera aproximación del coste relativo.
- Los niveles de precio por contexto largo crean saltos bruscos de costes. La familia GPT-5.5 de OpenAI tiene tarifas separadas para contextos cortos y largos que entran en vigor alrededor de los 270,000 tokens. Anthropic, por el contrario, mantiene la misma tarifa por token en toda su ventana de contexto de 1M. Las cargas que se sitúan cerca de estos umbrales se tarifican de forma muy diferente a las que se sitúan cómodamente por debajo.
- Los descuentos se acumulan, no son independientes. La caché de prompts, el procesamiento por lotes y los niveles de volumen específicos de cada proveedor pueden reducir drásticamente el coste efectivo, y se acumulan. Una solicitud en lote con caché en Anthropic puede costar tan poco como el 5% de una solicitud estándar sin caché. Una comparación de precios que ignore estas palancas sobreestima el precio de lista, a veces por un orden de magnitud.
La comparación a continuación normaliza estas trampas cuando es posible y las señala explícitamente cuando no lo es.
La comparación de precios de LLM de frontera de 2026
Todas las cifras en dólares estadounidenses por millón de tokens. Fuente: la documentación oficial de precios de cada proveedor a mayo de 2026.
| Modelo | Entrada | Salida | Entrada en caché | Procesamiento por lotes (50% de descuento) | Ventana de contexto | Recargo por contexto largo |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Sí (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Ninguno |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Ninguno |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Sí (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | No disponible | 384K | Ninguno |
Cómo leer la tabla: La entrada en caché es la tarifa que se paga por los tokens servidos desde la caché de prompts (normalmente prompts del sistema, ejemplos few-shot o prefijos de documentos que se repiten entre solicitudes). “Procesamiento por lotes” es la tarifa que se paga para cargas asíncronas con hasta 24 horas de latencia. “Recargo por contexto largo” indica si el proveedor eleva las tarifas por encima de un umbral de longitud de contexto; para quienes lo hacen, el umbral aparece entre paréntesis.
Dónde gana cada modelo
GPT-5.5: el valor por defecto de mayor capacidad para razonamiento difícil y trabajo agéntico
GPT-5.5 es el modelo de frontera de OpenAI para cargas profesionales complejas: agentes de programación, planificación en múltiples pasos, uso de herramientas de larga duración y análisis de documentos donde la profundidad de razonamiento es el requisito dominante. También es el más caro de los grandes modelos de frontera estadounidenses en entrada ($5.00 por millón) y el más alto en salida ($30.00 por millón), lo que significa que se gana su lugar en cargas en las que la alternativa es pagar una tarifa insignia a un modelo diferente que resuelve el problema con menor fiabilidad. GPT-5.5 admite caché con un descuento del 90%, procesamiento por lotes con un 50% de descuento, y la tarificación por contexto largo entra en vigor alrededor de la marca de 270K tokens, algo relevante para bases de código muy extensas o contextos de repositorio completo, pero no para cargas RAG típicas.
Claude Sonnet 4.6: la opción recomendada por defecto para la mayoría del tráfico en producción
Sonnet 4.6 es el modelo recomendado de Anthropic para la mayoría de las cargas en producción, y la relación precio-capacidad es la razón. Con $3 en entrada y $15 en salida por millón de tokens, se sitúa por debajo de GPT-5.5 en ambas tarifas, ofreciendo calidad cercana a Opus en las cargas que dominan la mayoría de los sistemas en producción: programación, análisis, tuberías de RAG, chat de cara al cliente y generación de salidas estructuradas. La característica diferenciadora de precio de Sonnet es que la ventana completa de 1M tokens está disponible a tarifas estándar (no existe un recargo por contexto largo), lo que lo convierte en la opción creíble más barata para cargas que ocasionalmente necesitan ingerir documentos muy extensos o repositorios completos. La caché de prompts reduce la entrada en caché al 10% de la tarifa estándar, decisivo para cualquier carga con un prompt del sistema estable.
Gemini 3.5 Flash: el buque insignia con precio más agresivo para trabajo de contexto corto
Gemini 3.5 Flash es el modelo de clase insignia más barato de un gran proveedor estadounidense en precio bruto de API, con $1.50 en entrada y $9.00 en salida por millón de tokens. Para la mayor parte del tráfico en producción, ese es el nivel de precios relevante, y reduce de forma significativa tanto a GPT-5.5 como a Claude Opus 4.7. Un precio más alto que el de los modelos Flash anteriores conlleva costes generales mayores en escenarios agénticos intensivos en tokens (5.5x Intelligence Index cost vs. Gemini 3 Flash due to pricing + usage). La otra característica diferenciadora de Gemini es el nivel gratuito real en Google AI Studio, útil para prototipos pero no relevante para modelos de coste en producción.
DeepSeek V4: dramáticamente más barato, con salvedades que conviene entender
DeepSeek V4 cotiza a $0.435 por millón de tokens de entrada y $0.87 por millón de tokens de salida, lo que es entre cinco y setenta veces más barato que los modelos de frontera estadounidenses, según con cuál lo compare. El modelo en sí es competitivo en muchos benchmarks, particularmente razonamiento y código. Las salvedades conviene explicitarlas: los datos se procesan en China, lo que es inviable para algunas cargas reguladas; la calidad en inglés es sólida pero el modelo está optimizado de forma distinta a los modelos de frontera estadounidenses, y las pruebas cara a cara en su carga específica son esenciales, no opcionales. Para cargas donde estas salvedades son aceptables, DeepSeek cambia realmente la ecuación de costes.
Una nota sobre Claude Opus 4.7 vs Sonnet 4.6. Opus se incluye en la tabla por completitud, pero para la gran mayoría del tráfico en producción, Sonnet 4.6 es la mejor elección económica. Opus cuesta 1.67x que Sonnet tanto en entrada como en salida, y para cargas donde Sonnet es suficiente (que son la mayoría), esa prima no tiene un beneficio compensatorio. Recurra a Opus cuando las evaluaciones muestren que Sonnet falla en una clase específica de tareas: agentes de programación altamente autónomos, flujos de trabajo profesionales de largo horizonte y tareas en las que el seguimiento de instrucciones en el margen es decisivo.
Ejemplo trabajado: lo que realmente cuestan 100 millones de tokens al mes
La tarifa de cabecera por millón de tokens dice poco hasta que toca una carga representativa. El ejemplo a continuación utiliza un perfil que aproxima un sistema de producción no trivial: 100 millones de tokens totales al mes, divididos en 80% de entrada (80M) y 20% de salida (20M), con una tasa de aciertos de caché del 30% en la parte de entrada. Este patrón es ampliamente representativo de un chat de cara al cliente o una carga RAG con un prompt del sistema y contexto documental estables.
La cuenta para cada modelo: coste de entrada en caché + coste de entrada sin caché + coste de salida. La entrada en caché se factura al 10% de la tarifa estándar en los proveedores que ofrecen caché.
| Modelo | Entrada en caché (24M) | Entrada sin caché (56M) | Salida (20M) | Factura mensual total |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Qué le dice esto. En una carga representativa, Sonnet 4.6 cuesta aproximadamente la mitad que GPT-5.5. DeepSeek está en un universo de costes completamente distinto. Estas son cifras de precio de lista; aplicar procesamiento por lotes donde sea elegible reduce cada total en otro 50% en las entradas y salidas (aunque no en los aciertos de caché).
Dos observaciones que conviene llevarse. Primera: la caché es la palanca más impactante que usted controla. El ejemplo anterior asume un 30% de aciertos de caché; súbalo al 60% (totalmente factible en cargas con un prompt del sistema estable) y el coste total cae aproximadamente otro 25%. Segunda: la relación entrada/salida importa mucho. Las cargas intensivas en salida (resumen, redacción de formato largo) se inclinan hacia proveedores con tarifas de salida más baratas, mientras que las intensivas en entrada (análisis de contexto largo, recuperaciones RAG grandes) se inclinan hacia proveedores con tarifas de entrada más baratas y sin recargos por contexto largo.
Los costes ocultos que no aparecen en la página de precios
El precio de lista es el suelo, no el techo. Cinco costes adicionales conviene presupuestarlos explícitamente, porque suelen sorprender a los equipos que pasan de prototipo a producción:
- Tokens de razonamiento. Los modelos con modos de razonamiento extendido (GPT-5.5 Thinking, DeepSeek V4 thinking mode) generan contenido de razonamiento interno que cuenta como tokens de salida. Una única llamada de razonamiento de alto esfuerzo sobre un prompt largo puede consumir 20,000 tokens de razonamiento, que son $0.60 de coste de salida en GPT-5.5 antes de producir la respuesta visible. Presupueste por carga, no por solicitud.
- Recargos por contexto largo. Tanto Gemini 3.5 Flash como GPT-5.5 elevan las tarifas por encima de un umbral de longitud de contexto. Las tuberías de RAG que incluyen documentos grandes pueden, sin que se note, empujar cada solicitud al tramo más caro sin que nadie lo advierta hasta que llega la factura. Mida la longitud real de sus prompts en producción y compruebe si está cruzando el umbral.
- Multiplicadores por residencia de datos. Anthropic cobra una prima del 10% por inferencia solo en EE. UU. en Opus 4.7 y Sonnet 4.6. OpenAI aplica un recargo del 10% en endpoints de residencia de datos para la familia GPT-5.4. Para cargas reguladas en las que esto importe, inclúyalo en la tarjeta de tarifas desde el primer día.
- Deriva en la verbosidad de salida. Cuando una versión nueva del modelo es más minuciosa por defecto (como se dice que lo es Opus 4.7 frente a Opus 4.6), los tokens de salida por respuesta pueden aumentar incluso si la longitud de la entrada permanece constante. La salida se tarifa 5x más cara que la entrada en la línea de Anthropic, así que un aumento del 20% en la verbosidad de salida es un 20% más en el principal impulsor del coste.
- Solicitudes fallidas y reintentadas. La mayoría de los proveedores no facturan los errores 4xx y 5xx, pero sí facturan las generaciones parciales y los reintentos que tienen éxito en el segundo intento. En sistemas de producción con lógica de reintentos activa, esto puede añadir algunos puntos porcentuales a la factura. Conviene saberlo cuando concilie las facturas del proveedor con el coste esperado.
Cómo encaja CometAPI
Los cuatro modelos anteriores, más 500+ adicionales, están disponibles a través de CometAPI en un único endpoint compatible con OpenAI, con una única credencial, facturación unificada y sin configurar cuentas por proveedor. Los precios en CometAPI se miden por token a las mismas tarifas por modelo publicadas por los proveedores subyacentes, con créditos comprados por adelantado y aplicados a cualquier modelo del catálogo. El valor de enrutar a través de CometAPI es operativo más que por token: una credencial que gestionar, una factura que conciliar y la capacidad de cambiar de GPT-5.5 a Claude Sonnet 4.6 a Gemini 3.5 Flash cambiando una sola cadena en su código.
Hay cargas en las que el acceso directo al proveedor es la decisión correcta. Si ejecuta una carga de un único modelo a volumen muy alto en un proveedor, con un contrato empresarial negociado, la economía unitaria de ir directo es mejor. Si su postura de cumplimiento requiere una relación específica de vendor-of-record, un agregador complica en lugar de simplificar esa conversación. Para la mayoría de equipos que ejecutan cargas de producción multimodelo, sin embargo, la fricción operativa de gestionar tres o cuatro relaciones directas con proveedores es en sí misma un coste significativo, uno que la tarjeta de tarifas no captura.
Pruebe la comparación en su carga. El nivel gratuito en CometAPI le permite ejecutar el mismo prompt contra GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash y DeepSeek V4 desde un único endpoint, sin registros separados. Para una decisión de coste específica de su carga, ese ejercicio de una hora vale más que cualquier comparación de precios jamás publicada.
Cómo usar esta comparación
El modelo adecuado para su carga depende de qué dimensión de la tarjeta de tarifas importa más para la forma de su tráfico. Un marco práctico de decisión:
- **Si la profundidad de razonamiento es el cuello de botella (**flujos de trabajo agénticos, planificación multietapa compleja, las tareas de programación más difíciles), comience con GPT-5.5 o Claude Opus 4.7. La prima es real pero se gana en estas cargas.
- Si busca la mejor relación precio-capacidad para tráfico general en producción, Claude Sonnet 4.6 es la opción recomendada por defecto. Capacidad cercana a frontera, 1M de contexto a tarifas estándar y compatibilidad sólida con caché.
- Si es sensible a costes y su carga se sitúa por debajo de 200K de contexto, Gemini 3.5 Flash es la opción insignia creíble más barata de un gran proveedor estadounidense.
- Si su carga es de alto volumen y dominada por el precio, y la postura de residencia de datos de DeepSeek es aceptable, V4 cambia la ecuación de costes lo suficiente como para merecer una evaluación seria, especialmente para cargas aptas para procesamiento por lotes.
¿Quiere ir más allá en optimización de costes? Los datos de precios anteriores son la base para el enrutamiento: la práctica de enviar diferentes consultas a distintos modelos en función de cuál puede manejarlas al menor coste. La pieza complementaria, Reducir a la mitad los costes de API de LLM: una guía de enrutamiento de modelos para cargas de producción en 2026, recorre los patrones de enrutamiento que convierten esta tarjeta de tarifas en ahorros reales en su factura mensual.
