Guía de costes LLM: tokens, caching, routing y proveedores

Si estás montando una aplicación en producción con LLMs, lo primero que tienes que aceptar es que el “token” es la unidad de medida más engañosa del sector. No es solo una cuestión de precio por millón; es una cuestión de arquitectura. Si simplemente conectas un fetch a la API de OpenAI y rezas para que el presupuesto aguante, estás diseñando un agujero financiero, no un producto.

Esta guía no es un folleto de marketing. Es un análisis técnico de dónde se va el dinero y cómo evitar que el coste de inferencia mate tu margen de beneficio.

TL;DR: Estrategias de ahorro inmediato

Si no tienes tiempo de leer todo, haz esto:

Sustituye el 80% de tus llamadas: Usa modelos “mini” o “flash” (GPT-4o-mini, Gemini Flash) para tareas de clasificación, extracción y limpieza. Deja el modelo “Pro/Ultra” solo para el razonamiento complejo.
Implementa Prompt Caching: Si repites el mismo contexto (documentación, instrucciones del sistema), el caching reduce el coste de input hasta en un 90%.
Routing Inteligente: No envíes cada query al modelo más caro. Clasifica la complejidad y enruta.
Batch API: Si no necesitas respuesta en tiempo real, usa los endpoints de batch. El descuento suele ser del 50%.

1. Anatomía del coste: Más allá del token

El precio se divide habitualmente en Input (lo que envías) y Output (lo que el modelo genera). El output es siempre más caro porque es computacionalmente más costoso generar tokens secuencialmente que procesar un bloque de entrada en paralelo.

El “Impuesto al Contexto”

El problema no es el precio por token, sino el crecimiento del contexto. En un chat, cada mensaje nuevo vuelve a enviar todo el historial. Si tienes un historial de 4k tokens y el usuario hace 10 preguntas, no has gastado 4k tokens, has gastado aproximadamente 40k tokens de input.

Prompt Caching: El verdadero game-changer

La mayoría de los proveedores (Anthropic, OpenAI, DeepSeek) ya implementan caching de contexto. Si envías un bloque de texto idéntico al anterior (por ejemplo, un manual de 10k tokens), el proveedor no lo procesa de nuevo.

Ahorro: El coste del input cacheado es drásticamente menor (a veces hasta 1/10 del precio).
Clave: El cacheo solo funciona si el prefijo es exactamente igual. Un espacio extra al principio del prompt invalida el cache.

Batch Processing

Si puedes esperar 24 horas por la respuesta, usa la Batch API. Envías un archivo .jsonl y recibes los resultados. El coste es, por norma general, la mitad. Para tareas de análisis de datos masivos o generación de contenido programado, es absurdo usar la API síncrona.

2. Comparativa de Precios (Est. Mayo 2026)

Los precios fluctúan, pero la tendencia es clara: la inteligencia “estándar” tiende a coste cero, mientras que el razonamiento avanzado mantiene un premium.

Proveedor	Modelo	Input (1M tokens)	Output (1M tokens)	Nota
OpenAI	GPT-4o	$2.50	$10.00	El estándar, caro pero fiable.
OpenAI	GPT-4o-mini	$0.15	$0.60	Imbatible en relación coste/eficiencia.
Anthropic	Claude 3.5 Sonnet	$3.00	$15.00	Superior en código, más caro en output.
Anthropic	Claude 3 Haiku	$0.25	$1.25	Muy rápido, ideal para routing.
Google	Gemini 1.5 Pro	$3.50	$10.50	Ventana de contexto masiva.
Google	Gemini 1.5 Flash	$0.075	$0.30	Prácticamente gratis para volumen.
DeepSeek	V3 / R1	$0.27	$1.10	El disruptor chino. Rendimiento SOTA a precio mini.
Mistral	Large 2	$2.00	$6.00	Excelente opción europea / soberana.

Nota: Los precios son estimaciones basadas en tendencias de mercado y APIs oficiales. Verifica siempre el dashboard del proveedor.

3. Caching Semántico: Ahorrando el 50% o más

El caching tradicional (exact match) es inútil en LLMs porque los usuarios no escriben igual. “Cómo cancelar mi suscripción” y “¿Cómo puedo darme de baja?” son lo mismo, pero generan hashes distintos.

Aquí entra el Caching Semántico.

Guardas la query y la respuesta en una base de datos de vectores (Pinecone, Milvus, pgvector).
Cuando llega una nueva query, calculas su embedding y buscas la más cercana en el espacio vectorial.
Si la similitud es $> 0.95$, devuelves la respuesta cacheada sin llamar al LLM.

Cuándo implementarlo:

En aplicaciones de soporte/FAQ donde el 40% de las preguntas son repetitivas.
En herramientas de RAG donde los documentos fuente no cambian cada minuto.

4. Model Routing: No uses un mazo para matar una mosca

El error más común es usar GPT-4o o Claude 3.5 para todo. La arquitectura inteligente utiliza un Router.

El flujo de triaje:

Capa de Clasificación (Cheap Model): Una llamada a GPT-4o-mini o Haiku para determinar la intención.
- ¿Es una pregunta simple? $\rightarrow$ Responder con modelo Cheap.
- ¿Es una tarea de razonamiento/código? $\rightarrow$ Enrutar a modelo Expensive.
- ¿Es spam o malicioso? $\rightarrow$ Bloquear (coste casi cero).
Capa de Ejecución: El modelo seleccionado procesa la tarea.
Capa de Validación (Optional): Un modelo pequeño verifica que el output cumple el formato JSON requerido.

Este enfoque puede reducir la factura mensual en un 60-80% sin degradar la calidad percibida por el usuario.

5. Tiers Gratuitos y “Letras Pequeñas”

Existen opciones para prototipar sin gastar un céntimo, pero todas tienen un precio oculto.

NVIDIA NIM: Ofrece acceso gratuito a una cantidad ingente de modelos (incluyendo Llama y Mistral). El problema no es el precio, sino el RPM (Requests Per Minute). Es ideal para desarrollo, pero no para escalar.
Google AI Studio: El tier gratuito de Gemini es generoso, pero Google utiliza tus datos para entrenar sus modelos. Si manejas datos sensibles de clientes, el “precio” de la gratuidad es la privacidad de tu empresa.
Z.AI: Algunas plataformas emergentes ofrecen planes “unlimited” basados en modelos optimizados o subsidios. Útiles para volumen bruto, pero ojo con la latencia y la estabilidad del SLA.

6. Costes Ocultos: Lo que no aparece en la tabla de precios

El precio por token es la punta del iceberg. El coste real de producción incluye:

Retries y Errores: Una llamada que falla por rate_limit y se reintenta con exponential backoff consume tiempo y, a veces, tokens de input repetidos.
System Prompt Overhead: Si tienes un system prompt de 2k tokens para darle “personalidad” al bot, pagas esos 2k tokens en cada maldito mensaje. Optimiza el system prompt o usa caching.
JSON Mode y Constrained Output: Forzar al modelo a responder en JSON suele incrementar la longitud del output y, en algunos casos, requiere más iteraciones internas del modelo, lo que puede afectar la latencia y el consumo.
Observabilidad: Herramientas como LangSmith o Helicone son increíbles, pero cobran por traza. En volúmenes masivos, el coste de monitorizar la IA puede acercarse al coste de la IA misma.

7. Self-hosting vs API: El punto de equilibrio

¿Cuándo dejar de pagar a OpenAI y montar tu propio cluster de GPUs con vLLM o TGI?

API (OpEx):

$\checkmark$ Cero mantenimiento.
$\checkmark$ Escalado instantáneo.
$\checkmark$ Acceso a los modelos más potentes (Closed Source).
$\times$ Coste variable que escala linealmente con el éxito.

Self-hosting (CapEx/OpEx):

$\checkmark$ Coste por token marginal (solo pagas luz y servidor).
$\checkmark$ Privacidad total de los datos.
$\checkmark$ Control total sobre la cuantización y el despliegue.
$\times$ Coste inicial alto (A100/H100 son caras).
$\times$ Necesidad de un ingeniero de ML/DevOps para mantener el cluster.

La regla de oro: Si tu consumo mensual de tokens supera el coste de alquilar una instancia de GPU dedicada (por ejemplo, en Lambda Labs o RunPod) y el modelo Open Source (Llama 3, Mistral) es suficiente para tu tarea, haz el salto. Si tu tráfico es esporádico, quédate en la API.

Conclusión

Optimizar costes de LLM no es “buscar el modelo más barato”, es diseñar un sistema que use la inteligencia justa para cada tarea. El futuro no es un modelo único y gigante, sino una malla de modelos coordinados por un router, apoyados en un sistema de caching agresivo.

Deja de optimizar el prompt para que el modelo sea “más inteligente” y empieza a optimizar el flujo para que el modelo sea “más eficiente”. Tu CFO te lo agradecerá.