GPT Diffusion

Routing multi-modelo 2026: cómo elegir el LLM correcto para cada tarea

2026-06-11 · Devs #routing#costes#optimizacion#llm#comparativa#open-weights

Si ya leíste nuestra guía de costes LLM y routing, sabes que enviar todo al modelo más caro es la forma más rápida de quemar presupuesto. Este artículo va un paso más allá: no explica qué es el routing, sino cómo decidir qué modelo usar para cada tipo de tarea concreta, con precios de junio 2026 y ejemplos reales.

La tesis es simple: en 2026, usar un solo modelo para todo es un error de arquitectura. El ecosistema se ha diversificado lo suficiente como para que el routing multi-modelo no sea un lujo sino una necesidad económica.

TL;DR

  • Clasificación y extracción: Gemma 4 26B MoE ($0.06/$0.33 por 1M tokens) o Llama 4 Scout ($0.10/$0.30). Coste marginal, calidad más que suficiente.
  • Generación de contenido y código diario: DeepSeek V4 Flash ($0.10/$0.20) o Qwen 3.6 Flash ($0.19/$1.12). Balance coste/calidad imbatible.
  • Razonamiento complejo y coding frontier: GPT-5.4 ($2.50/$15.00) o Claude Sonnet 4.6 ($3.00/$15.00). Aquí es donde justificas el gasto.
  • Tareas de máxima exigencia: Claude Opus 4.7/4.8 ($5.00/$25.00) o GPT-5.5 ($5.00/$30.00). Solo para problemas que los modelos medios no pueden resolver.
  • Agentes autónomos de larga duración: GLM-5.1 ($0.98/$3.08). El mejor coste/rendimiento para agentes que ejecutan cientos de tool calls.

El landscape en junio 2026: 6 familias que importan

Antes de enrutar, necesitas conocer el terreno. Estas son las familias de modelos que deberías considerar para routing en producción hoy:

DeepSeek V4: el rey del coste por token

DeepSeek V4 se consolidó como el modelo de referencia para el grueso del tráfico:

  • V4 Flash: $0.10/$0.20 por 1M tokens (input/output). Contexto de 1M tokens. Soporta thinking mode.
  • V4 Pro: $0.43/$0.87 por 1M tokens. El precio bajó de forma permanente desde el $1.74/$3.48 que costaba en mayo (75% de descuento que se hizo fijo).

El cache hit es ridículamente barato: $0.003 por 1M tokens de input. Si tienes system prompts largos y repetitivos, esto solo ya justifica usar DeepSeek para el grueso de tu tráfico.

Cuándo enrutar aquí: clasificación, extracción de datos, resumen, generación de contenido de volumen, primera pasada de código. V4 Flash debería ser tu modelo por defecto para todo lo que no requiera frontier.

Para más detalle, consulta nuestra review de DeepSeek V4 Pro y el análisis completo de DeepSeek V4.

Llama 4 (Meta): open-weight con contexto bestial

Meta lanzó Llama 4 con dos variantes que cambian las reglas del juego en open-weight:

  • Llama 4 Scout: $0.10/$0.30. 10M de contexto (sí, diez millones de tokens). Para clasificación y extracción masiva, no tiene rival en coste/volumen.
  • Llama 4 Maverick: $0.15/$0.60. 1M de contexto. MoE con buen rendimiento en coding y tool calling.

Apache 2.0. Self-hosting viable con vLLM u Ollama. Consulta las reviews de Llama 4 Scout y Llama 4 Maverick.

Cuándo enrutar aquí: clasificación masiva, extracción con contexto enorme, self-hosting, cuando necesitas privacidad total sin pagar Anthropic.

GLM-5 (Zhipu AI / Z.AI): el competidor chino para agentes

GLM-5 es un modelo MoE de 744B parámetros (~40B activos por forward pass) de Zhipu AI, accesible a través de Z.AI:

  • GLM-5: $0.60/$1.92 por 1M tokens. Generalista con excelente bilingüismo chino/inglés.
  • GLM-5 Turbo: $1.20/$4.00. Optimizado para agentes con tool calling (error rate de 0.67%).
  • GLM-5.1: $0.98/$3.08. Especializado en coding autónomo de larga duración (58.4% en SWE-Bench Pro).

La historia de GLM-5 es notable: se lanzó de forma anónima en OpenRouter como “Pony Alpha” y demostró rendimiento comparable a Claude Opus 4.6 en coding, a 10-15x menos coste. Cuando Zhipu reveló la identidad del modelo, ya tenía tracción real entre desarrolladores.

Cuándo enrutar aquí: agentes con mucho tool calling, coding autónomo, workloads bilingües, cuando quieres calidad frontier sin precio frontier.

GPT-5.4 / GPT-5.5 (OpenAI): el estándar de facto

OpenAI mantiene la familia más amplia:

  • GPT-5.5: $5.00/$30.00. Flagship. Contexto de 1M+ tokens.
  • GPT-5.4: $2.50/$15.00. La opción mainstream frontier. Contexto de 1.05M tokens.
  • GPT-5.4 mini: $0.75/$4.50. El sweet spot coste/rendimiento dentro de OpenAI.
  • GPT-5.4 nano: $0.20/$1.25. Para routing de baja complejidad dentro del ecosistema OpenAI.

El cached input baja a $0.50 por 1M tokens. La Batch API ofrece 50% de descuento adicional.

Cuándo enrutar aquí: cuando necesitas máxima fiabilidad del ecosistema, documentación extensa, function calling robusto, o cuando tu equipo ya está invertido en el stack de OpenAI.

Más detalle en nuestra review de GPT-5.

Claude 4.6 / 4.7 / 4.8 (Anthropic): el rey del código

  • Claude Opus 4.7/4.8: $5.00/$25.00. 87.6% en SWE-bench Verified. El modelo más capaz para coding complejo. 4.8 es la última actualización con mejoras en tool use.
  • Claude Opus 4.6: $5.00/$25.00. Sigue en catálogo como opción estable.
  • Claude Sonnet 4.6: $3.00/$15.00. El mejor coste/rendimiento para coding diario.
  • Claude Haiku 4.5: $1.00/$5.00. Rápido y capaz para tareas de producción.

Anthropic ofrece cached input al 90% de descuento ($0.30 por 1M en Sonnet 4.6) y Batch API con 50% de descuento adicional. Combinando ambos, puedes bajar el coste efectivo de Sonnet a niveles comparables con modelos mucho más baratos.

Cuándo enrutar aquí: código complejo, instrucciones largas que el modelo debe seguir al pie de la letra, tareas donde la calidad del output justifica el precio premium.

Consulta las reviews de Claude 4 Opus y Claude 4 Sonnet.

Gemma 4 / Gemini (Google): dos apuestas distintas

Google tiene dos líneas que sirven propósitos diferentes en routing:

Gemma 4 (open-weight, ultra barato):

  • Gemma 4 31B: $0.12/$0.36 por 1M tokens (vía OpenRouter). Dense, 256K contexto.
  • Gemma 4 26B MoE: $0.06/$0.33. Solo 3.8B parámetros activos por token. El modelo más eficiente por dólar en toda la tabla.

Gemini (cerrado, multimodal y contexto grande):

  • Gemini 2.5 Flash: $0.30/$2.50. El mejor modelo barato con 1M de contexto y capacidades multimodales.
  • Gemini 3.5 Flash: $1.50/$9.00. Más caro que 2.5 Flash pero mejor razonamiento.
  • Gemini 2.5 Pro: $1.25/$10.00. Para documentos largos y análisis multimodal.

Cuándo enrutar aquí: Gemma para clasificación, extracción, triaje. Gemini 2.5 Flash para resumen de documentos largos con multimodal. Gemini Pro para tareas de contexto enorme.


La tabla de decisiones: qué modelo para qué tarea

Esta no es una tabla de “quién es mejor”. Es una tabla de “qué modelo usar cuando”.

TareaModelo recomendadoCoste aprox. (1K requests)Por qué
Clasificación de textoGemma 4 26B MoE~$0.02$0.06/1M in, más que suficiente
Extracción de entidadesGemma 4 26B MoE / Llama 4 Scout~$0.02Formato JSON consistente
Resumen de documentos largosGemini 2.5 Flash / DeepSeek V4 Flash~$0.051M contexto, buen resumen
Generación de contenido SEODeepSeek V4 Flash~$0.05Buena calidad, coste mínimo
TraducciónGLM-5 / DeepSeek V4 Pro~$0.50Excelente bilingüismo
Code reviewClaude Sonnet 4.6~$3.00Mejor comprensión de código
Primera versión de códigoDeepSeek V4 Flash / Qwen 3 Coder Flash~$0.05Suficiente para drafting
Código production-readyClaude Sonnet 4.6 / GPT-5.4~$3.00Calidad superior, menos bugs
Refactorización complejaClaude Opus 4.8~$5.00Contexto profundo + tool use
Agentes con tool callingGLM-5 Turbo~$1.50Error rate mínimo en tools
Agentes autónomos larga duraciónGLM-5.1 / Qwen 3.7 Max~$2.00Coherencia en 600+ iteraciones
Análisis de datosGPT-5.4~$2.50Buen razonamiento numérico
Razonamiento multi-pasoGPT-5.4 / Claude Opus 4.8~$3-5Los más capaces para lógica compleja
Batch processing masivoGemma 4 26B / Llama 4 Scout~$0.02Coste mínimo, sin tiempo real
Coding autónomo (Aider/Codex)GLM-5.1 / Claude Sonnet 4.6~$3.00Mejor SWE-bench en su franja

Costes estimados asumiendo ~500 tokens input + ~300 tokens output por request promedio. Los costes reales dependen de tu workload específico. Precios vía OpenRouter, junio 2026.


Precios de referencia (junio 2026, vía OpenRouter)

Tabla completa para consultas rápidas. Todos los precios en $ por 1M tokens (input/output):

ModeloInputOutputContextoTipo
Gemma 4 26B MoE$0.06$0.33262KOpen-weight
Llama 4 Scout$0.10$0.3010MOpen-weight
Step 3.5 Flash$0.09$0.30262KCerrado
DeepSeek V4 Flash$0.10$0.201MCerrado
Mistral Small 3.2 24B$0.07$0.20128KCerrado
Llama 4 Maverick$0.15$0.601MOpen-weight
Qwen 3.6 Flash$0.19$1.121MCerrado
Qwen 3 Coder Flash$0.20$0.971MCerrado
Gemini 2.5 Flash$0.30$2.501MCerrado
Qwen 3.5 397B$0.39$2.34262KCerrado
GLM-5$0.60$1.92202KCerrado
GLM-5.1$0.98$3.08202KCerrado
GPT-5.4 nano$0.20$1.25400KCerrado
Claude Haiku 4.5$1.00$5.00200KCerrado
GPT-5.4 mini$0.75$4.50400KCerrado
GLM-5 Turbo$1.20$4.00262KCerrado
Gemini 2.5 Pro$1.25$10.001MCerrado
Gemini 3.5 Flash$1.50$9.001MCerrado
GPT-5.4$2.50$15.001.05MCerrado
Claude Sonnet 4.6$3.00$15.001MCerrado
Claude Opus 4.7/4.8$5.00$25.001MCerrado
GPT-5.5$5.00$30.001.05MCerrado

Nota: OpenRouter aplica un pequeño markup sobre los precios oficiales. Los precios directos pueden ser ligeramente inferiores.


Patrones de routing reales en producción

Veamos tres patrones que funcionan en producción real, no en teoría.

Patrón 1: Clasificador + Ejecutor (coste -85%)

El patrón más básico y el que más ahorro genera:

  1. Clasificador: Gemma 4 26B MoE ($0.06/$0.33) analiza la query del usuario y la clasifica en {simple, media, compleja}.
  2. Ejecutor simple: Gemma 4 responde directamente (FAQ, clasificación).
  3. Ejecutor medio: DeepSeek V4 Flash ($0.10/$0.20) para generación de contenido y código básico.
  4. Ejecutor complejo: Claude Sonnet 4.6 ($3.00/$15.00) solo para razonamiento profundo o código crítico.

Coste real: Si el 60% de tus queries son simples, el 30% medias y el 10% complejas, tu coste medio por request baja de ~$0.0087 (todo Sonnet) a ~$0.0005. Eso es un 94% de ahorro sin degradación perceptible.

Patrón 2: Drafter/Reviewer (mejor calidad, menor coste)

Ya lo cubrimos en profundidad en nuestro artículo sobre validación multi-modelo, pero el resumen es:

  1. Drafter: DeepSeek V4 Flash genera una primera versión.
  2. Reviewer: Claude Sonnet 4.6 o GLM-5 revisa y corrige.
  3. Resultado: Mejor que usar solo el modelo caro, a una fracción del coste.

La clave es que revisar es más fácil que crear. Un modelo medio detecta errores que no habría sabido evitar generando desde cero. Es contraintuitivo pero funciona.

Patrón 3: Agente jerárquico (para workflows complejos)

Para agentes que necesitan múltiples pasos:

  1. Router: GLM-5 Turbo ($1.20/$4.00) decide qué tools usar y en qué orden.
  2. Worker: DeepSeek V4 Flash ($0.10/$0.20) ejecuta las tareas individuales.
  3. Validator: Claude Haiku 4.5 ($1.00/$5.00) verifica que los outputs cumplen los requisitos.

Por qué funciona: GLM-5 Turbo tiene el error rate más bajo en tool calling (0.67%), así que las decisiones de routing son fiables. DeepSeek ejecuta barato. Haiku valida rápido. El coste total es una fracción de usar Claude Opus para todo el pipeline.


Los trade-offs que nadie te cuenta

Latencia vs coste

Los modelos baratos no son solo baratos: también suelen ser más rápidos. DeepSeek V4 Flash y Gemma 4 tienen TTFT (Time To First Token) significativamente menores que GPT-5.5 o Claude Opus. En aplicaciones conversacionales donde la latencia importa, el routing por coste y el routing por velocidad suelen coincidir.

Pero no siempre: GLM-5 Turbo puede tener más latencia que modelos más caros dependiendo del proveedor y la región. Mide antes de asumir.

Fiabilidad vs precio

DeepSeek tiene rate limits más agresivos que OpenAI o Anthropic. Si tu aplicación necesita 99.9% de disponibilidad, no puedes depender de un solo proveedor. El routing multi-modelo te da redundancia: si DeepSeek está caído, Gemini 2.5 Flash o GPT-5.4 nano pueden cubrir las tareas simples.

Vendor lock-in vs simplicidad

Usar un solo proveedor (todo OpenAI o todo Anthropic) simplifica la integración. Usar cinco proveedores complica la gestión de API keys, billing y monitoring. La solución: usar un proxy como OpenRouter que unifica el acceso a múltiples proveedores detrás de una sola API.

Datos sensibles y privacidad

Si procesas datos de clientes, el proveedor importa:

  • OpenAI y Anthropic: No entrenan con datos de API (verificado por policy, pero dependes de su word).
  • DeepSeek: Operado desde China. Regulación de datos diferente.
  • Gemma 4 / Llama 4 (self-hosted): Privacidad total. Tú controlas los datos.
  • Google AI Studio (tier gratuito): Google sí usa tus datos para entrenar.

El routing tiene una dimensión regulatoria que va más allá del coste por token.


Cálculo real: routing vs mono-modelo

Veamos un escenario concreto. Supongamos un SaaS que procesa 10,000 queries/día con esta distribución:

  • 50% queries simples (FAQ, clasificación)
  • 30% queries medias (generación, resumen)
  • 15% queries complejas (código, análisis)
  • 5% queries críticas (razonamiento profundo, producción)

Escenario A: Todo con Claude Sonnet 4.6

Input promedio: 800 tokens. Output promedio: 400 tokens.

  • Coste por request: ~$0.0087 (input $0.0024 + output $0.006)
  • Coste diario: ~$87
  • Coste mensual: ~$2,610

Escenario B: Routing multi-modelo

CapaModelo% queriesCoste/requestCoste diario
SimpleGemma 4 26B MoE50%~$0.0002$1.00
MediaDeepSeek V4 Flash30%~$0.0001$0.30
ComplejaClaude Sonnet 4.615%~$0.0087$13.05
CríticaClaude Opus 4.85%~$0.0145$7.25
Total100%$21.60

Ahorro: $2,610 → $21.60/mes = 91.7% de reducción.

La clave está en que el 80% de tus queries son simples o medias y no necesitan un modelo de $15/1M tokens en output. Los precios de junio 2026 hacen el ahorro aún más pronunciado que en mayo, gracias a la caída permanente de DeepSeek V4 Pro y a Gemma 4 26B MoE a $0.06/$0.33.

Incluso siendo conservadores y asumiendo que el 20% de las queries “simples” necesitan subir de capa por edge cases, el ahorro sigue siendo superior al 85%.


Herramientas de routing: OpenRouter, LiteLLM o custom

La teoría del routing es bonita. La práctica necesita herramientas.

OpenRouter: el marketplace de modelos

OpenRouter expone una API compatible con OpenAI y da acceso a 300+ modelos. Cambiar de modelo es cambiar un string en tu llamada.

Ventajas: una sola API key para todos los proveedores, fallback automático, pricing transparente. Limitaciones: añades latencia extra (un hop más), no todos los modelos soportan function calling igual a través del proxy.

LiteLLM: la capa de abstracción open-source

Librería Python que unifica 100+ proveedores detrás de una interfaz consistente. Routing integrado, fallback configurable, caching, rate limiting y budget tracking.

Ventajas: open-source, lo controlas tú, reglas complejas por tipo de tarea. Limitaciones: tú mantienes la infra, la abstracción no es perfecta para parámetros específicos de proveedor.

Routing custom: cuando necesitas precisión quirúrgica

Si tu routing es simple (dos o tres modelos, reglas claras), un switch case bien hecho es más predecible y más fácil de debuggear:

def route_query(query: str, complexity: str) -> str:
    if complexity == "simple":
        return "deepseek/deepseek-v4-flash"
    elif complexity == "medium":
        return "deepseek/deepseek-v4-pro"
    elif complexity == "complex":
        return "anthropic/claude-sonnet-4-6"
    else:  # critical
        return "anthropic/claude-opus-4-8"

Ventajas: cero dependencias, latencia mínima, debugging trivial. Limitaciones: no escala con 10+ modelos, tú implementas fallback y retry.

¿Cuál elegir?

EscenarioHerramientaPor qué
Prototipo / MVPOpenRouterZero infra, cambia modelos en segundos
Producción con routing complejoLiteLLMReglas, fallbacks, tracking, todo en uno
Producción con routing simpleCustomMenos piezas, menos fallos
Agentes autónomosLiteLLM + custom rulesControl fino sobre coste y calidad

Checklist para implementar routing multi-modelo

  1. Mide tu distribución: ¿Qué porcentaje de tus queries son realmente complejas? La mayoría sobreestima esta cifra.
  2. Define criterios claros: ¿Qué hace que una query sea “compleja”? Longitud, dominio, tipo de tarea. Escríbelo.
  3. Empieza con dos modelos: Uno barato (DeepSeek V4 Flash o Gemma 4) y uno potente (Claude Sonnet 4.6 o GPT-5.4). No necesitas cinco modelos desde el día uno.
  4. Implementa fallback: Si el modelo barato no puede con la tarea, sube al potente automáticamente.
  5. Monitoriza calidad: Usa un modelo barato para evaluar la calidad del output del modelo barato. Meta, pero funciona.
  6. Optimiza el system prompt: Los system prompts de 2K tokens pagados en cada request son el mayor despilfarro. Usa caching.
  7. Revisa mensualmente: Los precios cambian. Los modelos nuevos aparecen. En mayo, DeepSeek V4 Pro costaba $1.74/$3.48; en junio es $0.43/$0.87. Lo que era óptimo un mes atrás puede no serlo hoy.

Lectura relacionada

Reviews de modelos mencionados

Cargando comentarios...