Routing multi-modelo 2026: cómo elegir el LLM correcto para cada tarea
Si ya leíste nuestra guía de costes LLM y routing, sabes que enviar todo al modelo más caro es la forma más rápida de quemar presupuesto. Este artículo va un paso más allá: no explica qué es el routing, sino cómo decidir qué modelo usar para cada tipo de tarea concreta, con precios de junio 2026 y ejemplos reales.
La tesis es simple: en 2026, usar un solo modelo para todo es un error de arquitectura. El ecosistema se ha diversificado lo suficiente como para que el routing multi-modelo no sea un lujo sino una necesidad económica.
TL;DR
- Clasificación y extracción: Gemma 4 26B MoE ($0.06/$0.33 por 1M tokens) o Llama 4 Scout ($0.10/$0.30). Coste marginal, calidad más que suficiente.
- Generación de contenido y código diario: DeepSeek V4 Flash ($0.10/$0.20) o Qwen 3.6 Flash ($0.19/$1.12). Balance coste/calidad imbatible.
- Razonamiento complejo y coding frontier: GPT-5.4 ($2.50/$15.00) o Claude Sonnet 4.6 ($3.00/$15.00). Aquí es donde justificas el gasto.
- Tareas de máxima exigencia: Claude Opus 4.7/4.8 ($5.00/$25.00) o GPT-5.5 ($5.00/$30.00). Solo para problemas que los modelos medios no pueden resolver.
- Agentes autónomos de larga duración: GLM-5.1 ($0.98/$3.08). El mejor coste/rendimiento para agentes que ejecutan cientos de tool calls.
El landscape en junio 2026: 6 familias que importan
Antes de enrutar, necesitas conocer el terreno. Estas son las familias de modelos que deberías considerar para routing en producción hoy:
DeepSeek V4: el rey del coste por token
DeepSeek V4 se consolidó como el modelo de referencia para el grueso del tráfico:
- V4 Flash: $0.10/$0.20 por 1M tokens (input/output). Contexto de 1M tokens. Soporta thinking mode.
- V4 Pro: $0.43/$0.87 por 1M tokens. El precio bajó de forma permanente desde el $1.74/$3.48 que costaba en mayo (75% de descuento que se hizo fijo).
El cache hit es ridículamente barato: $0.003 por 1M tokens de input. Si tienes system prompts largos y repetitivos, esto solo ya justifica usar DeepSeek para el grueso de tu tráfico.
Cuándo enrutar aquí: clasificación, extracción de datos, resumen, generación de contenido de volumen, primera pasada de código. V4 Flash debería ser tu modelo por defecto para todo lo que no requiera frontier.
Para más detalle, consulta nuestra review de DeepSeek V4 Pro y el análisis completo de DeepSeek V4.
Llama 4 (Meta): open-weight con contexto bestial
Meta lanzó Llama 4 con dos variantes que cambian las reglas del juego en open-weight:
- Llama 4 Scout: $0.10/$0.30. 10M de contexto (sí, diez millones de tokens). Para clasificación y extracción masiva, no tiene rival en coste/volumen.
- Llama 4 Maverick: $0.15/$0.60. 1M de contexto. MoE con buen rendimiento en coding y tool calling.
Apache 2.0. Self-hosting viable con vLLM u Ollama. Consulta las reviews de Llama 4 Scout y Llama 4 Maverick.
Cuándo enrutar aquí: clasificación masiva, extracción con contexto enorme, self-hosting, cuando necesitas privacidad total sin pagar Anthropic.
GLM-5 (Zhipu AI / Z.AI): el competidor chino para agentes
GLM-5 es un modelo MoE de 744B parámetros (~40B activos por forward pass) de Zhipu AI, accesible a través de Z.AI:
- GLM-5: $0.60/$1.92 por 1M tokens. Generalista con excelente bilingüismo chino/inglés.
- GLM-5 Turbo: $1.20/$4.00. Optimizado para agentes con tool calling (error rate de 0.67%).
- GLM-5.1: $0.98/$3.08. Especializado en coding autónomo de larga duración (58.4% en SWE-Bench Pro).
La historia de GLM-5 es notable: se lanzó de forma anónima en OpenRouter como “Pony Alpha” y demostró rendimiento comparable a Claude Opus 4.6 en coding, a 10-15x menos coste. Cuando Zhipu reveló la identidad del modelo, ya tenía tracción real entre desarrolladores.
Cuándo enrutar aquí: agentes con mucho tool calling, coding autónomo, workloads bilingües, cuando quieres calidad frontier sin precio frontier.
GPT-5.4 / GPT-5.5 (OpenAI): el estándar de facto
OpenAI mantiene la familia más amplia:
- GPT-5.5: $5.00/$30.00. Flagship. Contexto de 1M+ tokens.
- GPT-5.4: $2.50/$15.00. La opción mainstream frontier. Contexto de 1.05M tokens.
- GPT-5.4 mini: $0.75/$4.50. El sweet spot coste/rendimiento dentro de OpenAI.
- GPT-5.4 nano: $0.20/$1.25. Para routing de baja complejidad dentro del ecosistema OpenAI.
El cached input baja a $0.50 por 1M tokens. La Batch API ofrece 50% de descuento adicional.
Cuándo enrutar aquí: cuando necesitas máxima fiabilidad del ecosistema, documentación extensa, function calling robusto, o cuando tu equipo ya está invertido en el stack de OpenAI.
Más detalle en nuestra review de GPT-5.
Claude 4.6 / 4.7 / 4.8 (Anthropic): el rey del código
- Claude Opus 4.7/4.8: $5.00/$25.00. 87.6% en SWE-bench Verified. El modelo más capaz para coding complejo. 4.8 es la última actualización con mejoras en tool use.
- Claude Opus 4.6: $5.00/$25.00. Sigue en catálogo como opción estable.
- Claude Sonnet 4.6: $3.00/$15.00. El mejor coste/rendimiento para coding diario.
- Claude Haiku 4.5: $1.00/$5.00. Rápido y capaz para tareas de producción.
Anthropic ofrece cached input al 90% de descuento ($0.30 por 1M en Sonnet 4.6) y Batch API con 50% de descuento adicional. Combinando ambos, puedes bajar el coste efectivo de Sonnet a niveles comparables con modelos mucho más baratos.
Cuándo enrutar aquí: código complejo, instrucciones largas que el modelo debe seguir al pie de la letra, tareas donde la calidad del output justifica el precio premium.
Consulta las reviews de Claude 4 Opus y Claude 4 Sonnet.
Gemma 4 / Gemini (Google): dos apuestas distintas
Google tiene dos líneas que sirven propósitos diferentes en routing:
Gemma 4 (open-weight, ultra barato):
- Gemma 4 31B: $0.12/$0.36 por 1M tokens (vía OpenRouter). Dense, 256K contexto.
- Gemma 4 26B MoE: $0.06/$0.33. Solo 3.8B parámetros activos por token. El modelo más eficiente por dólar en toda la tabla.
Gemini (cerrado, multimodal y contexto grande):
- Gemini 2.5 Flash: $0.30/$2.50. El mejor modelo barato con 1M de contexto y capacidades multimodales.
- Gemini 3.5 Flash: $1.50/$9.00. Más caro que 2.5 Flash pero mejor razonamiento.
- Gemini 2.5 Pro: $1.25/$10.00. Para documentos largos y análisis multimodal.
Cuándo enrutar aquí: Gemma para clasificación, extracción, triaje. Gemini 2.5 Flash para resumen de documentos largos con multimodal. Gemini Pro para tareas de contexto enorme.
La tabla de decisiones: qué modelo para qué tarea
Esta no es una tabla de “quién es mejor”. Es una tabla de “qué modelo usar cuando”.
| Tarea | Modelo recomendado | Coste aprox. (1K requests) | Por qué |
|---|---|---|---|
| Clasificación de texto | Gemma 4 26B MoE | ~$0.02 | $0.06/1M in, más que suficiente |
| Extracción de entidades | Gemma 4 26B MoE / Llama 4 Scout | ~$0.02 | Formato JSON consistente |
| Resumen de documentos largos | Gemini 2.5 Flash / DeepSeek V4 Flash | ~$0.05 | 1M contexto, buen resumen |
| Generación de contenido SEO | DeepSeek V4 Flash | ~$0.05 | Buena calidad, coste mínimo |
| Traducción | GLM-5 / DeepSeek V4 Pro | ~$0.50 | Excelente bilingüismo |
| Code review | Claude Sonnet 4.6 | ~$3.00 | Mejor comprensión de código |
| Primera versión de código | DeepSeek V4 Flash / Qwen 3 Coder Flash | ~$0.05 | Suficiente para drafting |
| Código production-ready | Claude Sonnet 4.6 / GPT-5.4 | ~$3.00 | Calidad superior, menos bugs |
| Refactorización compleja | Claude Opus 4.8 | ~$5.00 | Contexto profundo + tool use |
| Agentes con tool calling | GLM-5 Turbo | ~$1.50 | Error rate mínimo en tools |
| Agentes autónomos larga duración | GLM-5.1 / Qwen 3.7 Max | ~$2.00 | Coherencia en 600+ iteraciones |
| Análisis de datos | GPT-5.4 | ~$2.50 | Buen razonamiento numérico |
| Razonamiento multi-paso | GPT-5.4 / Claude Opus 4.8 | ~$3-5 | Los más capaces para lógica compleja |
| Batch processing masivo | Gemma 4 26B / Llama 4 Scout | ~$0.02 | Coste mínimo, sin tiempo real |
| Coding autónomo (Aider/Codex) | GLM-5.1 / Claude Sonnet 4.6 | ~$3.00 | Mejor SWE-bench en su franja |
Costes estimados asumiendo ~500 tokens input + ~300 tokens output por request promedio. Los costes reales dependen de tu workload específico. Precios vía OpenRouter, junio 2026.
Precios de referencia (junio 2026, vía OpenRouter)
Tabla completa para consultas rápidas. Todos los precios en $ por 1M tokens (input/output):
| Modelo | Input | Output | Contexto | Tipo |
|---|---|---|---|---|
| Gemma 4 26B MoE | $0.06 | $0.33 | 262K | Open-weight |
| Llama 4 Scout | $0.10 | $0.30 | 10M | Open-weight |
| Step 3.5 Flash | $0.09 | $0.30 | 262K | Cerrado |
| DeepSeek V4 Flash | $0.10 | $0.20 | 1M | Cerrado |
| Mistral Small 3.2 24B | $0.07 | $0.20 | 128K | Cerrado |
| Llama 4 Maverick | $0.15 | $0.60 | 1M | Open-weight |
| Qwen 3.6 Flash | $0.19 | $1.12 | 1M | Cerrado |
| Qwen 3 Coder Flash | $0.20 | $0.97 | 1M | Cerrado |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M | Cerrado |
| Qwen 3.5 397B | $0.39 | $2.34 | 262K | Cerrado |
| GLM-5 | $0.60 | $1.92 | 202K | Cerrado |
| GLM-5.1 | $0.98 | $3.08 | 202K | Cerrado |
| GPT-5.4 nano | $0.20 | $1.25 | 400K | Cerrado |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Cerrado |
| GPT-5.4 mini | $0.75 | $4.50 | 400K | Cerrado |
| GLM-5 Turbo | $1.20 | $4.00 | 262K | Cerrado |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M | Cerrado |
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M | Cerrado |
| GPT-5.4 | $2.50 | $15.00 | 1.05M | Cerrado |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1M | Cerrado |
| Claude Opus 4.7/4.8 | $5.00 | $25.00 | 1M | Cerrado |
| GPT-5.5 | $5.00 | $30.00 | 1.05M | Cerrado |
Nota: OpenRouter aplica un pequeño markup sobre los precios oficiales. Los precios directos pueden ser ligeramente inferiores.
Patrones de routing reales en producción
Veamos tres patrones que funcionan en producción real, no en teoría.
Patrón 1: Clasificador + Ejecutor (coste -85%)
El patrón más básico y el que más ahorro genera:
- Clasificador: Gemma 4 26B MoE ($0.06/$0.33) analiza la query del usuario y la clasifica en {simple, media, compleja}.
- Ejecutor simple: Gemma 4 responde directamente (FAQ, clasificación).
- Ejecutor medio: DeepSeek V4 Flash ($0.10/$0.20) para generación de contenido y código básico.
- Ejecutor complejo: Claude Sonnet 4.6 ($3.00/$15.00) solo para razonamiento profundo o código crítico.
Coste real: Si el 60% de tus queries son simples, el 30% medias y el 10% complejas, tu coste medio por request baja de ~$0.0087 (todo Sonnet) a ~$0.0005. Eso es un 94% de ahorro sin degradación perceptible.
Patrón 2: Drafter/Reviewer (mejor calidad, menor coste)
Ya lo cubrimos en profundidad en nuestro artículo sobre validación multi-modelo, pero el resumen es:
- Drafter: DeepSeek V4 Flash genera una primera versión.
- Reviewer: Claude Sonnet 4.6 o GLM-5 revisa y corrige.
- Resultado: Mejor que usar solo el modelo caro, a una fracción del coste.
La clave es que revisar es más fácil que crear. Un modelo medio detecta errores que no habría sabido evitar generando desde cero. Es contraintuitivo pero funciona.
Patrón 3: Agente jerárquico (para workflows complejos)
Para agentes que necesitan múltiples pasos:
- Router: GLM-5 Turbo ($1.20/$4.00) decide qué tools usar y en qué orden.
- Worker: DeepSeek V4 Flash ($0.10/$0.20) ejecuta las tareas individuales.
- Validator: Claude Haiku 4.5 ($1.00/$5.00) verifica que los outputs cumplen los requisitos.
Por qué funciona: GLM-5 Turbo tiene el error rate más bajo en tool calling (0.67%), así que las decisiones de routing son fiables. DeepSeek ejecuta barato. Haiku valida rápido. El coste total es una fracción de usar Claude Opus para todo el pipeline.
Los trade-offs que nadie te cuenta
Latencia vs coste
Los modelos baratos no son solo baratos: también suelen ser más rápidos. DeepSeek V4 Flash y Gemma 4 tienen TTFT (Time To First Token) significativamente menores que GPT-5.5 o Claude Opus. En aplicaciones conversacionales donde la latencia importa, el routing por coste y el routing por velocidad suelen coincidir.
Pero no siempre: GLM-5 Turbo puede tener más latencia que modelos más caros dependiendo del proveedor y la región. Mide antes de asumir.
Fiabilidad vs precio
DeepSeek tiene rate limits más agresivos que OpenAI o Anthropic. Si tu aplicación necesita 99.9% de disponibilidad, no puedes depender de un solo proveedor. El routing multi-modelo te da redundancia: si DeepSeek está caído, Gemini 2.5 Flash o GPT-5.4 nano pueden cubrir las tareas simples.
Vendor lock-in vs simplicidad
Usar un solo proveedor (todo OpenAI o todo Anthropic) simplifica la integración. Usar cinco proveedores complica la gestión de API keys, billing y monitoring. La solución: usar un proxy como OpenRouter que unifica el acceso a múltiples proveedores detrás de una sola API.
Datos sensibles y privacidad
Si procesas datos de clientes, el proveedor importa:
- OpenAI y Anthropic: No entrenan con datos de API (verificado por policy, pero dependes de su word).
- DeepSeek: Operado desde China. Regulación de datos diferente.
- Gemma 4 / Llama 4 (self-hosted): Privacidad total. Tú controlas los datos.
- Google AI Studio (tier gratuito): Google sí usa tus datos para entrenar.
El routing tiene una dimensión regulatoria que va más allá del coste por token.
Cálculo real: routing vs mono-modelo
Veamos un escenario concreto. Supongamos un SaaS que procesa 10,000 queries/día con esta distribución:
- 50% queries simples (FAQ, clasificación)
- 30% queries medias (generación, resumen)
- 15% queries complejas (código, análisis)
- 5% queries críticas (razonamiento profundo, producción)
Escenario A: Todo con Claude Sonnet 4.6
Input promedio: 800 tokens. Output promedio: 400 tokens.
- Coste por request: ~$0.0087 (input $0.0024 + output $0.006)
- Coste diario: ~$87
- Coste mensual: ~$2,610
Escenario B: Routing multi-modelo
| Capa | Modelo | % queries | Coste/request | Coste diario |
|---|---|---|---|---|
| Simple | Gemma 4 26B MoE | 50% | ~$0.0002 | $1.00 |
| Media | DeepSeek V4 Flash | 30% | ~$0.0001 | $0.30 |
| Compleja | Claude Sonnet 4.6 | 15% | ~$0.0087 | $13.05 |
| Crítica | Claude Opus 4.8 | 5% | ~$0.0145 | $7.25 |
| Total | 100% | $21.60 |
Ahorro: $2,610 → $21.60/mes = 91.7% de reducción.
La clave está en que el 80% de tus queries son simples o medias y no necesitan un modelo de $15/1M tokens en output. Los precios de junio 2026 hacen el ahorro aún más pronunciado que en mayo, gracias a la caída permanente de DeepSeek V4 Pro y a Gemma 4 26B MoE a $0.06/$0.33.
Incluso siendo conservadores y asumiendo que el 20% de las queries “simples” necesitan subir de capa por edge cases, el ahorro sigue siendo superior al 85%.
Herramientas de routing: OpenRouter, LiteLLM o custom
La teoría del routing es bonita. La práctica necesita herramientas.
OpenRouter: el marketplace de modelos
OpenRouter expone una API compatible con OpenAI y da acceso a 300+ modelos. Cambiar de modelo es cambiar un string en tu llamada.
Ventajas: una sola API key para todos los proveedores, fallback automático, pricing transparente. Limitaciones: añades latencia extra (un hop más), no todos los modelos soportan function calling igual a través del proxy.
LiteLLM: la capa de abstracción open-source
Librería Python que unifica 100+ proveedores detrás de una interfaz consistente. Routing integrado, fallback configurable, caching, rate limiting y budget tracking.
Ventajas: open-source, lo controlas tú, reglas complejas por tipo de tarea. Limitaciones: tú mantienes la infra, la abstracción no es perfecta para parámetros específicos de proveedor.
Routing custom: cuando necesitas precisión quirúrgica
Si tu routing es simple (dos o tres modelos, reglas claras), un switch case bien hecho es más predecible y más fácil de debuggear:
def route_query(query: str, complexity: str) -> str:
if complexity == "simple":
return "deepseek/deepseek-v4-flash"
elif complexity == "medium":
return "deepseek/deepseek-v4-pro"
elif complexity == "complex":
return "anthropic/claude-sonnet-4-6"
else: # critical
return "anthropic/claude-opus-4-8"
Ventajas: cero dependencias, latencia mínima, debugging trivial. Limitaciones: no escala con 10+ modelos, tú implementas fallback y retry.
¿Cuál elegir?
| Escenario | Herramienta | Por qué |
|---|---|---|
| Prototipo / MVP | OpenRouter | Zero infra, cambia modelos en segundos |
| Producción con routing complejo | LiteLLM | Reglas, fallbacks, tracking, todo en uno |
| Producción con routing simple | Custom | Menos piezas, menos fallos |
| Agentes autónomos | LiteLLM + custom rules | Control fino sobre coste y calidad |
Checklist para implementar routing multi-modelo
- Mide tu distribución: ¿Qué porcentaje de tus queries son realmente complejas? La mayoría sobreestima esta cifra.
- Define criterios claros: ¿Qué hace que una query sea “compleja”? Longitud, dominio, tipo de tarea. Escríbelo.
- Empieza con dos modelos: Uno barato (DeepSeek V4 Flash o Gemma 4) y uno potente (Claude Sonnet 4.6 o GPT-5.4). No necesitas cinco modelos desde el día uno.
- Implementa fallback: Si el modelo barato no puede con la tarea, sube al potente automáticamente.
- Monitoriza calidad: Usa un modelo barato para evaluar la calidad del output del modelo barato. Meta, pero funciona.
- Optimiza el system prompt: Los system prompts de 2K tokens pagados en cada request son el mayor despilfarro. Usa caching.
- Revisa mensualmente: Los precios cambian. Los modelos nuevos aparecen. En mayo, DeepSeek V4 Pro costaba $1.74/$3.48; en junio es $0.43/$0.87. Lo que era óptimo un mes atrás puede no serlo hoy.
Lectura relacionada
- Guía de costes LLM: tokens, caching, routing y proveedores — el artículo hermano de este, centrado en costes.
- Validación multi-modelo: el patrón drafter/reviewer/approver — cómo dividir una tarea entre modelos baratos y potentes.
- DeepSeek V4: análisis completo — deep dive del modelo más disruptor por precio.
- Open weights vs closed models: ¿cuándo compensa? — self-hosting vs API.
- Leaderboards explicados: qué benchmark mirar y qué ignorar — cómo interpretar los números de rendimiento.
- Recortar costes en coding agents un 50% sin perder calidad — estrategia concreta de ahorro.