La brecha cerrado vs abierto se cierra (abril 2026)
TL;DR
- Convergencia: Los modelos open-weight (Kimi K2.6, MiMo-V2.5-Pro) están a solo 3 puntos de Elo de la frontera.
- Guerra de precios: Grok 4.20 es 4x más barato en output que Claude con una pérdida de razonamiento marginal (~20 Elo).
- Local First: Gemma 4 es la opción lógica para hardware consumer (RTX 4060, M1).
Contexto
Llevamos meses escuchando que los modelos cerrados “juegan en otra liga”. Pero los datos de este mes sugieren que esa liga se ha vuelto muy pequeña. Cuando la diferencia entre el mejor modelo del mundo y uno abierto es de 3 puntos en la escala de Artificial Analysis (AA), el argumento de la “superioridad técnica” deja de ser útil para el 95% de las aplicaciones en producción.
Análisis
Estamos viendo tres movimientos simultáneos que cambian las reglas:
1. Convergencia de calidad
Los últimos rankings de Artificial Analysis y LMSYS Chatbot Arena muestran una compresión dramática:
| Modelo | Tipo | Elo (Arena) | GPQA Diamond | Precio/1M input |
|---|---|---|---|---|
| GPT-5.5 | Closed | 1350 | 71.4% | $2.50 |
| Claude Opus 4.7 | Closed | 1345 | 68.2% | $15.00 |
| DeepSeek V4 | Open | 1338 | 63.2% | $0.27 |
| Kimi K2.6 | Open | 1342 | 64.8% | $0.55 |
| Qwen 3 235B | Open | 1330 | 61.5% | $0.40 |
La diferencia entre el #1 (GPT-5.5) y el #3 (DeepSeek V4) es de 12 puntos de Elo. Hace un año era de 50+ puntos. En tareas prácticas de coding, razonamiento y instrucción-following, esa diferencia es imperceptible para el usuario promedio.
Qué significa: Para el 95% de las aplicaciones, la calidad ya no es el diferenciador entre open y closed. El coste sí.
2. Guerra de precios
La compresión de calidad ha desencadenado una guerra de precios agresiva:
- xAI (Grok 4.20): $0.50/$2.00 por 1M tokens. 4x más barato que Claude Opus en output con solo ~20 Elo menos.
- DeepSeek V4: $0.27/$1.10. Tan barato que el coste del contexto de sistema supera al de la generación.
- Google (Gemini Flash): Gratis en AI Studio con rate limits generosos.
- NVIDIA NIM: Modelos SOTA gratuitos con ~40 RPM. Suficiente para desarrollo y prototipado.
El efecto cascada: Cuando DeepSeek cobra $0.27 y la calidad es casi la misma, los demás tienen que bajar precios o justificar la diferencia. Anthropic justifica con calidad superior en coding. OpenAI justifica con ecosistema. Pero la presión a la baja es imparable.
Tabla de coste-eficiencia:
| Modelo | Calidad (Elo) | Coste/1M input | Ratio calidad/precio |
|---|---|---|---|
| DeepSeek V4 | 1338 | $0.27 | ⭐⭐⭐⭐⭐ |
| Gemini Flash | 1280 | $0.00 | ⭐⭐⭐⭐ |
| Qwen 3 235B | 1330 | $0.40 | ⭐⭐⭐⭐ |
| GPT-5.5 | 1350 | $2.50 | ⭐⭐⭐ |
| Claude Opus 4.7 | 1345 | $15.00 | ⭐⭐ |
3. Local First viable
Gemma 4 (Google) ha cambiado la ecuación del local:
- Gemma 4 26B MoE: Corre en RTX 4060 (8GB VRAM) con calidad competitiva.
- Gemma 4 31B IT: Corre en Mac M1 con 16GB RAM unificada.
- Calidad: No es GPT-5, pero para chat, extracción, y clasificación es suficiente.
La combinación de Ollama + modelos pequeños eficientes hace que el local-first sea viable para muchas aplicaciones que antes requerían API.
Cuándo local tiene sentido:
- Privacidad (datos sensibles que no pueden salir)
- Latencia (<100ms posible vs 500ms-3s de API)
- Coste cero (después de la GPU)
- Offline (sin dependencia de red)
Cuándo API sigue ganando:
- Razonamiento complejo (GPQA Diamond >65%)
- Coding avanzado (SWE-bench >50%)
- Multimodal (audio, video, imágenes)
- Throughput alto concurrente
Implicaciones para devs
Routing se vuelve esencial
Con calidad comparable y precios diferentes, el routing inteligente es el multiplicador:
Request → Router
├→ Simple (80%) → DeepSeek V4 ($0.27) → 90% de la calidad
└→ Complejo (20%) → GPT-5.5 ($2.50) → 100% de la calidad
Coste blended: ~$0.70/1M tokens. Ahorro del 70% vs solo frontier.
El lock-in se rompe
Si 5 modelos tienen calidad similar, no hay razón para depender de uno. El risk de vendor lock-in se reduce dramáticamente.
Self-hosting entra en el radar
Para uso interno, self-hosting de DeepSeek V4 o Qwen 3 puede ser más barato que API si procesas >5M tokens/día.
Qué va a pasar
- Precios seguirán bajando. La presión competitiva no para.
- Los closed models se especializarán. Ya no competirán en calidad general sino en nichos (coding, multimodal, agentes).
- El routing será commodity. OpenRouter, LiteLLM, y otros harán que cambiar de modelo sea trivial.
- Local first crecerá. A medida que los modelos pequeños mejoren, más aplicaciones serán viables 100% offline.
Conclusión
La brecha open vs closed era el argumento central del ecosistema. Ese argumento se ha evaporado en 2026. La nueva pregunta no es “¿cuál es mejor?” sino “¿cuál es más eficiente para mi caso de uso?”
La respuesta casi siempre es: routing con modelos open por defecto, closed solo cuando se necesita.
Fuentes: Artificial Analysis (mayo 2026), LMSYS Chatbot Arena, precios oficiales de cada proveedor.