La brecha cerrado vs abierto se cierra (abril 2026)

TL;DR

Convergencia: Los modelos open-weight (Kimi K2.6, MiMo-V2.5-Pro) están a solo 3 puntos de Elo de la frontera.
Guerra de precios: Grok 4.20 es 4x más barato en output que Claude con una pérdida de razonamiento marginal (~20 Elo).
Local First: Gemma 4 es la opción lógica para hardware consumer (RTX 4060, M1).

Contexto

Llevamos meses escuchando que los modelos cerrados “juegan en otra liga”. Pero los datos de este mes sugieren que esa liga se ha vuelto muy pequeña. Cuando la diferencia entre el mejor modelo del mundo y uno abierto es de 3 puntos en la escala de Artificial Analysis (AA), el argumento de la “superioridad técnica” deja de ser útil para el 95% de las aplicaciones en producción.

Análisis

Estamos viendo tres movimientos simultáneos que cambian las reglas:

1. Convergencia de calidad

Los últimos rankings de Artificial Analysis y LMSYS Chatbot Arena muestran una compresión dramática:

Modelo	Tipo	Elo (Arena)	GPQA Diamond	Precio/1M input
GPT-5.5	Closed	1350	71.4%	$2.50
Claude Opus 4.7	Closed	1345	68.2%	$15.00
DeepSeek V4	Open	1338	63.2%	$0.27
Kimi K2.6	Open	1342	64.8%	$0.55
Qwen 3 235B	Open	1330	61.5%	$0.40

La diferencia entre el #1 (GPT-5.5) y el #3 (DeepSeek V4) es de 12 puntos de Elo. Hace un año era de 50+ puntos. En tareas prácticas de coding, razonamiento y instrucción-following, esa diferencia es imperceptible para el usuario promedio.

Qué significa: Para el 95% de las aplicaciones, la calidad ya no es el diferenciador entre open y closed. El coste sí.

2. Guerra de precios

La compresión de calidad ha desencadenado una guerra de precios agresiva:

xAI (Grok 4.20): $0.50/$2.00 por 1M tokens. 4x más barato que Claude Opus en output con solo ~20 Elo menos.
DeepSeek V4: $0.27/$1.10. Tan barato que el coste del contexto de sistema supera al de la generación.
Google (Gemini Flash): Gratis en AI Studio con rate limits generosos.
NVIDIA NIM: Modelos SOTA gratuitos con ~40 RPM. Suficiente para desarrollo y prototipado.

El efecto cascada: Cuando DeepSeek cobra $0.27 y la calidad es casi la misma, los demás tienen que bajar precios o justificar la diferencia. Anthropic justifica con calidad superior en coding. OpenAI justifica con ecosistema. Pero la presión a la baja es imparable.

Tabla de coste-eficiencia:

Modelo	Calidad (Elo)	Coste/1M input	Ratio calidad/precio
DeepSeek V4	1338	$0.27	⭐⭐⭐⭐⭐
Gemini Flash	1280	$0.00	⭐⭐⭐⭐
Qwen 3 235B	1330	$0.40	⭐⭐⭐⭐
GPT-5.5	1350	$2.50	⭐⭐⭐
Claude Opus 4.7	1345	$15.00	⭐⭐

3. Local First viable

Gemma 4 (Google) ha cambiado la ecuación del local:

Gemma 4 26B MoE: Corre en RTX 4060 (8GB VRAM) con calidad competitiva.
Gemma 4 31B IT: Corre en Mac M1 con 16GB RAM unificada.
Calidad: No es GPT-5, pero para chat, extracción, y clasificación es suficiente.

La combinación de Ollama + modelos pequeños eficientes hace que el local-first sea viable para muchas aplicaciones que antes requerían API.

Cuándo local tiene sentido:

Privacidad (datos sensibles que no pueden salir)
Latencia (<100ms posible vs 500ms-3s de API)
Coste cero (después de la GPU)
Offline (sin dependencia de red)

Cuándo API sigue ganando:

Razonamiento complejo (GPQA Diamond >65%)
Coding avanzado (SWE-bench >50%)
Multimodal (audio, video, imágenes)
Throughput alto concurrente

Implicaciones para devs

Routing se vuelve esencial

Con calidad comparable y precios diferentes, el routing inteligente es el multiplicador:

Request → Router
├→ Simple (80%) → DeepSeek V4 ($0.27) → 90% de la calidad
└→ Complejo (20%) → GPT-5.5 ($2.50) → 100% de la calidad

Coste blended: ~$0.70/1M tokens. Ahorro del 70% vs solo frontier.

El lock-in se rompe

Si 5 modelos tienen calidad similar, no hay razón para depender de uno. El risk de vendor lock-in se reduce dramáticamente.

Self-hosting entra en el radar

Para uso interno, self-hosting de DeepSeek V4 o Qwen 3 puede ser más barato que API si procesas >5M tokens/día.

Qué va a pasar

Precios seguirán bajando. La presión competitiva no para.
Los closed models se especializarán. Ya no competirán en calidad general sino en nichos (coding, multimodal, agentes).
El routing será commodity. OpenRouter, LiteLLM, y otros harán que cambiar de modelo sea trivial.
Local first crecerá. A medida que los modelos pequeños mejoren, más aplicaciones serán viables 100% offline.

Conclusión

La brecha open vs closed era el argumento central del ecosistema. Ese argumento se ha evaporado en 2026. La nueva pregunta no es “¿cuál es mejor?” sino “¿cuál es más eficiente para mi caso de uso?”

La respuesta casi siempre es: routing con modelos open por defecto, closed solo cuando se necesita.

Fuentes: Artificial Analysis (mayo 2026), LMSYS Chatbot Arena, precios oficiales de cada proveedor.