GPT Diffusion

Radar IA mayo 2026: lo que importó esta semana (semana 4)

2026-05-16 · Devs #radar#llm#benchmark#arena#coding-agents#pricing

Modelos

Anthropic barre el Arena Text: top 4 son Claude

El snapshot del Arena Text (14 mayo) tiene a Claude Opus 4.6 Thinking en #1 (Elo 1502), Claude Opus 4.7 Thinking en #2 (1501), Claude Opus 4.6 en #3 (1498) y Claude Opus 4.7 en #4 (1492). La brecha entre el #1 y el #5 (Muse Spark, 1491) es de 11 puntos Elo.

El patrón es claro: el thinking mode suma entre 3 y 6 puntos Elo frente a la versión estándar del mismo modelo. Opus 4.6 Thinking (1502) vs Opus 4.6 (1498): +4. Opus 4.7 Thinking (1501) vs Opus 4.7 (1492): +9.

Qué significa: Si usas Claude en producción y no estás probando el modo thinking, estás dejando puntos sobre la mesa — especialmente en tareas de razonamiento. El coste es más alto (más tokens de salida), pero el salto de calidad es consistente. Compara el coste incremental con el valor de acierto en tu caso antes de decidir.

GLM 5.1 y ERNIE 5.1: dos modelos chinos más entran al top 20

GLM 5.1 de Zhipu AI debuta en #19 (Elo 1471). ERNIE 5.1 de Baidu entra directamente en #16 (1473). Esto sitúa a ERNIE por encima de GPT-5.5 Instant (#18, 1472) y a GLM 5.1 por encima de Claude Opus 4.5 (#20, 1468).

Qué significa: GLM 5.1 es el modelo que alimenta Z.AI (el proveedor que usa Hermes como tier gratuito ilimitado). Si te estás planteando usar Z.AI como proveedor de backup o para tareas mecánicas, su modelo base ya compite con GPT-5.5 Instant. No es frontier, pero sí usable para workloads no críticos. ERNIE 5.1 confirma que Baidu sigue en la carrera — aunque su acceso desde Europa/LATAM es limitado.

Grok 4.20 aterriza con tres variantes en el top 20

xAI tiene tres variantes de Grok 4.20 en el ranking: beta1 estándar (#9, 1479), reasoning (#12, 1477) y multi-agent beta (#14, 1474). La variante reasoning no supera a la estándar — diferencia de 2 puntos dentro del intervalo de confianza (ci=5).

Qué significa: La segmentación por capacidad (estándar, reasoning, multi-agent) es un enfoque que veremos más. De momento, no hay ganancia clara de pagar más por el modo reasoning en evaluación Arena. Si estás evaluando Grok para agentes, prueba la variante multi-agent en tu workload real antes de asumir que la etiqueta implica superioridad.

Herramientas

Coding agents: movimiento simultáneo en Windsurf, Claude Code y Cursor

Los tres principales competidores en coding agents actualizaron sus websites y blogs esta semana. Windsurf, Cursor y Claude Code registraron cambios de contenido el 8, 9 y 11 de mayo. No hay anuncios públicos concretos aún, pero la coincidencia temporal sugiere que estamos ante una ronda competitiva — probablemente relacionadas con mejoras en SWE-1.5 o capacidades agentic.

Qué significa: Si estás eligiendo coding agent para tu stack, espera un par de semanas antes de decidir. La competencia está activa y las características cambian rápido. Mi lectura: Claude Code tiene mejor integración con el ecosistema Anthropic, Cursor tiene mejor UX para edits incrementales, y Windsurf apuesta por el modo agentic autónomo. Ninguno es claramente superior — depende de si priorizas control, fluidez o autonomía.

Benchmarks y datos

Arena Text: coste por punto Elo en el top 10

Una forma de leer el ranking no es por quién gana, sino por cuánto cuesta cada punto de calidad:

ModeloEloInput $/1MOutput $/1MCoste total relativo
Claude Opus 4.6 Thinking1502—*—*Alto (tier Max)
Claude Opus 4.71492$5.00$25.00Alto
Gemini 3.1 Pro Preview1490$2.00$12.00Medio-alto
Gemini 3 Pro1486Medio
GPT-5.5 High1484$5.00$30.00Alto
Grok 4.20 beta11479$2.00$6.00Medio
GPT-5.4 High1479$2.50$15.00Medio-alto

*Claude thinking mode solo disponible con suscripción Max ($100-200/mes), no por token.

Qué significa: Gemini 3.1 Pro Preview (1490 Elo, $2/$12) ofrece la mejor relación calidad-precio del top 6. Si no necesitas el máximo absoluto de calidad y sí te importa el coste, Google está en un sweet spot. Grok 4.20 a $2/$6 es interesante para workloads de alto volumen donde 6-10 puntos Elo menos no son críticos.

Tendencias

DeepSeek V4-Pro: ventana de precios promocionales hasta el 31 de mayo

DeepSeek mantiene el precio promocional de V4-Pro en $0.435/1M input y $0.87/1M output. Según la documentación de su API, el precio subirá unas 4x cuando termine la promoción el 31 de mayo. Eso lo situaría en torno a $1.74/$3.48 — competitivo pero ya no tan agresivo frente a DeepSeek V4-Flash ($0.14/$0.28).

Qué significa: Si estás evaluando DeepSeek V4-Pro para tu pipeline, ahora es el momento de hacer benchmarks reales. El modelo es sólido (empata con Gemini 3.1 Pro en SWE-bench Verified al 80.6%) y a precio promocional es difícil de superar. Pero no diseñes tu stack asumiendo que el precio actual es permanente. Planea con el precio post-promo.

Reddit: la señal técnica es débil esta semana

Los 15 posts más votados en subreddits de IA son mayoritariamente memes, bromas y observaciones superficiales. Lo más interesante: un hilo en r/singularity (⬆2554) sobre un comportamiento extraño en el livestream de Figure 03, y un post en r/ChatGPT (⬆2041) señalando un relajamiento en las guías de generación de imágenes.

Qué significa: Las señales débiles también son señal. Cuando Reddit no genera discusión técnica, suele coincidir con fases de asentamiento — los modelos recientes (GPT-5.5, Grok 4.20, Gemini 3.x) ya no son novedad y la comunidad espera el siguiente ciclo. Aprovecha para probar y estabilizar lo que ya está disponible.

Qué leer esta semana


Próximo radar: 2026-05-23.

Cargando comentarios...