Grok V9-Medium: 1.5T parámetros y datos de Cursor — lo que sabemos del modelo de código de xAI

TL;DR

Grok V9-Medium tiene 1.5T parámetros, 3x más que el modelo de producción actual (V8, 0.5T)
La apuesta diferencial: entrenado con datos de uso real de Cursor, no solo repos de GitHub
Release previsto para mediados de junio de 2026 (aún sin lanzamiento oficial confirmado)
xAI Colossus 2 opera con 550K GPUs NVIDIA GB200/GB300 a escala de gigavatio
Anthropic pagará $1.25B/mes a xAI por capacidad de Colossus 1 — la ironía del sector
Anthropic cambia la facturación de Claude Code el 15 de junio: el timing no es casual

Qué es Grok V9-Medium (y qué no es)

El 25 de mayo de 2026, Elon Musk anunció que xAI había completado el entrenamiento de Grok V9-Medium. El modelo trepa hasta 1.5 billones de parámetros — un salto de 3x sobre V8-small (0.5T), que actualmente sirve todo el tráfico de producción de Grok.

Lo primero que hay que aclarar: V9-Medium no es una versión reducida de Grok 5. Es un modelo independiente con foco específico en coding. Grok 5 (estimado en 6T parámetros, MoE) apunta a razonamiento frontier y multimodalidad. V9-Medium se juega la carta de ser el mejor modelo para tareas de ingeniería de software.

Musk fue inusualmente sincero al describir V8 como “solo 0.5T” y承认 que le faltan datos de entrenamiento importantes. Un reconocimiento que rara vez se escucha antes de un lanzamiento.

La apuesta Cursor: entrenar con lo que los devs hacen de verdad

Aquí está la diferenciación técnica que merece atención. La mayoría de modelos de código se entrenan con snapshots estáticos de repositorios públicos de GitHub. V9-Medium incorpora datos de uso real de Cursor — el editor de código con IA que compite directamente con GitHub Copilot.

¿Qué implica esto en la práctica? Cursor captura algo que un repositorio público no refleja: el bucle de interacción entre un desarrollador y su herramienta de IA. Refactors multi-fichero, correcciones iterativas, implementaciones parciales que se van completando, y ajustes que preservan el estilo de código existente.

La premisa de xAI es clara: si quieres un modelo que trabaje como trabajan los desarrolladores, entrénalo con lo que los desarrolladores hacen realmente.

Es una buena hipótesis. Pero hay que matizarla. Los datos de entrenamiento son necesarios pero no suficientes. La fase de reinforcement learning (RL) que está corriendo ahora determinará si estas capacidades generalizan bien fuera de los patrones observados en Cursor. Un modelo que imita los patrones de un editor concreto puede sobreajustarse a sus convenciones.

El contexto competitivo: dónde está Grok ahora

Para entender si V9-Medium merece atención, hay que ver los números actuales:

Modelo	SWE-bench Verified	Context Window	API Input/Output ($/1M tokens)
Grok 4	72-75%	2M	$1.25 / $2.50
Claude Opus 4.6	80.8%	200K	$5.00 / $25.00
GPT-5.5	88.7%	1M	$2.50 / $10.00
Gemini 3.5 Pro	~79%	2M	$0.50 / $1.50

xAI tiene un gap de 10-15 puntos porcentuales frente a los líderes en SWE-bench. V9-Medium intenta cerrarlo con scale (3x más parámetros) y datos de entrenamiento más relevantes para coding.

En pricing, xAI mantiene precios agresivos frente a Anthropic. Si V9-Medium mantiene la estrategia de $1-3/M tokens input y $2-6/M tokens output, competirá en coste con GPT-5.5 mientras intenta acercarse en calidad. Lo que ya no compite es en precio con Gemini, que está en otra liga de eficiencia.

xAI Colossus 2: la infraestructura detrás del modelo

V9-Medium se entrenó en Colossus 2, el supercluster de xAI en Memphis, Tennessee. Los números son brutales:

~550,000 GPUs NVIDIA GB200 y GB300
Consumo eléctrico >1 gigavatio — la primera instalación de entrenamiento IA a escala de gigavatio del mundo
Colossus 1 (230K GPUs H100/H200 + 30K GB200s) se mantiene operativo para inferencia

Lo más curioso de esta historia: Anthropic firmó un contrato por $1.25B al mes hasta mayo de 2029 para alquilar capacidad de Colossus 1. Es decir, el competidor directo de Claude Code está pagando a xAI por infraestructura. Un detalle que habla más sobre la escasez de GPUs y los márgenes de xAI que sobre cualquier alianza estratégica.

xAI reconoció que Colossus 1 operaba al 11% de utilización. Alquilarlo a Anthropic a $15B/año es monetización pura de capacidad ociosa mientras Colossus 2 absorbe el entrenamiento.

La jugada Anthropic: billing split el 15 de junio

Coincidencia o no, Anthropic anunció cambios en la facturación de Claude Code efectivos el 15 de junio. A partir de esa fecha, el Agent SDK, claude -p, Claude Code GitHub Actions y todas las aplicaciones agent de terceros se facturan en un pool separado a precios de API completa.

Para un usuario de Claude Pro ($20/mes), el credit de agentes pasa a $20/mes a tarifa API. Para Max 5x ($100/mes), $100. Es un incremento efectivo de 12x-175x para workloads agentic intensivos.

Si V9-Medium sale la semana del 15 de junio con precios competitivos, el timing es perfecto para captar devs descontentos con el cambio de facturación de Anthropic.

Grok 5 y el roadmap: qué viene después

V9-Medium es el preludio. El roadmap de xAI incluye:

Grok 5: 6T parámetros, MoE, modelo frontier para razonamiento multimodal. Los mercados de predicción le dan solo ~12% de probabilidad de lanzamiento antes del 30 de junio. Entrenamiento en Colossus 2 en curso.
Open-source de V8-small (0.5T): previsto para finales de 2026. xAI mantiene el patrón de liberar modelos de la generación anterior (Grok 1 en marzo 2024, Grok 2.5 en agosto 2025).
Grok Build 0.1: ya disponible en API pública como beta, con Kilo Code integrado vía OAuth.

xAI también cerró un acuerdo con Anysphere (creadores de Cursor) que incluye una opción de compra por $60B a finales de 2026, o $10B por trabajo colaborativo. Si se ejecuta, el acceso a datos de Cursor para entrenamiento deja de ser un contrato temporal y se convierte en integración vertical completa.

Lo que deberías hacer

Si usas coding agents, esto es lo práctico:

1. Prepara tu suite de evaluación. No te fíes de benchmarks sintéticos. Diseña tests con tu codebase real: un refactor multi-fichero, una feature que cruza varias capas, y un code review de un PR difícil. Cuando V9-Medium salga, pásale esos tests.

2. No cambies de stack hasta ver resultados independientes. xAI tiene historial de retrasos (V8 salió dos semanas tarde). Y la apuesta de datos de Cursor es interesante pero no probada. Un modelo entrenado con patrones de un editor puede generalizar mal fuera de ese contexto.

3. Revisa tu stack la semana del 15 de junio. Coinciden tres cosas: la billing split de Anthropic, el lanzamiento de V9-Medium, y la consolidación de Gemini 3.5 Pro como modelo barato de calidad. Es un buen momento para hacer auditoría de coste-calidad de tu stack completo.

4. Si ya usas la API de xAI, el coste de probar V9-Medium será mínimo — misma API compatible con OpenAI, mismo formato de requests. Un pilot de dos horas con tu codebase te dirá más que cualquier artículo.

Conclusión

Grok V9-Medium es la apuesta más seria de xAI por el mercado de coding agents. 1.5T parámetros, datos de Cursor, release inminente y pricing agresivo. Pero una hipótesis de entrenamiento no es un resultado. El gap de SWE-bench es real, y la competencia (Claude, GPT, Gemini) no está esperando.

Lo inteligente: tener el plan de evaluación listo y ejecutarlo tan pronto como el modelo esté disponible. Lo ingenuo: migrar de stack por un anuncio de Musk.

Fuentes: TechTimes — Grok AI V9-Medium, ChatForest — Builder’s Guide, FullStackEvolved — Coding Model Analysis, NextBigFuture — Anthropic xAI Deal, ActuIA — Anthropic Colossus Rental, LM Market Cap — Grok Pricing

Relacionado en GPT Diffusion: Coding agents: Claude Code, Codex, OpenCode, Cursor, Recortar costes de coding agents un 50%, Review de Grok 3