Radar IA Semanal: Microsoft Build 2026 entregó el stack agentic completo, Grok V9-Medium llega en junio y OpenRouter levanta $113M

Qué pasó

Microsoft Build 2026: el stack agente es real. Microsoft Agent Framework (MAF) pasó a 1.0 GA. Agent Harness trae context compaction, shell sandboxeado, file memory y web search integrados. CodeAct reduce tokens un 63.9% y latencia un 52.4% ejecutando Python en micro-VMs Hyperlight. GitHub Copilot Workspace salió de beta con Autopilot (razona sobre repos enteros) y Fleet Mode (paraleliza issues). Y Project Polaris — el modelo propio de Microsoft para Copilot — reemplaza GPT-4 Turbo en agosto.

Grok V9-Medium (1.5T params) terminó entrenamiento. xAI completó el entrenamiento de su modelo flagship con 1.5 billones de parámetros. RL ya está corriendo. Musk promete release en 2-3 semanas (mitad de junio). El modelo se entrenó con datos de Cursor y apunta a ser top en coding.

Qwen 3.7-Max: 1M contexto, benchmark runner. Alibaba lanzó su modelo agent-first con 1M tokens de contexto window, extended-thinking nativo y resultados que superan a DeepSeek V4 Pro y Claude Opus 4.6 en SWE-Pro (60.6) y Terminal-Bench 2.0 (69.7). Pricing: $2.50/$7.50 por millón. Corrió 35 horas autónomo con 1,158 tool calls sin supervisión.

KPMG despliega Claude a 276,000 empleados. Alianza global entre KPMG y Anthropic. Claude Cowork y Managed Agents se integran en Digital Gateway, la plataforma de delivery de KPMG (hosteada en Azure). Rollout completo en septiembre. Anthropic nombró a KPMG partner preferido para private equity.

OpenRouter levanta $113M Series B. CapitalG (Alphabet) lideró la ronda con participación de NVentures, ServiceNow, MongoDB, Snowflake y Databricks. OpenRouter procesa 25T tokens/semana y 100T/mes. El routing multimodelo se consolidó como infraestructura estándar enterprise.

Claude Mythos: rollout escalonado en curso. A pesar de que Anthropic insiste en que Mythos sigue restringido a ~40 organizaciones via Project Glasswing, “claude-mythos-1-preview” ha aparecido tres veces en herramientas públicas: Claude Code, Claude Security y sistemas de cloud. El modelo descubrió 10K+ vulnerabilidades críticas en menos de un mes, incluyendo un bug de 27 años en OpenBSD. Anthropic está desarrollando herramientas de patch generation para acompañar el discovery.

Cohere + Aleph Alpha: $20B en IA soberana. Cohere (Canadá) adquirió Aleph Alpha (Alemania) creando una entidad combinada valorada en $20B, con $600M en Series E liderada por Schwarz Group. Es la primera empresa AI enterprise construida explícitamente como alternativa a los hyperscalers estadounidenses para gobiernos e industrias reguladas.

WWDC 2026 (Jun 8-12): expectativa máxima. Todo apunta a iOS 27 con Siri 2.0 (posiblemente con backend Gemini), macOS 27, Apple Intelligence 2.0 y el Extensions Framework para agentes. Apple necesita demostrar que puede competir en el espacio agente después de un año de “Apple Intelligence básico”.

Por qué importa

MAF 1.0 + Copilot Workspace GA = la oferta de agentes enterprise más completa. Microsoft unificó AutoGen y Semantic Kernel, le añadió Agent Harness con context compaction (algo que la mayoría de frameworks no tienen) y CodeAct para reducir coste de orquestación. Si estás construyendo agentes enterprise, MAF es el estándar de facto ahora. El uso de micro-VMs Hyperlight para CodeAct es una decisión inteligente: aislar la ejecución de código del modelo sin hipotecar latencia.

Project Polaris es el movimiento más agresivo de Microsoft contra la dependencia de OpenAI. Reemplazar GPT-4 Turbo por un modelo propio MoE que corre en Maia accelerators no es solo ahorro de coste — es control estratégico. Si Polaris supera a GPT-4 Turbo en HumanEval y MBPP, el argumento de “necesitamos OpenAI” se debilita significativamente. Agosto es la fecha clave.

Grok V9-Medium a 1.5T params redefine la carrera de frontier. El salto de ~500B a 1.5T es significativo. Si los evals son buenos y el pricing es competitivo, xAI tiene un modelo que compite directamente con GPT-5 y Claude Opus. Pero la integración con Cursor como fuente de datos de training genera preguntas sobre la procedencia y legalidad de esos datos.

Qwen 3.7-Max demuestra que China no necesita occidente para frontier. 1M contexto, benchmark runner, $2.50/$7.50 por millón. Para equipos que no tienen requisitos de privacidad que exijan modelos US/EU, Qwen 3.7-Max es la opción más barata en la categoría frontier. La demo de 35 horas autónoma con 1,158 tool calls es la prueba más concreta hasta ahora de que los modelos pueden operar de forma sostenida sin colapsar.

OpenRouter con $113M es la validación del routing como infraestructura. Cuando CapitalG (Alphabet) y NVentures (NVIDIA) invierten juntos, es porque ven algo que escala. 25T tokens/semana no es vaporware — es tráfico real. Mi lectura: el futuro no es un solo modelo, es routing inteligente entre muchos. OpenRouter es el switch de ese tráfico.

Mythos es un dilema de seguridad, no solo un modelo. Un modelo que encuentra bugs de 27 años en OpenBSD y bloquea fraudes de $1.5M es extraordinariamente útil. Que el mismo modelo pueda encontrar vulnerabilidades en sistemas sin permiso es el problema. Anthropic está entre la espada y la pared: el rollout escalonado sugiere que la demanda enterprise es demasiado fuerte para contener, pero las herramientas de mitigación (patch generation, sandboxes) no están listas.

Cohere-Aleph Alpha es la apuesta más seria por la IA soberana. $20B de valoración no es un experimento. Para gobiernos europeos que no quieren depender de OpenAI, Anthropic o Google, esta es la alternativa real. La pregunta es si la combinación de R&D canadiense + institutional knowledge alemán puede producir modelos competitivos sin la escala de compute de US hyperscalers.

A quién afecta

Devs construyendo agentes: MAF 1.0 es el estándar. Si usabas LangChain o CrewAI para producción, evalúa la migración. Agent Harness + CodeAct resuelve problemas reales (context overflow, orquestación costosa) que los otros no resuelven.
Equipos con Copilot: Project Polaris llega en agosto. Si tus workflows dependen del comportamiento exacto de GPT-4 Turbo, empieza a testear ahora. El fallback de 3 meses es un periodo de gracia, no una prórroga.
Equipos con routing multimodelo: OpenRouter tiene respaldo corporativo. El riesgo de vendor lock-in se reduce cuando CapitalG y a16z están detrás. Pero vigila pricing: con $113M en el banco, los descuentos de crecimiento no duran para siempre.
Empresas europeas reguladas: Cohere + Aleph Alpha es la opción si necesitas soberanía de datos y no quieres depender de proveedores US. Pero los modelos todavía no son tan potentes como frontier US — el trade-off es privacidad por capacidad.
Todos los que usan Claude: Vigila Mythos. Cuando salga, probablemente cambie el pricing y el posicionamiento de Opus. Un modelo que supera a Opus en razonamiento de seguridad y está restringido sugiere un tier premium encima del frontier actual.

Qué haría yo

Evaluar MAF para nuevos proyectos de agentes. Si estás en .NET o Python, no tiene sentido empezar con frameworks experimentales. MAF tiene Agent Harness, Foundry hosting y CodeAct integrado. Es la opción con menos riesgo técnico hoy.
No migrar a Polaris ciegamente. Agosto es el cutoff. Usa los próximos 2 meses para testear contra tus codebases reales. Si Polaris rompe algo en tus Copilot extensions, necesitas tiempo para adaptar.
Añadir Qwen 3.7-Max al routing. A $2.50/$7.50 con 1M contexto, tiene sentido para tareas de coding autónomo largo. No lo usaría para decisiones críticas sin validar antes, pero como worker barato es difícil de superar.
Vigilar Mythos de cerca pero no planificar alrededor de él. Hasta que Anthropic anuncie pricing y disponibilidad oficial, planear con Mythos es planear con vaporware. Pero si estás en seguridad, empezar a pensar cómo integrar patch generation en tu workflow es tiempo bien invertido.

Señales que estoy vigilando

Project Polaris vs GPT-5: Si Polaris supera a GPT-5 en coding benchmarks, la dinámica Microsoft-OpenAI se recalibra radicalmente.
Grok V9-Medium pricing: A 1.5T params, ¿sale a $3/$15 como Claude Opus o más barato? El pricing definirá su adopción real.
Mythos general release: Cada “filtración” sugiere que el release está más cerca. Cuando llegue, será el modelo más polémico del año.
WWDC iOS 27: Si Apple anuncia Extensions Framework para agentes, el ecosistema iOS se abre de verdad a terceros por primera vez.
Cohere-Aleph Alpha modelos: ¿Pueden producir un modelo competitivo con frontier US? Si lo logran, el mercado de IA soberana se legitima.

Próximo radar: 13 de junio. RSS para actualizaciones semanales.