GPT Diffusion

Radar IA Semanal: GPT-5.5 arrasa en ARC-AGI 2, Musk pierde contra OpenAI, y Meta le declara la guerra al fine-tuning no autorizado

2026-05-23 · editorial

Qué pasó

GPT-5.5 arrasa en ARC-AGI 2 con 85.0. El modelo de OpenAI (lanzado el 23 de abril) se colocó como #1 en ARC-AGI 2, el benchmark de razonamiento abstracto que durante meses parecía estancado en los 60s. Gemini 3.1 Pro quedó segundo con 77.1, y Claude Opus 4.6 tercero con 68.8. La brecha entre GPT-5.5 y el resto es de casi 8 puntos — algo que no se veía desde GPT-4 en su momento.

GPT-5 domina Aider polyglot. GPT-5 (high effort) lidera el benchmark de coding Aider con 88.0, seguido de GPT-5 (medium) con 86.7. GPT-5.5 aún no aparece en Aider, lo que sugiere que la optimización para coding sigue siendo un work-in-progress. Grok 4 debutó en #7 con 79.6 — decente para un modelo que no estaba en el top 10 hace un mes.

Musk pierde su demanda contra OpenAI. Un jurado federal en California desestimó por unanimidad la demanda de $150B de Elon Musk contra OpenAI y Sam Altman. El veredicto: Musk presentó las reclamaciones fuera del plazo legal. No hubo deliberación larga — el jurado decidió rápido. Esto cierra (probablemente) el capítulo legal más grande de la historia de la IA.

Meta envía aviso legal a Heretic. Meta emitió un aviso legal a Heretic, una herramienta open-source que elimina el safety alignment de modelos Llama mediante ablación direccional sin reentrenamiento. Es la primera acción de Meta contra un proyecto derivado de sus pesos. La comunidad LocalLLaMA (1,681 upvotes) lo discutió intensamente — no está claro si Meta puede hacer cumplir la restricción de licensing sobre un tool que modifica pesos ya descargados.

Los PRs generados por IA son mainstream. Un post en r/ClaudeAI con 2,261 upvotes sobre “Reviewing AI-generated pull requests in 2026” reflejó un debate que ya no es teórico: según un reporte de Opsera, los PRs con IA tardan 4.6x más en revisión y generan un 15-18% más de vulnerabilidades de seguridad. Stripe shippeó 1,300 PRs en una semana con agentes. La productividad sube, pero el bottleneck se movió al review.

Gemini 3.1 Pro lidera MMMLU con 92.6. Google mantiene su corona en el benchmark de conocimiento general. Claude Opus 4.6 quedó segundo (91.1) y Qwen 3.6 Plus tercero (91.0). La diferencia entre Opus y Qwen es marginal — pero Qwen cuesta una fracción. El patrón de “90% de la calidad a 10% del precio” se consolida.

Por qué importa

ARC-AGI 2 era el benchmark que separaba modelos buenos de modelos que razonan. Hasta ahora, los scores rondaban 60-70. GPT-5.5 rompiendo 85 cambia la conversación: no es solo mejor, es cualitativamente distinto en razonamiento abstracto. Si este score se replica en tareas reales (no solo en benchmarks), los agentes autónomos dejan de ser demo y pasan a ser herramientas de producción.

El veredicto Musk vs OpenAI confirma el status quo. OpenAI sigue siendo una empresa con ánimo de lucro. No hay obligación de abrir sus modelos. Para devs, esto significa que la dependencia de APIs propietarias no va a desaparecer por litigios. La soberanía de datos sigue siendo el argumento principal para open-weights.

Meta vs Heretic es un test case para el ecosistema open-weight. Si Meta consigue frenar la modificación de pesos descargados, la promesa de “open” se reduce drásticamente. Los pesos serían “descargables” pero no “modificables”. Esto afecta directamente a cualquier dev que fine-tunea modelos Llama para casos de uso específicos.

Los PRs con IA tienen un problema de calidad, no de cantidad. Los agentes generan código rápido — Stripe lo demostró. Pero el review manual no escala. El siguiente paso no es “mejores agentes que escriben código”, es “agentes que revisan código generado por agentes”. Y eso trae problemas recursivos de confianza.

A quién afecta

  • Devs que usan coding agents: El bottleneck ya no es escribir código, es revisarlo. Si no tienes proceso de review robusto, los agentes te inundarán de deuda técnica disfrazada de velocidad.
  • Startups que fine-tunean Llama: El caso Heretic podría establecer un precedente restrictivo. Monitorea el litigio antes de invertir en infraestructura de fine-tuning sobre pesos Meta.
  • Equipos de infraestructura: GPT-5.5 lidera razonamiento pero no coding (Aider). GPT-5 lidera coding pero no razonamiento (ARC-AGI). El routing por tarea sigue siendo la jugada correcta.
  • Advocates de open-source: La semana confirma que la batalla por la apertura se juega en los tribunales de licensing, no en los benchmarks.

Qué haría yo

  1. No migrar todo a GPT-5.5 todavía. El score de ARC-AGI 2 es notable, pero Aider aún no lo refleja. Esperaría a que los benchmarks de coding se estabilicen antes de cambiar routing de producción.

  2. Invertir en review automation, no en más agents de escritura. Si tus PRs con IA tardan 4.6x más en revisión, el cuello de botella es claro. Un agent que haga first-pass review (check de tests, linting, security scan) es más valioso ahora que otro agent que genere más código.

  3. Monitorear el caso Heretic de cerca. Si Meta gana, cualquier licensing agreement de pesos “open” podría incluir cláusulas anti-modificación. Eso cambia radicalmente el landscape de fine-tuning sobre modelos abiertos.

  4. Routing actualizado con los nuevos datos:

    • Razonamiento abstracto / investigación → GPT-5.5 (el mejor en ARC-AGI 2)
    • Coding complejo → GPT-5 high (88.0 en Aider)
    • Rutina / extracción → Step 3.5 Flash o GLM-4.5-Air (gratis)
    • Conocimiento general barato → Qwen 3.6 Plus (91.0 MMMLU, precio bajo)

Señales que estoy vigilando

  • GPT-5.5 en Aider: Si sube al top 3, la hegemonía de GPT-5 en coding tiene los días contados.
  • Resolución del caso Heretic: Un ruling a favor de Meta restringiría el ecosistema open-weight de forma significativa.
  • Grok 4 en coding: xAI subió del nada al #7 en Aider en un mes. Si la tendencia continúa, Grok será un contender real.
  • Quality control de PRs con IA: El reporte de Opsera (15-18% más vulnerabilidades) es una señal de alarma. Si no se soluciona, los CTOs empezarán a frenar la adopción de agents.

Qué leer esta semana


Próximo radar: 30 de mayo. RSS para actualizaciones semanales.