GPT Diffusion

GPT-5.5-Cyber vs Claude Mythos: dos filosofías opuestas para la seguridad en IA

2026-06-08 · Devs #openai#claude#seguridad#frontier-models#open-weights#comparativa

TL;DR

  • GPT-5.5-Cyber (OpenAI) y Claude Mythos (Anthropic) son los dos primeros modelos frontier diseñados específicamente para ciberseguridad. Llegaron con una semana de diferencia en abril de 2026.
  • OpenAI elige acceso amplio: miles de defenders verificados a través del programa Trusted Access for Cyber (TAC), con tres niveles de permisividad. Anthropic elige acceso restringido: 40 organizaciones en Project Glasswing, ninguna vía pública.
  • En benchmarks, los resultados son comparables: GPT-5.5 gana en CTF experto (71.4% vs 68.6%), Mythos gana en exploit development autónomo (CyberGym 83.1% vs ~66%) y resolución end-to-end de simulaciones multi-step.
  • El verdadero debate no es cuál modelo es mejor. Es si democratizar acceso a herramientas ofensivas de IA es defensable o suicida, y quién decide qué developer puede defenderse.
  • Si eres dev sin acceso a ningún programa, lo práctico hoy es usar Claude Security (Opus 4.7) o GPT-5.5 con TAC para scanner de vulnerabilidades, y acortar ciclos de parche. La mayoría de brechas siguen siendo ataques simples.

Contexto: abril 2026, el mes que cambió la seguridad en IA

El 7 de abril de 2026, Anthropic anunció Project Glasswing y Claude Mythos Preview — un modelo capaz de encontrar y explotar vulnerabilidades zero-day de forma autónoma, restringido a un consortium defensivo. Ocho días después, el 14 de abril, OpenAI respondió con GPT-5.4-Cyber y la expansión de su programa Trusted Access for Cyber. El 23 de abril llegó GPT-5.5, y el 7 de mayo OpenAI completó el paquete con GPT-5.5-Cyber y la plataforma Daybreak.

En un mes, la industria de la ciberseguridad pasó de “la IA va a ser relevante” a “la IA ya encontró 10.000 vulnerabilidades y estamos discutiendo quién puede usarla”. No es una evolución incremental. Es un cambio de categoría.

GPT-5.5-Cyber: qué es y cómo funciona

GPT-5.5-Cyber no es un modelo distinto de GPT-5.5. Es una variante del mismo modelo base con safeguards reducidos para tareas de seguridad. OpenAI lo describe como el nivel más permisivo de un sistema de tres capas:

NivelModeloQué cambiaCasos de uso
DefaultGPT-5.5Safeguards estándarDesarrollo general
Trusted Access (TAC)GPT-5.5 con safeguards ciberMenos refusals para tareas defensivasCode review seguro, triage de vulns, análisis de malware, validación de parches
MáximoGPT-5.5-CyberComportamiento más permisivo + verificación reforzadaRed teaming autorizado, pentesting, validación controlada

La clave del enfoque de OpenAI: el riesgo se gestiona por identidad, no por modelo. El mismo GPT-5.5 subyacente cambia su comportamiento según quién lo usa y qué nivel de verificación tiene. Desde el 1 de junio de 2026, el nivel GPT-5.5-Cyber requiere autenticación phishing-resistant — lo tratan como infraestructura privilegiada.

Trusted Access for Cyber (TAC)

El programa TAC es la columna vertebral de la estrategia de OpenAI. Funciona así:

  • Defenders individuales: verifican identidad en chatgpt.com/cyber
  • Empresas: solicitan acceso a través de un representante de OpenAI
  • Nivel avanzado (GPT-5.5-Cyber): usuarios existentes de TAC expresan interés y pasan verificación adicional

OpenAI ha sido explícito en su filosofía: No creemos que sea práctico ni apropiado decidir centralmente quién puede defenderse. Nuestro objetivo es habilitar a tantos defenders legítimos como sea posible, con acceso basado en verificación, trust signals y accountability.

Daybreak: la plataforma, no solo el modelo

El 12 de mayo de 2026, OpenAI presentó Daybreak — una plataforma que combina GPT-5.5/GPT-5.5-Cyber con Codex Security, un sistema agentic que opera continuamente dentro de repositorios:

  • Monitoriza codebases para riesgos emergentes
  • Valida vulnerabilidades reportadas para reducir falsos positivos
  • Propone y testea parches directamente en el repo

Codex Security ha contribuido a fijar más de 3.000 vulnerabilidades críticas y de alta severidad. Codex for Open Source alcanza más de 1.000 proyectos, proporcionando scanning gratuito. OpenAI comprometió $10M en su Cybersecurity Grant Program.

Benchmarks

El AISI (UK AI Security Institute) evaluó GPT-5.5 y lo clasificó como “High” (no “Critical”) en su Preparedness Framework. La razón: el modelo sigue fallando en exploit development judgment — la capacidad de convertir crashes en primitivas controladas de forma independiente, sin dirección humana.

BenchmarkGPT-5.5GPT-5.5-CyberClaude Mythos
CTF Expert Tier71.4%68.6%
CyberGym (Exploit Dev)~66%*83.1%
Terminal-Bench 2.082.7%82.0%
AISI Cyber Ranges (end-to-end)1 de 2 resueltos2 de 2 resueltos
XBOW Vuln Discovery10% miss rate

*GPT-5.4. GPT-5.5 mejoró pero Anthropic no ha publicado cifras directas comparables.

Un dato que contextualiza la magnitud: en un challenge de reversing de un binario Rust stripped, GPT-5.5 completó el trabajo en 10 minutos y 22 segundos por $1.73. Un experto humano tardó unas 12 horas.

Claude Mythos: qué sabemos (resumen)

Para el detalle completo, tenemos un artículo dedicado. Aquí lo esencial:

  • Tier Capybara: escalón por encima de Opus, estimado en ~10T parámetros MoE
  • SWE-bench Verified: 93.9% (vs 87.6% Opus 4.7)
  • Primer mes de Glasswing: 10.000+ vulnerabilidades alta/crítica, 23.019 totales en 1.000+ proyectos OSS, 90.8% verdaderos positivos
  • Hallazgos notables: RCE de 17 años en FreeBSD (root sin auth), vuln de 27 años en OpenBSD, CVE wolfSSL con falsificación de certificados
  • El triage gap: de 1.596 divulgaciones formales, solo 97 recibieron parche upstream
  • Pricing: $25/$125 por millón de tokens (5x Opus)
  • Acceso: 12 founding partners + ~40 organizaciones en Glasswing, sin vía pública todavía

La comparativa directa

Filosofía de seguridad

DimensiónOpenAI (TAC / Daybreak)Anthropic (Glasswing)
PosturaControlada: miles de defenders verificadosRestrictiva: consortium cerrado de 40 orgs
Supuesto de riesgoEl modelo puede usarse de forma segura con controlesEl modelo será misusado si se libera
Superficie de ataqueDistribuida: brechas son incidentes aisladosCentralizada: un breach puede ser catastrófico
Criterio de accesoVerificación de identidad + trust signalsInvitación + partnership contractual
EcosistemaCodex Security (agentic, 3.000+ vulns fijadas), 1.000+ proyectos OSS$100M créditos + $4M donaciones OSS

Capacidades técnicas

Aquí está donde los datos se complican. Ambos modelos son extraordinarios, pero brillan en cosas distintas:

GPT-5.5-Cyber es mejor en:

  • Tareas de CTF estructuradas (71.4% vs 68.6%)
  • Velocidad en tareas específicas (reversing de binarios en minutos vs horas)
  • Integración en workflows de desarrollo (Daybreak + Codex Security como plataforma agentic)

Claude Mythos es mejor en:

  • Exploit development autónomo (CyberGym 83.1% vs ~66% de GPT-5.4)
  • Resolución end-to-end de simulaciones multi-step (2/2 vs 1/2 en AISI ranges)
  • Descubrimiento de vulnerabilidades a escala (10.000+ alta/crítica en un mes)
  • Operación sin intervención humana intermedia (agentic coding completo)

La diferencia fundamental: Mythos es un modelo de razonamiento general con capacidades ofensivas extraordinarias. GPT-5.5-Cyber es un modelo general con safeguards ajustados para tareas defensivas. Mythos puede encontrar una vulnerabilidad y desarrollar el exploit funcional de forma autónoma. GPT-5.5-Cyber necesita más dirección humana, pero está integrado en una plataforma (Daybreak) que automatiza la otra mitad del problema: parchear.

Pricing y acceso

Claude Mythos (Glasswing)GPT-5.5-Cyber (TAC)
Acceso individualNo disponibleSí, vía chatgpt.com/cyber
Acceso enterprisePartner de Glasswing (40 orgs)Cualquier empresa verificable
Coste modelo$25/$125 por 1M tokensPrecios de GPT-5.5 estándar + sobrecosto TAC
Herramienta agenticNo (modelo solo)Codex Security (incluido)
EscalabilidadLimitada por consortiumDiseñada para miles

Mythos es 5x más caro que Opus, y solo lo usan 40 organizaciones. GPT-5.5-Cyber tiene un modelo de acceso más abierto, pero OpenAI no ha publicado pricing diferenciado para el tier Cyber (probablemente se structure como parte del programa TAC enterprise).

Lo que nadie dice: los problemas compartidos

Tanto OpenAI como Anthropic convergen en los mismos problemas estructurales:

El triage gap no se resuelve con mejores modelos. Anthropic lo documentó: Mythos encontró 23.000 vulnerabilidades, pero solo 97 llegaron a parche upstream. OpenAI tiene el mismo problema a la inversa: Codex Security fijó 3.000+ vulns, pero eso es una fracción de lo que los modelos pueden encontrar. El maintainer open source — normalmente un voluntario — sigue siendo el cuello de botella.

La asimetría ofensa-defensa es brutal. Anthropic lo formula claro: el atacante solo necesita explotar una vez; el defensor tiene que parchear todo. Ambos modelos aceleran el hallazgo. Ninguno acelera el parcheo al mismo ritmo.

La ventana de divulgación está rota. Los 90 días tradicionales de responsible disclosure funcionaban cuando encontrar una vulnerabilidad costaba semanas de trabajo humano. Ahora cuesta minutos y $1.73. El ecosistema no ha ajustado su velocidad de respuesta.

Los modelos no son “Critical” todavía, pero lo serán. El AISI clasificó a GPT-5.5 como “High” porque falla en exploit judgment. Mythos está más cerca — resolvió ambos cyber ranges end-to-end — pero aún necesita dirección para ciertas cadenas de explotación. La próxima generación de estos modelos probablemente cruce ese umbral. Y entonces la pregunta de quién tiene acceso deja de ser académica.

El debate open weights vs acceso controlado

Aquí es donde la conversación se pone incómoda, porque ninguna posición es totalmente coherente.

El argumento de Anthropic (restrictivo): si liberamos Mythos, cualquier script kiddie con $125 de crédito puede encontrar zero-days. La barrera de entrada a la ciberdelincuencia se elimina. Y una vez que un modelo está fuera, no se mete de vuelta en la botella.

El argumento de OpenAI (amplio): si solo 40 organizaciones tienen acceso a las mejores herramientas defensivas, las otras millones están desarmadas. El atacante usará lo que tenga — incluyendo modelos chinos o open-source que eventualmente replicarán estas capacidades. Dario Amodei (CEO de Anthropic) admitió que espera que eso pase en 6-12 meses.

El problema con ambas posiciones: ambos asumen que pueden controlar la proliferación. OpenAI confía en la verificación de identidad (que ya ha demostrado ser vulnerable a phishing). Anthropic confía en un consortium de 40 organizaciones (una de las cuales ya sufrió una fuga de acceso). Y ambos ignoran que los modelos chinos, los modelos open-source y los forks no regulados van a llegar a estas capacidades independientemente.

Mi lectura: la restricción funciona como respiro temporal, no como barrera permanente. La pregunta práctica no es “¿debería publicarse Mythos?” sino “¿están tus dependencias parcheadas para cuando cualquiera tenga esta capacidad?”.

Qué significa para los devs

Si no estás en Glasswing ni en TAC premium, lo práctico hoy:

  1. Usa Claude Security si tienes Claude Enterprise. Funciona con Opus 4.7, no con Mythos directamente, pero en tres semanas de beta parchó más de 2.100 vulnerabilidades corporativas.

  2. Aplica a TAC si tu organización hace trabajo defensivo serio. El acceso individual es posible vía chatgpt.com/cyber, y el acceso enterprise da safeguard ciber sobre GPT-5.5 estándar.

  3. Acorta ciclos de parche. Independientemente de qué modelo uses, el triage gap es el problema real. Automatiza actualización de dependencias, implementé SBOMs, y no dejes vulnerabilidades conocidas sin parchear más de 30 días.

  4. No pierdas de vista lo elemental. El NCSC británico fue claro: la mayoría de brechas siguen ocurriendo por ataques simples — phishing, credenciales reutilizadas, software sin actualizar. Un modelo que encuentra zero-days en OpenBSD es impresionante, pero no es lo que te va a comprometer.

Si quieres entender Claude Mythos en profundidad, tenemos el análisis completo aquí. Y si te interesa el debate más amplio de open vs closed, nuestro análisis sobre la brecha entre modelos cerrados y open weights cubre el contexto.

Fuentes

Cargando comentarios...