Claude Mythos: qué es, por qué está restringido y qué significa para la IA

TL;DR

Claude Mythos Preview es el modelo más potente de Anthropic, restringido a partners defensivos. Su especialidad: encontrar y explotar vulnerabilidades de software de forma autónoma.
En el primer mes de Project Glasswing, Mythos descubrió más de 10.000 vulnerabilidades de alta o crítica severidad, con un 90.8% de tasa de verdaderos positivos sobre 1.900 hallazgos revisados.
El problema real no es encontrar vulnerabilidades, sino parchearlas: de 1.596 divulgaciones formales, solo 97 llegaron a parche upstream y 88 a advisory publicado. El maintainer está saturado.
Anthropic limita el acceso porque la asimetría ofensa-defensa es brutal: el atacante solo necesita explotar una vez; el defensor tiene que parchear todo. Pricing: $25/$125 por millón de tokens (5x Opus 4.7).
Si no estás en Glasswing, lo práctico es usar Claude Security (beta pública con Opus 4.7), parchear dependencias rápido y no perder de vista que la mayoría de brechas siguen siendo ataques simples.

Qué es Claude Mythos exactamente

Claude Mythos Preview no es un chatbot más. Anthropic lo describe como un modelo general-purpose de frontera que demostró, durante su entrenamiento, una capacidad inusual en tareas de ciberseguridad. Tan inusual que la propia Anthropic decidió que publicarlo sin restricciones era un riesgo inaceptable.

Mythos pertenece a una nueva categoría de tier que Anthropic llama internamente Capybara — un escalón por encima de Opus. Las estimaciones apuntan a una arquitectura Mixture of Experts (MoE) con alrededor de 10 billones de parámetros, aunque Anthropic no ha confirmado las cifras oficiales.

El modelo salió a la luz primero por accidente: un leak de ~3.000 assets internos a finales de marzo de 2026 por un CMS mal configurado. Anthropic confirmó su existencia oficialmente el 7 de abril de 2026, cuando anunció Project Glasswing.

Los números: Mythos vs Opus vs la competencia

Los benchmarks publicados por Anthropic son el mejor punto de partida para entender la magnitud del salto:

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Claude Opus 4.7	GPT-5.4
SWE-bench Verified	93.9%	80.8%	87.6%	71.7%
SWE-bench Pro	77.8%	53.4%	—	—
SWE-bench Multimodal	59.0%	27.1%	—	—
CyberGym (Exploit Development)	83.1%	~0%	73.1%	66.3%
Terminal-Bench 2.0	82.0%	65.4%	—	—
Humanity’s Last Exam (con tools)	64.7%	53.1%	—	—

Lo relevante no es solo la puntuación bruta, sino la naturaleza de las tareas. CyberGym mide la capacidad de reproducir y desarrollar vulnerabilidades reales de software — Opus 4.6 estaba cerca del 0% en exploit development. Mythos no solo mejora marginalmente: supera a Opus por márgenes de 15-25 puntos porcentuales en tareas de seguridad.

En pruebas de Mozilla, Mythos desarrolló exploits JavaScript funcionales para Firefox 181 veces. Claude Opus 4.6 lo logró 2 veces. Un ratio de 90x no es una mejora iterativa, es un cambio de categoría.

Qué puede hacer que otros modelos no

Mythos opera de forma autónoma en lo que Anthropic llama “agentic coding”. El flujo no es “humano pide, modelo sugiere, humano ejecuta”. Es: modelo lee codebase, formula hipótesis de vulnerabilidad, prueba en entornos containerizados, desarrolla exploit funcional, y reporta — sin intervención humana intermedia.

Hallazgos concretos documentados por Anthropic y sus partners:

OpenBSD: descubrió una vulnerabilidad de 27 años (TCP sequence number integer overflow en SACK) que permitía crashes remotos en uno de los sistemas operativos más auditados del mundo.
FreeBSD: explotó un bug de ejecución remota de código (RCE) de 17 años que permitía acceso root completo sin autenticación.
FFmpeg: encontró una vulnerabilidad de 16 años que había sobrevivido a 5 millones de ejecuciones de herramientas de fuzzing automatizado.
Linux Kernel: encadenó múltiples vulnerabilidades para construir chains de escalada de privilegios completas.
wolfSSL (CVE-2026-5194): construyó un exploit capaz de falsificar certificados de seguridad, con implicaciones directas para phishing bancario y de email. Anthropic escaneó más de 1.000 proyectos OSS para llegar a este hallazgo.

Además: Mythos construye autonomamente técnicas antes reservadas a investigadores elite — JIT heap spraying para escapar sandboxes de renderer y OS, ROP chains de más de 1.000 bytes, y bypass de KASLR identificando race conditions sutiles.

Project Glasswing: el programa restringido

Ante la disyuntiva de liberar un modelo con estas capacidades, Anthropic eligió un camino intermedio: Project Glasswing, un programa de colaboración defensiva lanzado el 7 de abril de 2026 con 12 partners fundadores y más de 40 organizaciones participantes.

Partners fundadores

Cloud: AWS, Google, Microsoft
Hardware: NVIDIA, Broadcom
Seguridad: CrowdStrike, Palo Alto Networks, Cisco
Software: Apple, Mozilla, Oracle
Open Source: Linux Foundation, Apache Software Foundation
Finance: JPMorganChase

Anthropic comprometió $100 millones en créditos de uso del modelo para partners y $4 millones en donaciones directas a proyectos de seguridad open source ($2.5M a OpenSSF/Alpha-Omega, $1.5M a Apache Foundation).

Primeros resultados (primer mes)

Los datos del update inicial de Glasswing son contundentes:

Métrica	Valor
Vulnerabilidades alta/crítica severidad	10.000+
Proyectos open source escaneados	1.000+
Total vulnerabilidades OSS encontradas	23.019
Verdaderos positivos (1.900 revisados)	1.726 (90.8%)
Proyectos OSS con parche aplicado upstream	97
Vulnerabilidades divulgadas formalmente	1.596
Advisories publicados	88

Cloudflare reportó 2.000 bugs en sistemas critical-path, con una tasa de falsos positivos que supera a testers humanos. Mozilla encontró 271 vulnerabilidades en Firefox 150 — un aumento de 10x respecto a lo que Claude Opus 4.6 encontró en Firefox 148. Palo Alto Networks liberó 5x más parches de lo habitual. El UK AI Security Institute confirmó que Mythos es el primer modelo que resuelve ambos de sus cyber ranges (simulaciones de ataque multistep) end-to-end.

El triage gap: el verdadero problema

Aquí está el dato incómodo. De 1.596 vulnerabilidades divulgadas formalmente, solo 97 recibieron parche upstream y 88 llegaron a advisory publicado. El maintainer open source — normalmente un voluntario sin recursos — está saturado.

Anthropic lo reconoce explícitamente: “The human capacity to triage, report, and patch vulnerabilities cannot keep pace with AI-driven discovery.” La ventana tradicional de 90 días para divulgación se ha convertido en un cuello de botella. La IA redujo el coste de encontrar vulnerabilidades a casi cero; el ecosistema no ha ajustado su capacidad de respuesta.

Por qué está restringido: el cálculo de Anthropic

La razón no es solo marketing. Hay un argumento técnico sólido:

La asimetría ofensa-defensa. Un modelo que encuentra vulnerabilidades 10x más rápido que un equipo de seguridad humano es igualmente útil para un atacante que para un defensor. La diferencia: el defensor tiene que parchear todas; el atacante solo necesita explotar una.

Otros factores:

Barrera de entrada eliminada. Anthropic documentó que un ingeniero sin formación formal en seguridad usó Mythos para encontrar vulnerabilidades RCE críticas overnight. Un trabajo que normalmente lleva semanas a un equipo especializado.
Fugas ya documentadas. Al menos un grupo ganó acceso a Mythos a través de un vendor de Anthropic durante el despliegue controlado. El riesgo de fuga es real, no teórico.
Reacción gubernamental. El gobierno de EE.UU. convocó una reunión de emergencia con el Departamento del Tesoro. Ministros de finanzas del G7 expresaron preocupación.
Compromisos criptográficos. Anthropic usa SHA-3 cryptographic commitments para documentar hallazgos sin exponer exploits antes de que los parches estén listos. Más del 99% de las vulnerabilidades descubiertas estaban sin parchear en el momento del anuncio.

Anthropic ha señalado que las “normas ordinarias de lanzamiento pueden estar rompiéndose” en el dominio de ciberseguridad. El cuello de botella se ha movido de encontrar vulnerabilidades a verificar, divulgar y parchear — y el ecosistema no está listo.

Hacia la liberación: Claude Security y Claude Code

La posición de Anthropic está evolucionando de “no hay planes de lanzamiento público” hacia una liberación escalonada:

Claude Security (Public Beta)

Disponible para clientes Claude Enterprise, funciona como scanner de vulnerabilidades en repositorios GitHub. Usa Claude Opus 4.7 (no Mythos directamente) y en tres semanas de beta ayudó a parchear más de 2.100 vulnerabilidades corporativas.

Claude Code

Referencias a claude-mythos-1-preview aparecieron brevemente en la interfaz de Claude Code antes de ser eliminadas. El modelo está claramente en camino hacia el agentic developer environment de Anthropic, probablemente con guardrails específicos.

Cyber Verification Program

Un programa que permite a profesionales de seguridad usar modelos para investigación legítima (pentesting, red-teaming) sin ciertos safeguards anti-misuso.

Precios (partners Glasswing)

Modelo	Input (1M tokens)	Output (1M tokens)
Claude Opus 4.7	$5	$25
Claude Mythos	$25	$125

5x el precio de Opus. Es caro incluso por estándares frontier. La justificación: el valor no está en el uso general, sino en encontrar vulnerabilidades que otros modelos no encuentran.

El debate: safety vs utilidad

La comunidad está dividida, y ninguno de los dos lados tiene toda la razón.

Ciaran Martin (ex director del NCSC del Reino Unido) calificó Mythos como “un muy buen hacker” — lo cual es exactamente el punto. Pero algunos analistas argumentan que Anthropic tiene un incentivo comercial para exagerar la singularidad del modelo. Si Mythos es “nunca visto antes”, justifica el pricing premium y el control restrictivo. Si es “el siguiente paso natural”, pierde poder de negociación.

Dario Amodei (CEO de Anthropic) admitió que espera que modelos open source y desarrolladores chinos repliquen las capacidades de Mythos en 6-12 meses. Si es así, la restricción es un respiro temporal, no una barrera permanente. Nature publicó un editorial preguntando si Mythos marca el inicio de “la era de la IA restringida”.

OpenAI respondió con GPT-5.4-Cyber y GPT-5.5-Cyber. La era de los modelos frontier restringidos ya empezó, y no es solo Anthropic.

Mi lectura

El problema no es Mythos. El problema es que el ecosistema de patching de software está roto desde antes de que existiera la IA. Mantenedores sin recursos, ciclos de parche lentos, dependencias transitivas sin auditoría. Mythos acelera el hallazgo, pero la otra mitad de la ecuación — parchear rápido — sigue siendo el cuello de botella.

Restringir el modelo funciona mientras Anthropic controla el acceso. En cuanto un competidor libere algo equivalente (y OpenAI ya lo ha hecho), la ventaja defensiva de Glasswing se diluye. La pregunta no es “¿debería Anthropic publicar Mythos?”, sino “¿está el mundo listo para que cualquiera lo tenga?”.

Qué significa para los devs

Si no estás en el programa Glasswing, lo práctico hoy:

Usa Claude Security si tienes Claude Enterprise. Es la versión “sanitizada” de estas capacidades, funciona con Opus 4.7, y ya ha parcheado más de 2.100 vulnerabilidades en la beta.
Revisa tu superficie de ataque. Si Mythos encontró 23.000 vulnerabilidades en 1.000 proyectos OSS, las probabilidades de que tus dependencias estén en esa lista son altas.
Acorta tus ciclos de patch. Anthropic, Mozilla, el NCSC y CrowdStrike convergen en lo mismo: patch rápido, MFA obligatorio, logs comprehensivos.
No te compliques. El NCSC británico fue claro: “la mayoría de brechas siguen ocurriendo por ataques simples que no requieren super-IA”. Parchear lo conocido sigue siendo más importante que preocuparse por el modelo que no puedes usar.

Si te interesa la perspectiva más amplia del debate open vs closed, nuestro análisis sobre la brecha entre modelos cerrados y open weights cubre el contexto. Y si quieres entender cómo se posiciona Claude Opus 4.7 en el mercado general (que es lo que sí puedes usar), tenemos el desglose aquí.