GPT-6 “Spud”: todo lo que sabemos tras el lanzamiento de GPT-5.5

Tracker actualizado: 25 de mayo de 2026. Este artículo se actualiza conforme haya nuevos datos verificables. Último cambio: estado de mercados de predicción y GPT-5.6 en testing interno.

TL;DR

“Spud” no fue GPT-6. Fue GPT-5.5, lanzado el 23 de abril de 2026. El verdadero GPT-6 está proyectado para Q3-Q4 2026, con un 82% de probabilidad antes del 31 de diciembre según mercados de predicción. Mientras tanto, OpenAI está siguiendo una cadencia incremental (5.4 → 5.5 → 5.6), y GPT-5.6 ya estaría en testing interno.

Si estás planificando tu stack de IA, construye contra GPT-5.5 hoy. No esperes a GPT-6.

1. Qué fue realmente “Spud”

El codename Spud apareció por primera vez en filtraciones internas de OpenAI a finales de 2025. Durante meses, medio internet asumió que Spud = GPT-6. No fue un rumor menor: mercados de predicción llegaron al 93% de probabilidad de “GPT-6 antes del 30 de junio”.

Cronología de lo que pasó

Fecha	Evento	Fuente
Feb 2025	Sam Altman menciona que GPT-5 y GPT-6 usarán RL como paradigma central	Entrevista pública
Dic 2025 (est.)	Inicio del pre-entrenamiento de Spud	Estimación LifeArchitect.ai
24 mar 2026	Spud completa pre-entrenamiento en Stargate (Abilene, Texas)	Confirmado por Altman
14 abr 2026	Fecha de lanzamiento rumoreada. Pasó sin novedad.	Filtración no verificada
16 abr 2026	Anthropic lanza Claude Opus 4.7, sube la presión competitiva	Anuncio oficial Anthropic
23 abr 2026	OpenAI lanza GPT-5.5 (no GPT-6) en tres variantes	Anuncio oficial OpenAI
24 abr 2026	GPT-5.5 disponible en API	OpenAI
5 may 2026	GPT-5.5 Instant llega al tier gratuito de ChatGPT	OpenAI
7 may 2026	GPT-5.5-Cyber para investigadores de seguridad (acceso limitado)	OpenAI
May 2026	GPT-5.6 en testing interno según chatter de mercados	No confirmado oficialmente

Por qué no fue GPT-6

OpenAI decidió mantener la marca “5.x” por una razón concreta: el salto no era generacional. Greg Brockman lo puso claro:

“I think of Spud as a new base, as a new pre-train… we have maybe two years’ worth of research that is coming to fruition in this model. It’s going to be very exciting, and I think that the way that the world will experience it is just improved capabilities.”

Es decir: nueva base de pre-entrenamiento, dos años de investigación, pero lo suficientemente incremental como para no justificar un “6”. En benchmarks como SWE-bench Pro, GPT-5.5 quedó en 58.6%, lejos del “high 70s” que rumoreaban las filtraciones. Cuando los números no acompañan el hype, la numeración se queda en 5.5.

2. GPT-5.5: lo que entregó (con datos)

Benchmarks clave

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.7	Lectura
Terminal-Bench 2.0	82.7%	75.1%	69.4%	~13 pts por encima de Opus en uso de terminal
SWE-bench Verified	88.7%	87.6%	87.6%	Ventaja marginal, no dominante
SWE-bench Pro	58.6%	—	64.3%	Opus 4.7 gana aquí
FrontierMath	51.7%	—	43.8%	Salto significativo en razonamiento matemático
OSWorld-Verified	78.7%	—	78.0%	Empate estadístico
GDPval	84.9%	—	—	Nuevo benchmark, sin comparativa directa
GeneBench	25%	19%	—	+6 pts en genómica
BixBench	80.5%	74%	—	+6.5 pts en biología computacional
Hallucinación	-60% vs 5.4	—	—	60% menos alucinaciones que GPT-5.4

Mi lectura: GPT-5.5 brilla en workflows agentes (terminal, tool use, planificación multi-paso). En coding puro, la ventaja sobre Opus 4.7 es estrecha, y en SWE-bench Pro pierde. No es un modelo que domine todo; es un modelo que domina tareas agentes.

Precios API

Modelo	Input (1M tokens)	Cached Input	Output (1M tokens)
gpt-5.5	$5.00	$0.50	$30.00
gpt-5.5-pro	$30.00	—	$180.00
gpt-5.4	$2.50	—	$15.00

GPT-5.5 dobló el precio por token respecto a GPT-5.4. La justificación de OpenAI: 40% más de eficiencia de tokens (el modelo usa significativamente menos tokens para completar la misma tarea). El trade-off depende de tu workload.

La parte incómoda: si tu caso de uso no necesita capacidades agentes, GPT-5.4 sigue siendo mejor value. Y DeepSeek V4 Pro, a $1.74/$3.48 por millón de tokens, es ~9x más barato en output.

Variantes disponibles

Variante	ChatGPT	API	Target
GPT-5.5 Standard	✅ 23 abr	✅ 24 abr	Plus, Pro, Business, Enterprise
GPT-5.5 Thinking	✅ 23 abr	✅ 24 abr	Mismo que standard
GPT-5.5 Pro	✅ 23 abr	✅ 24 abr	Pro / Business / Enterprise
GPT-5.5 Instant	✅ 5 may	Solo UI	Tier gratuito
GPT-5.5-Cyber	—	Limitado	Investigadores de seguridad verificados

3. El verdadero GPT-6: qué se sabe y qué es especulación

Aquí separo lo verificable de lo que es wishful thinking.

Confirmado

Nueva base de pre-entrenamiento. Spud no es un fine-tune; es una nueva arquitectura base entrenada durante ~2 años. Esto significa que futuros modelos (5.6, 5.7, GPT-6) se construirán sobre esta base.
Paradigma RL. Sam Altman dijo explícitamente que GPT-5 y GPT-6 usan reinforcement learning como enfoque central, no solo pre-training + SFT. Esto alinea con la tendencia de modelos “reasoning” que empezó con o1.
Stargate. El pre-entrenamiento se hizo en el Stargate supercluster de Abilene, Texas, con 100K+ GPUs H100. OpenAI tiene 5 GW de capacidad de datacenter en desarrollo (2M+ chips).
Compute como restricción principal. OpenAI cerró proyectos que funcionaban (como robotics) para concentrar recursos. Altman: “It’s always about compute.”

Esperado pero no confirmado

Ventana de contexto de 2M tokens. Rumoreada antes del lanzamiento de GPT-5.5, no se materializó (se quedó en 1.05M). Podría llegar con GPT-6.
Memoria persistente y personalización. La idea es que el modelo aprenda tu estilo de código, preferencias de escritura y patrones de trabajo. Más allá de la memory actual de ChatGPT.
Autonomía agente nativa. GPT-5.5 ya mejoró en terminal y tool use. GPT-6 probablemente profundice: ejecución de workflows multi-paso sin supervisión.
Hardware propio. OpenAI estaría desarrollando un “small family of devices” para interacción AI-first. No es un teléfono; es algo distinto.

Especulación pura (treat como ruido)

Parámetros: “5-6 trillions”. Suena impresionante, pero nadie fuera de OpenAI lo ha verificado, y el conteo de parámetros es cada vez menos relevante.
“AGI”: cada vez que un modelo se acerca, la definición se mueve. No voy a jugar a ese juego.
Fusionar ChatGPT, Codex y Atlas browser en “super app”: era parte de la filtración del 14 de abril. No pasó.

Mercados de predicción (Mayo 2026)

Evento	Probabilidad	Tendencia
GPT-6 antes del 30 jun 2026	~10-11%	Colapsado desde 93%
GPT-6 antes del 30 sep 2026	~55-60%	Nuevo target principal
GPT-6 antes del 31 dic 2026	~82%	Base case más probable
GPT-6 en 2027+	~28%	Riesgo para roadmaps

El base case racional hoy: GPT-6 entre octubre y diciembre de 2026, posiblemente precedido por un GPT-5.6 incremental.

4. Landscape competitivo: dónde está cada lab

OpenAI (GPT-5.5, camino a GPT-6)

Lidera en: workflows agentes, uso de terminal, razonamiento matemático, razonamiento científico.

Débil en: precio. A $5/$30 por millón de tokens, es caro para tareas rutinarias. SWE-bench Pro pierde contra Opus 4.7.

Estrategia evidente: cadencia rápida de modelos 5.x, construyendo sobre la base Spud, con GPT-6 como salto generacional cuando la base esté suficientemente madura.

Anthropic (Claude Opus 4.7, camino a Claude 5)

Lidera en: coding puro (SWE-bench Pro: 64.3% vs 58.6% de GPT-5.5), instruction-following, diseño creativo.

Débil en: capacidades agentes en terminal y tool use. Terminal-Bench 2.0 queda 13 puntos por debajo de GPT-5.5.

Roadmap: Claude 5 estimado para Q2-Q3 2026. Se rumorea ventana de 500K-1M tokens, 90%+ SWE-bench y video understanding nativo.

Google (Gemini 3.1 Pro/Ultra)

Lidera en: price-value para workloads multimodales de alto volumen. Integración nativa con el ecosistema Google.

Débil en: no lidera ningún benchmark individual. Es un buen todo-terreno, no el mejor en nada.

DeepSeek (V4 Pro, V4 Flash)

Lidera en: precio. $1.74/$3.48 por millón de tokens. Licencia MIT. ~9x más barato que GPT-5.5 en output.

Débil en: no compite con frontier en benchmarks de razonamiento complejo. Pero para el 80% de las tareas rutinarias, sobra.

Lectura: Si tu stack depende de GPT-5.5 para tareas que DeepSeek V4 resuelve igual, estás quemando dinero. Guía de routing multi-modelo para decidir cuándo usar cada uno.

Moonshot AI (Kimi K2.6)

El recién llegado. Lanzado en la misma ventana de 10 días que Opus 4.7 y GPT-5.5. Primer modelo open-weight que compite de verdad con frontier en algunos benchmarks. Vale la pena seguirlo, pero es pronto para evaluar estabilidad en producción.

5. Impacto en APIs y pricing: qué significa para tu presupuesto

La cadencia 5.x cambia las reglas

El patrón está claro: OpenAI ya no hace saltos generacionales grandes cada 18+ meses. Hace incrementos cada 6-8 semanas. Esto tiene implicaciones:

No optimices para un modelo específico. Optimiza para una familia de modelos. Tu routing debería poder cambiar de 5.4 a 5.5 a 5.6 sin reescribir prompts.
El cached input importa. GPT-5.5 ofrece cached input a $0.50/MTok (10x más barato que input normal). Si tu sistema repite system prompts o contextos, esto reduce costes dramáticamente.
El precio sube, no baja. GPT-5.5 es 2x más caro que 5.4. La narrativa de “los modelos se abaratan” se cumple en modelos open-weight (DeepSeek, Kimi), no en frontier de OpenAI.

Tabla de costes comparativa

Modelo	Input $/MTok	Output $/MTok	Mejor para
GPT-5.5	$5.00	$30.00	Workflows agentes complejos, tool use
GPT-5.5 Pro	$30.00	$180.00	Máxima calidad, tareas críticas
GPT-5.4	$2.50	$15.00	Buen balance calidad/precio
Claude Opus 4.7	$5.00	$25.00	Coding, instruction-following
Gemini 3.1 Pro	~$1.25	~$5.00	Volumen multimodal barato
DeepSeek V4 Pro	$1.74	$3.48	Tareas rutinarias, 80% de workloads

Mi recomendación de routing:

Tareas mecánicas (resumen, extracción, formato): DeepSeek V4 Pro o Gemini 3.1 Pro.
Coding sin agentes (review, refactor, debug): Claude Opus 4.7.
Agentes con tool use (terminal, navegador, multi-paso): GPT-5.5.
Decisiones críticas (review de seguridad, análisis legal): GPT-5.5 Pro o un patrón multi-modelo.

Más detalle en la guía de costes LLM.

6. Qué significa para devs planificando stack

Si estás decidiendo tu stack de IA para los próximos 6-12 meses, esto es lo que yo haría:

1. Construye contra GPT-5.5, no contra un futuro GPT-6

GPT-5.5 es el modelo que tienes hoy. Es el mejor para agentes. Tiene API estable, pricing conocido, y system card publicada. Construir contra un modelo que no existe es arquitectura de castillos en el aire.

2. Diseña para abstracción de modelo

Tu capa de inferencia debería poder cambiar de modelo sin tocar la lógica de negocio. Esto no es opcional; es supervivencia. La cadencia 5.x significa que el modelo “mejor” cambia cada 6-8 semanas.

3. Usa cached input agresivamente

Si repites system prompts (y todo sistema de agentes lo hace), el cached input a $0.50/MTok es el mayor ahorro que puedes implementar hoy. No es sexy, pero paga el hosting.

4. No pagues frontier para tareas que no lo necesitan

El 80% de las llamadas en un sistema de agentes son mecánicas: parseo de respuesta, extracción de datos, formateo. Esas pueden ir a DeepSeek V4 o Gemini. Reserva GPT-5.5 para las llamadas que necesitan razonamiento real.

5. Mantén un ojo en Claude 5 y Kimi K2.6

Claude 5 (Q2-Q3 2026) podría redefinir el coding leaderboard. Kimi K2.6 es el primer competidor serio open-weight. El landscape competitivo en 6 meses no se parece al de hoy.

6. Espera antes de comprometerte con hardware de OpenAI

Los “AI-first devices” son interesante pero prematuros para planificar alrededor. Hasta que no haya hardware físico y reviews independientes, es vapor.

7. Verificación: hechos vs. rumores

Claim	Estado	Detalle
Spud pre-entrenamiento completado 24 mar 2026	Confirmado	Altman lo confirmó públicamente
Lanzamiento 14 abr 2026	Falso	La fecha pasó sin comunicado
”Super app” ChatGPT + Codex + Atlas	Falso	Filtración no verificada, no se materializó
Spud = GPT-6	Falso	Se lanzó como GPT-5.5
2M tokens de contexto	Falso (por ahora)	Quedó en 1.05M en GPT-5.5
40% mejora sobre GPT-5.4	Parcial	Cierto en algunos benchmarks (Terminal-Bench), no en todos (SWE-bench Pro)
5-6T parámetros	Sin verificar	Nadie fuera de OpenAI lo ha confirmado
GPT-5.6 en testing interno	Probable	Chatter de mercados, no confirmado
Compute es el cuello de botella	Confirmado	Altman: “It’s always about compute”

8. Fuentes

OpenAI — Introducing GPT-5.5 (anuncio oficial)
FindSkill.ai — GPT-6 Release Tracker (tracker actualizado con datos de mercados de predicción)
FelloAI — ChatGPT 6 Leaks (verificación detallada de hechos vs rumores)
LifeArchitect.ai — GPT-6 Analysis (perfil técnico con estimaciones de infraestructura)
CodersEra — GPT-5.5 vs Opus 4.7 vs Kimi vs DeepSeek (comparativa post-lanzamiento)
BenchLM — DeepSeek V4 Pro vs Opus 4.7 vs GPT-5.5 (benchmarks y pricing)
MindWiredAI — GPT-5.5 Benchmark Breakdown (análisis de routing)
TokenMix — GPT-5.5 API Pricing (precios detallados)
Apidog — GPT-5.5 Pricing Breakdown (desglose de costes)

GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)

GPT-6 “Spud”: todo lo que sabemos tras el lanzamiento de GPT-5.5

TL;DR

1. Qué fue realmente “Spud”

Cronología de lo que pasó

Por qué no fue GPT-6

2. GPT-5.5: lo que entregó (con datos)

Benchmarks clave

Precios API

Variantes disponibles

3. El verdadero GPT-6: qué se sabe y qué es especulación

Confirmado

Esperado pero no confirmado

Especulación pura (treat como ruido)

Mercados de predicción (Mayo 2026)

4. Landscape competitivo: dónde está cada lab

OpenAI (GPT-5.5, camino a GPT-6)

Anthropic (Claude Opus 4.7, camino a Claude 5)

Google (Gemini 3.1 Pro/Ultra)

DeepSeek (V4 Pro, V4 Flash)

Moonshot AI (Kimi K2.6)

5. Impacto en APIs y pricing: qué significa para tu presupuesto

La cadencia 5.x cambia las reglas

Tabla de costes comparativa

6. Qué significa para devs planificando stack

1. Construye contra GPT-5.5, no contra un futuro GPT-6

2. Diseña para abstracción de modelo

3. Usa cached input agresivamente

4. No pagues frontier para tareas que no lo necesitan

5. Mantén un ojo en Claude 5 y Kimi K2.6

6. Espera antes de comprometerte con hardware de OpenAI

7. Verificación: hechos vs. rumores

8. Fuentes

Artículos relacionados

GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)

GPT-6 “Spud”: todo lo que sabemos tras el lanzamiento de GPT-5.5

TL;DR

1. Qué fue realmente “Spud”

Cronología de lo que pasó

Por qué no fue GPT-6

2. GPT-5.5: lo que entregó (con datos)

Benchmarks clave

Precios API

Variantes disponibles

3. El verdadero GPT-6: qué se sabe y qué es especulación

Confirmado

Esperado pero no confirmado

Especulación pura (treat como ruido)

Mercados de predicción (Mayo 2026)

4. Landscape competitivo: dónde está cada lab

OpenAI (GPT-5.5, camino a GPT-6)

Anthropic (Claude Opus 4.7, camino a Claude 5)

Google (Gemini 3.1 Pro/Ultra)

DeepSeek (V4 Pro, V4 Flash)

Moonshot AI (Kimi K2.6)

5. Impacto en APIs y pricing: qué significa para tu presupuesto

La cadencia 5.x cambia las reglas

Tabla de costes comparativa

6. Qué significa para devs planificando stack

1. Construye contra GPT-5.5, no contra un futuro GPT-6

2. Diseña para abstracción de modelo

3. Usa cached input agresivamente

4. No pagues frontier para tareas que no lo necesitan

5. Mantén un ojo en Claude 5 y Kimi K2.6

6. Espera antes de comprometerte con hardware de OpenAI

7. Verificación: hechos vs. rumores

8. Fuentes

Artículos relacionados

📖 Artículos relacionados

📬 Newsletter