GPT Diffusion

GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)

2026-05-25 · Devs #gpt-6#openai#llm#benchmark#gpt-5.5#pricing#agentes

GPT-6 “Spud”: todo lo que sabemos tras el lanzamiento de GPT-5.5

Tracker actualizado: 25 de mayo de 2026. Este artículo se actualiza conforme haya nuevos datos verificables. Último cambio: estado de mercados de predicción y GPT-5.6 en testing interno.

TL;DR

“Spud” no fue GPT-6. Fue GPT-5.5, lanzado el 23 de abril de 2026. El verdadero GPT-6 está proyectado para Q3-Q4 2026, con un 82% de probabilidad antes del 31 de diciembre según mercados de predicción. Mientras tanto, OpenAI está siguiendo una cadencia incremental (5.4 → 5.5 → 5.6), y GPT-5.6 ya estaría en testing interno.

Si estás planificando tu stack de IA, construye contra GPT-5.5 hoy. No esperes a GPT-6.


1. Qué fue realmente “Spud”

El codename Spud apareció por primera vez en filtraciones internas de OpenAI a finales de 2025. Durante meses, medio internet asumió que Spud = GPT-6. No fue un rumor menor: mercados de predicción llegaron al 93% de probabilidad de “GPT-6 antes del 30 de junio”.

Cronología de lo que pasó

FechaEventoFuente
Feb 2025Sam Altman menciona que GPT-5 y GPT-6 usarán RL como paradigma centralEntrevista pública
Dic 2025 (est.)Inicio del pre-entrenamiento de SpudEstimación LifeArchitect.ai
24 mar 2026Spud completa pre-entrenamiento en Stargate (Abilene, Texas)Confirmado por Altman
14 abr 2026Fecha de lanzamiento rumoreada. Pasó sin novedad.Filtración no verificada
16 abr 2026Anthropic lanza Claude Opus 4.7, sube la presión competitivaAnuncio oficial Anthropic
23 abr 2026OpenAI lanza GPT-5.5 (no GPT-6) en tres variantesAnuncio oficial OpenAI
24 abr 2026GPT-5.5 disponible en APIOpenAI
5 may 2026GPT-5.5 Instant llega al tier gratuito de ChatGPTOpenAI
7 may 2026GPT-5.5-Cyber para investigadores de seguridad (acceso limitado)OpenAI
May 2026GPT-5.6 en testing interno según chatter de mercadosNo confirmado oficialmente

Por qué no fue GPT-6

OpenAI decidió mantener la marca “5.x” por una razón concreta: el salto no era generacional. Greg Brockman lo puso claro:

“I think of Spud as a new base, as a new pre-train… we have maybe two years’ worth of research that is coming to fruition in this model. It’s going to be very exciting, and I think that the way that the world will experience it is just improved capabilities.”

Es decir: nueva base de pre-entrenamiento, dos años de investigación, pero lo suficientemente incremental como para no justificar un “6”. En benchmarks como SWE-bench Pro, GPT-5.5 quedó en 58.6%, lejos del “high 70s” que rumoreaban las filtraciones. Cuando los números no acompañan el hype, la numeración se queda en 5.5.


2. GPT-5.5: lo que entregó (con datos)

Benchmarks clave

BenchmarkGPT-5.5GPT-5.4Claude Opus 4.7Lectura
Terminal-Bench 2.082.7%75.1%69.4%~13 pts por encima de Opus en uso de terminal
SWE-bench Verified88.7%87.6%87.6%Ventaja marginal, no dominante
SWE-bench Pro58.6%64.3%Opus 4.7 gana aquí
FrontierMath51.7%43.8%Salto significativo en razonamiento matemático
OSWorld-Verified78.7%78.0%Empate estadístico
GDPval84.9%Nuevo benchmark, sin comparativa directa
GeneBench25%19%+6 pts en genómica
BixBench80.5%74%+6.5 pts en biología computacional
Hallucinación-60% vs 5.460% menos alucinaciones que GPT-5.4

Mi lectura: GPT-5.5 brilla en workflows agentes (terminal, tool use, planificación multi-paso). En coding puro, la ventaja sobre Opus 4.7 es estrecha, y en SWE-bench Pro pierde. No es un modelo que domine todo; es un modelo que domina tareas agentes.

Precios API

ModeloInput (1M tokens)Cached InputOutput (1M tokens)
gpt-5.5$5.00$0.50$30.00
gpt-5.5-pro$30.00$180.00
gpt-5.4$2.50$15.00

GPT-5.5 dobló el precio por token respecto a GPT-5.4. La justificación de OpenAI: 40% más de eficiencia de tokens (el modelo usa significativamente menos tokens para completar la misma tarea). El trade-off depende de tu workload.

La parte incómoda: si tu caso de uso no necesita capacidades agentes, GPT-5.4 sigue siendo mejor value. Y DeepSeek V4 Pro, a $1.74/$3.48 por millón de tokens, es ~9x más barato en output.

Variantes disponibles

VarianteChatGPTAPITarget
GPT-5.5 Standard✅ 23 abr✅ 24 abrPlus, Pro, Business, Enterprise
GPT-5.5 Thinking✅ 23 abr✅ 24 abrMismo que standard
GPT-5.5 Pro✅ 23 abr✅ 24 abrPro / Business / Enterprise
GPT-5.5 Instant✅ 5 maySolo UITier gratuito
GPT-5.5-CyberLimitadoInvestigadores de seguridad verificados

3. El verdadero GPT-6: qué se sabe y qué es especulación

Aquí separo lo verificable de lo que es wishful thinking.

Confirmado

  • Nueva base de pre-entrenamiento. Spud no es un fine-tune; es una nueva arquitectura base entrenada durante ~2 años. Esto significa que futuros modelos (5.6, 5.7, GPT-6) se construirán sobre esta base.
  • Paradigma RL. Sam Altman dijo explícitamente que GPT-5 y GPT-6 usan reinforcement learning como enfoque central, no solo pre-training + SFT. Esto alinea con la tendencia de modelos “reasoning” que empezó con o1.
  • Stargate. El pre-entrenamiento se hizo en el Stargate supercluster de Abilene, Texas, con 100K+ GPUs H100. OpenAI tiene 5 GW de capacidad de datacenter en desarrollo (2M+ chips).
  • Compute como restricción principal. OpenAI cerró proyectos que funcionaban (como robotics) para concentrar recursos. Altman: “It’s always about compute.”

Esperado pero no confirmado

  • Ventana de contexto de 2M tokens. Rumoreada antes del lanzamiento de GPT-5.5, no se materializó (se quedó en 1.05M). Podría llegar con GPT-6.
  • Memoria persistente y personalización. La idea es que el modelo aprenda tu estilo de código, preferencias de escritura y patrones de trabajo. Más allá de la memory actual de ChatGPT.
  • Autonomía agente nativa. GPT-5.5 ya mejoró en terminal y tool use. GPT-6 probablemente profundice: ejecución de workflows multi-paso sin supervisión.
  • Hardware propio. OpenAI estaría desarrollando un “small family of devices” para interacción AI-first. No es un teléfono; es algo distinto.

Especulación pura (treat como ruido)

  • Parámetros: “5-6 trillions”. Suena impresionante, pero nadie fuera de OpenAI lo ha verificado, y el conteo de parámetros es cada vez menos relevante.
  • “AGI”: cada vez que un modelo se acerca, la definición se mueve. No voy a jugar a ese juego.
  • Fusionar ChatGPT, Codex y Atlas browser en “super app”: era parte de la filtración del 14 de abril. No pasó.

Mercados de predicción (Mayo 2026)

EventoProbabilidadTendencia
GPT-6 antes del 30 jun 2026~10-11%Colapsado desde 93%
GPT-6 antes del 30 sep 2026~55-60%Nuevo target principal
GPT-6 antes del 31 dic 2026~82%Base case más probable
GPT-6 en 2027+~28%Riesgo para roadmaps

El base case racional hoy: GPT-6 entre octubre y diciembre de 2026, posiblemente precedido por un GPT-5.6 incremental.


4. Landscape competitivo: dónde está cada lab

OpenAI (GPT-5.5, camino a GPT-6)

Lidera en: workflows agentes, uso de terminal, razonamiento matemático, razonamiento científico.

Débil en: precio. A $5/$30 por millón de tokens, es caro para tareas rutinarias. SWE-bench Pro pierde contra Opus 4.7.

Estrategia evidente: cadencia rápida de modelos 5.x, construyendo sobre la base Spud, con GPT-6 como salto generacional cuando la base esté suficientemente madura.

Anthropic (Claude Opus 4.7, camino a Claude 5)

Lidera en: coding puro (SWE-bench Pro: 64.3% vs 58.6% de GPT-5.5), instruction-following, diseño creativo.

Débil en: capacidades agentes en terminal y tool use. Terminal-Bench 2.0 queda 13 puntos por debajo de GPT-5.5.

Roadmap: Claude 5 estimado para Q2-Q3 2026. Se rumorea ventana de 500K-1M tokens, 90%+ SWE-bench y video understanding nativo.

Google (Gemini 3.1 Pro/Ultra)

Lidera en: price-value para workloads multimodales de alto volumen. Integración nativa con el ecosistema Google.

Débil en: no lidera ningún benchmark individual. Es un buen todo-terreno, no el mejor en nada.

DeepSeek (V4 Pro, V4 Flash)

Lidera en: precio. $1.74/$3.48 por millón de tokens. Licencia MIT. ~9x más barato que GPT-5.5 en output.

Débil en: no compite con frontier en benchmarks de razonamiento complejo. Pero para el 80% de las tareas rutinarias, sobra.

Lectura: Si tu stack depende de GPT-5.5 para tareas que DeepSeek V4 resuelve igual, estás quemando dinero. Guía de routing multi-modelo para decidir cuándo usar cada uno.

Moonshot AI (Kimi K2.6)

El recién llegado. Lanzado en la misma ventana de 10 días que Opus 4.7 y GPT-5.5. Primer modelo open-weight que compite de verdad con frontier en algunos benchmarks. Vale la pena seguirlo, pero es pronto para evaluar estabilidad en producción.


5. Impacto en APIs y pricing: qué significa para tu presupuesto

La cadencia 5.x cambia las reglas

El patrón está claro: OpenAI ya no hace saltos generacionales grandes cada 18+ meses. Hace incrementos cada 6-8 semanas. Esto tiene implicaciones:

  1. No optimices para un modelo específico. Optimiza para una familia de modelos. Tu routing debería poder cambiar de 5.4 a 5.5 a 5.6 sin reescribir prompts.
  2. El cached input importa. GPT-5.5 ofrece cached input a $0.50/MTok (10x más barato que input normal). Si tu sistema repite system prompts o contextos, esto reduce costes dramáticamente.
  3. El precio sube, no baja. GPT-5.5 es 2x más caro que 5.4. La narrativa de “los modelos se abaratan” se cumple en modelos open-weight (DeepSeek, Kimi), no en frontier de OpenAI.

Tabla de costes comparativa

ModeloInput $/MTokOutput $/MTokMejor para
GPT-5.5$5.00$30.00Workflows agentes complejos, tool use
GPT-5.5 Pro$30.00$180.00Máxima calidad, tareas críticas
GPT-5.4$2.50$15.00Buen balance calidad/precio
Claude Opus 4.7$5.00$25.00Coding, instruction-following
Gemini 3.1 Pro~$1.25~$5.00Volumen multimodal barato
DeepSeek V4 Pro$1.74$3.48Tareas rutinarias, 80% de workloads

Mi recomendación de routing:

  • Tareas mecánicas (resumen, extracción, formato): DeepSeek V4 Pro o Gemini 3.1 Pro.
  • Coding sin agentes (review, refactor, debug): Claude Opus 4.7.
  • Agentes con tool use (terminal, navegador, multi-paso): GPT-5.5.
  • Decisiones críticas (review de seguridad, análisis legal): GPT-5.5 Pro o un patrón multi-modelo.

Más detalle en la guía de costes LLM.


6. Qué significa para devs planificando stack

Si estás decidiendo tu stack de IA para los próximos 6-12 meses, esto es lo que yo haría:

1. Construye contra GPT-5.5, no contra un futuro GPT-6

GPT-5.5 es el modelo que tienes hoy. Es el mejor para agentes. Tiene API estable, pricing conocido, y system card publicada. Construir contra un modelo que no existe es arquitectura de castillos en el aire.

2. Diseña para abstracción de modelo

Tu capa de inferencia debería poder cambiar de modelo sin tocar la lógica de negocio. Esto no es opcional; es supervivencia. La cadencia 5.x significa que el modelo “mejor” cambia cada 6-8 semanas.

3. Usa cached input agresivamente

Si repites system prompts (y todo sistema de agentes lo hace), el cached input a $0.50/MTok es el mayor ahorro que puedes implementar hoy. No es sexy, pero paga el hosting.

4. No pagues frontier para tareas que no lo necesitan

El 80% de las llamadas en un sistema de agentes son mecánicas: parseo de respuesta, extracción de datos, formateo. Esas pueden ir a DeepSeek V4 o Gemini. Reserva GPT-5.5 para las llamadas que necesitan razonamiento real.

5. Mantén un ojo en Claude 5 y Kimi K2.6

Claude 5 (Q2-Q3 2026) podría redefinir el coding leaderboard. Kimi K2.6 es el primer competidor serio open-weight. El landscape competitivo en 6 meses no se parece al de hoy.

6. Espera antes de comprometerte con hardware de OpenAI

Los “AI-first devices” son interesante pero prematuros para planificar alrededor. Hasta que no haya hardware físico y reviews independientes, es vapor.


7. Verificación: hechos vs. rumores

ClaimEstadoDetalle
Spud pre-entrenamiento completado 24 mar 2026ConfirmadoAltman lo confirmó públicamente
Lanzamiento 14 abr 2026FalsoLa fecha pasó sin comunicado
”Super app” ChatGPT + Codex + AtlasFalsoFiltración no verificada, no se materializó
Spud = GPT-6FalsoSe lanzó como GPT-5.5
2M tokens de contextoFalso (por ahora)Quedó en 1.05M en GPT-5.5
40% mejora sobre GPT-5.4ParcialCierto en algunos benchmarks (Terminal-Bench), no en todos (SWE-bench Pro)
5-6T parámetrosSin verificarNadie fuera de OpenAI lo ha confirmado
GPT-5.6 en testing internoProbableChatter de mercados, no confirmado
Compute es el cuello de botellaConfirmadoAltman: “It’s always about compute”

8. Fuentes


Artículos relacionados


Este tracker se actualiza conforme haya datos verificables. Si encuentras información relevante o correcciones, puedes contactar desde la página de contacto. Última actualización: 25 de mayo de 2026.

Cargando comentarios...