GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)
GPT-6 “Spud”: todo lo que sabemos tras el lanzamiento de GPT-5.5
Tracker actualizado: 25 de mayo de 2026. Este artículo se actualiza conforme haya nuevos datos verificables. Último cambio: estado de mercados de predicción y GPT-5.6 en testing interno.
TL;DR
“Spud” no fue GPT-6. Fue GPT-5.5, lanzado el 23 de abril de 2026. El verdadero GPT-6 está proyectado para Q3-Q4 2026, con un 82% de probabilidad antes del 31 de diciembre según mercados de predicción. Mientras tanto, OpenAI está siguiendo una cadencia incremental (5.4 → 5.5 → 5.6), y GPT-5.6 ya estaría en testing interno.
Si estás planificando tu stack de IA, construye contra GPT-5.5 hoy. No esperes a GPT-6.
1. Qué fue realmente “Spud”
El codename Spud apareció por primera vez en filtraciones internas de OpenAI a finales de 2025. Durante meses, medio internet asumió que Spud = GPT-6. No fue un rumor menor: mercados de predicción llegaron al 93% de probabilidad de “GPT-6 antes del 30 de junio”.
Cronología de lo que pasó
| Fecha | Evento | Fuente |
|---|---|---|
| Feb 2025 | Sam Altman menciona que GPT-5 y GPT-6 usarán RL como paradigma central | Entrevista pública |
| Dic 2025 (est.) | Inicio del pre-entrenamiento de Spud | Estimación LifeArchitect.ai |
| 24 mar 2026 | Spud completa pre-entrenamiento en Stargate (Abilene, Texas) | Confirmado por Altman |
| 14 abr 2026 | Fecha de lanzamiento rumoreada. Pasó sin novedad. | Filtración no verificada |
| 16 abr 2026 | Anthropic lanza Claude Opus 4.7, sube la presión competitiva | Anuncio oficial Anthropic |
| 23 abr 2026 | OpenAI lanza GPT-5.5 (no GPT-6) en tres variantes | Anuncio oficial OpenAI |
| 24 abr 2026 | GPT-5.5 disponible en API | OpenAI |
| 5 may 2026 | GPT-5.5 Instant llega al tier gratuito de ChatGPT | OpenAI |
| 7 may 2026 | GPT-5.5-Cyber para investigadores de seguridad (acceso limitado) | OpenAI |
| May 2026 | GPT-5.6 en testing interno según chatter de mercados | No confirmado oficialmente |
Por qué no fue GPT-6
OpenAI decidió mantener la marca “5.x” por una razón concreta: el salto no era generacional. Greg Brockman lo puso claro:
“I think of Spud as a new base, as a new pre-train… we have maybe two years’ worth of research that is coming to fruition in this model. It’s going to be very exciting, and I think that the way that the world will experience it is just improved capabilities.”
Es decir: nueva base de pre-entrenamiento, dos años de investigación, pero lo suficientemente incremental como para no justificar un “6”. En benchmarks como SWE-bench Pro, GPT-5.5 quedó en 58.6%, lejos del “high 70s” que rumoreaban las filtraciones. Cuando los números no acompañan el hype, la numeración se queda en 5.5.
2. GPT-5.5: lo que entregó (con datos)
Benchmarks clave
| Benchmark | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Lectura |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | ~13 pts por encima de Opus en uso de terminal |
| SWE-bench Verified | 88.7% | 87.6% | 87.6% | Ventaja marginal, no dominante |
| SWE-bench Pro | 58.6% | — | 64.3% | Opus 4.7 gana aquí |
| FrontierMath | 51.7% | — | 43.8% | Salto significativo en razonamiento matemático |
| OSWorld-Verified | 78.7% | — | 78.0% | Empate estadístico |
| GDPval | 84.9% | — | — | Nuevo benchmark, sin comparativa directa |
| GeneBench | 25% | 19% | — | +6 pts en genómica |
| BixBench | 80.5% | 74% | — | +6.5 pts en biología computacional |
| Hallucinación | -60% vs 5.4 | — | — | 60% menos alucinaciones que GPT-5.4 |
Mi lectura: GPT-5.5 brilla en workflows agentes (terminal, tool use, planificación multi-paso). En coding puro, la ventaja sobre Opus 4.7 es estrecha, y en SWE-bench Pro pierde. No es un modelo que domine todo; es un modelo que domina tareas agentes.
Precios API
| Modelo | Input (1M tokens) | Cached Input | Output (1M tokens) |
|---|---|---|---|
| gpt-5.5 | $5.00 | $0.50 | $30.00 |
| gpt-5.5-pro | $30.00 | — | $180.00 |
| gpt-5.4 | $2.50 | — | $15.00 |
GPT-5.5 dobló el precio por token respecto a GPT-5.4. La justificación de OpenAI: 40% más de eficiencia de tokens (el modelo usa significativamente menos tokens para completar la misma tarea). El trade-off depende de tu workload.
La parte incómoda: si tu caso de uso no necesita capacidades agentes, GPT-5.4 sigue siendo mejor value. Y DeepSeek V4 Pro, a $1.74/$3.48 por millón de tokens, es ~9x más barato en output.
Variantes disponibles
| Variante | ChatGPT | API | Target |
|---|---|---|---|
| GPT-5.5 Standard | ✅ 23 abr | ✅ 24 abr | Plus, Pro, Business, Enterprise |
| GPT-5.5 Thinking | ✅ 23 abr | ✅ 24 abr | Mismo que standard |
| GPT-5.5 Pro | ✅ 23 abr | ✅ 24 abr | Pro / Business / Enterprise |
| GPT-5.5 Instant | ✅ 5 may | Solo UI | Tier gratuito |
| GPT-5.5-Cyber | — | Limitado | Investigadores de seguridad verificados |
3. El verdadero GPT-6: qué se sabe y qué es especulación
Aquí separo lo verificable de lo que es wishful thinking.
Confirmado
- Nueva base de pre-entrenamiento. Spud no es un fine-tune; es una nueva arquitectura base entrenada durante ~2 años. Esto significa que futuros modelos (5.6, 5.7, GPT-6) se construirán sobre esta base.
- Paradigma RL. Sam Altman dijo explícitamente que GPT-5 y GPT-6 usan reinforcement learning como enfoque central, no solo pre-training + SFT. Esto alinea con la tendencia de modelos “reasoning” que empezó con o1.
- Stargate. El pre-entrenamiento se hizo en el Stargate supercluster de Abilene, Texas, con 100K+ GPUs H100. OpenAI tiene 5 GW de capacidad de datacenter en desarrollo (2M+ chips).
- Compute como restricción principal. OpenAI cerró proyectos que funcionaban (como robotics) para concentrar recursos. Altman: “It’s always about compute.”
Esperado pero no confirmado
- Ventana de contexto de 2M tokens. Rumoreada antes del lanzamiento de GPT-5.5, no se materializó (se quedó en 1.05M). Podría llegar con GPT-6.
- Memoria persistente y personalización. La idea es que el modelo aprenda tu estilo de código, preferencias de escritura y patrones de trabajo. Más allá de la memory actual de ChatGPT.
- Autonomía agente nativa. GPT-5.5 ya mejoró en terminal y tool use. GPT-6 probablemente profundice: ejecución de workflows multi-paso sin supervisión.
- Hardware propio. OpenAI estaría desarrollando un “small family of devices” para interacción AI-first. No es un teléfono; es algo distinto.
Especulación pura (treat como ruido)
- Parámetros: “5-6 trillions”. Suena impresionante, pero nadie fuera de OpenAI lo ha verificado, y el conteo de parámetros es cada vez menos relevante.
- “AGI”: cada vez que un modelo se acerca, la definición se mueve. No voy a jugar a ese juego.
- Fusionar ChatGPT, Codex y Atlas browser en “super app”: era parte de la filtración del 14 de abril. No pasó.
Mercados de predicción (Mayo 2026)
| Evento | Probabilidad | Tendencia |
|---|---|---|
| GPT-6 antes del 30 jun 2026 | ~10-11% | Colapsado desde 93% |
| GPT-6 antes del 30 sep 2026 | ~55-60% | Nuevo target principal |
| GPT-6 antes del 31 dic 2026 | ~82% | Base case más probable |
| GPT-6 en 2027+ | ~28% | Riesgo para roadmaps |
El base case racional hoy: GPT-6 entre octubre y diciembre de 2026, posiblemente precedido por un GPT-5.6 incremental.
4. Landscape competitivo: dónde está cada lab
OpenAI (GPT-5.5, camino a GPT-6)
Lidera en: workflows agentes, uso de terminal, razonamiento matemático, razonamiento científico.
Débil en: precio. A $5/$30 por millón de tokens, es caro para tareas rutinarias. SWE-bench Pro pierde contra Opus 4.7.
Estrategia evidente: cadencia rápida de modelos 5.x, construyendo sobre la base Spud, con GPT-6 como salto generacional cuando la base esté suficientemente madura.
Anthropic (Claude Opus 4.7, camino a Claude 5)
Lidera en: coding puro (SWE-bench Pro: 64.3% vs 58.6% de GPT-5.5), instruction-following, diseño creativo.
Débil en: capacidades agentes en terminal y tool use. Terminal-Bench 2.0 queda 13 puntos por debajo de GPT-5.5.
Roadmap: Claude 5 estimado para Q2-Q3 2026. Se rumorea ventana de 500K-1M tokens, 90%+ SWE-bench y video understanding nativo.
Google (Gemini 3.1 Pro/Ultra)
Lidera en: price-value para workloads multimodales de alto volumen. Integración nativa con el ecosistema Google.
Débil en: no lidera ningún benchmark individual. Es un buen todo-terreno, no el mejor en nada.
DeepSeek (V4 Pro, V4 Flash)
Lidera en: precio. $1.74/$3.48 por millón de tokens. Licencia MIT. ~9x más barato que GPT-5.5 en output.
Débil en: no compite con frontier en benchmarks de razonamiento complejo. Pero para el 80% de las tareas rutinarias, sobra.
Lectura: Si tu stack depende de GPT-5.5 para tareas que DeepSeek V4 resuelve igual, estás quemando dinero. Guía de routing multi-modelo para decidir cuándo usar cada uno.
Moonshot AI (Kimi K2.6)
El recién llegado. Lanzado en la misma ventana de 10 días que Opus 4.7 y GPT-5.5. Primer modelo open-weight que compite de verdad con frontier en algunos benchmarks. Vale la pena seguirlo, pero es pronto para evaluar estabilidad en producción.
5. Impacto en APIs y pricing: qué significa para tu presupuesto
La cadencia 5.x cambia las reglas
El patrón está claro: OpenAI ya no hace saltos generacionales grandes cada 18+ meses. Hace incrementos cada 6-8 semanas. Esto tiene implicaciones:
- No optimices para un modelo específico. Optimiza para una familia de modelos. Tu routing debería poder cambiar de 5.4 a 5.5 a 5.6 sin reescribir prompts.
- El cached input importa. GPT-5.5 ofrece cached input a $0.50/MTok (10x más barato que input normal). Si tu sistema repite system prompts o contextos, esto reduce costes dramáticamente.
- El precio sube, no baja. GPT-5.5 es 2x más caro que 5.4. La narrativa de “los modelos se abaratan” se cumple en modelos open-weight (DeepSeek, Kimi), no en frontier de OpenAI.
Tabla de costes comparativa
| Modelo | Input $/MTok | Output $/MTok | Mejor para |
|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | Workflows agentes complejos, tool use |
| GPT-5.5 Pro | $30.00 | $180.00 | Máxima calidad, tareas críticas |
| GPT-5.4 | $2.50 | $15.00 | Buen balance calidad/precio |
| Claude Opus 4.7 | $5.00 | $25.00 | Coding, instruction-following |
| Gemini 3.1 Pro | ~$1.25 | ~$5.00 | Volumen multimodal barato |
| DeepSeek V4 Pro | $1.74 | $3.48 | Tareas rutinarias, 80% de workloads |
Mi recomendación de routing:
- Tareas mecánicas (resumen, extracción, formato): DeepSeek V4 Pro o Gemini 3.1 Pro.
- Coding sin agentes (review, refactor, debug): Claude Opus 4.7.
- Agentes con tool use (terminal, navegador, multi-paso): GPT-5.5.
- Decisiones críticas (review de seguridad, análisis legal): GPT-5.5 Pro o un patrón multi-modelo.
Más detalle en la guía de costes LLM.
6. Qué significa para devs planificando stack
Si estás decidiendo tu stack de IA para los próximos 6-12 meses, esto es lo que yo haría:
1. Construye contra GPT-5.5, no contra un futuro GPT-6
GPT-5.5 es el modelo que tienes hoy. Es el mejor para agentes. Tiene API estable, pricing conocido, y system card publicada. Construir contra un modelo que no existe es arquitectura de castillos en el aire.
2. Diseña para abstracción de modelo
Tu capa de inferencia debería poder cambiar de modelo sin tocar la lógica de negocio. Esto no es opcional; es supervivencia. La cadencia 5.x significa que el modelo “mejor” cambia cada 6-8 semanas.
3. Usa cached input agresivamente
Si repites system prompts (y todo sistema de agentes lo hace), el cached input a $0.50/MTok es el mayor ahorro que puedes implementar hoy. No es sexy, pero paga el hosting.
4. No pagues frontier para tareas que no lo necesitan
El 80% de las llamadas en un sistema de agentes son mecánicas: parseo de respuesta, extracción de datos, formateo. Esas pueden ir a DeepSeek V4 o Gemini. Reserva GPT-5.5 para las llamadas que necesitan razonamiento real.
5. Mantén un ojo en Claude 5 y Kimi K2.6
Claude 5 (Q2-Q3 2026) podría redefinir el coding leaderboard. Kimi K2.6 es el primer competidor serio open-weight. El landscape competitivo en 6 meses no se parece al de hoy.
6. Espera antes de comprometerte con hardware de OpenAI
Los “AI-first devices” son interesante pero prematuros para planificar alrededor. Hasta que no haya hardware físico y reviews independientes, es vapor.
7. Verificación: hechos vs. rumores
| Claim | Estado | Detalle |
|---|---|---|
| Spud pre-entrenamiento completado 24 mar 2026 | Confirmado | Altman lo confirmó públicamente |
| Lanzamiento 14 abr 2026 | Falso | La fecha pasó sin comunicado |
| ”Super app” ChatGPT + Codex + Atlas | Falso | Filtración no verificada, no se materializó |
| Spud = GPT-6 | Falso | Se lanzó como GPT-5.5 |
| 2M tokens de contexto | Falso (por ahora) | Quedó en 1.05M en GPT-5.5 |
| 40% mejora sobre GPT-5.4 | Parcial | Cierto en algunos benchmarks (Terminal-Bench), no en todos (SWE-bench Pro) |
| 5-6T parámetros | Sin verificar | Nadie fuera de OpenAI lo ha confirmado |
| GPT-5.6 en testing interno | Probable | Chatter de mercados, no confirmado |
| Compute es el cuello de botella | Confirmado | Altman: “It’s always about compute” |
8. Fuentes
- OpenAI — Introducing GPT-5.5 (anuncio oficial)
- FindSkill.ai — GPT-6 Release Tracker (tracker actualizado con datos de mercados de predicción)
- FelloAI — ChatGPT 6 Leaks (verificación detallada de hechos vs rumores)
- LifeArchitect.ai — GPT-6 Analysis (perfil técnico con estimaciones de infraestructura)
- CodersEra — GPT-5.5 vs Opus 4.7 vs Kimi vs DeepSeek (comparativa post-lanzamiento)
- BenchLM — DeepSeek V4 Pro vs Opus 4.7 vs GPT-5.5 (benchmarks y pricing)
- MindWiredAI — GPT-5.5 Benchmark Breakdown (análisis de routing)
- TokenMix — GPT-5.5 API Pricing (precios detallados)
- Apidog — GPT-5.5 Pricing Breakdown (desglose de costes)
Artículos relacionados
- GPT-5.5 vs Claude Opus 4.7: comparativa directa
- Guía de modelos LLM para devs 2026
- Routing multi-modelo: cómo elegir el LLM correcto
- Guía de costes LLM: tokens, routing y proveedores
- Leaderboards explicados: qué benchmark mirar y cuál ignorar
- DeepSeek V4: análisis completo
- Recortar costes en coding agents un 50% sin perder calidad
Este tracker se actualiza conforme haya datos verificables. Si encuentras información relevante o correcciones, puedes contactar desde la página de contacto. Última actualización: 25 de mayo de 2026.