DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7: benchmark por benchmark
TL;DR
- DeepSeek V4 Pro ya compite de tú a tú con Claude Opus 4.7 en coding (LiveCodeBench 93.5 vs ~91% estimado) y matemáticas (MATH 95.8% vs 96.8%).
- GPT-5.5 lidera en conocimiento general (MMLU-Pro 94.2) y es el mejor en ARC-AGI-2 (85%), pero cuesta 34x más que DeepSeek en output.
- Claude Opus 4.7 sigue siendo el rey del SWE-bench Verified (87.6%) y razonamiento profundo (GPQA 94.2%), pero su precio ($25/1M output) es 29x el de DeepSeek.
- La eficiencia por dollar de DeepSeek V4 Pro es tan abrumadora que solo compensa pagar frontier cuando el margen de error importa — es decir, casi nunca en producción.
Contexto
En mayo publicamos una primera comparativa con datos de abril. Un mes después, el panorama ha cambiado: DeepSeek hizo permanente el 75% de descuento, GPT-5.5 reemplazó a GPT-5 con números muy superiores en razonamiento, y Claude Opus 4.7 sigue dominando coding de producción.
La pregunta que sigue sin responder del todo: ¿hasta qué punto el precio del frontier justifica la diferencia de calidad? Este artículo va benchmark por benchmark para responderlo con números.
Metodología
Fuentes de datos (junio 2026):
- Benchmarks públicos: HuggingFace model cards, PrecisionAI Academy, TensorFeed, CodeSOTA, morphllm
- Precios: APIs oficiales de DeepSeek, OpenAI y Anthropic (verificados junio 2026)
- Scores de DeepSeek V4 Pro: Modo instruct con Max reasoning (chain-of-thought habilitado), que es como se usa en producción
- ARC-AGI: No hay datos publicados para DeepSeek V4 Pro — se excluye del análisis de ese benchmark
Resumen ejecutivo
| DeepSeek V4 Pro | GPT-5.5 | Claude Opus 4.7 | |
|---|---|---|---|
| Tipo | Open-weight (MIT) | Propietario | Propietario |
| Parámetros | 1.6T total / 49B activos | No publicado | No publicado |
| Contexto | 1M | 1.05M | 1M |
| Max output | 384K | 128K | 128K |
| Input/1M | $0.44 | $5.00 | $5.00 |
| Output/1M | $0.87 | $30.00 | $25.00 |
| Self-hosting | ✅ Sí | ❌ No | ❌ No |
| MMLU | 91.0% | 92.4% | 92.4% |
| MMLU-Pro | 87.5% | 94.2% | ~90%* |
| GPQA Diamond | 90.1% | 78.3% | 94.2% |
| MATH | 95.8% | 97.4% | ~96%* |
| HumanEval | 92.6% | 97.1% | 96.8% |
| SWE-bench | 80.6% | 68.7% | 87.6% |
| LiveCodeBench | 93.5% | N/D | ~91%* |
*Estimado basado en datos parciales de la versión anterior y reportes de terceros.
La historia ha cambiado respecto a mayo. DeepSeek V4 Pro ya no es “el barato que casi llega”. En SWE-bench (80.6%) supera a GPT-5.5 (68.7%) por 12 puntos. En MATH (95.8%) está a 1.6 puntos de Claude Opus 4.7. En LiveCodeBench (93.5%) lidera absolutamente.
Benchmark por benchmark
Conocimiento general (MMLU / MMLU-Pro)
| Modelo | MMLU | MMLU-Pro | Output/1M |
|---|---|---|---|
| GPT-5.5 | 92.4% | 94.2 | $30.00 |
| Claude Opus 4.7 | 92.4% | ~90% | $25.00 |
| DeepSeek V4 Pro | 91.0% | 87.5 | $0.87 |
En conocimiento puro, la brecha es de 1.4 puntos MMLU entre DeepSeek y los frontier. En MMLU-Pro (la versión difícil), GPT-5.5 abre 6.7 puntos — la mayor ventaja de cualquier modelo en esta comparativa.
¿Merece la pena? A 34x el precio de output, ganar 6.7 puntos en MMLU-Pro solo tiene sentido si tu aplicación depende de razonamiento sobre conocimiento muy especializado. Para clasificación, extracción o escritura técnica, DeepSeek a 87.5% es más que suficiente.
Razonamiento profundo (GPQA Diamond)
| Modelo | GPQA Diamond | Output/1M | Eficiencia (score/$) |
|---|---|---|---|
| Claude Opus 4.7 | 94.2% | $25.00 | 3.8 |
| DeepSeek V4 Pro | 90.1% | $0.87 | 103.6 |
| GPT-5.5 | 78.3% | $30.00 | 2.6 |
Aquí hay una sorpresa: GPT-5.5 va tercero en razonamiento profundo, por debajo de DeepSeek. El focus de OpenAI en agentes y tool-use parece haber sacrificado rendimiento en GPQA Diamond. Claude Opus 4.7 lidera con 94.2%, pero DeepSeek a 90.1% ofrece 27x más eficiencia por dollar.
Si necesitas razonamiento científico de máxima precisión, Opus. Para todo lo demás, DeepSeek V4 Pro a 90.1% es un monstruo.
Matemáticas (MATH)
| Modelo | MATH | Output/1M |
|---|---|---|
| GPT-5.5 | 97.4% | $30.00 |
| Claude Opus 4.7 | ~96% | $25.00 |
| DeepSeek V4 Pro | 95.8% | $0.87 |
La brecha máxima es de 1.6 puntos (95.8% vs 97.4%). DeepSeek resuelve prácticamente los mismos problemas de competición matemática que GPT-5.5, a una fracción del coste. Para tareas de producción que involucran cálculos, estimaciones o razonamiento numérico, DeepSeek es la elección obvia.
Coding (SWE-bench Verified)
| Modelo | SWE-bench Verified | Output/1M | Eficiencia (score/$) |
|---|---|---|---|
| Claude Opus 4.7 | 87.6% | $25.00 | 3.5 |
| DeepSeek V4 Pro | 80.6% | $0.87 | 92.6 |
| GPT-5.5 | 68.7% | $30.00 | 2.3 |
SWE-bench es el benchmark que mide resolución de bugs reales en repos de GitHub. Opus 4.7 lidera claramente, pero DeepSeek V4 Pro en segundo lugar con 80.6% es notable — resuelve 4 de cada 5 bugs reales, y cada punto cuesta 26x menos que Opus.
GPT-5.5 va último en coding (68.7%). Si tu workflow depende de coding agents, GPT-5.5 no es la opción.
Coding sintético (LiveCodeBench / HumanEval)
| Modelo | LiveCodeBench | HumanEval | Output/1M |
|---|---|---|---|
| DeepSeek V4 Pro | 93.5% | 92.6% | $0.87 |
| GPT-5.5 | N/D | 97.1% | $30.00 |
| Claude Opus 4.7 | ~91% | 96.8% | $25.00 |
En LiveCodeBench, DeepSeek V4 Pro lidera con 93.5% — el mejor score publicado en este benchmark. En HumanEval, la brecha es más apreciable (GPT-5.5 a 97.1% vs DeepSeek a 92.6%), pero LiveCodeBench refleja mejor el coding del mundo real porque usa problemas nuevos que no están en los datos de entrenamiento.
Coste por punto de precisión
Este es el cálculo que debería guiar tus decisiones de producción. ¿Cuánto pagas por cada punto porcentual de acierto?
GPQA Diamond (razonamiento)
| Modelo | Score | Output/1M | $ por punto de score |
|---|---|---|---|
| DeepSeek V4 Pro | 90.1 | $0.87 | $0.010 |
| GPT-5.5 | 78.3 | $30.00 | $0.383 |
| Claude Opus 4.7 | 94.2 | $25.00 | $0.265 |
DeepSeek V4 Pro cuesta $0.01 por punto de GPQA. Claude Opus 4.7 cuesta 26.5x más por punto. ¿Vale la pena pagar 26x más para pasar de 90.1% a 94.2%? En la mayoría de workflows de producción, no.
SWE-bench Verified (coding)
| Modelo | Score | Output/1M | $ por punto de score |
|---|---|---|---|
| DeepSeek V4 Pro | 80.6 | $0.87 | $0.011 |
| GPT-5.5 | 68.7 | $30.00 | $0.436 |
| Claude Opus 4.7 | 87.6 | $25.00 | $0.285 |
La diferencia entre DeepSeek (80.6%) y Opus (87.6%) son 7 puntos de SWE-bench. Eso significa que de cada 100 bugs, Opus resuelve ~7 más. Cuesta 29x más por punto de acierto. Si un bug de producción te cuesta $10,000 en downtime, Opus se justifica. Si tu agente está generando tests o refactorizando código, DeepSeek hace el trabajo.
Dónde gana DeepSeek V4 Pro
- Coste-eficiencia aplastante. 27-34x más barato por punto de precisión que cualquier frontier.
- Coding sintético. LiveCodeBench 93.5% — líder absoluto.
- Matemáticas. 95.8% a 1.6 puntos de GPT-5.5, a 34x menos.
- Self-hosting. Licencia MIT, 1M contexto sin recargo. Solo modelo de los tres que puedes correr en tu infra.
- Razonamiento. 90.1% en GPQA Diamond — supera a GPT-5.5 (78.3%).
- Contexto. 384K max output vs 128K en GPT-5.5 y Opus 4.7.
Dónde pierde DeepSeek V4 Pro
- SWE-bench Verified. 80.6% vs 87.6% de Opus 4.7 — 7 puntos de gap en bugs reales.
- MMLU-Pro. 87.5% vs 94.2% de GPT-5.5 — la mayor brecha entre los tres.
- Multilingüismo. Sin benchmarks publicados en español; en la práctica, la calidad es buena pero inferior a los frontier propietarios que tienen mejor entrenamiento multilingüe.
- Verbosidad. 4.4x más tokens de output que la media — aumenta el coste real por respuesta.
- Proveedor único. Solo DeepSeek API. GPT-5.5 y Opus tienen múltiples providers (Azure, AWS, GCP).
- ARC-AGI. Sin datos publicados. Si necesitas ARC-AGI-2 (GPT-5.5 marca 85%), no hay referencia.
- Multimodal. Solo texto. GPT-5.5 y Opus procesan imágenes.
Estrategia de routing actualizada
El patrón de cascada que recomiendo en junio 2026:
Request → Router
├─ Clasificación/extracción → DeepSeek V4 Pro ($0.44/$0.87)
├─ Coding sintético/tests → DeepSeek V4 Pro ($0.44/$0.87)
├─ Razonamiento general → DeepSeek V4 Pro ($0.44/$0.87)
├─ Razonamiento experto → Claude Opus 4.7 ($5/$25)
├─ Coding de producción → Claude Opus 4.7 ($5/$25)
├─ Agentic / tool-use → GPT-5.5 ($5/$30)
└─ Si DeepSeek falla → retry con Claude Opus 4.7
El coste medio blended con este routing: ~$2-4/1M tokens, cubriendo >90% de tareas con DeepSeek y delegando solo los casos críticos al frontier.
Self-hosting: la matemática en junio 2026
DeepSeek V4 Pro a $0.44/$0.87 con el descuento permanente es tan barato que self-hosting solo compensa en estos escenarios:
- Datos sensibles que no pueden salir de tu infraestructura (salud, finanzas, defensa)
- >100M tokens/mes donde el coste de GPU dedicated empieza a competir
- Latencia <50ms que la API no puede garantizar
- Jurisdicción con requisitos de data residency
Con 4×A100 80GB en Q8, sirves V4 Pro a ~58 tok/s. Coste cloud GPU: ~$6-8/hora. A $0.87/1M output en API, necesitas >7M tokens de output por hora (~116K tokens/minuto sostenidos) para que self-hosting sea más barato.
Veredicto
| Caso de uso | Modelo recomendado | Por qué |
|---|---|---|
| Clasificación/extracción a escala | DeepSeek V4 Pro | 91% MMLU a 34x menos coste |
| Coding de producción (bugs, refactors) | Claude Opus 4.7 | 87.6% SWE-bench, 7 pts sobre DeepSeek |
| Agentes con herramientas | GPT-5.5 | Mejor ARC-AGI-2, Terminal-Bench |
| Matemáticas y cálculos | DeepSeek V4 Pro | 95.8% MATH a 34x menos |
| Razonamiento experto (ciencia, legal) | Claude Opus 4.7 | 94.2% GPQA, líder absoluto |
| Self-hosting / data residency | DeepSeek V4 Pro | Único open-weight con licencia MIT |
| Generación de tests y boilerplate | DeepSeek V4 Pro | LiveCodeBench 93.5%, líder |
| Multimodal (vision + text) | GPT-5.5 u Opus 4.7 | DeepSeek es solo texto |
| Presupuesto ilimitado, máxima calidad | Claude Opus 4.7 | Mejor en más benchmarks |
La conclusión de junio 2026 es distinta a la de mayo: DeepSeek V4 Pro ya no es “el modelo barato”. Es un modelo de frontier con precios de tiers inferiores. La única razón para pagar $25-30/1M output es cuando la diferencia entre 80% y 87% en SWE-bench o entre 90% y 94% en GPQA marca una diferencia tangible en tu producto.
Para el 90% de los workflows de producción de un dev, DeepSeek V4 Pro cubre.
Lectura relacionada
- DeepSeek V4: análisis completo de Pro y Flash
- DeepSeek V4 API: precios, límites y cuándo compensa
- Gemini 3.5 vs GPT-5.5 vs Claude Opus 4.7: comparativa
- Guía de modelos LLM para devs en 2026
- Guía de costes LLM: routing y proveedores
Precios y benchmarks actualizados a junio 2026. Fuentes: APIs oficiales, HuggingFace model cards, PrecisionAI Academy, TensorFeed, CodeSOTA, morphllm.