GPT Diffusion

DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7: benchmark por benchmark

2026-06-10 · DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7

TL;DR

  • DeepSeek V4 Pro ya compite de tú a tú con Claude Opus 4.7 en coding (LiveCodeBench 93.5 vs ~91% estimado) y matemáticas (MATH 95.8% vs 96.8%).
  • GPT-5.5 lidera en conocimiento general (MMLU-Pro 94.2) y es el mejor en ARC-AGI-2 (85%), pero cuesta 34x más que DeepSeek en output.
  • Claude Opus 4.7 sigue siendo el rey del SWE-bench Verified (87.6%) y razonamiento profundo (GPQA 94.2%), pero su precio ($25/1M output) es 29x el de DeepSeek.
  • La eficiencia por dollar de DeepSeek V4 Pro es tan abrumadora que solo compensa pagar frontier cuando el margen de error importa — es decir, casi nunca en producción.

Contexto

En mayo publicamos una primera comparativa con datos de abril. Un mes después, el panorama ha cambiado: DeepSeek hizo permanente el 75% de descuento, GPT-5.5 reemplazó a GPT-5 con números muy superiores en razonamiento, y Claude Opus 4.7 sigue dominando coding de producción.

La pregunta que sigue sin responder del todo: ¿hasta qué punto el precio del frontier justifica la diferencia de calidad? Este artículo va benchmark por benchmark para responderlo con números.


Metodología

Fuentes de datos (junio 2026):

  • Benchmarks públicos: HuggingFace model cards, PrecisionAI Academy, TensorFeed, CodeSOTA, morphllm
  • Precios: APIs oficiales de DeepSeek, OpenAI y Anthropic (verificados junio 2026)
  • Scores de DeepSeek V4 Pro: Modo instruct con Max reasoning (chain-of-thought habilitado), que es como se usa en producción
  • ARC-AGI: No hay datos publicados para DeepSeek V4 Pro — se excluye del análisis de ese benchmark

Resumen ejecutivo

DeepSeek V4 ProGPT-5.5Claude Opus 4.7
TipoOpen-weight (MIT)PropietarioPropietario
Parámetros1.6T total / 49B activosNo publicadoNo publicado
Contexto1M1.05M1M
Max output384K128K128K
Input/1M$0.44$5.00$5.00
Output/1M$0.87$30.00$25.00
Self-hosting✅ Sí❌ No❌ No
MMLU91.0%92.4%92.4%
MMLU-Pro87.5%94.2%~90%*
GPQA Diamond90.1%78.3%94.2%
MATH95.8%97.4%~96%*
HumanEval92.6%97.1%96.8%
SWE-bench80.6%68.7%87.6%
LiveCodeBench93.5%N/D~91%*

*Estimado basado en datos parciales de la versión anterior y reportes de terceros.

La historia ha cambiado respecto a mayo. DeepSeek V4 Pro ya no es “el barato que casi llega”. En SWE-bench (80.6%) supera a GPT-5.5 (68.7%) por 12 puntos. En MATH (95.8%) está a 1.6 puntos de Claude Opus 4.7. En LiveCodeBench (93.5%) lidera absolutamente.


Benchmark por benchmark

Conocimiento general (MMLU / MMLU-Pro)

ModeloMMLUMMLU-ProOutput/1M
GPT-5.592.4%94.2$30.00
Claude Opus 4.792.4%~90%$25.00
DeepSeek V4 Pro91.0%87.5$0.87

En conocimiento puro, la brecha es de 1.4 puntos MMLU entre DeepSeek y los frontier. En MMLU-Pro (la versión difícil), GPT-5.5 abre 6.7 puntos — la mayor ventaja de cualquier modelo en esta comparativa.

¿Merece la pena? A 34x el precio de output, ganar 6.7 puntos en MMLU-Pro solo tiene sentido si tu aplicación depende de razonamiento sobre conocimiento muy especializado. Para clasificación, extracción o escritura técnica, DeepSeek a 87.5% es más que suficiente.

Razonamiento profundo (GPQA Diamond)

ModeloGPQA DiamondOutput/1MEficiencia (score/$)
Claude Opus 4.794.2%$25.003.8
DeepSeek V4 Pro90.1%$0.87103.6
GPT-5.578.3%$30.002.6

Aquí hay una sorpresa: GPT-5.5 va tercero en razonamiento profundo, por debajo de DeepSeek. El focus de OpenAI en agentes y tool-use parece haber sacrificado rendimiento en GPQA Diamond. Claude Opus 4.7 lidera con 94.2%, pero DeepSeek a 90.1% ofrece 27x más eficiencia por dollar.

Si necesitas razonamiento científico de máxima precisión, Opus. Para todo lo demás, DeepSeek V4 Pro a 90.1% es un monstruo.

Matemáticas (MATH)

ModeloMATHOutput/1M
GPT-5.597.4%$30.00
Claude Opus 4.7~96%$25.00
DeepSeek V4 Pro95.8%$0.87

La brecha máxima es de 1.6 puntos (95.8% vs 97.4%). DeepSeek resuelve prácticamente los mismos problemas de competición matemática que GPT-5.5, a una fracción del coste. Para tareas de producción que involucran cálculos, estimaciones o razonamiento numérico, DeepSeek es la elección obvia.

Coding (SWE-bench Verified)

ModeloSWE-bench VerifiedOutput/1MEficiencia (score/$)
Claude Opus 4.787.6%$25.003.5
DeepSeek V4 Pro80.6%$0.8792.6
GPT-5.568.7%$30.002.3

SWE-bench es el benchmark que mide resolución de bugs reales en repos de GitHub. Opus 4.7 lidera claramente, pero DeepSeek V4 Pro en segundo lugar con 80.6% es notable — resuelve 4 de cada 5 bugs reales, y cada punto cuesta 26x menos que Opus.

GPT-5.5 va último en coding (68.7%). Si tu workflow depende de coding agents, GPT-5.5 no es la opción.

Coding sintético (LiveCodeBench / HumanEval)

ModeloLiveCodeBenchHumanEvalOutput/1M
DeepSeek V4 Pro93.5%92.6%$0.87
GPT-5.5N/D97.1%$30.00
Claude Opus 4.7~91%96.8%$25.00

En LiveCodeBench, DeepSeek V4 Pro lidera con 93.5% — el mejor score publicado en este benchmark. En HumanEval, la brecha es más apreciable (GPT-5.5 a 97.1% vs DeepSeek a 92.6%), pero LiveCodeBench refleja mejor el coding del mundo real porque usa problemas nuevos que no están en los datos de entrenamiento.


Coste por punto de precisión

Este es el cálculo que debería guiar tus decisiones de producción. ¿Cuánto pagas por cada punto porcentual de acierto?

GPQA Diamond (razonamiento)

ModeloScoreOutput/1M$ por punto de score
DeepSeek V4 Pro90.1$0.87$0.010
GPT-5.578.3$30.00$0.383
Claude Opus 4.794.2$25.00$0.265

DeepSeek V4 Pro cuesta $0.01 por punto de GPQA. Claude Opus 4.7 cuesta 26.5x más por punto. ¿Vale la pena pagar 26x más para pasar de 90.1% a 94.2%? En la mayoría de workflows de producción, no.

SWE-bench Verified (coding)

ModeloScoreOutput/1M$ por punto de score
DeepSeek V4 Pro80.6$0.87$0.011
GPT-5.568.7$30.00$0.436
Claude Opus 4.787.6$25.00$0.285

La diferencia entre DeepSeek (80.6%) y Opus (87.6%) son 7 puntos de SWE-bench. Eso significa que de cada 100 bugs, Opus resuelve ~7 más. Cuesta 29x más por punto de acierto. Si un bug de producción te cuesta $10,000 en downtime, Opus se justifica. Si tu agente está generando tests o refactorizando código, DeepSeek hace el trabajo.


Dónde gana DeepSeek V4 Pro

  1. Coste-eficiencia aplastante. 27-34x más barato por punto de precisión que cualquier frontier.
  2. Coding sintético. LiveCodeBench 93.5% — líder absoluto.
  3. Matemáticas. 95.8% a 1.6 puntos de GPT-5.5, a 34x menos.
  4. Self-hosting. Licencia MIT, 1M contexto sin recargo. Solo modelo de los tres que puedes correr en tu infra.
  5. Razonamiento. 90.1% en GPQA Diamond — supera a GPT-5.5 (78.3%).
  6. Contexto. 384K max output vs 128K en GPT-5.5 y Opus 4.7.

Dónde pierde DeepSeek V4 Pro

  1. SWE-bench Verified. 80.6% vs 87.6% de Opus 4.7 — 7 puntos de gap en bugs reales.
  2. MMLU-Pro. 87.5% vs 94.2% de GPT-5.5 — la mayor brecha entre los tres.
  3. Multilingüismo. Sin benchmarks publicados en español; en la práctica, la calidad es buena pero inferior a los frontier propietarios que tienen mejor entrenamiento multilingüe.
  4. Verbosidad. 4.4x más tokens de output que la media — aumenta el coste real por respuesta.
  5. Proveedor único. Solo DeepSeek API. GPT-5.5 y Opus tienen múltiples providers (Azure, AWS, GCP).
  6. ARC-AGI. Sin datos publicados. Si necesitas ARC-AGI-2 (GPT-5.5 marca 85%), no hay referencia.
  7. Multimodal. Solo texto. GPT-5.5 y Opus procesan imágenes.

Estrategia de routing actualizada

El patrón de cascada que recomiendo en junio 2026:

Request → Router
  ├─ Clasificación/extracción → DeepSeek V4 Pro ($0.44/$0.87)
  ├─ Coding sintético/tests    → DeepSeek V4 Pro ($0.44/$0.87)
  ├─ Razonamiento general     → DeepSeek V4 Pro ($0.44/$0.87)
  ├─ Razonamiento experto     → Claude Opus 4.7 ($5/$25)
  ├─ Coding de producción     → Claude Opus 4.7 ($5/$25)
  ├─ Agentic / tool-use       → GPT-5.5 ($5/$30)
  └─ Si DeepSeek falla        → retry con Claude Opus 4.7

El coste medio blended con este routing: ~$2-4/1M tokens, cubriendo >90% de tareas con DeepSeek y delegando solo los casos críticos al frontier.


Self-hosting: la matemática en junio 2026

DeepSeek V4 Pro a $0.44/$0.87 con el descuento permanente es tan barato que self-hosting solo compensa en estos escenarios:

  • Datos sensibles que no pueden salir de tu infraestructura (salud, finanzas, defensa)
  • >100M tokens/mes donde el coste de GPU dedicated empieza a competir
  • Latencia <50ms que la API no puede garantizar
  • Jurisdicción con requisitos de data residency

Con 4×A100 80GB en Q8, sirves V4 Pro a ~58 tok/s. Coste cloud GPU: ~$6-8/hora. A $0.87/1M output en API, necesitas >7M tokens de output por hora (~116K tokens/minuto sostenidos) para que self-hosting sea más barato.


Veredicto

Caso de usoModelo recomendadoPor qué
Clasificación/extracción a escalaDeepSeek V4 Pro91% MMLU a 34x menos coste
Coding de producción (bugs, refactors)Claude Opus 4.787.6% SWE-bench, 7 pts sobre DeepSeek
Agentes con herramientasGPT-5.5Mejor ARC-AGI-2, Terminal-Bench
Matemáticas y cálculosDeepSeek V4 Pro95.8% MATH a 34x menos
Razonamiento experto (ciencia, legal)Claude Opus 4.794.2% GPQA, líder absoluto
Self-hosting / data residencyDeepSeek V4 ProÚnico open-weight con licencia MIT
Generación de tests y boilerplateDeepSeek V4 ProLiveCodeBench 93.5%, líder
Multimodal (vision + text)GPT-5.5 u Opus 4.7DeepSeek es solo texto
Presupuesto ilimitado, máxima calidadClaude Opus 4.7Mejor en más benchmarks

La conclusión de junio 2026 es distinta a la de mayo: DeepSeek V4 Pro ya no es “el modelo barato”. Es un modelo de frontier con precios de tiers inferiores. La única razón para pagar $25-30/1M output es cuando la diferencia entre 80% y 87% en SWE-bench o entre 90% y 94% en GPQA marca una diferencia tangible en tu producto.

Para el 90% de los workflows de producción de un dev, DeepSeek V4 Pro cubre.


Lectura relacionada


Precios y benchmarks actualizados a junio 2026. Fuentes: APIs oficiales, HuggingFace model cards, PrecisionAI Academy, TensorFeed, CodeSOTA, morphllm.

Ganador: Depende del caso de uso