GPT Diffusion

DeepSeek V4 API: guía completa de costes reales por workload (datos de junio 2026)

2026-05-21 · Devs #deepseek#pricing#api#costes#comparativa#llm#optimizacion

TL;DR

  • DeepSeek V4 Pro a precio estándar (desde junio): $1.74/M input, $3.48/M output — entre 2x y 7x más barato que los modelos frontier equivalentes
  • V4 Flash a $0.14/M input, $0.28/M output es el modelo más barato del mercado con calidad competitiva
  • Los cache hits reducen el input un 99.2% (V4 Flash) y un 99.2% (V4 Pro) — estructurar prompts con prefijos repetidos es la mayor palanca de ahorro
  • En workloads de agentes con tool calls múltiples, el coste real depende más de la verbosidad del modelo que del precio por token
  • Para producción con SLA, un router Flash→Pro→GPT-5.4 maximiza ahorro sin sacrificar calidad

Contexto

El descuento del 75% de DeepSeek V4 Pro termina el 31 de mayo de 2026 a las 15:59 UTC. A partir del 1 de junio, los precios suben 4x. La mayoría de artículos que cites en redes siguen mostrando los precios promocionales — aquí vamos con los números reales a los que te enfrentarás a partir de junio.

V4 Pro es un MoE de 1.6T parámetros (49B activos) con 1M tokens de contexto, licencia MIT y benchmarks que compiten con GPT-5.4 y Claude Opus 4.7 en coding y razonamiento. Para el análisis completo de benchmarks y arquitectura, ver DeepSeek V4: análisis completo.

Este artículo se centra en lo que importa para tu factura: precios por token, costes por workload, y cuándo conviene cada modelo.

Precios por 1M tokens: tabla comparativa

ModeloInput (miss)Input (hit)OutputContexto
V4 Flash$0.14$0.0028$0.281M
V4 Pro$1.74$0.0145$3.481M
GPT-5.4 mini$0.75$0.075$4.50128K
Gemini 3.5 Flash$1.50$9.001M
Gemini 3.1 Pro$1.25$5.002M
GPT-5.4$2.50$0.25$15.00256K
Claude Sonnet 4.6$3.00$0.30$15.00200K
Claude Opus 4.7$5.00$0.50$25.00200K
GPT-5.5$5.00$0.50$30.00256K

Nota sobre cache hits: DeepSeek aplica descuento automático cuando el prefijo del prompt coincide con uno anterior. No requiere configuración. Según la documentación oficial, el precio de cache hit es 1/100 del precio de cache miss para V4 Flash y 1/120 para V4 Pro. Eso hace que workloads con system prompts estables y contexto reutilizado sean dramáticamente más baratos.

Batch API: OpenAI ofrece 50% de descuento en Batch API (ejecución asíncrona en ventana de 24h). Anthropic también ofrece 50% en batch. DeepSeek no tiene batch API propio — pero sus precios base ya son menores que el batch pricing de la competencia.

Fuentes: Pricing oficial DeepSeek, Pricing OpenAI, Pricing Anthropic, Pricing Google AI.

Ratio precio/rendimiento: ¿qué obtienes por tu euro?

El precio por token es irrelevante sin contexto de calidad. V4 Flash es barato, pero ¿es suficiente para tu caso?

ModeloPrecio output/MMMLU-ProLiveCodeBenchSWE-Verified
V4 Flash$0.2886.291.679.0
V4 Pro$3.4887.593.580.6
GPT-5.4$15.0087.5
Claude Opus 4.7$25.0089.188.880.8
Gemini 3.5 Flash$9.00~88~92

Lectura: V4 Pro cuesta 4.3x menos en output que GPT-5.4 y empata en MMLU-Pro. Contra Claude Opus 4.7, cuesta 7.2x menos y pierde solo 1.6 puntos en MMLU-Pro. V4 Flash a $0.28/M output es un 98% más barato que Claude Opus y pierde solo 2.9 puntos en MMLU-Pro — calidad razonable para la mayoría de tareas.

Para benchmarks completos, ver el análisis de V4 Pro y Flash.

Costes reales por tipo de workload

Los precios por millón de tokens no te dicen nada sobre tu factura real. Aquí van cinco escenarios concretos con cálculos por mes.

Workload 1: Coding assistant (desarrollador individual)

Supuestos: 50 prompts/día, 2K tokens input, 1.5K tokens output, 22 días laborables, 65% cache hit ratio.

ModeloInput/mesOutput/mesTotal/mes
V4 Flash$0.32$0.38$0.70
V4 Pro$1.94$4.72$6.66
GPT-5.4 mini$0.84$6.10$6.94
Gemini 3.5 Flash$1.68$12.21$13.89
GPT-5.4$2.80$20.35$23.15
Claude Sonnet 4.6$3.35$20.35$23.70
Claude Opus 4.7$5.59$33.91$39.50

Lectura: Un desarrollador individual paga ~$7/mes con V4 Pro o ~$0.70/mes con Flash. Con GPT-5.4 son $23/mes. La diferencia no es marginal — es 3.5x (Pro) o 33x (Flash).

Workload 2: RAG pipeline (análisis de documentos)

Supuestos: 100 documentos/día, 8K tokens input (doc + chunks), 1K tokens output (resumen), 22 días, 80% cache hit ratio (alto reuso de chunks).

ModeloInput/mesOutput/mesTotal/mes
V4 Flash$0.44$0.62$1.06
V4 Pro$2.29$7.66$9.95
GPT-5.4 mini$0.99$9.90$10.89
Gemini 3.5 Flash$1.98$19.80$21.78
GPT-5.4$3.30$33.00$36.30
Claude Opus 4.7$6.60$55.00$61.60

Lectura: El alto cache hit (80%) beneficia enormemente a DeepSeek porque sus cache hits son 100x más baratos. V4 Pro cuesta $10/mes vs $36/mes con GPT-5.4. V4 Flash a $1/mes es prácticamente gratuito.

Workload 3: Agente con tool calls (pipeline multi-step)

Supuestos: 5,000 tareas/día, cada tarea implica 8 tool calls (avg 500 tokens input + 400 tokens output por call), 30 días, 50% cache hit ratio.

ModeloInput/mesOutput/mesTotal/mes
V4 Flash$17.50$34.02$51.52
V4 Pro$91.88$422.40$514.28
GPT-5.4$131.25$1,820.00$1,951.25
Claude Opus 4.7$262.50$3,033.33$3,295.83

Lectura: Este es el escenario donde la verbosidad importa. V4 Pro genera ~4.4x más tokens que la media de su categoría según Artificial Analysis. Eso significa que el coste real de output puede ser hasta 4x superior a lo que sugiere el precio por token. Aun así, $514/mes vs $1,951/mes con GPT-5.4 sigue siendo 3.8x más barato.

Advertencia: Si usas V4 Pro con un coding agent (Claude Code, OpenCode, etc.), DeepSeek auto-escala el reasoning_effort a max sin avisarte. Eso dispara el consumo de tokens. Si controlas costes, setea reasoning_effort explícitamente.

Workload 4: Batch de procesamiento masivo (nocturno)

Supuestos: 500M tokens input + 50M tokens output por noche, 0% cache hit (datos únicos cada noche), 20 noches/mes.

ModeloInput/mesOutput/mesTotal/mes
V4 Flash$1,400$280$1,680
V4 Pro$17,400$3,480$20,880
GPT-5.4 (batch 50%)$12,500$375,000$387,500
Claude Opus 4.7 (batch 50%)$25,000$625,000$650,000

Lectura: En batch masivo sin cache, V4 Flash arrasa a $1,680/mes. Incluso V4 Pro a $20,880 es 18.6x más barato que GPT-5.4 en batch. El off-peak de DeepSeek (50% adicional entre 23:00-07:00 hora Beijing ≈ 15:00-23:00 UTC) reduce aún más la factura si ejecutas en esa ventana.

Workload 5: Chatbot B2C (alto volumen)

Supuestos: 100K usuarios/mes, 5 interacciones/usuario, 300 tokens input + 200 tokens output por interacción, 30% cache hit.

ModeloInput/mesOutput/mesTotal/mes
V4 Flash$9.17$17.01$26.18
V4 Pro$59.35$212.02$271.37
GPT-5.4$82.50$910.80$993.30
Gemini 3.5 Flash$49.50$546.48$595.98
Claude Opus 4.7$165.00$1,517.76$1,682.76

Lectura: Para chatbots de alto volumen donde la calidad no necesita ser frontier, V4 Flash a $26/mes es la opción más rentable. Si necesitas más calidad, V4 Pro ($271/mes) cuesta 3.7x menos que GPT-5.4 ($993/mes).

Metodología

Los cálculos anteriores se basan en:

  • Pricing oficial de DeepSeek V4 Pro y Flash, incluyendo la fecha de expiración del descuento (31 mayo 2026, 15:59 UTC) [1]
  • Pricing oficial de OpenAI (GPT-5.4, GPT-5.5, GPT-5.4 mini), Anthropic (Claude Opus 4.7, Sonnet 4.6), y Google (Gemini 3.5 Flash, 3.1 Pro) [2][3][4]
  • Cache hit ratios estimados: 30% (chatbot B2C), 50% (agentes), 65% (coding), 80% (RAG). Consistentes con datos de producción reportados por equipos usando prompt caching
  • Supuestos de verbosidad: V4 Pro genera ~4.4x más tokens que la media del sector (190M tokens en evaluaciones de Artificial Analysis vs 43M de media). Esto infla el coste real de output
  • Batch pricing: OpenAI y Anthropic ofrecen 50% en batch asíncrono. DeepSeek no tiene batch API, pero el off-peak (50% entre 15:00-23:00 UTC) funciona como descuento similar

Optimización de costes: tácticas concretas

1. Cache hits con prefijos estables

El mayor ahorro con DeepSeek viene de los cache hits. Si tu system prompt es de 2K tokens y lo incluyes en cada petición, esos tokens pasan de $0.14/M a $0.0028/M en V4 Flash — un 98% de descuento automático.

Táctica: estructura tus prompts con un prefijo fijo largo (instrucciones del sistema, ejemplos few-shot, formato de salida) antes del contenido variable. DeepSeek cachea automáticamente cuando el prefijo coincide con peticiones anteriores.

Impacto real: en el workload de RAG (80% cache hit), el ahorro por cache representa el 72% del coste total de input. Sin cache, ese mismo workload cuesta 3.6x más.

2. Prompt compression

Reducir el tamaño del prompt baja directamente el coste de input. Tres enfoques:

  • System prompt comprimido: reescribe instrucciones verbosas en formato conciso. Un system prompt de 1K tokens puede reducirse a 300 tokens manteniendo las mismas instrucciones clave — ahorro del 70% en input.
  • LLMLingua / contexto dinámico: herramientas como LLMLingua comprimen documentos de contexto eliminando tokens de baja información. En tests reportados, la compresión alcanza 2-6x con pérdida de calidad menor al 2%.
  • Context window right-sizing: no envíes 100K tokens si el modelo solo necesita los 5K últimos. Trunca o usa retrieval para enviar solo lo relevante.

Impacto estimado: reducir el prompt promedio de 4K a 1.5K tokens ahorra ~$0.35/M peticiones con V4 Pro, o ~$0.025/M con V4 Flash.

3. Control de verbosidad en output

V4 Pro genera ~4.4x más tokens que la media del sector. Controlar esto es la palanca de ahorro más grande para output:

  • Añade "max_tokens": 1024 (o el límite que necesites) en cada llamada
  • Incluye instrucciones explícitas como “Responde en máximo 3 párrafos” o “Formato: JSON sin explicación”
  • Usa reasoning_effort: "low" para tareas donde no necesitas razonamiento extenso

4. Router con degradación

El patrón Flash→Pro→frontier descrito más abajo no solo optimiza calidad, también optimiza coste. Routea el 80% del tráfico al modelo más barato y solo escala cuando la confianza es baja.

Decisiones: cuándo usar cada modelo

Usa V4 Flash cuando

  • Alto volumen, tareas generales (QA, resúmenes, clasificación, code review básico)
  • El budget es el factor decisivo
  • No necesitas multimodalidad ni vision
  • Quieres un baseline barato para un router multi-modelo

Usa V4 Pro cuando

  • Coding pesado (refactoring multi-fichero, debugging complejo, SWE-bench level)
  • RAG con alto reuso de contexto (el cache hit es tu mayor aliado)
  • Agentes con tool calls donde la calidad de razonamiento importa
  • Necesitas 1M tokens de contexto sin sobrecoste
  • Puedes tolerar latencia (~37 tok/s) y verbosidad (4.4x media)

Busca alternativas cuando

  • Necesitas vision/multimodal → Claude Opus 4.7 o Gemini 3.5 Flash
  • La velocidad de respuesta es crítica → GPT-5.4 (~57 tok/s media) o Claude Sonnet 4.6
  • Necesitas provider diversity → combina Claude + GPT como fallback
  • Factual recall de alta precisión → Gemini 3.1 Pro (SimpleQA 75.6 vs 57.9 de V4 Pro)
  • SLA de disponibilidad → DeepSeek es un solo provider; si su API cae, no hay fallback

El patrón más inteligente: router Flash→Pro→frontier

Para producción con SLA, el patrón que más equipos están adoptando:

  1. Route 80% de tráfico a V4 Flash — tareas generales, clasificación, extracción
  2. Route 15% a V4 Pro — razonamiento complejo, coding, multi-step
  3. Route 5% a GPT-5.4/Claude — edge cases donde la calidad es innegociable

Esto reduce la factura un 60-80% respecto a usar un solo modelo frontier, manteniendo calidad aceptable en el 95% de las peticiones. Para más sobre routing multi-modelo, ver Routing multi-modelo en 2026.

Conclusión

DeepSeek V4 Pro a precio estándar ($1.74/M input, $3.48/M output) sigue siendo 2-7x más barato que los modelos frontier de OpenAI, Anthropic y Google. No es el “75% de descuento” que todos citan, pero es competitivo de verdad.

V4 Flash a $0.14/M input es probablemente el modelo con mejor ratio calidad/precio del mercado. Para tareas donde no necesitas la máxima calidad, es la opción por defecto.

El trade-off sigue siendo el mismo: ahorro significativo a cambio de un solo provider, sin multimodalidad, velocidad por debajo de la media, y verbosidad que infla el coste real. Si puedes vivir con eso, los números hablan solos.

Calcula tu volumen, estima tu cache hit ratio, y decide. Los datos están sobre la mesa.


Fuentes: [1] Pricing oficial DeepSeek V4, [2] Pricing OpenAI, [3] Pricing Anthropic Claude, [4] Pricing Google Gemini, [5] DeepSeek V4: análisis completo (benchmarks y arquitectura)

Cargando comentarios...