DeepSeek V4 API: guía completa de costes reales por workload (datos de junio 2026)

TL;DR

DeepSeek V4 Pro a precio estándar (desde junio): $1.74/M input, $3.48/M output — entre 2x y 7x más barato que los modelos frontier equivalentes
V4 Flash a $0.14/M input, $0.28/M output es el modelo más barato del mercado con calidad competitiva
Los cache hits reducen el input un 99.2% (V4 Flash) y un 99.2% (V4 Pro) — estructurar prompts con prefijos repetidos es la mayor palanca de ahorro
En workloads de agentes con tool calls múltiples, el coste real depende más de la verbosidad del modelo que del precio por token
Para producción con SLA, un router Flash→Pro→GPT-5.4 maximiza ahorro sin sacrificar calidad

Contexto

El descuento del 75% de DeepSeek V4 Pro termina el 31 de mayo de 2026 a las 15:59 UTC. A partir del 1 de junio, los precios suben 4x. La mayoría de artículos que cites en redes siguen mostrando los precios promocionales — aquí vamos con los números reales a los que te enfrentarás a partir de junio.

V4 Pro es un MoE de 1.6T parámetros (49B activos) con 1M tokens de contexto, licencia MIT y benchmarks que compiten con GPT-5.4 y Claude Opus 4.7 en coding y razonamiento. Para el análisis completo de benchmarks y arquitectura, ver DeepSeek V4: análisis completo.

Este artículo se centra en lo que importa para tu factura: precios por token, costes por workload, y cuándo conviene cada modelo.

Precios por 1M tokens: tabla comparativa

Modelo	Input (miss)	Input (hit)	Output	Contexto
V4 Flash	$0.14	$0.0028	$0.28	1M
V4 Pro	$1.74	$0.0145	$3.48	1M
GPT-5.4 mini	$0.75	$0.075	$4.50	128K
Gemini 3.5 Flash	$1.50	—	$9.00	1M
Gemini 3.1 Pro	$1.25	—	$5.00	2M
GPT-5.4	$2.50	$0.25	$15.00	256K
Claude Sonnet 4.6	$3.00	$0.30	$15.00	200K
Claude Opus 4.7	$5.00	$0.50	$25.00	200K
GPT-5.5	$5.00	$0.50	$30.00	256K

Nota sobre cache hits: DeepSeek aplica descuento automático cuando el prefijo del prompt coincide con uno anterior. No requiere configuración. Según la documentación oficial, el precio de cache hit es 1/100 del precio de cache miss para V4 Flash y 1/120 para V4 Pro. Eso hace que workloads con system prompts estables y contexto reutilizado sean dramáticamente más baratos.

Batch API: OpenAI ofrece 50% de descuento en Batch API (ejecución asíncrona en ventana de 24h). Anthropic también ofrece 50% en batch. DeepSeek no tiene batch API propio — pero sus precios base ya son menores que el batch pricing de la competencia.

Fuentes: Pricing oficial DeepSeek, Pricing OpenAI, Pricing Anthropic, Pricing Google AI.

Ratio precio/rendimiento: ¿qué obtienes por tu euro?

El precio por token es irrelevante sin contexto de calidad. V4 Flash es barato, pero ¿es suficiente para tu caso?

Modelo	Precio output/M	MMLU-Pro	LiveCodeBench	SWE-Verified
V4 Flash	$0.28	86.2	91.6	79.0
V4 Pro	$3.48	87.5	93.5	80.6
GPT-5.4	$15.00	87.5	—	—
Claude Opus 4.7	$25.00	89.1	88.8	80.8
Gemini 3.5 Flash	$9.00	~88	~92	—

Lectura: V4 Pro cuesta 4.3x menos en output que GPT-5.4 y empata en MMLU-Pro. Contra Claude Opus 4.7, cuesta 7.2x menos y pierde solo 1.6 puntos en MMLU-Pro. V4 Flash a $0.28/M output es un 98% más barato que Claude Opus y pierde solo 2.9 puntos en MMLU-Pro — calidad razonable para la mayoría de tareas.

Para benchmarks completos, ver el análisis de V4 Pro y Flash.

Costes reales por tipo de workload

Los precios por millón de tokens no te dicen nada sobre tu factura real. Aquí van cinco escenarios concretos con cálculos por mes.

Workload 1: Coding assistant (desarrollador individual)

Supuestos: 50 prompts/día, 2K tokens input, 1.5K tokens output, 22 días laborables, 65% cache hit ratio.

Modelo	Input/mes	Output/mes	Total/mes
V4 Flash	$0.32	$0.38	$0.70
V4 Pro	$1.94	$4.72	$6.66
GPT-5.4 mini	$0.84	$6.10	$6.94
Gemini 3.5 Flash	$1.68	$12.21	$13.89
GPT-5.4	$2.80	$20.35	$23.15
Claude Sonnet 4.6	$3.35	$20.35	$23.70
Claude Opus 4.7	$5.59	$33.91	$39.50

Lectura: Un desarrollador individual paga ~$7/mes con V4 Pro o ~$0.70/mes con Flash. Con GPT-5.4 son $23/mes. La diferencia no es marginal — es 3.5x (Pro) o 33x (Flash).

Workload 2: RAG pipeline (análisis de documentos)

Supuestos: 100 documentos/día, 8K tokens input (doc + chunks), 1K tokens output (resumen), 22 días, 80% cache hit ratio (alto reuso de chunks).

Modelo	Input/mes	Output/mes	Total/mes
V4 Flash	$0.44	$0.62	$1.06
V4 Pro	$2.29	$7.66	$9.95
GPT-5.4 mini	$0.99	$9.90	$10.89
Gemini 3.5 Flash	$1.98	$19.80	$21.78
GPT-5.4	$3.30	$33.00	$36.30
Claude Opus 4.7	$6.60	$55.00	$61.60

Lectura: El alto cache hit (80%) beneficia enormemente a DeepSeek porque sus cache hits son 100x más baratos. V4 Pro cuesta $10/mes vs $36/mes con GPT-5.4. V4 Flash a $1/mes es prácticamente gratuito.

Workload 3: Agente con tool calls (pipeline multi-step)

Supuestos: 5,000 tareas/día, cada tarea implica 8 tool calls (avg 500 tokens input + 400 tokens output por call), 30 días, 50% cache hit ratio.

Modelo	Input/mes	Output/mes	Total/mes
V4 Flash	$17.50	$34.02	$51.52
V4 Pro	$91.88	$422.40	$514.28
GPT-5.4	$131.25	$1,820.00	$1,951.25
Claude Opus 4.7	$262.50	$3,033.33	$3,295.83

Lectura: Este es el escenario donde la verbosidad importa. V4 Pro genera ~4.4x más tokens que la media de su categoría según Artificial Analysis. Eso significa que el coste real de output puede ser hasta 4x superior a lo que sugiere el precio por token. Aun así, $514/mes vs $1,951/mes con GPT-5.4 sigue siendo 3.8x más barato.

Advertencia: Si usas V4 Pro con un coding agent (Claude Code, OpenCode, etc.), DeepSeek auto-escala el reasoning_effort a max sin avisarte. Eso dispara el consumo de tokens. Si controlas costes, setea reasoning_effort explícitamente.

Workload 4: Batch de procesamiento masivo (nocturno)

Supuestos: 500M tokens input + 50M tokens output por noche, 0% cache hit (datos únicos cada noche), 20 noches/mes.

Modelo	Input/mes	Output/mes	Total/mes
V4 Flash	$1,400	$280	$1,680
V4 Pro	$17,400	$3,480	$20,880
GPT-5.4 (batch 50%)	$12,500	$375,000	$387,500
Claude Opus 4.7 (batch 50%)	$25,000	$625,000	$650,000

Lectura: En batch masivo sin cache, V4 Flash arrasa a $1,680/mes. Incluso V4 Pro a $20,880 es 18.6x más barato que GPT-5.4 en batch. El off-peak de DeepSeek (50% adicional entre 23:00-07:00 hora Beijing ≈ 15:00-23:00 UTC) reduce aún más la factura si ejecutas en esa ventana.

Workload 5: Chatbot B2C (alto volumen)

Supuestos: 100K usuarios/mes, 5 interacciones/usuario, 300 tokens input + 200 tokens output por interacción, 30% cache hit.

Modelo	Input/mes	Output/mes	Total/mes
V4 Flash	$9.17	$17.01	$26.18
V4 Pro	$59.35	$212.02	$271.37
GPT-5.4	$82.50	$910.80	$993.30
Gemini 3.5 Flash	$49.50	$546.48	$595.98
Claude Opus 4.7	$165.00	$1,517.76	$1,682.76

Lectura: Para chatbots de alto volumen donde la calidad no necesita ser frontier, V4 Flash a $26/mes es la opción más rentable. Si necesitas más calidad, V4 Pro ($271/mes) cuesta 3.7x menos que GPT-5.4 ($993/mes).

Metodología

Los cálculos anteriores se basan en:

Pricing oficial de DeepSeek V4 Pro y Flash, incluyendo la fecha de expiración del descuento (31 mayo 2026, 15:59 UTC) [1]
Pricing oficial de OpenAI (GPT-5.4, GPT-5.5, GPT-5.4 mini), Anthropic (Claude Opus 4.7, Sonnet 4.6), y Google (Gemini 3.5 Flash, 3.1 Pro) [2][3][4]
Cache hit ratios estimados: 30% (chatbot B2C), 50% (agentes), 65% (coding), 80% (RAG). Consistentes con datos de producción reportados por equipos usando prompt caching
Supuestos de verbosidad: V4 Pro genera ~4.4x más tokens que la media del sector (190M tokens en evaluaciones de Artificial Analysis vs 43M de media). Esto infla el coste real de output
Batch pricing: OpenAI y Anthropic ofrecen 50% en batch asíncrono. DeepSeek no tiene batch API, pero el off-peak (50% entre 15:00-23:00 UTC) funciona como descuento similar

Optimización de costes: tácticas concretas

1. Cache hits con prefijos estables

El mayor ahorro con DeepSeek viene de los cache hits. Si tu system prompt es de 2K tokens y lo incluyes en cada petición, esos tokens pasan de $0.14/M a $0.0028/M en V4 Flash — un 98% de descuento automático.

Táctica: estructura tus prompts con un prefijo fijo largo (instrucciones del sistema, ejemplos few-shot, formato de salida) antes del contenido variable. DeepSeek cachea automáticamente cuando el prefijo coincide con peticiones anteriores.

Impacto real: en el workload de RAG (80% cache hit), el ahorro por cache representa el 72% del coste total de input. Sin cache, ese mismo workload cuesta 3.6x más.

2. Prompt compression

Reducir el tamaño del prompt baja directamente el coste de input. Tres enfoques:

System prompt comprimido: reescribe instrucciones verbosas en formato conciso. Un system prompt de 1K tokens puede reducirse a 300 tokens manteniendo las mismas instrucciones clave — ahorro del 70% en input.
LLMLingua / contexto dinámico: herramientas como LLMLingua comprimen documentos de contexto eliminando tokens de baja información. En tests reportados, la compresión alcanza 2-6x con pérdida de calidad menor al 2%.
Context window right-sizing: no envíes 100K tokens si el modelo solo necesita los 5K últimos. Trunca o usa retrieval para enviar solo lo relevante.

Impacto estimado: reducir el prompt promedio de 4K a 1.5K tokens ahorra ~$0.35/M peticiones con V4 Pro, o ~$0.025/M con V4 Flash.

3. Control de verbosidad en output

V4 Pro genera ~4.4x más tokens que la media del sector. Controlar esto es la palanca de ahorro más grande para output:

Añade "max_tokens": 1024 (o el límite que necesites) en cada llamada
Incluye instrucciones explícitas como “Responde en máximo 3 párrafos” o “Formato: JSON sin explicación”
Usa reasoning_effort: "low" para tareas donde no necesitas razonamiento extenso

4. Router con degradación

El patrón Flash→Pro→frontier descrito más abajo no solo optimiza calidad, también optimiza coste. Routea el 80% del tráfico al modelo más barato y solo escala cuando la confianza es baja.

Decisiones: cuándo usar cada modelo

Usa V4 Flash cuando

Alto volumen, tareas generales (QA, resúmenes, clasificación, code review básico)
El budget es el factor decisivo
No necesitas multimodalidad ni vision
Quieres un baseline barato para un router multi-modelo

Usa V4 Pro cuando

Coding pesado (refactoring multi-fichero, debugging complejo, SWE-bench level)
RAG con alto reuso de contexto (el cache hit es tu mayor aliado)
Agentes con tool calls donde la calidad de razonamiento importa
Necesitas 1M tokens de contexto sin sobrecoste
Puedes tolerar latencia (~37 tok/s) y verbosidad (4.4x media)

Busca alternativas cuando

Necesitas vision/multimodal → Claude Opus 4.7 o Gemini 3.5 Flash
La velocidad de respuesta es crítica → GPT-5.4 (~57 tok/s media) o Claude Sonnet 4.6
Necesitas provider diversity → combina Claude + GPT como fallback
Factual recall de alta precisión → Gemini 3.1 Pro (SimpleQA 75.6 vs 57.9 de V4 Pro)
SLA de disponibilidad → DeepSeek es un solo provider; si su API cae, no hay fallback

El patrón más inteligente: router Flash→Pro→frontier

Para producción con SLA, el patrón que más equipos están adoptando:

Route 80% de tráfico a V4 Flash — tareas generales, clasificación, extracción
Route 15% a V4 Pro — razonamiento complejo, coding, multi-step
Route 5% a GPT-5.4/Claude — edge cases donde la calidad es innegociable

Esto reduce la factura un 60-80% respecto a usar un solo modelo frontier, manteniendo calidad aceptable en el 95% de las peticiones. Para más sobre routing multi-modelo, ver Routing multi-modelo en 2026.

Conclusión

DeepSeek V4 Pro a precio estándar ($1.74/M input, $3.48/M output) sigue siendo 2-7x más barato que los modelos frontier de OpenAI, Anthropic y Google. No es el “75% de descuento” que todos citan, pero es competitivo de verdad.

V4 Flash a $0.14/M input es probablemente el modelo con mejor ratio calidad/precio del mercado. Para tareas donde no necesitas la máxima calidad, es la opción por defecto.

El trade-off sigue siendo el mismo: ahorro significativo a cambio de un solo provider, sin multimodalidad, velocidad por debajo de la media, y verbosidad que infla el coste real. Si puedes vivir con eso, los números hablan solos.

Calcula tu volumen, estima tu cache hit ratio, y decide. Los datos están sobre la mesa.

Fuentes: [1] Pricing oficial DeepSeek V4, [2] Pricing OpenAI, [3] Pricing Anthropic Claude, [4] Pricing Google Gemini, [5] DeepSeek V4: análisis completo (benchmarks y arquitectura)