DeepSeek V4 API: guía completa de costes reales por workload (datos de junio 2026)
TL;DR
- DeepSeek V4 Pro a precio estándar (desde junio): $1.74/M input, $3.48/M output — entre 2x y 7x más barato que los modelos frontier equivalentes
- V4 Flash a $0.14/M input, $0.28/M output es el modelo más barato del mercado con calidad competitiva
- Los cache hits reducen el input un 99.2% (V4 Flash) y un 99.2% (V4 Pro) — estructurar prompts con prefijos repetidos es la mayor palanca de ahorro
- En workloads de agentes con tool calls múltiples, el coste real depende más de la verbosidad del modelo que del precio por token
- Para producción con SLA, un router Flash→Pro→GPT-5.4 maximiza ahorro sin sacrificar calidad
Contexto
El descuento del 75% de DeepSeek V4 Pro termina el 31 de mayo de 2026 a las 15:59 UTC. A partir del 1 de junio, los precios suben 4x. La mayoría de artículos que cites en redes siguen mostrando los precios promocionales — aquí vamos con los números reales a los que te enfrentarás a partir de junio.
V4 Pro es un MoE de 1.6T parámetros (49B activos) con 1M tokens de contexto, licencia MIT y benchmarks que compiten con GPT-5.4 y Claude Opus 4.7 en coding y razonamiento. Para el análisis completo de benchmarks y arquitectura, ver DeepSeek V4: análisis completo.
Este artículo se centra en lo que importa para tu factura: precios por token, costes por workload, y cuándo conviene cada modelo.
Precios por 1M tokens: tabla comparativa
| Modelo | Input (miss) | Input (hit) | Output | Contexto |
|---|---|---|---|---|
| V4 Flash | $0.14 | $0.0028 | $0.28 | 1M |
| V4 Pro | $1.74 | $0.0145 | $3.48 | 1M |
| GPT-5.4 mini | $0.75 | $0.075 | $4.50 | 128K |
| Gemini 3.5 Flash | $1.50 | — | $9.00 | 1M |
| Gemini 3.1 Pro | $1.25 | — | $5.00 | 2M |
| GPT-5.4 | $2.50 | $0.25 | $15.00 | 256K |
| Claude Sonnet 4.6 | $3.00 | $0.30 | $15.00 | 200K |
| Claude Opus 4.7 | $5.00 | $0.50 | $25.00 | 200K |
| GPT-5.5 | $5.00 | $0.50 | $30.00 | 256K |
Nota sobre cache hits: DeepSeek aplica descuento automático cuando el prefijo del prompt coincide con uno anterior. No requiere configuración. Según la documentación oficial, el precio de cache hit es 1/100 del precio de cache miss para V4 Flash y 1/120 para V4 Pro. Eso hace que workloads con system prompts estables y contexto reutilizado sean dramáticamente más baratos.
Batch API: OpenAI ofrece 50% de descuento en Batch API (ejecución asíncrona en ventana de 24h). Anthropic también ofrece 50% en batch. DeepSeek no tiene batch API propio — pero sus precios base ya son menores que el batch pricing de la competencia.
Fuentes: Pricing oficial DeepSeek, Pricing OpenAI, Pricing Anthropic, Pricing Google AI.
Ratio precio/rendimiento: ¿qué obtienes por tu euro?
El precio por token es irrelevante sin contexto de calidad. V4 Flash es barato, pero ¿es suficiente para tu caso?
| Modelo | Precio output/M | MMLU-Pro | LiveCodeBench | SWE-Verified |
|---|---|---|---|---|
| V4 Flash | $0.28 | 86.2 | 91.6 | 79.0 |
| V4 Pro | $3.48 | 87.5 | 93.5 | 80.6 |
| GPT-5.4 | $15.00 | 87.5 | — | — |
| Claude Opus 4.7 | $25.00 | 89.1 | 88.8 | 80.8 |
| Gemini 3.5 Flash | $9.00 | ~88 | ~92 | — |
Lectura: V4 Pro cuesta 4.3x menos en output que GPT-5.4 y empata en MMLU-Pro. Contra Claude Opus 4.7, cuesta 7.2x menos y pierde solo 1.6 puntos en MMLU-Pro. V4 Flash a $0.28/M output es un 98% más barato que Claude Opus y pierde solo 2.9 puntos en MMLU-Pro — calidad razonable para la mayoría de tareas.
Para benchmarks completos, ver el análisis de V4 Pro y Flash.
Costes reales por tipo de workload
Los precios por millón de tokens no te dicen nada sobre tu factura real. Aquí van cinco escenarios concretos con cálculos por mes.
Workload 1: Coding assistant (desarrollador individual)
Supuestos: 50 prompts/día, 2K tokens input, 1.5K tokens output, 22 días laborables, 65% cache hit ratio.
| Modelo | Input/mes | Output/mes | Total/mes |
|---|---|---|---|
| V4 Flash | $0.32 | $0.38 | $0.70 |
| V4 Pro | $1.94 | $4.72 | $6.66 |
| GPT-5.4 mini | $0.84 | $6.10 | $6.94 |
| Gemini 3.5 Flash | $1.68 | $12.21 | $13.89 |
| GPT-5.4 | $2.80 | $20.35 | $23.15 |
| Claude Sonnet 4.6 | $3.35 | $20.35 | $23.70 |
| Claude Opus 4.7 | $5.59 | $33.91 | $39.50 |
Lectura: Un desarrollador individual paga ~$7/mes con V4 Pro o ~$0.70/mes con Flash. Con GPT-5.4 son $23/mes. La diferencia no es marginal — es 3.5x (Pro) o 33x (Flash).
Workload 2: RAG pipeline (análisis de documentos)
Supuestos: 100 documentos/día, 8K tokens input (doc + chunks), 1K tokens output (resumen), 22 días, 80% cache hit ratio (alto reuso de chunks).
| Modelo | Input/mes | Output/mes | Total/mes |
|---|---|---|---|
| V4 Flash | $0.44 | $0.62 | $1.06 |
| V4 Pro | $2.29 | $7.66 | $9.95 |
| GPT-5.4 mini | $0.99 | $9.90 | $10.89 |
| Gemini 3.5 Flash | $1.98 | $19.80 | $21.78 |
| GPT-5.4 | $3.30 | $33.00 | $36.30 |
| Claude Opus 4.7 | $6.60 | $55.00 | $61.60 |
Lectura: El alto cache hit (80%) beneficia enormemente a DeepSeek porque sus cache hits son 100x más baratos. V4 Pro cuesta $10/mes vs $36/mes con GPT-5.4. V4 Flash a $1/mes es prácticamente gratuito.
Workload 3: Agente con tool calls (pipeline multi-step)
Supuestos: 5,000 tareas/día, cada tarea implica 8 tool calls (avg 500 tokens input + 400 tokens output por call), 30 días, 50% cache hit ratio.
| Modelo | Input/mes | Output/mes | Total/mes |
|---|---|---|---|
| V4 Flash | $17.50 | $34.02 | $51.52 |
| V4 Pro | $91.88 | $422.40 | $514.28 |
| GPT-5.4 | $131.25 | $1,820.00 | $1,951.25 |
| Claude Opus 4.7 | $262.50 | $3,033.33 | $3,295.83 |
Lectura: Este es el escenario donde la verbosidad importa. V4 Pro genera ~4.4x más tokens que la media de su categoría según Artificial Analysis. Eso significa que el coste real de output puede ser hasta 4x superior a lo que sugiere el precio por token. Aun así, $514/mes vs $1,951/mes con GPT-5.4 sigue siendo 3.8x más barato.
Advertencia: Si usas V4 Pro con un coding agent (Claude Code, OpenCode, etc.), DeepSeek auto-escala el reasoning_effort a max sin avisarte. Eso dispara el consumo de tokens. Si controlas costes, setea reasoning_effort explícitamente.
Workload 4: Batch de procesamiento masivo (nocturno)
Supuestos: 500M tokens input + 50M tokens output por noche, 0% cache hit (datos únicos cada noche), 20 noches/mes.
| Modelo | Input/mes | Output/mes | Total/mes |
|---|---|---|---|
| V4 Flash | $1,400 | $280 | $1,680 |
| V4 Pro | $17,400 | $3,480 | $20,880 |
| GPT-5.4 (batch 50%) | $12,500 | $375,000 | $387,500 |
| Claude Opus 4.7 (batch 50%) | $25,000 | $625,000 | $650,000 |
Lectura: En batch masivo sin cache, V4 Flash arrasa a $1,680/mes. Incluso V4 Pro a $20,880 es 18.6x más barato que GPT-5.4 en batch. El off-peak de DeepSeek (50% adicional entre 23:00-07:00 hora Beijing ≈ 15:00-23:00 UTC) reduce aún más la factura si ejecutas en esa ventana.
Workload 5: Chatbot B2C (alto volumen)
Supuestos: 100K usuarios/mes, 5 interacciones/usuario, 300 tokens input + 200 tokens output por interacción, 30% cache hit.
| Modelo | Input/mes | Output/mes | Total/mes |
|---|---|---|---|
| V4 Flash | $9.17 | $17.01 | $26.18 |
| V4 Pro | $59.35 | $212.02 | $271.37 |
| GPT-5.4 | $82.50 | $910.80 | $993.30 |
| Gemini 3.5 Flash | $49.50 | $546.48 | $595.98 |
| Claude Opus 4.7 | $165.00 | $1,517.76 | $1,682.76 |
Lectura: Para chatbots de alto volumen donde la calidad no necesita ser frontier, V4 Flash a $26/mes es la opción más rentable. Si necesitas más calidad, V4 Pro ($271/mes) cuesta 3.7x menos que GPT-5.4 ($993/mes).
Metodología
Los cálculos anteriores se basan en:
- Pricing oficial de DeepSeek V4 Pro y Flash, incluyendo la fecha de expiración del descuento (31 mayo 2026, 15:59 UTC) [1]
- Pricing oficial de OpenAI (GPT-5.4, GPT-5.5, GPT-5.4 mini), Anthropic (Claude Opus 4.7, Sonnet 4.6), y Google (Gemini 3.5 Flash, 3.1 Pro) [2][3][4]
- Cache hit ratios estimados: 30% (chatbot B2C), 50% (agentes), 65% (coding), 80% (RAG). Consistentes con datos de producción reportados por equipos usando prompt caching
- Supuestos de verbosidad: V4 Pro genera ~4.4x más tokens que la media del sector (190M tokens en evaluaciones de Artificial Analysis vs 43M de media). Esto infla el coste real de output
- Batch pricing: OpenAI y Anthropic ofrecen 50% en batch asíncrono. DeepSeek no tiene batch API, pero el off-peak (50% entre 15:00-23:00 UTC) funciona como descuento similar
Optimización de costes: tácticas concretas
1. Cache hits con prefijos estables
El mayor ahorro con DeepSeek viene de los cache hits. Si tu system prompt es de 2K tokens y lo incluyes en cada petición, esos tokens pasan de $0.14/M a $0.0028/M en V4 Flash — un 98% de descuento automático.
Táctica: estructura tus prompts con un prefijo fijo largo (instrucciones del sistema, ejemplos few-shot, formato de salida) antes del contenido variable. DeepSeek cachea automáticamente cuando el prefijo coincide con peticiones anteriores.
Impacto real: en el workload de RAG (80% cache hit), el ahorro por cache representa el 72% del coste total de input. Sin cache, ese mismo workload cuesta 3.6x más.
2. Prompt compression
Reducir el tamaño del prompt baja directamente el coste de input. Tres enfoques:
- System prompt comprimido: reescribe instrucciones verbosas en formato conciso. Un system prompt de 1K tokens puede reducirse a 300 tokens manteniendo las mismas instrucciones clave — ahorro del 70% en input.
- LLMLingua / contexto dinámico: herramientas como LLMLingua comprimen documentos de contexto eliminando tokens de baja información. En tests reportados, la compresión alcanza 2-6x con pérdida de calidad menor al 2%.
- Context window right-sizing: no envíes 100K tokens si el modelo solo necesita los 5K últimos. Trunca o usa retrieval para enviar solo lo relevante.
Impacto estimado: reducir el prompt promedio de 4K a 1.5K tokens ahorra ~$0.35/M peticiones con V4 Pro, o ~$0.025/M con V4 Flash.
3. Control de verbosidad en output
V4 Pro genera ~4.4x más tokens que la media del sector. Controlar esto es la palanca de ahorro más grande para output:
- Añade
"max_tokens": 1024(o el límite que necesites) en cada llamada - Incluye instrucciones explícitas como “Responde en máximo 3 párrafos” o “Formato: JSON sin explicación”
- Usa
reasoning_effort: "low"para tareas donde no necesitas razonamiento extenso
4. Router con degradación
El patrón Flash→Pro→frontier descrito más abajo no solo optimiza calidad, también optimiza coste. Routea el 80% del tráfico al modelo más barato y solo escala cuando la confianza es baja.
Decisiones: cuándo usar cada modelo
Usa V4 Flash cuando
- Alto volumen, tareas generales (QA, resúmenes, clasificación, code review básico)
- El budget es el factor decisivo
- No necesitas multimodalidad ni vision
- Quieres un baseline barato para un router multi-modelo
Usa V4 Pro cuando
- Coding pesado (refactoring multi-fichero, debugging complejo, SWE-bench level)
- RAG con alto reuso de contexto (el cache hit es tu mayor aliado)
- Agentes con tool calls donde la calidad de razonamiento importa
- Necesitas 1M tokens de contexto sin sobrecoste
- Puedes tolerar latencia (~37 tok/s) y verbosidad (4.4x media)
Busca alternativas cuando
- Necesitas vision/multimodal → Claude Opus 4.7 o Gemini 3.5 Flash
- La velocidad de respuesta es crítica → GPT-5.4 (~57 tok/s media) o Claude Sonnet 4.6
- Necesitas provider diversity → combina Claude + GPT como fallback
- Factual recall de alta precisión → Gemini 3.1 Pro (SimpleQA 75.6 vs 57.9 de V4 Pro)
- SLA de disponibilidad → DeepSeek es un solo provider; si su API cae, no hay fallback
El patrón más inteligente: router Flash→Pro→frontier
Para producción con SLA, el patrón que más equipos están adoptando:
- Route 80% de tráfico a V4 Flash — tareas generales, clasificación, extracción
- Route 15% a V4 Pro — razonamiento complejo, coding, multi-step
- Route 5% a GPT-5.4/Claude — edge cases donde la calidad es innegociable
Esto reduce la factura un 60-80% respecto a usar un solo modelo frontier, manteniendo calidad aceptable en el 95% de las peticiones. Para más sobre routing multi-modelo, ver Routing multi-modelo en 2026.
Conclusión
DeepSeek V4 Pro a precio estándar ($1.74/M input, $3.48/M output) sigue siendo 2-7x más barato que los modelos frontier de OpenAI, Anthropic y Google. No es el “75% de descuento” que todos citan, pero es competitivo de verdad.
V4 Flash a $0.14/M input es probablemente el modelo con mejor ratio calidad/precio del mercado. Para tareas donde no necesitas la máxima calidad, es la opción por defecto.
El trade-off sigue siendo el mismo: ahorro significativo a cambio de un solo provider, sin multimodalidad, velocidad por debajo de la media, y verbosidad que infla el coste real. Si puedes vivir con eso, los números hablan solos.
Calcula tu volumen, estima tu cache hit ratio, y decide. Los datos están sobre la mesa.
Fuentes: [1] Pricing oficial DeepSeek V4, [2] Pricing OpenAI, [3] Pricing Anthropic Claude, [4] Pricing Google Gemini, [5] DeepSeek V4: análisis completo (benchmarks y arquitectura)