Review: Claude 4 Sonnet
TL;DR
- Claude 4 Sonnet (22 mayo 2025) marco el salto generacional de Anthropic en la gama media.
- Pricing: $3 input / $15 output por millon de tokens. Contexto: 200K (1M beta).
- En benchmarks: 72.7% SWE-bench Verified, 75.4% GPQA Diamond, 88.7% MMLU.
- Fortalezas: coding solido, buen instruction following, prompt caching con 90% descuento.
- Debilidades: velocidad por debajo de la media (41.5 tok/s), superado por Sonnet 4.6 y GPT-5.
- Rating: 4/5 — modelo competente que hoy esta eclipsado por su propia sucesora, pero sento la base del mejor value del mercado.
Contexto
Claude 4 Sonnet nacio para resolver un problema concreto: Anthropic necesitaba un modelo de gama media que no sintiera como “el hermano pobre de Opus”. Con Claude 3.7 Sonnet, la brecha respecto a Opus era visible. Claude 4 Sonnet cerro esa brecha casi por completo.
Para quien: Devs que necesitan un modelo de coding y razonamiento sin pagar precios flagship. Equipos que procesan codigo en volumen (review, tests, refactor) donde el coste por peticion importa.
Posicionamiento: Rankeado #23 en inteligencia de Artificial Analysis (indice 33/71), por encima de la media de su clase pero lejos del top. Eso no es un defecto — es el trade-off deliberado de un modelo mid-tier.
Metodologia
Criterios de evaluacion
- Calidad en coding — SWE-bench Verified como metrica principal.
- Razonamiento general — MMLU, GPQA Diamond, AIME.
- Razonamiento multimodal — MMMU.
- Velocidad — tokens por segundo y time to first token (Artificial Analysis).
- Coste — pricing oficial por millon de tokens, prompt caching.
- Agentic capability — TAU-bench como proxy de tareas agentivas.
Entorno de pruebas
Evaluacion basada en benchmarks publicos de terceros (no solo Anthropic):
- Artificial Analysis — metricas de velocidad, inteligencia y pricing.
- llm-stats.com — benchmarks cruzados.
- llmdb.com — perfil tecnico completo.
- AIFlashReport — datos verificados junio 2026.
Limitaciones
- No he ejecutado pruebas propias contra la API para esta review. Los datos provienen de fuentes independientes verificadas.
- El modelo fue lanzado hace un ano; parte de la review reflexiona sobre su relevancia actual frente a sucesores.
- No se evaluo rendimiento multilingue especifico con prompts en espanol.
Resultados
Benchmarks de coding
| Benchmark | Claude 4 Sonnet | Claude 4 Opus | GPT-5 | Notas |
|---|---|---|---|---|
| SWE-bench Verified | 72.7% | ~62% (4 Opus) | 72.3% | Empate practico con GPT-5 |
Claude 4 Sonnet alcanzo SOTA en SWE-bench en su lanzamiento. Un modelo mid-tier batiendo a Opus en su propio benchmark de coding fue la senal de que Anthropic habia cambiado de estrategia: Sonnet dejo de ser “el barato” para ser “el eficiente”.
Benchmarks de razonamiento
| Benchmark | Claude 4 Sonnet | Notas |
|---|---|---|
| MMLU | 88.7% | Conocimiento general solido |
| GPQA Diamond | 75.4% | Fisica/biologia postgrad — PhDs humanos ~65% |
| AIME 2025 | 33.1% | Matematicas avanzadas — punto debil |
| MMMU | 72.6% | Comprension multimodal multidisciplinar |
| TAU-bench Retail | 80.5% | Tareas agentivas con herramienta |
La imagen: muy fuerte en razonamiento verbal y cientifico, debil en matematicas puras (AIME 33.1%). Si tu workflow agents requiere deduccion numerica, hay modelos mejores.
Velocidad y latencia
| Metrica | Claude 4 Sonnet | Mediana clase | Ranking |
|---|---|---|---|
| Output speed | 41.5 tok/s | 60.4 tok/s | #43/71 |
| TTFT | 1.31s | 1.55s | Por encima de la media |
La parte incomoda: Claude 4 Sonnet es notablemente lento generando output. La primera token llega rapido (1.31s), pero una vez que empieza a fluir, lo hace a paso de tortuga comparado con GPT-5 o Gemini 2.5 Pro. En uso interactivo (IDE, chat), esto se nota. Para batch processing no importa tanto.
Pricing
| Concepto | Precio (por 1M tokens) |
|---|---|
| Input | $3.00 |
| Output | $15.00 |
| Cache write | $3.375 |
| Cache hit | $0.30 (90% descuento) |
| Max output | 64K tokens |
| Context window | 200K (1M beta) |
El cache hit a $0.30/MTok es una de las mejores tarifas del mercado. Si cacheas un system prompt de 20K tokens y haces 100 peticiones, el ahorro en input es de ~$54. Eso no es marginal para pipelines de produccion.
Fortalezas
- Coding de primer nivel en su precio. 72.7% en SWE-bench Verified a $3/MTok. La relacion calidad-precio es excelente.
- Instruction following mejorado. Anthropic redujo los “shortcut behaviors” (respuestas cortas o saltarse pasos). El modelo sigue instrucciones de formato, restricciones y estilo con mas fiabilidad.
- Prompt caching agresivo. 90% de descuento en cache hits es el mejor ratio entre los proveedores major. Ideal para system prompts largos y repetidos.
- Tool use robusto. Soporta ejecucion paralela de herramientas, JSON mode fiable, y function calling con schemas estrictos.
- Extended thinking con tool use. No es solo pensar mas — es pensar mientras usa herramientas. Eso abre patrones de reasoning que otros modelos no soportan.
Debilidades
- Velocidad de output baja. 41.5 tok/s esta un 31% por debajo de la mediana de su clase. Para uso interactivo donde la latencia perceptible importa, hay alternativas mejores.
- Matematicas debiles. AIME 33.1% es mediocre. Si tu uso incluye calculos, derivacion de formulas o optimizacion numerica, Claude 4 Sonnet no es la herramienta adecuada.
- Superado por su sucesora. Sonnet 4.6 (febrero 2026) ofrece mejores benchmarks al mismo precio. A menos que tengas un motivo especifico para quedarte en 4.0, el upgrade es gratis.
- No hay self-hosting ni fine-tuning. Modelo propietario, solo via API de Anthropic, AWS Bedrock o Google Vertex AI. Si necesitas privacidad total o customizacion, no es tu modelo.
- Refusos inconsistentes. A pesar de Constitutional AI, el modelo genera refusos que a veces parecen arbitrarios en tareas legitimas. Anthropic ha mejorado esto en versiones posteriores.
Casos de uso recomendados
- ✅ Code review y PR summaries de volumen moderado.
- ✅ Generacion de tests y documentacion con system prompts cacheados.
- ✅ Analisis de codigo y triage de issues en herramientas tipo Claude Code.
- ✅ Agentes con tool use donde el razonamiento verbal importa mas que la velocidad.
- ✅ RAG sobre knowledge bases grandes (con prompt caching para ahorrar).
- ❌ Agents autonomos de terminal que necesitan baja latencia (GPT-5.5 mejor).
- ❌ Tareas de matematicas o calculo numerico avanzado.
- ❌ Situaciones donde necesitas self-hosting o fine-tuning.
Alternativas
| Modelo | Ventaja sobre Sonnet 4 | Desventaja vs Sonnet 4 |
|---|---|---|
| Claude Sonnet 4.6 | Mejor SWE-bench (79.6%), mismo precio, effort controls | Modelo mas nuevo, menos track record |
| GPT-5 | Velocidad superior, mejor ecosistema de integraciones | Pricing mas alto ($5/$30), cliff de contexto |
| Gemini 2.5 Pro | 1.7x mas barato ($1.25/$10), 1M contexto nativo | Context window cliff a 200K (2x input) |
| DeepSeek V3.2 | 10x mas barato ($0.28/$1.10) | Benchmarks inferiores, menos fiable en tool use |
La comparativa clave es con Sonnet 4.6: mismo precio, mejores benchmarks, features adicionales (adaptive effort, context compaction). Si ya estabas en Claude 4 Sonnet, migrar a 4.6 no tiene coste y tiene todo que ganar.
Veredicto final
Comprar si necesitas un modelo de coding solido en la gama de $3/MTok y no necesitas velocidad extrema. El prompt caching a 90% descuento es una ventaja real para pipelines con system prompts largos.
Evitar si ya puedes usar Sonnet 4.6 (mismo precio, mejor rendimiento) o si tu caso de uso requiere baja latencia o matematicas avanzadas.
Claude 4 Sonnet merece un 4/5. Cuando salio, fue el mejor modelo mid-tier del mercado. Que hoy este superado por su propia sucesora no le quita merito — es exactamente lo que deberia pasar cuando un proveedor no se estanca. El problema es que si estas leyendo esto ahora, probablemente deberias ir directamente a Sonnet 4.6.
El legado real de Claude 4 Sonnet es haber demostrado que Anthropic podia ofrecer calidad frontier en la gama media. Sin este modelo, no habria Sonnet 4.6. Y sin Sonnet 4.6, el value actual de Anthropic no tendria sentido.
Preguntas frecuentes
- ¿Se puede usar en produccion? Si, via Anthropic API, AWS Bedrock o Google Vertex AI. Tiene SLAs de proveedores major.
- ¿Hay fine-tuning? No. Modelo propietario sin acceso a pesos.
- ¿Merece la pena sobre DeepSeek V3.2? Depende de la tarea. Para coding y tool use, Sonnet 4 es mas fiable. Para volumen alto y coste minimo, DeepSeek gana.
- ¿Por que no 5/5 si tiene SOTA en SWE-bench? Porque la velocidad (41.5 tok/s) y las matematicas (AIME 33.1%) son debilidades reales. Un 5 exige que el modelo sea el mejor o igual en todo lo que hace. Sonnet 4 no lo es.
Fuentes
- Artificial Analysis: Claude 4 Sonnet — metricas de velocidad, inteligencia y pricing.
- llm-stats.com: Claude Sonnet 4 — benchmarks cruzados y comparativas.
- llmdb.com: Claude Sonnet 4 — perfil tecnico completo.
- AIFlashReport: Claude Sonnet 4 — datos verificados junio 2026.
- AIReleaseTracker: Claude Sonnet 4 — benchmarks y fecha de lanzamiento.
- Anthropic: Claude Sonnet — pagina oficial.
Datos verificados a 14 de junio de 2026. El mercado de LLMs se mueve rapido: comprueba precios actuales antes de tomar decisiones de presupuesto.