Item: Claude 4 Sonnet
Rating: 4
Author: GPT Diffusion

TL;DR

Claude 4 Sonnet (22 mayo 2025) marco el salto generacional de Anthropic en la gama media.
Pricing: $3 input / $15 output por millon de tokens. Contexto: 200K (1M beta).
En benchmarks: 72.7% SWE-bench Verified, 75.4% GPQA Diamond, 88.7% MMLU.
Fortalezas: coding solido, buen instruction following, prompt caching con 90% descuento.
Debilidades: velocidad por debajo de la media (41.5 tok/s), superado por Sonnet 4.6 y GPT-5.
Rating: 4/5 — modelo competente que hoy esta eclipsado por su propia sucesora, pero sento la base del mejor value del mercado.

Contexto

Claude 4 Sonnet nacio para resolver un problema concreto: Anthropic necesitaba un modelo de gama media que no sintiera como “el hermano pobre de Opus”. Con Claude 3.7 Sonnet, la brecha respecto a Opus era visible. Claude 4 Sonnet cerro esa brecha casi por completo.

Para quien: Devs que necesitan un modelo de coding y razonamiento sin pagar precios flagship. Equipos que procesan codigo en volumen (review, tests, refactor) donde el coste por peticion importa.

Posicionamiento: Rankeado #23 en inteligencia de Artificial Analysis (indice 33/71), por encima de la media de su clase pero lejos del top. Eso no es un defecto — es el trade-off deliberado de un modelo mid-tier.

Metodologia

Criterios de evaluacion

Calidad en coding — SWE-bench Verified como metrica principal.
Razonamiento general — MMLU, GPQA Diamond, AIME.
Razonamiento multimodal — MMMU.
Velocidad — tokens por segundo y time to first token (Artificial Analysis).
Coste — pricing oficial por millon de tokens, prompt caching.
Agentic capability — TAU-bench como proxy de tareas agentivas.

Entorno de pruebas

Evaluacion basada en benchmarks publicos de terceros (no solo Anthropic):

Artificial Analysis — metricas de velocidad, inteligencia y pricing.
llm-stats.com — benchmarks cruzados.
llmdb.com — perfil tecnico completo.
AIFlashReport — datos verificados junio 2026.

Limitaciones

No he ejecutado pruebas propias contra la API para esta review. Los datos provienen de fuentes independientes verificadas.
El modelo fue lanzado hace un ano; parte de la review reflexiona sobre su relevancia actual frente a sucesores.
No se evaluo rendimiento multilingue especifico con prompts en espanol.

Resultados

Benchmarks de coding

Benchmark	Claude 4 Sonnet	Claude 4 Opus	GPT-5	Notas
SWE-bench Verified	72.7%	~62% (4 Opus)	72.3%	Empate practico con GPT-5

Claude 4 Sonnet alcanzo SOTA en SWE-bench en su lanzamiento. Un modelo mid-tier batiendo a Opus en su propio benchmark de coding fue la senal de que Anthropic habia cambiado de estrategia: Sonnet dejo de ser “el barato” para ser “el eficiente”.

Benchmarks de razonamiento

Benchmark	Claude 4 Sonnet	Notas
MMLU	88.7%	Conocimiento general solido
GPQA Diamond	75.4%	Fisica/biologia postgrad — PhDs humanos ~65%
AIME 2025	33.1%	Matematicas avanzadas — punto debil
MMMU	72.6%	Comprension multimodal multidisciplinar
TAU-bench Retail	80.5%	Tareas agentivas con herramienta

La imagen: muy fuerte en razonamiento verbal y cientifico, debil en matematicas puras (AIME 33.1%). Si tu workflow agents requiere deduccion numerica, hay modelos mejores.

Velocidad y latencia

Metrica	Claude 4 Sonnet	Mediana clase	Ranking
Output speed	41.5 tok/s	60.4 tok/s	#43/71
TTFT	1.31s	1.55s	Por encima de la media

La parte incomoda: Claude 4 Sonnet es notablemente lento generando output. La primera token llega rapido (1.31s), pero una vez que empieza a fluir, lo hace a paso de tortuga comparado con GPT-5 o Gemini 2.5 Pro. En uso interactivo (IDE, chat), esto se nota. Para batch processing no importa tanto.

Pricing

Concepto	Precio (por 1M tokens)
Input	$3.00
Output	$15.00
Cache write	$3.375
Cache hit	$0.30 (90% descuento)
Max output	64K tokens
Context window	200K (1M beta)

El cache hit a $0.30/MTok es una de las mejores tarifas del mercado. Si cacheas un system prompt de 20K tokens y haces 100 peticiones, el ahorro en input es de ~$54. Eso no es marginal para pipelines de produccion.

Fortalezas

Coding de primer nivel en su precio. 72.7% en SWE-bench Verified a $3/MTok. La relacion calidad-precio es excelente.
Instruction following mejorado. Anthropic redujo los “shortcut behaviors” (respuestas cortas o saltarse pasos). El modelo sigue instrucciones de formato, restricciones y estilo con mas fiabilidad.
Prompt caching agresivo. 90% de descuento en cache hits es el mejor ratio entre los proveedores major. Ideal para system prompts largos y repetidos.
Tool use robusto. Soporta ejecucion paralela de herramientas, JSON mode fiable, y function calling con schemas estrictos.
Extended thinking con tool use. No es solo pensar mas — es pensar mientras usa herramientas. Eso abre patrones de reasoning que otros modelos no soportan.

Debilidades

Velocidad de output baja. 41.5 tok/s esta un 31% por debajo de la mediana de su clase. Para uso interactivo donde la latencia perceptible importa, hay alternativas mejores.
Matematicas debiles. AIME 33.1% es mediocre. Si tu uso incluye calculos, derivacion de formulas o optimizacion numerica, Claude 4 Sonnet no es la herramienta adecuada.
Superado por su sucesora. Sonnet 4.6 (febrero 2026) ofrece mejores benchmarks al mismo precio. A menos que tengas un motivo especifico para quedarte en 4.0, el upgrade es gratis.
No hay self-hosting ni fine-tuning. Modelo propietario, solo via API de Anthropic, AWS Bedrock o Google Vertex AI. Si necesitas privacidad total o customizacion, no es tu modelo.
Refusos inconsistentes. A pesar de Constitutional AI, el modelo genera refusos que a veces parecen arbitrarios en tareas legitimas. Anthropic ha mejorado esto en versiones posteriores.

Casos de uso recomendados

✅ Code review y PR summaries de volumen moderado.
✅ Generacion de tests y documentacion con system prompts cacheados.
✅ Analisis de codigo y triage de issues en herramientas tipo Claude Code.
✅ Agentes con tool use donde el razonamiento verbal importa mas que la velocidad.
✅ RAG sobre knowledge bases grandes (con prompt caching para ahorrar).
❌ Agents autonomos de terminal que necesitan baja latencia (GPT-5.5 mejor).
❌ Tareas de matematicas o calculo numerico avanzado.
❌ Situaciones donde necesitas self-hosting o fine-tuning.

Alternativas

Modelo	Ventaja sobre Sonnet 4	Desventaja vs Sonnet 4
Claude Sonnet 4.6	Mejor SWE-bench (79.6%), mismo precio, effort controls	Modelo mas nuevo, menos track record
GPT-5	Velocidad superior, mejor ecosistema de integraciones	Pricing mas alto ($5/$30), cliff de contexto
Gemini 2.5 Pro	1.7x mas barato ($1.25/$10), 1M contexto nativo	Context window cliff a 200K (2x input)
DeepSeek V3.2	10x mas barato ($0.28/$1.10)	Benchmarks inferiores, menos fiable en tool use

La comparativa clave es con Sonnet 4.6: mismo precio, mejores benchmarks, features adicionales (adaptive effort, context compaction). Si ya estabas en Claude 4 Sonnet, migrar a 4.6 no tiene coste y tiene todo que ganar.

Veredicto final

Comprar si necesitas un modelo de coding solido en la gama de $3/MTok y no necesitas velocidad extrema. El prompt caching a 90% descuento es una ventaja real para pipelines con system prompts largos.

Evitar si ya puedes usar Sonnet 4.6 (mismo precio, mejor rendimiento) o si tu caso de uso requiere baja latencia o matematicas avanzadas.

Claude 4 Sonnet merece un 4/5. Cuando salio, fue el mejor modelo mid-tier del mercado. Que hoy este superado por su propia sucesora no le quita merito — es exactamente lo que deberia pasar cuando un proveedor no se estanca. El problema es que si estas leyendo esto ahora, probablemente deberias ir directamente a Sonnet 4.6.

El legado real de Claude 4 Sonnet es haber demostrado que Anthropic podia ofrecer calidad frontier en la gama media. Sin este modelo, no habria Sonnet 4.6. Y sin Sonnet 4.6, el value actual de Anthropic no tendria sentido.

Preguntas frecuentes

¿Se puede usar en produccion? Si, via Anthropic API, AWS Bedrock o Google Vertex AI. Tiene SLAs de proveedores major.
¿Hay fine-tuning? No. Modelo propietario sin acceso a pesos.
¿Merece la pena sobre DeepSeek V3.2? Depende de la tarea. Para coding y tool use, Sonnet 4 es mas fiable. Para volumen alto y coste minimo, DeepSeek gana.
¿Por que no 5/5 si tiene SOTA en SWE-bench? Porque la velocidad (41.5 tok/s) y las matematicas (AIME 33.1%) son debilidades reales. Un 5 exige que el modelo sea el mejor o igual en todo lo que hace. Sonnet 4 no lo es.

Fuentes

Artificial Analysis: Claude 4 Sonnet — metricas de velocidad, inteligencia y pricing.
llm-stats.com: Claude Sonnet 4 — benchmarks cruzados y comparativas.
llmdb.com: Claude Sonnet 4 — perfil tecnico completo.
AIFlashReport: Claude Sonnet 4 — datos verificados junio 2026.
AIReleaseTracker: Claude Sonnet 4 — benchmarks y fecha de lanzamiento.
Anthropic: Claude Sonnet — pagina oficial.

Datos verificados a 14 de junio de 2026. El mercado de LLMs se mueve rapido: comprueba precios actuales antes de tomar decisiones de presupuesto.

Review: Claude 4 Sonnet