Evaluaciones

Reviews

Una review completa necesita metodología, benchmarks, pricing y veredicto por caso de uso. Lo que no cumple eso aparece como ficha pendiente, no como recomendación.

Reviews completas

Review: Claude 4 Sonnet

2026-06-14·⭐ 4/5·Claude 4 SonnetCompleta

Claude 4 Sonnet a $3/MTok ofrece calidad frontier para coding y razonamiento. Buena relacion calidad-precio, pero lento y superado por Sonnet 4.6.

#claude#frontier-models#review#llm#benchmark

Review: DeepSeek V4 Pro

2026-05-29·⭐ 5/5·DeepSeek V4 ProCompleta

DeepSeek V4 Pro iguala o supera a GPT-5.5 en coding algoritmico y razonamiento matematico, a 17x menos coste. El mejor modelo open-weight que existe.

#deepseek#open-weights#llm#benchmark#costes

Review: Gemini 3.5 Flash — velocidad frontier, precio Flash, matices reales

2026-05-25·⭐ 4/5·Gemini 3.5 FlashCompleta

Gemini 3.5 Flash supera a 3.1 Pro en benchmarks agentic y cuesta 40% menos. Pero el coste real por tarea puede ser 5x superior a Flash 3.0. Review con datos, no marketing.

#gemini#google#frontier-models#review#agentes

Review: Claude Security Beta — escaneo de vulnerabilidades con IA

2026-05-20·⭐ 3/5·Claude SecurityCompleta

Claude Security promete encontrar vulnerabilidades que los SAST tradicionales no ven. En beta pública funciona, pero solo para Enterprise, sin datos de falsos positivos públicos y con preguntas abiertas sobre su validación automática.

#claude#seguridad#review#developer-tools#anthropic

Review: Gemini 2.5 Pro — el modelo con más contexto del mercado

2026-05-06·⭐ 4/5·Gemini 2.5 ProCompleta

Gemini 2.5 Pro tiene 1M tokens de contexto, excelente multimodal y pricing agresivo. Pero su API es errática y los rate limits hieren su caso de uso principal. Review con datos reales.

#gemini#google#frontier-models#review#multimodal

Review: Llama 4 Maverick — el open-weight que compite con frontier

2026-05-06·⭐ 4/5·Llama 4 MaverickCompleta

Llama 4 Maverick es el modelo open-weight más capaz de Meta. MoE eficiente, buen español, y self-hosting real. Pero no llega al nivel de Opus 4.7 ni GPT-5 en razonamiento profundo.

#llama#meta#open-weights#review#moe

Review: Mistral Large 3 — el modelo europeo que mejoró mucho

2026-05-06·⭐ 3/5·Mistral Large 3Completa

Mistral Large 3 mejoró en coding y agentes, con Agents API nativo y pricing competitivo. Pero su razonamiento sigue por debajo de frontier y el español es su punto débil.

#mistral#review#open-weights#european-ai#agents

Review: DeepSeek R2

2026-04-30·⭐ 4/5·DeepSeek R2Completa

DeepSeek R2 ofrece calidad frontier a precio de commodidad. No es perfecto, pero redefinió lo que esperamos de un modelo open-weight.

#deepseek#open-weights#llm#benchmark#costes

Review: Claude 4 Opus

2026-04-24·⭐ 5/5·Claude 4 OpusCompleta

Claude 4 Opus es el mejor modelo de coding del mercado. Caro, pero si tu trabajo depende de escribir código, merece cada céntimo.

#claude#frontier-models#llm#benchmark#coding-agents

Review: GPT-5

2026-04-19·⭐ 4/5·GPT-5Completa

GPT-5 sigue siendo el modelo más versátil del mercado. No es el mejor en nada, pero es excelente en casi todo. Review con datos reales.

#openai#frontier-models#llm#benchmark

Fichas pendientes

Estas URLs existen para organizar el roadmap editorial, pero todavía no son reviews completas.

Grok 3

2026-05-01·Pendiente·Grok 3

Ficha editorial pendiente de review completa de Grok 3, modelo frontier de xAI. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#frontier-models#review#grok

Llama 4 Scout

2026-05-01·Pendiente·Llama 4 Scout

Ficha editorial pendiente de review completa de Llama 4 Scout, modelo open-weight de Meta. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#open-weights#review#llama

Qwen 3 235B

2026-05-01·Pendiente·Qwen 3 235B

Ficha editorial pendiente de review completa de Qwen 3 235B, modelo open-weight de Alibaba/Qwen. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#open-weights#review#qwen