🧠 Hub editorial

Modelos

Evaluaciones, pricing, benchmarks y decisiones prácticas sobre LLMs.

Qué modelo usar, cuándo pagarlo y cuándo no.

Leaderboards Rankings vivos. Reviews Fichas y veredictos. Comparativas Decisiones reales.

Explorar otros hubs

🤖 Agentes 🔧 Herramientas 📚 Tutoriales 📡 Radar

Contenido destacado

2026-06-15·Análisis

GPT-6 Spud — Tracker Completo de Lanzamiento (2026)

Análisis exhaustivo de lo que sabemos (y no sabemos) sobre GPT-6. Timeline, especificaciones rumoreadas, credibilidad de fuentes y estrategia para desarrolladores.

#gpt-6#openai#frontier-models#benchmark

2026-06-15·Comparativa

Kimi K2.6 vs Gemma 4 31B — qué modelo usar para contenido en español

Dos modelos open-weight gratis en NIM con filosofía opuesta: MoE de 1T parámetros vs dense de 31B. Probamos cuál genera mejor contenido en español, cuál es más rápido, y cuándo conviene cada uno.

#comparativa#kimi#llm#benchmark

2026-06-14·Análisis

Claude Fable 5: el primer modelo Mythos público — 1M contexto, 128K output y guardrails para producción

Anthropic lanzó Claude Fable 5, el primer modelo de la clase Mythos accesible al público general. 1M de contexto, 128K de output, safeguards inteligentes y un precio premium. Esto es lo que necesitas saber antes de migrar tu stack.

#claude#anthropic#fable-5#mythos

2026-06-14·Análisis

EE.UU. bloquea Anthropic Fable 5 y Mythos 5 por export control: qué pasó y qué significa

El gobierno de EE.UU. ordena desactivar Fable 5 y Mythos 5 para todos los usuarios bajo controles de exportación. Anthropic llama a la orden 'injusta'. Primer export control directo sobre modelos de IA, no sobre chips.

#anthropic#fable-5#mythos-5#export-control

2026-06-14·Review

Review: Claude 4 Sonnet

Claude 4 Sonnet a $3/MTok ofrece calidad frontier para coding y razonamiento. Buena relacion calidad-precio, pero lento y superado por Sonnet 4.6.

#claude#frontier-models#review#llm

2026-06-13·Análisis

Microsoft MAI Models: 7 modelos propios de IA y por qué Microsoft ya no depende solo de OpenAI

En Build 2026, Microsoft presentó su familia MAI de 7 modelos propios: razonamiento, coding, imagen, voz y transcripción. Analizamos specs, benchmarks, pricing y cuándo tiene sentido usarlos.

#microsoft#mai#modelos#frontier-models

2026-06-11·Análisis

Routing multi-modelo 2026: cómo elegir el LLM correcto para cada tarea

No existe un modelo que lo haga todo bien y barato. En 2026, la pregunta no es '¿qué modelo uso?', sino '¿qué modelo uso para esta tarea concreta?'. Framework de decisiones con precios reales de junio 2026.

#routing#costes#optimizacion#llm

2026-06-11·Comparativa

DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7 — Benchmarks, precios y qué modelo usar

Tres frontier models lanzados en ocho días. DeepSeek V4 Pro cuesta 9x menos que GPT-5.5 y compite en coding, Opus 4.7 domina en código complejo, y GPT-5.5 arrasa en tareas agénticas. Guía de routing por caso de uso con benchmarks reales.

#comparativa#deepseek#openai#claude

2026-06-10·Comparativa

DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7: benchmark por benchmark

Datos actualizados junio 2026. DeepSeek V4 Pro subió sus benchmarks hasta rozar los frontier. ¿Sigue mereciendo la pena pagar 10-30x más por GPT-5.5 u Opus 4.7? Tablas lado a lado, coste por punto de precisión y veredicto por caso de uso.

#deepseek#openai#claude#llm

2026-06-08·Comparativa

GPT-5.5-Cyber vs Claude Mythos: dos filosofías opuestas para la seguridad en IA

OpenAI apuesta por acceso controlado a miles de defenders con GPT-5.5-Cyber y el programa Trusted Access for Cyber. Anthropic cierra el grifo con Claude Mythos y Project Glasswing para 40 organizaciones. Mismas capacidades, estrategias opuestas. Aquí está el desglose técnico y qué significa para los devs.

#openai#claude#seguridad#frontier-models

2026-06-07·Análisis

Claude Mythos: qué es, por qué está restringido y qué significa para la IA

Anthropic tiene un modelo capaz de encontrar vulnerabilidades zero-day mejor que casi cualquier humano, y ha decidido no publicarlo. Project Glasswing es el programa restringido que lo gestiona. Aquí está lo que sabemos, los datos del primer mes, y lo que implica para los devs.

#claude#anthropic#modelos-ia#frontier

2026-05-29·Review

Review: DeepSeek V4 Pro

DeepSeek V4 Pro iguala o supera a GPT-5.5 en coding algoritmico y razonamiento matematico, a 17x menos coste. El mejor modelo open-weight que existe.

#deepseek#open-weights#llm#benchmark

2026-05-26·Análisis

Claude Sonnet 4.6 a $3/MTok con 1M de contexto: ¿El mejor value del mercado?

Sonnet 4.6 cuesta 1/5 que Opus, rinde dentro de 1.2 puntos en SWE-bench y ahora tiene 1M de contexto sin recargo. Análisis de pricing, benchmarks y en qué tareas merece la pena pagar más.

#frontier-models#pricing#claude#modelos

2026-05-26·Comparativa

Gemma 4 vs Llama 4 — El duelo open source de 2026

Comparativa técnica entre Gemma 4 y Llama 4: specs lado a lado, benchmarks reales, despliegue con Ollama/vLLM, fine-tuning con LoRA, costes API y veredicto por caso de uso.

#gemma#llama#open-weights#comparativa

2026-05-25·Análisis

GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)

Tracker vivo sobre GPT-6 y el codename Spud. Qué pasó con los rumores, qué entregó OpenAI con GPT-5.5, y cuándo esperar el verdadero GPT-6.

#gpt-6#openai#llm#benchmark

2026-05-25·Análisis

Qwen3.7-Max: el modelo de Alibaba diseñado para agentes — contexto 1M, 35 horas autónomo y un robot dog

Alibaba presentó Qwen3.7-Max como el primer modelo diseñado desde cero para la era de los agentes: 1M de contexto, ejecución autónoma de 35 horas, integración nativa con Claude Code y OpenClaw, y benchmarks que superan a Opus 4.6 en tareas agentic. Analizamos qué hay de marketing y qué hay de verdad.

#qwen#agentes#coding-agents#mcp

2026-05-25·Review

Review: Gemini 3.5 Flash — velocidad frontier, precio Flash, matices reales

Gemini 3.5 Flash supera a 3.1 Pro en benchmarks agentic y cuesta 40% menos. Pero el coste real por tarea puede ser 5x superior a Flash 3.0. Review con datos, no marketing.

#gemini#google#frontier-models#review

2026-05-23·Análisis

Apple + Anthropic: Qué nos dice la integración de Claude sobre el futuro de la IA en dispositivos

Apple usa Claude internamente, integra agentes en Xcode, adopta MCP a nivel sistema y abrirá Siri a modelos de terceros. Esto es lo que significa para devs que construyen con IA.

#apple#anthropic#claude#mcp

2026-05-22·Análisis

China prohíbe despidos por IA: qué dicen los tribunales y qué significa para los devs

Tribunales chinos han declarado ilegal despedir a trabajadores para sustituirlos por IA. Repaso a las sentencias, la comparativa con la UE y EEUU, y qué significa para devs que trabajan con empresas globales.

#agentes#caso-real#costes#optimizacion

2026-05-22·Análisis

Open Source Catching Up — GLM-5.1 y Gemma 4 Muestran el Cambio de Poder

GLM-5.1 lidera coding y razonamiento complejo; Gemma 4 democratiza con Apache 2.0. Los modelos open-source ya no son curiosidades: son alternativas viables.

#modelos#open-weights#llm#benchmark

2026-05-22·Caso real

La trampa de los despidos por IA — Por qué las empresas automatizan de más

Klarna recontrató humanos tras reemplazar 700 agentes con IA. IBM despidió 8.000 empleados y tuvo que recontratar. Forrester dice que el 55% de empresas se arrepienten. Datos, casos reales y un framework para decidir qué automatizar sin quemar tu organización.

#costes#automatizacion#caso-real#productividad

2026-05-21·Análisis

DeepSeek V4 API: guía completa de costes reales por workload (datos de junio 2026)

Precios DeepSeek V4 Pro y Flash después del descuento del 75%. Comparativa con GPT-5.4, Claude Opus 4.7 y Gemini 3.5 Flash. Cálculos reales para coding, RAG, agentes y batch.

#deepseek#pricing#api#costes

2026-05-21·Comparativa

GPT-5.5-Cyber vs Claude Mythos — La Carrera de Seguridad IA

Análisis técnico profundo de los dos modelos de seguridad más avanzados del mercado: GPT-5.5-Cyber de OpenAI y Claude Mythos de Anthropic. Capabilities, pricing y casos de uso real para desarrolladores.

#seguridad#openai#anthropic#gpt

2026-05-21·Comparativa

Mistral Medium 3.5 vs DeepSeek V4 Pro: Duelo Open-Source

Dos modelos open-weight de élite, filosofías opuestas. Mistral ofrece velocidad y multimodalidad; DeepSeek entrega inteligencia bruta y contexto masivo. ¿Cuál compensa en producción?

#mistral#deepseek#open-weights#benchmark

2026-05-21·Comparativa

Gemini 3.5 vs GPT-5.5 vs Claude Opus 4.7: comparativa para devs en 2026

Cuatro modelos, cuatro filosofías. Gemini 3.5 Flash cambia el juego con velocidad y agenticidad. ¿Cuál usar para coding, agentes multimodales y presupuestos ajustados? Benchmarks reales, precios y casos de uso prácticos.

#gemini#google#comparativa#benchmarks

2026-05-20·Análisis

Apple + Anthropic: qué nos dice el leak de Claude.md sobre la estrategia real de IA

Los archivos CLAUDE.md filtrados en la app Apple Support revelan que Apple usa Claude Code internamente, tiene un LLM propio llamado Juno AI, y su estrategia de IA es más dependiente de terceros de lo que reconoce públicamente.

#claude#anthropic#apple#on-device

2026-05-20·Análisis

Google invierte 40.000M$ en Anthropic: qué cambia para desarrolladores

Google ha anunciado una inversión de hasta 40.000M$ en Anthropic. Pero el 75% está condicionado a hitos, y la parte que importa de verdad es el compute: 5 GW de TPU durante 5 años. Qué significa esto para los devs que usan Claude, la API, y el ecosistema LLM.

#anthropic#claude#openai#costes

2026-05-20·Análisis

Google I/O 2026: lo que todo dev necesita saber (Gemini 3.5, Omni, Antigravity 2.0)

Google I/O 2026 trajo Gemini 3.5 Flash (4x más rápido que otros frontier), Antigravity 2.0 (platforma agent-first que reemplaza Gemini CLI), Gemini Omni (video desde cualquier input) y cambios en Search que afectan tu SEO. Guía práctica para devs con datos, pricing y migraciones.

#gemini#agentes#api#developer-tools

2026-05-20·Análisis

Open Source Catching Up — GLM-5.1 y Gemma 4 Cambian el Juego

La brecha entre open-source y modelos cerrados se ha cerrado. GLM-5.1 lidera benchmarks y Gemma 4 ofrece calidad excepcional para hardware consumer.

#llm#modelos#open-weights#benchmark

2026-05-07·Análisis

Gemini 3.1 Pro: el modelo que supera a Claude Opus en razonamiento y tiene 2M de contexto

Gemini 3.1 Pro logra 94.3% en GPQA Diamond (superando a Opus 4.7), 2M tokens de contexto y 80.6% en SWE-bench. Análisis con datos del Model Card oficial de Google DeepMind.

#gemini#google#frontier-models#benchmark

2026-05-06·Review

Review: Gemini 2.5 Pro — el modelo con más contexto del mercado

Gemini 2.5 Pro tiene 1M tokens de contexto, excelente multimodal y pricing agresivo. Pero su API es errática y los rate limits hieren su caso de uso principal. Review con datos reales.

#gemini#google#frontier-models#review

2026-05-06·Review

Review: Llama 4 Maverick — el open-weight que compite con frontier

Llama 4 Maverick es el modelo open-weight más capaz de Meta. MoE eficiente, buen español, y self-hosting real. Pero no llega al nivel de Opus 4.7 ni GPT-5 en razonamiento profundo.

#llama#meta#open-weights#review

2026-05-06·Review

Review: Mistral Large 3 — el modelo europeo que mejoró mucho

Mistral Large 3 mejoró en coding y agentes, con Agents API nativo y pricing competitivo. Pero su razonamiento sigue por debajo de frontier y el español es su punto débil.

#mistral#review#open-weights#european-ai

2026-05-06·Comparativa

Claude Opus 4.7 vs GPT-5: cuándo usar cada uno en producción

Comparativa práctica entre los dos modelos frontier de 2026: rendimiento en coding, razonamiento, costes y casos de uso reales. Con datos, no opiniones.

#claude#openai#llm#modelos

2026-05-03·Comparativa

GPT-5.5 vs Claude Opus 4.7 — Qué modelo usar según tu workload

GPT-5.5 arrasa en tareas agénticas, Opus 4.7 domina en código y veracidad. Desglose con benchmarks reales, precios y una guía de routing por caso de uso.

#comparativa#gpt-5.5#claude-opus-4.7#llm

2026-05-01·Review

Mistral Medium 3.5: ¿El nuevo estándar de los modelos open-weight?

Mistral lanza el Medium 3.5: 128B parámetros, licencia MIT y un 77.6% en SWE-bench. Analizamos si realmente puede sustituir a los modelos frontera en

#mistral#open-weights#llm#benchmark

2026-05-01·Review

Grok 3: ficha pendiente de review completa

Ficha editorial pendiente de review completa de Grok 3, modelo frontier de xAI. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#frontier-models#review#grok

2026-05-01·Review

Llama 4 Scout: ficha pendiente de review completa

Ficha editorial pendiente de review completa de Llama 4 Scout, modelo open-weight de Meta. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#open-weights#review#llama

2026-05-01·Review

Qwen 3 235B: ficha pendiente de review completa

Ficha editorial pendiente de review completa de Qwen 3 235B, modelo open-weight de Alibaba/Qwen. Todavía no incluye metodología propia, benchmarks verificados ni recomendación final; se mantiene visible como entrada planificada.

#open-weights#review#qwen

2026-04-30·Review

Review: DeepSeek R2

DeepSeek R2 ofrece calidad frontier a precio de commodidad. No es perfecto, pero redefinió lo que esperamos de un modelo open-weight.

#deepseek#open-weights#llm#benchmark

2026-04-29·Análisis

Open weights vs closed models: cuándo compensa cada uno

Modelos abiertos vs propietarios en 2026: rendimiento real, costes, privacidad, self-hosting y la decisión de cuál usar para cada caso.

#open-weights#frontier-models#open-source#costes

2026-04-26·Análisis

DeepSeek V4: análisis completo de Pro y Flash — benchmarks, pricing y cuándo usar cada uno

DeepSeek V4-Pro y V4-Flash llegan con 1M de contexto, licencia MIT y benchmarks que compiten con GPT-5.4 y Claude Opus 4.6. Analizamos arquitectura,

#deepseek#llm#benchmark#pricing

2026-04-26·Análisis

Leaderboards explicados: qué benchmark mirar y cuál ignorar

No todos los benchmarks valen lo mismo. Guía práctica para leer leaderboards sin caer en marketing: qué mide cada uno, qué significa realmente y cuándo importa.

#benchmark#modelos#evaluacion#llm

2026-04-24·Review

Review: Claude 4 Opus

Claude 4 Opus es el mejor modelo de coding del mercado. Caro, pero si tu trabajo depende de escribir código, merece cada céntimo.

#claude#frontier-models#llm#benchmark

2026-04-23·Análisis

Guía de costes LLM: tokens, caching, routing y proveedores

Cómo calcular, optimizar y reducir el coste de usar LLMs en producción: tokens, caching semántico, routing inteligente y qué proveedores convienen.

#costes#pricing#tokens#optimizacion

2026-04-20·Análisis

Guía de modelos LLM para devs en 2026

Todos los modelos que importan en 2026, clasificados por caso de uso, con datos reales de benchmarks, precios y disponibilidad.

#llm#modelos#open-weights#frontier-models

2026-04-19·Review

Review: GPT-5

GPT-5 sigue siendo el modelo más versátil del mercado. No es el mejor en nada, pero es excelente en casi todo. Review con datos reales.

#openai#frontier-models#llm#benchmark

2026-04-14·Análisis

La brecha cerrado vs abierto se cierra (abril 2026)

Los modelos open-weight están a 3 puntos de Elo de la frontera. La guerra de precios ha empezado. Y el local first es viable. Qué significa todo esto.

#open-weights#frontier-models#benchmark#llm