GPT Diffusion

Gemma 4 vs Llama 4 — El duelo open source de 2026

2026-05-26 · Devs #gemma#llama#open-weights#comparativa#benchmark#self-hosting

TL;DR

  • Gemma 4 gana en coding, razonamiento y accesibilidad: 89.2% AIME, 80% LiveCodeBench, corre en una RTX 4090
  • Llama 4 Scout gana en contexto masivo: 10M tokens de ventana, para ingerir repositorios enteros sin chunking
  • Licencias: Gemma 4 es Apache 2.0 (cero restricciones); Llama 4 tiene límite de 700M MAU
  • Costes API: Empatan (~$0.12-0.14 input / $0.35-0.40 output por millón de tokens)
  • Fine-tuning: Gemma 4 funciona con LoRA en una sola GPU; Llama 4 Scout necesita al menos 2x RTX 3090
  • Veredicto: Gemma 4 para el 90% de los casos. Llama 4 Scout solo si necesitas >1M tokens de contexto

Contexto

Google y Meta pelean por el mismo mercado — modelos open-weight para self-hosting — con filosofías opuestas.

Google apuesta por la accesibilidad: Gemma 4 va desde 2B (móviles) hasta 31B (workstations), con licencia Apache 2.0 y soporte para 140 idiomas. Meta apuesta por la escala: Llama 4 usa MoE masivo (109B/400B parámetros totales) con una ventana de contexto que llega a 10 millones de tokens, pero requiere hardware empresarial para correr.

La pregunta real no es “cuál es mejor”. Es “cuál puedes usar con tu hardware y tu presupuesto”. Vamos a los datos.

Especificaciones lado a lado

Gemma 4 (Google DeepMind, abril 2026)

ModeloParámetros ActivosArquitecturaContextoVRAM mínima (Q4)Ideal para
E2B~2.3BDense128K~1.5 GBMóviles, IoT, Raspberry Pi
E4B~4.5BDense128K~5 GBLaptops, edge
26B A4B3.8B (de 26B)MoE (128 expertos, 8 activos)256K14-18 GBRTX 3090/4090, Mac 32GB
31B30.7BDense256K17-20 GBMáxima calidad

Detalles técnicos: El 26B MoE usa Per-Layer Embeddings (PLE) y Shared KV Cache. Alterna atención sliding-window y global. Entrega el 97% de la calidad del 31B con 8x menos cómputo.

Llama 4 (Meta, abril 2025 + actualizaciones)

ModeloParámetros TotalesActivos por tokenArquitecturaContextoVRAM mínima
Scout109B17BMoE (16 expertos, 1 activo)10M~24 GB (1.78-bit) / 55GB+ (Q4)
Maverick400B17BMoE (128 expertos, 1 activo)1M~100 GB+ (multi-GPU)

La trampa MoE: MoE reduce el cómputo por token, pero no la VRAM. Para ejecutar Scout necesitas cargar los 109B parámetros en memoria, aunque solo use 17B por inferencia. Una RTX 4090 de 24GB puede correr Scout solo en cuantización agresiva (1.78-bit), que degrada calidad.

Benchmarks: datos concretos

Rendimiento comparado (modelos flagship)

BenchmarkGemma 4 31BLlama 4 ScoutLlama 4 MaverickNotas
AIME 2026 (Matemáticas)89.2%N/CN/CSalto generacional vs Gemma 3 (20.8%)
GPQA Diamond (Ciencia)84.3%~70%~78%Razonamiento de nivel PhD
MMLU Pro85.2%~74%80.5%Conocimiento general avanzado
LiveCodeBench v680.0%~65%~75%Código real, no HumanEval
Codeforces ELO2150~1800~1900Programación competitiva
Function Calling91%~83%~86%Tool use nativo
MT-Bench8.78.79.0Preferencia humana
TruthfulQA68.9%~70%~72%Alucinaciones

Nota sobre los datos de Llama 4: Meta no ha publicado benchmarks detallados de Scout para AIME, GPQA o LiveCodeBench. Los valores ~ están estimados de comparativas comunitarias y modelos de tamaño similar. Maverick tiene datos más completos porque fue el modelo presentado a LMArena.

Multilingüe

IdiomaGemma 4 31BLlama 4 ScoutDiferencia
EspañolFuerteFuerteEmpate
Chino (C-Eval)~84%~72%+12pp Gemma 4
Japonés (JGLUE)~81%~68%+13pp Gemma 4
Idiomas SEA~80%~55-65%+15-25pp Gemma 4

Gemma 4 soporta 140+ idiomas nativamente. Llama 4 está optimizado para ~28. Si tu caso de uso es multilingüe, la diferencia es abismal.

La controversia LMArena

Antes de confiar en los benchmarks de Llama 4, hay contexto que importa.

Cuando Meta lanzó Maverick, subió a LMArena una versión experimental chat-optimizada que no era el modelo que publicó como open-weight. Esa versión alcanzó un ELO de 1417, superando a GPT-4o. Meta lo celebró públicamente.

El problema: esa variante no está disponible. Los pesos que puedes descargar no producen los mismos resultados que el modelo evaluado en LMArena. The Register cubrió el asunto cuando pasó, y la comunidad de r/LocalLLaMA documentó diferencias de calidad significativas entre el modelo LMArena y los pesos públicos.

Esto no significa que Llama 4 sea malo. Significa que sus benchmarks oficiales merecen cautela. Los datos de esta comparativa priorizan pruebas reproducibles (AIME, GPQA, LiveCodeBench) sobre scores de LMArena.

Despliegue: cómo correr cada uno

Ollama (la forma más fácil)

# Gemma 4 — opciones para cada hardware
ollama run gemma4:e2b      # móvil/edge
ollama run gemma4:e4b      # laptop
ollama run gemma4          # 26B MoE (recomendado para GPUs consumer)
ollama run gemma4:31b      # máxima calidad

# Llama 4
ollama run llama4:scout    # ~26GB download, necesita 24GB+ VRAM
ollama run llama4:maverick # multi-GPU only

vLLM (serving en producción)

# Gemma 4 31B — sirve tráfico concurrente en una GPU
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-31b-it \
  --max-model-len 8192 \
  --tensor-parallel-size 1

# Llama 4 Scout — necesita al menos 2x GPU para Q4
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E \
  --max-model-len 32768 \
  --tensor-parallel-size 2

Hardware real que necesitas

Tu hardwareGemma 4Llama 4 Scout
Laptop 8GBE4BNo
RTX 3060 12GBE4B, 26B MoE (apretado)No
RTX 4090 24GB31B (calidad full)Scout en 1.78-bit (degradado)
Mac M2 Max 32GB31BScout Q4 (lento)
2x RTX 409031B con roomScout Q4 decente
4x A100 80GBOverkillMaverick

La diferencia de accesibilidad es brutal. Gemma 4 cubre desde un móvil hasta un servidor. Llama 4 empieza donde Gemma 4 termina.

Fine-tuning: ecosistema LoRA/QLoRA

Gemma 4

Gemma 4 tiene el ecosistema de fine-tuning más maduro de los modelos open-weight actuales:

  • Unsloth soporta las 4 variantes (E2B a 31B) con LoRA/QLoRA. Entrena 2-5x más rápido que HuggingFace puro.
  • Una sola GPU es suficiente: una RTX 3060 12GB puede fine-tunear el E4B con QLoRA en ~1 hora. El 31B necesita una RTX 4090.
  • Keras y HuggingFace Transformers como alternativas nativas.
  • Export a GGUF/Ollama directo desde el adapter mergeado.
# Ejemplo: QLoRA con Unsloth en una GPU
pip install unsloth
# Fine-tune E4B en RTX 3060 12GB
# Fine-tune 31B en RTX 4090 24GB
# Tiempo: ~1 hora para dataset de 10K ejemplos

Llama 4

Fine-tunear Llama 4 es más complejo por la arquitectura MoE:

  • Scout necesita al menos 2x RTX 3090 para QLoRA. Los 109B parámetros (aunque solo 17B activos) requieren cargar todo en memoria para el backward pass.
  • Maverick requiere infraestructura de cluster (4-8x A100).
  • Menos soporte comunitario comparado con Gemma 4. Unsloth lo soporta pero es más lento y experimental.
  • Los resultados de fine-tuning sobre MoE son menos predecibles: el router puede no aprender a usar los expertos correctamente con datasets pequeños.
AspectoGemma 4Llama 4 Scout
GPU mínima para QLoRARTX 3060 12GB (E4B)2x RTX 3090
Tiempo (10K ejemplos)~1 hora~3-4 horas
Madurez del ecosistemaExcelenteEn desarrollo
Resultados predeciblesMenos predecible (MoE)

APIs y pricing

Precios API (por millón de tokens, mayo 2026)

ModeloInputOutputProvider
Gemma 4 31B$0.12-0.14$0.37-0.40OpenRouter, Google Cloud
Gemma 4 E4B$0.03-0.05$0.10-0.15OpenRouter
Llama 4 Scout$0.08-0.11$0.30-0.34OpenRouter, Together
Llama 4 Maverick$0.15-0.50$0.60-0.77Together, AWS Bedrock

Los precios están muy cercanos. La diferencia real viene por el self-hosting:

Break-even self-hosting vs API:

  • Gemma 4 31B: una RTX 4090 (~$1,800) se amortiza en ~6-8 meses si generas >50M tokens/mes.
  • Llama 4 Scout: necesitas 2x GPU (~$3,600+), pero el contexto de 10M tokens es imposible de replicar vía API barata.

Funciones únicas

FeatureGemma 4Llama 4
Audio nativoE2B y E4BNo
VideoVia framesVia frames
Function callingNativo (91% accuracy)Nativo (~83%)
JSON estructuradoExcelenteBueno
Contexto >1M tokensNo (256K max)Scout: 10M
MCP/WebMCP compatible

Veredicto por caso de uso

Caso de usoGanadorPor qué
Coding localGemma 4 31B89.2% AIME, 80% LiveCodeBench, corre en 1 GPU
Vibe coding / agenticGemma 4Function calling superior (91%), ELO Codeforces 2150
RAG estándar (<256K)Gemma 4Más rápido, más preciso en contextos normales
RAG masivo (>1M tokens)Llama 4 Scout10M tokens sin chunking
Móvil / edgeGemma 4 E2B/E4BLlama 4 no tiene modelo edge
Multilingüe (no inglés)Gemma 4140 idiomas vs 28
Fine-tuning con poco hardwareGemma 4QLoRA en RTX 3060 vs 2x RTX 3090
Privacidad / air-gappedGemma 4Apache 2.0 sin restricciones MAU
Enterprise con cluster GPULlama 4 MaverickSi puedes permitirte 4-8x A100, Maverick compite con GPT-4o
Análisis de codebase completoLlama 4 ScoutEl contexto de 10M tokens es su superpoder único

Metodología

Esta comparación se basa en:

  1. Benchmarks públicos reproducibles: AIME 2026, GPQA Diamond, LiveCodeBench v6, MMLU Pro, Codeforces ELO. Priorizamos pruebas con métricas objetivas sobre preferencia humana.
  2. Documentación oficial: Model cards de Google y Meta, especificaciones de hardware publicadas.
  3. Prácticas de deployment: Tests con Ollama, vLLM y llama.cpp en hardware consumer (RTX 4090, Mac M2 Max).
  4. Precios verificados: OpenRouter, Together AI, Google Cloud (mayo 2026).
  5. Revisión de licencias: Apache 2.0 vs Llama 4 Community License.

Limitaciones: No hemos corrido benchmarks propios en producción con tráfico real. Los datos de Llama 4 Scout en AIME/GPQA/LiveCodeBench no están publicados por Meta; las estimaciones vienen de comparativas comunitarias. La controversia LMArena afecta la fiabilidad de los benchmarks de preferencia humana para Llama 4.

Conclusión

Gemma 4 es la opción práctica para la mayoría de desarrolladores en 2026. No porque sea “mejor” en abstracto, sino porque:

  1. Puedes usarlo de verdad: desde un móvil hasta una workstation, con hardware que ya tienes.
  2. Tiene mejor ecosistema: fine-tuning maduro, 140 idiomas, function calling fiable.
  3. La licencia no tiene letra pequeña: Apache 2.0 es Apache 2.0.

Llama 4 Scout tiene un superpoder real: 10 millones de tokens de contexto. Si tu caso de uso es ingerir repositorios enteros o documentos legales masivos sin chunking, no hay alternativa. Pero para el 90% de los escenarios de desarrollo, Gemma 4 ofrece más valor con menos fricción.

Elige basándote en tu infraestructura, no en los benchmarks. Los números de marketing rara vez reflejan lo que pasa cuando despliegas en producción.


Fuentes: Google Gemma 4 Model Card, Meta Llama 4 release, benchmarks AIME 2026 / GPQA Diamond / LiveCodeBench v6, OpenRouter pricing, The Register sobre controversia LMArena, pruebas comunitarias en r/LocalLLaMA

Cargando comentarios...