Microsoft MAI Models: 7 modelos propios de IA y por qué Microsoft ya no depende solo de OpenAI

TL;DR

Microsoft lanzó 7 modelos propios bajo la marca MAI (Microsoft AI) en Build 2026. El buque insignia es MAI-Thinking-1, un modelo de razonamiento de 35B parámetros activos con arquitectura MoE que compite con Claude Opus 4.6 en coding. MAI Code One ya funciona en GitHub Copilot. La estrategia es clara: reducir dependencia de OpenAI, ofrecer modelos con “IP limpia” para empresas reguladas, y competir en coste con modelos de terceros. La mayoría están en Microsoft Foundry; MAI-Thinking-1 aún en Private Preview.

Los 7 modelos MAI: panorama completo

La familia MAI cubre texto, imagen, voz y transcripción. No es una apuesta por un solo modelo estrella — es un stack completo pensado para que un equipo enterprise no tenga que salir de Azure para nada.

Modelo	Modalidad	Estado	Nota clave
MAI-Thinking-1	Razonamiento (texto)	Private Preview	35B activos, MoE, zero distillation
MAI Code One	Coding	Disponible	5B params, ya en GitHub Copilot
MAI-Image-2.5	Generación de imagen	Disponible en Foundry	Preserva identidad y estilo
MAI-Image-2.5 Flash	Generación de imagen (rápida)	Disponible en Foundry	Optimizada para producción
MAI-Voice-2	Text-to-speech	Azure Speech	15+ idiomas, clonación de voz
MAI-Transcribe-1.5	Speech-to-text	Azure Speech	43 idiomas, 5x más eficiente que Gemini Flash
MAI-DS-R1	Data science / BI	Azure Fabric	Razonamiento estadístico estructurado

Falta un modelo de visión (MAI Vision, para análisis de documentos), pero el enfoque principal está en los modelos de texto/coding y en Foundry como plataforma unificadora.

MAI-Thinking-1: el razonador propio

Este es el modelo que más interesa a devs evaluando stacks de modelos. Las specs:

Arquitectura: Mixture of Experts (MoE) sparse. 35B parámetros activos de un total de ~1T.
Contexto: 256K tokens. Microsoft dice que es suficiente para procesar un documento de 600 páginas en un solo pase.
Entrenamiento: Cero distillation de modelos de terceros. Nada de outputs de GPT o Claude en los datos de entrenamiento. Esto es importante para empresas reguladas (finanzas, defensa, salud) que necesitan garantías de que el modelo no tiene IP contaminada.
SWE-Bench Pro: Microsoft afirma que iguala a Claude Opus 4.6 usando un 60% menos de tokens.
Preferencia humana: En evaluaciones a ciegas internas, los evaluadores prefieren MAI-Thinking-1 sobre Sonnet 4.6.

Lo que hay que tomar con pinzas: estos benchmarks son evaluaciones internas de Microsoft, no pruebas independientes. Hasta que aparezca un benchmark de terceros (Artificial Analysis, LMSYS Chatbot Arena), los números de Microsoft son indicativos, no conclusivos.

Donde sí hay valor claro es en la historia de “IP limpia”. Para una empresa de banca que quiere desplegar un modelo de razonamiento sin exponerse a claims de propiedad intelectual de OpenAI o Anthropic, MAI-Thinking-1 ofrece un argumento que ningún otro proveedor puede hacer tan directamente.

MAI Code One: coding que ya funciona en GitHub Copilot

MAI Code One es un modelo de 5B parámetros diseñado específicamente para code generation. Lo interesante no es solo el modelo, sino dónde ya está integrado:

GitHub Copilot: disponible en todos los planes de Copilot desde el día del anuncio.
VS Code: integración nativa.
Excel tasks: Microsoft cita una mejora de 10x en eficiencia para tareas de fórmulas y datos en Excel.

En benchmarks de coding, Microsoft reporta que supera a Claude Haiku 4.5 por 16 puntos en SWE-Bench. Haiku es un modelo relativamente ligero (más barato), así que ganarle por ese margen es relevante si el coste por token de MAI Code One es competitivo.

Aquí el trade-off es evidente: 5B params es pequeño. Para refactorizaciones complejas o arquitectura de sistemas, probablemente no alcance a modelos como Claude Sonnet 4.6 o GPT-4.1. Pero para autocompletado, snippets y tareas repetitivas de coding, el coste bajísimo de servir un modelo de 5B puede hacer que gane en la relación calidad/precio.

Frontier Tuning: ajustar modelos con tus propios traces

La announcing más interesante para equipos con agentes en producción es Frontier Tuning. No es fine-tuning convencional. Es un sistema basado en Reinforcement Learning que aprende de los traces reales de trabajo de tus agentes — la secuencia de pasos, decisiones y acciones que tus agentes ejecutan dentro de tu entorno.

Diferencias clave:

Fine-tuning estándar: actualiza pesos con un dataset estático etiquetado. Requiere curación manual.
Frontier Tuning: aprende de la ejecución real del agente. Los datos de entrenamiento se generan de forma natural durante el uso.
Compliance: el entrenamiento ocurre dentro del perímetro del cliente. Microsoft no recibe los datos.
Caso McKinsey: Microsoft cita que Frontier Tuning logró la mayor tasa de acierto entre los modelos probados, reduciendo costes ~10x.

Esto es relevante si tienes agentes que ya trabajan en producción y quieres que el modelo se especialice en los patrones específicos de tu organización sin enviar datos sensibles a terceros.

La limitación: está ligado al ecosistema Azure. Si tu infraestructura no está en Azure, Frontier Tuning no es una opción.

Disponibilidad y pricing

Los modelos están accesibles a través de varios canales:

Microsoft Foundry: plataforma principal. Imagen y voz/transcripción ya disponibles; MAI-Thinking-1 en Private Preview (solicitar acceso via aka.ms/mai-thinking-1-access).
Terceros: Fireworks AI, Baseten y OpenRouter también ofrecen los modelos MAI, lo que significa que no necesitas estar en Azure para usarlos.
GitHub Copilot: MAI Code One incluido en los planes existentes.

Pricing de los modelos disponibles:

Modelo	Input (texto)	Input (imagen)	Output
MAI-Image-2.5	$5/1M tokens	$8/1M	$47/1M
MAI-Image-2.5 Flash	$1.75/1M tokens	$1.75/1M	$33/1M
MAI-Voice-2	—	—	$22/1M caracteres
MAI-Transcribe-1.5	—	—	$0.36/hora de audio

MAI-Thinking-1 no tiene pricing público todavía (Private Preview). MAI Code One se consume a través de la suscripción de Copilot, no por token.

Mi lectura: cuándo tiene sentido usar MAI

Microsoft no está eliminando a OpenAI — está creando un stack de tres capas:

MAI (primera parte): IP limpia, coste controlado, compliance-friendly.
OpenAI (frontier): GPT-4.1, GPT-5.5 para tareas que necesitan máxima capacidad.
Open-weight (catálogo): 11,000+ modelos de terceros para casos específicos.

Cuándo usar MAI:

Empresas reguladas que necesitan garantías de IP limpia y no pueden depender de modelos con datos de entrenamiento de competidores.
Workloads de alto volumen donde el coste por token importa más que la última mejora de calidad. MAI-Thinking-1 promete rendimiento de frontier a fracción del coste.
Equipos ya en Azure que quieren consolidar proveedores y evitar integraciones cruzadas.
Agentes en producción que quieren especializarse con Frontier Tuning sin salir del perímetro de compliance.

Cuándo NO usar MAI:

Si necesitas el modelo más potente disponible para una tarea crítica. MAI-Thinking-1 compite con Opus 4.6 en coding, pero los benchmarks son internos. Para decisiones de alto riesgo, esperar a evaluaciones independientes.
Si tu infraestructura no está en Azure y no quieres atarte a un proveedor. MAI está en Foundry, Fireworks y OpenRouter, pero el ecosistema completo (Frontier Tuning, integraciones Copilot) requiere Azure.
Si necesitas capacidades multimodales avanzadas. La familia MAI cubre texto, imagen, voz y transcripción, pero modelos como GPT-5.5 o Gemini siguen liderando en razonamiento multimodal profundo.

La parte incómoda: los benchmarks son todos de Microsoft. Sin validación independiente, es difícil saber si MAI-Thinking-1 realmente iguala a Opus 4.6 o si las condiciones del benchmark están optimizadas para el resultado. Mi recomendación: prueba con tus propios casos de uso antes de migrar, y no asumas que los números de Microsoft se trasladan directamente a tu workload.