Capítulo 11 — Investigación de vanguardia: MoE, modelos de razonamiento y el nuevo eje de escalado

Publicado el: 2026-02-28 Última actualización el: 2026-06-04 Versión: 1

Capítulo 11 — Investigación de vanguardia

Esta es la Parte 11 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer cubrimos seguridad, ética y confianza. Hoy miramos hacia adelante. El Capítulo 11 cubre las direcciones de investigación que más han dado forma al campo durante 2024–2026, y una de ellas en particular lo cambió todo.


Mixture of Experts: producción, no investigación

Hasta hace un par de años, cada LLM basado en Transformer activaba cada parámetro para cada entrada. Un modelo de 70 mil millones de parámetros usaba los 70 mil millones para predecir cada siguiente token. Esto es computacionalmente derrochador — la mayoría de los parámetros no son relevantes para la mayoría de las entradas.

Las arquitecturas Mixture-of-Experts (MoE) arreglan esto. El modelo contiene muchas subredes especializadas, llamadas expertos, pero solo unas pocas se activan para cualquier entrada dada. Una pequeña red de compuertas decide qué expertos llamar. El resultado es un modelo con un conteo total de parámetros enorme — que lo hace capaz — pero con cómputo por token acotado — que lo hace eficiente.

Idea clave: MoE desacopla la capacidad del cómputo. Un modelo puede tener 600 mil millones de parámetros en total mientras activa solo 30 mil millones por token. Esta es una de las principales razones por las que los modelos de frontera han seguido mejorando mientras los costos de inferencia no han crecido proporcionalmente.

La edición de 2026 trata MoE como realidad de producción en lugar de investigación porque eso es lo que es ahora. Varias familias importantes de modelos de frontera incluyen arquitecturas MoE. El libro recorre cómo funciona el enrutamiento, cuáles son los desafíos de balanceo de carga y por qué es probable que este patrón arquitectónico domine en el futuro previsible.

Mecanismos de memoria

Los LLM estándar tienen un tipo de memoria: parámetros. Una vez que termina el entrenamiento, el conocimiento del modelo está fijo hasta la próxima corrida de entrenamiento. La investigación sobre mecanismos de recuperación y memoria intenta dar a los modelos un segundo tipo de memoria — externa, actualizable y consultable en tiempo de inferencia.

RAG, que cubrimos en el Capítulo 7, es la implementación más común, pero es parte de una familia más grande. Los módulos de memoria diferenciables permiten que el gradiente fluya a través de operaciones de recuperación, de modo que el modelo puede aprender cómo recuperar de forma efectiva. Los mecanismos de memoria de contexto largo comprimen porciones anteriores de la conversación para que el modelo pueda efectivamente "recordar" más de lo que su ventana de contexto permite. El libro cubre cada dirección y discute qué está maduro frente a especulativo.

Multimodalidad nativa

Los primeros modelos multimodales usaban codificadores separados para visión y lenguaje, unidos en una capa de fusión. La generación actual ha avanzado hacia algo más elegante: tokenizar imágenes, audio y video directamente, y alimentarlos a través del mismo Transformer que el texto. La arquitectura no sabe ni le importa qué tipo de token está procesando.

Por eso los modelos de frontera modernos pueden mezclar suavemente modalidades en una sola conversación, por qué un modelo puede mirar una foto y describirla mientras continúa la conversación de texto anterior, y por qué algunos modelos ahora aceptan video como entrada de primera clase. El libro recorre lo que este cambio arquitectónico implica para el presupuesto de contexto, la latencia y los tipos de tareas que puedes lanzar a estos sistemas.

Aprendizaje continuo, honestamente

Casi todos los LLM en producción están congelados en el tiempo de entrenamiento. Actualizar su conocimiento significa un ciclo completo de reentrenamiento o ajuste fino. El aprendizaje continuo es la dirección de investigación que intenta dejar que los modelos actualicen sus parámetros de forma incremental, en producción, sin olvidar lo que ya sabían.

Esto es más difícil de lo que parece. El principal obstáculo se llama olvido catastrófico: cuando entrenas una red neuronal con nuevos datos, tiende a sobrescribir los patrones que aprendió de los datos antiguos. Resolver esto de forma confiable a escala sigue siendo un problema abierto. El libro es honesto sobre lo que funciona y lo que no, y por qué la mayoría de los sistemas en producción siguen dependiendo de la recuperación en lugar del aprendizaje continuo cuando necesitan información actualizada.

El nuevo eje de escalado: modelos de razonamiento

Esta es la sección que más me emociona en la edición de 2026. Durante 2024–2026, emergió una nueva familia de modelos — a veces llamados modelos de razonamiento, modelos de cadena de pensamiento o modelos de escalado en tiempo de inferencia. Han cambiado cómo el campo piensa sobre la capacidad.

El mecanismo es directo en líneas generales. Un modelo de razonamiento es entrenado — típicamente a través de una combinación de optimización de preferencias y aprendizaje por refuerzo en tareas con resultados verificables — para generar largas cadenas internas de tokens intermedios antes de emitir su respuesta final. Estos tokens intermedios funcionan como memoria de trabajo. Permiten que el modelo descomponga problemas, explore enfoques candidatos, verifique su propia aritmética o lógica y revise donde detecta errores. El usuario ve solo la respuesta final; el modelo usó el rastro intermedio para llegar ahí.

Lo que distingue esto del simple prompting de "cadena de pensamiento" es dónde vive la capacidad. El prompting de cadena de pensamiento convence a un modelo de propósito general para razonar dándole forma a su prompt. Los modelos de razonamiento son entrenados para razonar — el comportamiento está incorporado en la política, no en el prompt.

Importante: El escalado en tiempo de inferencia cambia la forma operativa del sistema. La latencia y el costo por solicitud ya no son fijos — varían en un orden de magnitud dependiendo de cuánto razonamiento decida hacer el modelo. El diseño de aplicaciones debe acomodar esta variabilidad, con políticas de streaming, cancelación y timeout que los modelos pre-razonamiento rara vez requerían.

La capacidad ahora se puede aumentar a lo largo de dos ejes ampliamente independientes. El eje de entrenamiento determina lo que el modelo ha aprendido de los datos. El eje de inferencia determina cuánta deliberación aplica el modelo a una entrada particular. Un modelo más pequeño al que se le permita razonar extensamente a veces puede superar a un modelo más grande que responde en una sola pasada. Esto replantea todo el compromiso escalado-costo que ha gobernado la selección de modelos.

Direcciones futuras

El libro cierra el Capítulo 11 con las preguntas de investigación abiertas. Eficiencia — hacer más con menos cómputo. Razonamiento — hacer al modelo más confiable en el pensamiento de múltiples pasos. Alineación — mantener el buen comportamiento a medida que crece la capacidad. Arquitectura — si el Transformer sigue siendo dominante o es reemplazado por algo fundamentalmente diferente.

No se espera que un solo avance domine los próximos años. Es probable que el progreso venga de la integración de muchas técnicas, cada una contribuyendo con una pieza. Esa es una narrativa menos satisfactoria que "la próxima gran cosa", pero es la honesta.

Lo que prepara el Capítulo 11

Al final del Capítulo 11, entiendes las principales direcciones de investigación que dan forma al campo hoy. Puedes leer anuncios sobre nuevos modelos de frontera y ubicar sus afirmaciones arquitectónicas correctamente. Tienes un marco para pensar en lo que viene a continuación — tanto lo probable como lo incierto.


Próximamente — Capítulo 12: Construyendo tu propio sistema LLM. El capítulo final del libro. Mañana cerramos la serie con lo que se requiere para construir un sistema LLM de extremo a extremo — conjuntos de datos, pipelines de entrenamiento, marcos de evaluación, la pila integrada y los patrones de casos de estudio que comparten los despliegues exitosos.

¿Quieres el panorama completo? El Capítulo 11 del libro está sustancialmente ampliado en la edición de 2026, con secciones dedicadas a los modelos de razonamiento y la multimodalidad nativa que no existían en la primera edición. Consigue LLM Primer I en Amazon →

SHO
SHO
CTO y Fundador de RECEIPTROLLER. Enfocado en datos, impulsado por la innovación, siempre curioso.