Capítulo 5 — Entrenando modelos grandes

Esta es la Parte 5 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer abrimos el Transformer. Hoy miramos qué se requiere para llenar realmente los miles de millones de perillas numéricas que tiene dentro — el proceso que convierte una arquitectura inicializada al azar en un modelo de lenguaje utilizable.

Qué significa realmente "entrenar"

Es fácil pasar por alto la palabra "entrenar" y perder de vista a qué se refiere. Entrenar un modelo de lenguaje grande es el proceso de ajustar lentamente cada uno de sus parámetros — miles de millones de números — para que, en los datos de entrenamiento, las predicciones del modelo sobre el siguiente token mejoren cada vez más.

La aritmética de cada ajuste individual es pequeña. Le das algo de texto. El modelo predice el siguiente token. Comparas la predicción con el token real. Calculas un número que captura qué tan equivocada fue la predicción (esto es la pérdida). Calculas cuánto contribuyó cada parámetro a esa equivocación (esto es el gradiente). Empujas cada parámetro una cantidad diminuta en la dirección que habría producido una predicción ligeramente mejor.

Repite ese bucle miles de millones de veces, sobre billones de tokens, en decenas de miles de chips aceleradores operando en paralelo, durante varios meses — y tienes un modelo de frontera. Conceptualmente, no hay truco. La dificultad está en la ingeniería.

Idea clave: El entrenamiento es una sola pequeña actualización, repetida una cantidad insondable de veces. Cada cosa impresionante que un modelo puede hacer es el resultado acumulado de esas actualizaciones. No hay un paso mágico.

La tubería de datos es la mitad del modelo

Uno de los hechos más subestimados sobre los LLM modernos es cuánto trabajo va a los datos. El Capítulo 5 dedica tiempo real a esto porque es donde muchos modelos en producción viven o mueren.

El texto de preentrenamiento se recopila de la web, libros, repositorios de código y otras fuentes, totalizando cientos de miles de millones a unos pocos billones de tokens para un modelo moderno. La recopilación cruda luego se limpia agresivamente: se eliminan los duplicados, se filtra el material de baja calidad, se examina el material dañino o protegido por derechos de autor, y el resultado se reequilibra para que ninguna fuente individual domine. Cada uno de estos pasos requiere su propia ingeniería y trabajo de política.

La mezcla y la calidad de los datos dan forma al modelo resultante mucho más de lo que la gente se da cuenta. Un modelo entrenado con un corpus curado y bien balanceado puede superar a un modelo con el doble de parámetros entrenado con datos crudos. Esta es una razón por la que los modelos de pesos abiertos de laboratorios bien financiados siguen mejorando incluso mientras el conteo de parámetros se estanca — el trabajo de datos está mejorando.

Funciones de pérdida, en lenguaje sencillo

La función de pérdida es la tarjeta de puntuación matemática que le dice al proceso de entrenamiento qué tan bien lo está haciendo el modelo. Para los modelos de lenguaje, la elección estándar es la pérdida de entropía cruzada — una medida que castiga las predicciones equivocadas con confianza mucho más que las predicciones equivocadas con incertidumbre.

No necesitas seguir las matemáticas para usar la intuición. Un modelo que está mayormente acertado con baja confianza tiene una pérdida moderada. Un modelo que está mayormente acertado con alta confianza tiene una pérdida baja. Un modelo que está equivocado con confianza tiene una pérdida muy alta. El proceso de entrenamiento está diseñado para bajar la pérdida, lo que en efecto le enseña al modelo a estar seguro solo cuando debería estarlo.

El Capítulo 5 explica por qué la entropía cruzada es la elección correcta, qué alternativas existen y cómo se ve realmente la curva de pérdida durante una corrida de entrenamiento (spoiler: baja bruscamente al principio, luego lentamente por mucho tiempo, con baches periódicos a medida que cambia la tasa de aprendizaje).

Por qué el entrenamiento toma meses y cuesta millones

Las operaciones numéricas que componen un paso de entrenamiento — multiplicaciones de matrices, sumas, normalizaciones — son individualmente rápidas en una sola GPU. La trampa es que una GPU no es suficiente para contener un modelo de frontera en memoria, mucho menos entrenarlo en un tiempo razonable. Así que el entrenamiento se distribuye en miles de aceleradores conectados con interconexiones de alta velocidad.

Típicamente se combinan tres sabores de paralelismo. Paralelismo de datos coloca una copia completa del modelo en cada dispositivo y alimenta diferentes lotes de datos a cada uno, promediando los gradientes entre los dispositivos. Paralelismo de modelo divide el modelo mismo entre dispositivos, de modo que cada uno contiene solo algunas de las capas. Paralelismo de tubería escalona el trabajo entre dispositivos para que no permanezcan inactivos esperando unos a otros.

Cada uno de estos es su propia disciplina de ingeniería, con sus propios modos de fallo. Los dispositivos fallan a mitad del entrenamiento y deben ser reemplazados en caliente. La congestión de red aparece como detenciones de entrenamiento. Las inestabilidades numéricas hacen que las corridas divergan. El entrenamiento a escala de frontera tiene más que ver con confiabilidad industrial que con ingenio algorítmico.

Importante: El costo de una corrida de entrenamiento de frontera hoy está dominado por electricidad, depreciación del hardware y personas, en aproximadamente ese orden. El trabajo matemático real es la parte barata de la cuenta.

Sobreajuste y el equilibrio que hay que mantener

El capítulo cierra discutiendo dos modos de fallo que cada corrida de entrenamiento debe navegar. El sobreajuste significa que el modelo memoriza sus datos de entrenamiento en lugar de aprender los patrones subyacentes; produce un modelo que se desempeña bien en los datos de entrenamiento pero mal en cualquier cosa nueva. El subajuste significa que el modelo no se ha entrenado lo suficiente como para capturar la estructura en los datos; produce un modelo que es malo para todo.

El espacio entre los dos es estrecho, y se usan varias herramientas estándar — colectivamente llamadas regularización — para mantener el entrenamiento dentro de él. Dropout, decaimiento de pesos, planes cuidadosos de tasa de aprendizaje, parada temprana. Ninguna de estas es exótica. Todas ellas son esenciales.

Lo que prepara el Capítulo 5

Al final del Capítulo 5, tienes una imagen clara de qué es un modelo de frontera, materialmente. Puedes leer un comunicado de prensa sobre una nueva corrida de entrenamiento y ubicar sus afirmaciones con precisión. Entiendes por qué la ingeniería de estos sistemas es ahora una preocupación a escala de seguridad nacional en algunos países, y por qué la conversación pública sobre la IA es cada vez más una conversación sobre datos, energía e infraestructura.

Próximamente — Capítulo 6: Ajuste fino y adaptación. Mañana miramos cómo un modelo preentrenado se vuelve útil. Ajuste fino, ajuste por instrucciones, métodos eficientes en parámetros como LoRA, y las técnicas de alineación (RLHF y sus descendientes) que convierten predictores crudos del siguiente token en asistentes útiles.

¿Quieres el panorama completo? El libro desglosa la tubería completa de entrenamiento, incluyendo los pasos de curación de datos que la mayoría de las introducciones omiten, con diagramas de las estrategias de paralelismo usadas en corridas reales de frontera. Consigue LLM Primer I en Amazon →

Capítulo 5 — Entrenando modelos grandes: qué se necesita realmente para un modelo de frontera