Capítulo 10 — Matemáticas del post-entrenamiento y la alineación

Décima entrega del recorrido capítulo por capítulo de LLM Primer II: Language Models Through Mathematics. El capítulo en el que un predictor de siguiente token genial pero salvaje se civiliza hasta convertirse en un asistente útil — y una tubería completa de aprendizaje por refuerzo se colapsa, a través de una derivación elegante, en algo que se entrena como un clasificador ordinario.

Por qué existe este capítulo

Los Capítulos 8 y 9 produjeron un modelo preentrenado. Ha leído gran parte de internet y puede continuar cualquier texto con una fluidez inquietante. También carece por completo de inclinación alguna a ser útil. Le haces una pregunta y puede que te responda con más preguntas: es brillante y salvaje a la vez.

El Capítulo 10 es el puente entre esa criatura y el asistente con el que realmente interactúas. Es además uno de los capítulos matemáticamente más bellos del libro: la ingeniería de la alineación descansa sobre tres ideas limpias encadenadas, y la tercera es de una elegancia que casi parece injusta.

En una línea: el post-entrenamiento en tres movimientos — el ajuste fino supervisado le enseña al modelo a imitar buenas respuestas, un modelo de recompensa aprende las preferencias humanas y la optimización de preferencias afina al modelo para satisfacerlas, con una correa KL que lo mantiene cerca del original.

10.1 Ajuste fino supervisado

El primer paso, y el más suave. Matemáticamente no hay nada nuevo: se reúnen pares (prompt, respuesta ideal) escritos por humanos y se entrena con la misma pérdida de entropía cruzada del Capítulo 1. Al imitar miles de ejemplos de un asistente útil, el modelo aprende a comportarse como ese asistente en lugar de como la página promedio de internet. El techo está claro: la imitación no puede superar a quienes demuestran, y escribir la respuesta perfecta es muchísimo más difícil que reconocerla.

10.2 Modelos de recompensa y las matemáticas de la preferencia

Si escribir la respuesta perfecta es difícil pero comparar dos respuestas es fácil, entonces recoge comparaciones. El puente entre las comparaciones humanas ruidosas y una función de puntuación suave: el modelo de Bradley–Terry (estadística, años 50). Asigna a cada elemento una fuerza oculta, y la probabilidad de que uno gane a otro queda gobernada por la diferencia entre sus fuerzas a través de una función logística. El modelo de recompensa se entrena para que esta probabilidad coincida con las etiquetas humanas. Léelo de nuevo y reconócelo: esto es regresión logística sobre diferencias de recompensas.

10.3 RLHF con correa

El RL ingenuo —maximizar la recompensa esperada— es una trampa. El modelo de recompensa es un proxy, con puntos ciegos. Una política optimizada con suficiente fuerza explota esos puntos ciegos y produce texto degenerado que puntúa absurdamente alto mientras suena a galimatías para cualquier humano. Reward hacking — la versión más concreta del juego con la especificación. La solución: añadir una penalización de divergencia KL que tira de la política hacia la referencia preentrenada. El arte está en el equilibrio: si la correa es demasiado floja, el modelo hackea la recompensa; si es demasiado corta, nunca mejora.

10.4 DPO: cuando el aprendizaje por refuerzo se disuelve

Uno de los resultados más bonitos del aprendizaje automático reciente. El objetivo de RLHF parece exigir todo el aparato: modelo de recompensa, bucle de RL, muestreo. Direct Preference Optimization (DPO) mostró que no. La maximización de recompensa con restricción KL tiene una solución óptima en forma cerrada: la política de referencia reponderada por la recompensa exponenciada. Recorre ese paso a la inversa: despeja la recompensa en función de la política óptima, sustitúyela en la pérdida de preferencia de Bradley–Terry y observa cómo el modelo de recompensa desaparece. Lo que queda es una pérdida expresada enteramente en términos de las log-probabilidades de la propia política contra la referencia. Sin modelo de recompensa separado. Sin bucle de RL. Solo aprendizaje supervisado sobre pares de preferencia.

Vale la pena recordar: DPO es el tipo de resultado que, por un momento, hace que el campo se sienta pequeño y elegante. Todo un zoológico móvil de componentes se pliega limpiamente en una sola pérdida supervisada. Las mismas matemáticas, con menos maquinaria.

10.5 Best-of-n, impuesto de alineación, advertencias honestas

Alternativa más simple: muestreo por rechazo / best-of-n. Genera n candidatos, puntúalos todos, quédate con el mejor. Sin entrenar política, solo inferencia adicional. Una línea base sólida y desarmadamente simple.

Dos advertencias. Primero, el impuesto de alineación: un modelo afinado con dureza para la utilidad y la seguridad a veces pierde capacidad cruda. Segundo, más fundamental: cada método aquí optimiza la aprobación humana, que no es lo mismo que la verdad o la bondad. Un modelo puede aprender a gustar sin aprender a tener razón.

El capítulo cubre también RLAIF (usar el juicio de un modelo para alinear a otro) y Constitutional AI (los valores escritos en lenguaje llano). Ambos apuntan al problema más profundo de la supervisión escalable.

Lo que prepara el Capítulo 10

Sales con tres movimientos y dos piezas hermosas de estadística. Desde aquí, el libro se vuelve hacia la pregunta vecina y no menos matemática: ahora que hemos construido y alineado un modelo, ¿cómo sabemos si sirve para algo?

Próximamente — Capítulo 11: Evaluación, calibración e inferencia. Perplejidad, calibración, las barras de error que toda puntuación de benchmark debería arrastrar consigo y las matemáticas para medir la alucinación.

¿Quieres el panorama completo? El libro incluye la derivación íntegra de Bradley–Terry, la solución en forma cerrada de DPO con su prueba por sustitución y la coreografía de los tres modelos del RLHF dibujada de forma diagramática. Consulta LLM Primer II en Amazon →