Capítulo 10 — Matemática do Pós-Treinamento e Alinhamento
Décimo post do passeio capítulo a capítulo pelo LLM Primer II: Language Models Through Mathematics. Onde um previsor de próximo token, brilhante e feral, é civilizado em assistente útil — e um pipeline inteiro de aprendizado por reforço colapsa, por uma derivação elegante, em algo que se treina como um classificador qualquer.
Por que este capítulo existe
Os capítulos 8 e 9 produziram um modelo pré-treinado. Ele leu boa parte da internet e continua qualquer texto com fluência desconcertante. Também não tem inclinação particular a ser útil. Faça uma pergunta a ele e talvez ele gere mais perguntas — brilhante e feral ao mesmo tempo.
O capítulo 10 é a ponte entre essa criatura e o assistente com o qual você de fato conversa. É também um dos capítulos matematicamente mais bonitos do livro — a engenharia do alinhamento se assenta sobre três ideias limpas em sequência, e a terceira é elegante a um ponto que beira o injusto.
10.1 Fine-tuning supervisionado
O primeiro passo, e o mais suave. Matematicamente nada de novo — junte pares de (prompt, resposta ideal) escritos por humanos, treine com a mesma perda de entropia cruzada do capítulo 1. Imitando milhares de exemplos de um assistente útil, o modelo aprende a se comportar como esse assistente em vez de se comportar como a média da internet. O teto: imitação não passa do demonstrador, e escrever a resposta perfeita é bem mais difícil do que reconhecê-la quando ela aparece.
10.2 Modelo de recompensa e a matemática da preferência
Se escrever a resposta perfeita é difícil mas comparar duas respostas é fácil, então colete comparações. A ponte entre comparações humanas ruidosas e uma função de pontuação suave: o modelo de Bradley–Terry (estatística, anos 1950). Ele atribui a cada item uma força oculta, e a probabilidade de um ganhar do outro depende da diferença dessas forças, através de uma função logística. O modelo de recompensa é treinado para que essa probabilidade case com o rótulo humano. Leia de novo e reconheça: isso é regressão logística sobre diferenças de recompensa.
10.3 RLHF na coleira
O RL ingênuo — maximize a recompensa esperada — é uma armadilha. O modelo de recompensa é um proxy, com pontos cegos. Uma política otimizada o bastante explora esses pontos cegos e produz texto degenerado que pontua absurdamente alto e é puro nonsense para qualquer humano. Reward hacking — o gaming de especificação na sua forma mais concreta. O remédio: somar uma penalidade de divergência KL que puxe a política de volta para a referência pré-treinada. A arte está no equilíbrio: coleira frouxa demais, o modelo hackeia a recompensa; apertada demais, ele nunca melhora.
10.4 DPO: quando o aprendizado por reforço derrete
Um dos resultados mais bonitos do ML recente. O objetivo do RLHF parece exigir o aparato inteiro — modelo de recompensa, loop de RL, amostragem. O Direct Preference Optimization (DPO) mostrou que não. A maximização de recompensa com restrição de KL tem solução ótima em forma fechada: política de referência reponderada pela exponencial da recompensa. Rode isso de trás para a frente: resolva para a recompensa em função da política ótima, substitua na perda de preferência de Bradley–Terry, e veja o modelo de recompensa simplesmente sumir. O que sobra é uma perda escrita só em termos das log-probabilidades da própria política comparadas à referência. Sem modelo de recompensa separado. Sem loop de RL. Apenas aprendizado supervisionado em pares de preferência.
10.5 Best-of-n, imposto do alinhamento, cautelas honestas
Alternativa mais simples: amostragem por rejeição / best-of-n. Gere n candidatos, pontue todos, fique com o melhor. Sem treinar política nenhuma, só inferência extra. Linha de base ridiculamente simples e ridiculamente forte.
Duas cautelas. Primeiro, o imposto do alinhamento: um modelo afinado com muita pressão para ser útil e seguro às vezes perde capacidade bruta. Segundo, mais fundo — todo método aqui otimiza pela aprovação humana, que não é a mesma coisa que verdade ou bondade. Um modelo pode aprender a ser querido sem aprender a estar certo.
O capítulo também cobre RLAIF (usar o juízo de um modelo para alinhar outro) e Constitutional AI (valores escritos em linguagem natural). Os dois apontam para o problema mais profundo de supervisão escalável.
O que o capítulo 10 prepara
Você sai com três movimentos e dois pedaços bonitos de estatística. Daqui o livro vira para a pergunta correlata, e igualmente matemática: agora que construímos e alinhamos um modelo, como saber se ele presta?
Próximo — Capítulo 11: Avaliação, Calibração e Inferência. Perplexidade, calibração, a barra de erro que toda nota de benchmark deveria carregar, e a matemática de medir alucinação.