Capítulo 10 — Matemática do Pós-Treinamento e Alinhamento

Décimo post do passeio capítulo a capítulo pelo LLM Primer II: Language Models Through Mathematics. Onde um previsor de próximo token, brilhante e feral, é civilizado em assistente útil — e um pipeline inteiro de aprendizado por reforço colapsa, por uma derivação elegante, em algo que se treina como um classificador qualquer.

Por que este capítulo existe

Os capítulos 8 e 9 produziram um modelo pré-treinado. Ele leu boa parte da internet e continua qualquer texto com fluência desconcertante. Também não tem inclinação particular a ser útil. Faça uma pergunta a ele e talvez ele gere mais perguntas — brilhante e feral ao mesmo tempo.

O capítulo 10 é a ponte entre essa criatura e o assistente com o qual você de fato conversa. É também um dos capítulos matematicamente mais bonitos do livro — a engenharia do alinhamento se assenta sobre três ideias limpas em sequência, e a terceira é elegante a um ponto que beira o injusto.

Em uma frase: o pós-treinamento em três movimentos — o fine-tuning supervisionado ensina o modelo a imitar boas respostas, o modelo de recompensa aprende as preferências humanas, e a otimização por preferência ajusta o modelo a satisfazê-las, com uma coleira de KL que o mantém perto da versão original.

10.1 Fine-tuning supervisionado

O primeiro passo, e o mais suave. Matematicamente nada de novo — junte pares de (prompt, resposta ideal) escritos por humanos, treine com a mesma perda de entropia cruzada do capítulo 1. Imitando milhares de exemplos de um assistente útil, o modelo aprende a se comportar como esse assistente em vez de se comportar como a média da internet. O teto: imitação não passa do demonstrador, e escrever a resposta perfeita é bem mais difícil do que reconhecê-la quando ela aparece.

10.2 Modelo de recompensa e a matemática da preferência

Se escrever a resposta perfeita é difícil mas comparar duas respostas é fácil, então colete comparações. A ponte entre comparações humanas ruidosas e uma função de pontuação suave: o modelo de Bradley–Terry (estatística, anos 1950). Ele atribui a cada item uma força oculta, e a probabilidade de um ganhar do outro depende da diferença dessas forças, através de uma função logística. O modelo de recompensa é treinado para que essa probabilidade case com o rótulo humano. Leia de novo e reconheça: isso é regressão logística sobre diferenças de recompensa.

10.3 RLHF na coleira

O RL ingênuo — maximize a recompensa esperada — é uma armadilha. O modelo de recompensa é um proxy, com pontos cegos. Uma política otimizada o bastante explora esses pontos cegos e produz texto degenerado que pontua absurdamente alto e é puro nonsense para qualquer humano. Reward hacking — o gaming de especificação na sua forma mais concreta. O remédio: somar uma penalidade de divergência KL que puxe a política de volta para a referência pré-treinada. A arte está no equilíbrio: coleira frouxa demais, o modelo hackeia a recompensa; apertada demais, ele nunca melhora.

10.4 DPO: quando o aprendizado por reforço derrete

Um dos resultados mais bonitos do ML recente. O objetivo do RLHF parece exigir o aparato inteiro — modelo de recompensa, loop de RL, amostragem. O Direct Preference Optimization (DPO) mostrou que não. A maximização de recompensa com restrição de KL tem solução ótima em forma fechada: política de referência reponderada pela exponencial da recompensa. Rode isso de trás para a frente: resolva para a recompensa em função da política ótima, substitua na perda de preferência de Bradley–Terry, e veja o modelo de recompensa simplesmente sumir. O que sobra é uma perda escrita só em termos das log-probabilidades da própria política comparadas à referência. Sem modelo de recompensa separado. Sem loop de RL. Apenas aprendizado supervisionado em pares de preferência.

Vale guardar: o DPO é daquele tipo de resultado que faz o campo, por um instante, parecer pequeno e elegante. Um zoológico móvel de componentes se dobra limpamente em uma única perda supervisionada. A mesma matemática, com menos maquinário.

10.5 Best-of-n, imposto do alinhamento, cautelas honestas

Alternativa mais simples: amostragem por rejeição / best-of-n. Gere n candidatos, pontue todos, fique com o melhor. Sem treinar política nenhuma, só inferência extra. Linha de base ridiculamente simples e ridiculamente forte.

Duas cautelas. Primeiro, o imposto do alinhamento: um modelo afinado com muita pressão para ser útil e seguro às vezes perde capacidade bruta. Segundo, mais fundo — todo método aqui otimiza pela aprovação humana, que não é a mesma coisa que verdade ou bondade. Um modelo pode aprender a ser querido sem aprender a estar certo.

O capítulo também cobre RLAIF (usar o juízo de um modelo para alinhar outro) e Constitutional AI (valores escritos em linguagem natural). Os dois apontam para o problema mais profundo de supervisão escalável.

O que o capítulo 10 prepara

Você sai com três movimentos e dois pedaços bonitos de estatística. Daqui o livro vira para a pergunta correlata, e igualmente matemática: agora que construímos e alinhamos um modelo, como saber se ele presta?

Próximo — Capítulo 11: Avaliação, Calibração e Inferência. Perplexidade, calibração, a barra de erro que toda nota de benchmark deveria carregar, e a matemática de medir alucinação.

Quer o quadro inteiro? O livro traz a derivação completa de Bradley–Terry, a solução em forma fechada do DPO com a prova de substituição, e a coreografia dos três modelos do RLHF desenhada em diagrama. Ver LLM Primer II na Amazon →