Capítulo 4 — Como o modelo aprende

Quarto post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. O quadro completo de como o modelo que você usa todo dia chegou a ser o que é.

Três estágios — entender os três é entender o modelo

Olhar um LLM moderno e tentar imaginar todo o caminho que ele percorreu até virar o assistente da sua tela não é fácil. Pré-treinamento, fine-tuning, aprendizado por reforço com feedback humano (RLHF). O capítulo 4 do livro é dedicado a esses três estágios — o que cada um faz, o que produz, e por que só os três juntos chegam ao assistente que confiamos no dia a dia.

Quando você sabe qual estágio molda qual parte do modelo, perguntas como "por que este modelo é forte em X e fraco em Y?" começam a ter resposta com palavras suas.

Pré-treinamento — o estágio que define o teto

O pré-treinamento é o ponto de partida do LLM. E, em termos de custo, é o monstro: a maior parte do tempo e do compute do projeto inteiro. Treinar um modelo do zero é, em escala, parecido com construir um avião.

Nesse estágio, o modelo recebe oceanos de texto — livros, páginas da web, código, wikis, papers — e tem uma tarefa só, aquela que já conhecemos bem: prever o próximo token. Repetindo esse objetivo simples sobre trilhões de tokens, o modelo vai, quase como efeito colateral, absorvendo gramática, fatos, dicas de raciocínio, e camada após camada de padrões da expressão humana.

Uma coisa o livro grifa nesse ponto: este estágio é o que define o "teto da capacidade". As etapas seguintes podem esculpir a personalidade, mas é praticamente impossível adicionar, depois, habilidades que não estavam ali no pré-treinamento.

Em uma frase: o pré-treinamento define a capacidade. O fine-tuning define a personalidade. As duas coisas são confundidas com frequência, mas fazem trabalhos diferentes.

Fine-tuning — refinar capacidade em algo utilizável

Logo depois do pré-treinamento, o modelo é poderoso, mas tem ergonomia ruim. Ele gera qualquer coisa, mas raramente o que você quer no formato que você quer. A imagem que costumo usar: conversar com alguém genial, mas socialmente desajeitado. Capacidade existe; embalagem, nem tanto.

É aí que entra o fine-tuning. Em um conjunto de dados bem menor e bem mais cuidado — geralmente diálogos exemplares produzidos por humanos — o modelo recebe treinamento adicional. Os pesos se movem pouquinho, mas em direção que acumula: o modelo passa a responder com gentileza em vez de seco, a fazer respostas organizadas em vez de dispersas, a desenvolver minimamente antes de chegar à conclusão.

O mesmo modelo pré-treinado, dependendo do fine-tuning que recebeu, sai muito diferente: um assistente de código, um conselheiro com tom médico, um chatbot casual. As famílias de modelo se diferenciam aqui.

RLHF — onde o assistente que você gosta é forjado

Dos três, RLHF é o mais sutil e, ao mesmo tempo, o que mais define o caráter final. A ideia, em uma linha: deixar o modelo gerar duas respostas diferentes para a mesma pergunta → pedir a avaliadores humanos para apontar qual é melhor → usar esse sinal para mover o modelo um pouco naquela direção. Repetir isso dezenas, centenas de milhares de vezes.

O que sai daí é uma sutileza enorme. O que conta como ajudar de verdade, o que conta como uma resposta segura, quando admitir "não sei", até onde ir de educado sem virar bajulador — essas finezas são marcadas, exemplo a exemplo, por avaliadores. Em cima dessas marcações, devagar, é forjada a personalidade que chamamos de "assistente".

Vale lembrar: RLHF não ensina conhecimento novo. Ele puxa para a superfície aquilo que o pré-treinamento já tinha colocado lá dentro, selecionando as formas de expressão que combinam com a forma humana.

Por que modelos da mesma família soam diferentes

Com esses três estágios na cabeça, perguntas que ficam circulando entram em foco. Por que os modelos da OpenAI e os da Anthropic respondem com tons diferentes para a mesma pergunta? Por que dois modelos do mesmo tamanho são parecidos em código mas escrevem prosa de jeitos distintos? Por que um admite "não sei" sem hesitar enquanto outro insiste em produzir alguma resposta?

Boa parte das diferenças vem — em cima da base de dados de pré-treinamento — do que cada laboratório decidiu fazer em fine-tuning e RLHF. Esses dois estágios são o "estilo" da família, e por isso se acostumar a uma família é, no fundo, se acostumar à filosofia de treinamento dela.

O modelo mental que o Capítulo 4 entrega

Fechando o capítulo 4, fica claro que "modelo base" e "modelo assistente" não são a mesma coisa, e que cada estágio de treinamento molda comportamentos diferentes. Com isso, fica muito mais fácil saber o que esperar — e o que não esperar — de cada LLM que aparecer pela frente.

Amanhã — Capítulo 5: Ainda há pequenos defeitos. Mudamos o tom para tratar honestamente das fraquezas que sobram mesmo em LLMs bem treinados — alucinação, consciência temporal, cálculo, consistência. E mostramos por que essas não são bugs, mas características do mesmo mecanismo.

Quer o quadro inteiro? O livro costura pré-treinamento, fine-tuning e RLHF em um quadro só, mostrando como eles se combinam para produzir o assistente que aparece na sua tela. Ver 『LLM Primer I』 na Amazon →