Capítulo 3 — Como o texto flui dentro do modelo
Terceiro post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Um dos capítulos preferidos do livro inteiro — entramos para ver o que acontece com o token depois que ele cruza a porta de entrada.
O que significa "palavra virar vetor"
Aqui é onde a coisa fica realmente interessante. No instante em que o token entra no modelo, ele para de ser letra. Cada token vira uma sequência de números — um embedding — com algumas centenas de dimensões.
Por que tanto trabalho? Porque essa sequência de números carrega, de algum jeito, o "significado" do token — ao menos no sentido que o modelo consegue manipular. Nesse espaço, "rei" fica perto de "rainha"; "Paris" fica perto de "França". O embedding de um token guarda muito mais informação do que apenas a string curta — guarda com que outras palavras costuma andar junto, em que contextos aparece, e com quais outras palavras se comporta de forma parecida.
O capítulo 3 dedica espaço a como esses embeddings são gerados e, mais importante — esta parte sempre surpreende — a perceber que eles não são um dicionário fixo. Eles são uma representação aprendida.
Atenção — a virada que mudou tudo
Depois do embedding vem a peça que reorganizou o campo inteiro. A atenção — mais especificamente, a self-attention — é a ideia de que, ao tratar um token, o modelo pode olhar para todos os outros da sequência e decidir, para cada um, quanto ele importa para entender este aqui.
Antes da atenção, modelos liam o texto palavra por palavra, em ordem. Com atenção, qualquer token pode conectar-se a qualquer outro, em uma única passada.
Por que isso pesa tanto? Pense numa frase como "Ele entrou no jardim, e ele já estava vazio". Para saber se "ele" se refere à pessoa ou ao jardim, o modelo precisa traçar uma linha do "ele" final de volta até o sujeito certo. A atenção é o mecanismo que permite traçar essa linha.
O livro mostra a atenção sem afogar você em matrizes. Quando essa imagem mental entra, quase tudo o que vem depois sobre comportamento de LLM pode ser explicado por ela.
Transformer — empilhe o mesmo bloco, sessenta vezes
Se atenção é tão poderosa, e se você simplesmente empilhar várias camadas dela? O transformer é exatamente essa resposta. Atenção mais uma transformação posicional simples (a camada feed-forward) formam um bloco, e esse bloco é empilhado — doze, sessenta, mais de cem vezes em modelos maiores.
Cada camada refina a representação dos tokens, deixando-os mais abstratos, mais integrados ao contexto inteiro. Uma metáfora que volta no livro — entender o texto começa pela superfície (letras), passa pela gramática, depois pelo significado, e termina em "qual é o token mais provável a seguir?" — funciona bem para imaginar o que cada camada está fazendo.
Vestida essa metáfora, fica menos misterioso entender por que um único padrão de bloco, repetido sessenta vezes, gera o comportamento rico que vemos.
O parágrafo que me deu mais alegria de escrever
Em algum momento do capítulo, há uma página em que tive prazer especial de trabalhar: a que descreve, em desenho e em texto, como a informação flui dentro do transformer.
Saímos do embedding de entrada, passamos por uma camada de atenção, e a representação fica mais rica. Outra camada, mais rica ainda. Ao fim, a representação de cada token carrega não só o que ele "é" mas o que o contexto inteiro está fazendo com ele. Tem leitores que me contam que essa página, depois de vista, mudou a forma como eles pensam em LLM em geral.
Se eu pudesse resumir o capítulo em uma frase: o transformer é uma máquina onde tokens olham para os vizinhos, absorvem informação deles, e passam adiante uma versão um pouco mais inteligente de si mesmos — e isso se repete, camada após camada, até virar a resposta.
Se você chegou aqui, está indo bem
Encerrar o capítulo 3 significa ter passado pela montanha mais técnica do livro. Embedding, atenção, transformer empilhado. Você passou a fronteira para dentro do modelo e viu como o fluxo funciona. Com isso na mão, todos os capítulos seguintes — treinamento, fine-tuning, RAG, agentes, modelos de raciocínio — se assentam sobre uma base sólida.
Amanhã — Capítulo 4: Como o modelo aprende. Vamos dar um passo para trás, do funcionamento ao treinamento. Pré-treinamento versus fine-tuning, e como o RLHF transforma o modelo bruto no assistente que conhecemos no dia a dia.