Capítulo 3 — Como o texto flui dentro do modelo

Terceiro post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Um dos capítulos preferidos do livro inteiro — entramos para ver o que acontece com o token depois que ele cruza a porta de entrada.

O que significa "palavra virar vetor"

Aqui é onde a coisa fica realmente interessante. No instante em que o token entra no modelo, ele para de ser letra. Cada token vira uma sequência de números — um embedding — com algumas centenas de dimensões.

Por que tanto trabalho? Porque essa sequência de números carrega, de algum jeito, o "significado" do token — ao menos no sentido que o modelo consegue manipular. Nesse espaço, "rei" fica perto de "rainha"; "Paris" fica perto de "França". O embedding de um token guarda muito mais informação do que apenas a string curta — guarda com que outras palavras costuma andar junto, em que contextos aparece, e com quais outras palavras se comporta de forma parecida.

O capítulo 3 dedica espaço a como esses embeddings são gerados e, mais importante — esta parte sempre surpreende — a perceber que eles não são um dicionário fixo. Eles são uma representação aprendida.

Em uma frase: o embedding é o RG do token. O mesmo "banco" pode significar coisas diferentes em contextos diferentes, e é o embedding (depois ajustado pela atenção) que dá conta dessa nuance.

Atenção — a virada que mudou tudo

Depois do embedding vem a peça que reorganizou o campo inteiro. A atenção — mais especificamente, a self-attention — é a ideia de que, ao tratar um token, o modelo pode olhar para todos os outros da sequência e decidir, para cada um, quanto ele importa para entender este aqui.

Antes da atenção, modelos liam o texto palavra por palavra, em ordem. Com atenção, qualquer token pode conectar-se a qualquer outro, em uma única passada.

Por que isso pesa tanto? Pense numa frase como "Ele entrou no jardim, e ele já estava vazio". Para saber se "ele" se refere à pessoa ou ao jardim, o modelo precisa traçar uma linha do "ele" final de volta até o sujeito certo. A atenção é o mecanismo que permite traçar essa linha.

O livro mostra a atenção sem afogar você em matrizes. Quando essa imagem mental entra, quase tudo o que vem depois sobre comportamento de LLM pode ser explicado por ela.

Transformer — empilhe o mesmo bloco, sessenta vezes

Se atenção é tão poderosa, e se você simplesmente empilhar várias camadas dela? O transformer é exatamente essa resposta. Atenção mais uma transformação posicional simples (a camada feed-forward) formam um bloco, e esse bloco é empilhado — doze, sessenta, mais de cem vezes em modelos maiores.

Cada camada refina a representação dos tokens, deixando-os mais abstratos, mais integrados ao contexto inteiro. Uma metáfora que volta no livro — entender o texto começa pela superfície (letras), passa pela gramática, depois pelo significado, e termina em "qual é o token mais provável a seguir?" — funciona bem para imaginar o que cada camada está fazendo.

Vestida essa metáfora, fica menos misterioso entender por que um único padrão de bloco, repetido sessenta vezes, gera o comportamento rico que vemos.

Importante: dentro do transformer não há um "módulo de raciocínio" separado de um "módulo de conhecimento". É o mesmo tipo de bloco, treinado do mesmo jeito, empilhado. As habilidades aparentes emergem disso — e dessa simplicidade vem boa parte do encanto.

O parágrafo que me deu mais alegria de escrever

Em algum momento do capítulo, há uma página em que tive prazer especial de trabalhar: a que descreve, em desenho e em texto, como a informação flui dentro do transformer.

Saímos do embedding de entrada, passamos por uma camada de atenção, e a representação fica mais rica. Outra camada, mais rica ainda. Ao fim, a representação de cada token carrega não só o que ele "é" mas o que o contexto inteiro está fazendo com ele. Tem leitores que me contam que essa página, depois de vista, mudou a forma como eles pensam em LLM em geral.

Se eu pudesse resumir o capítulo em uma frase: o transformer é uma máquina onde tokens olham para os vizinhos, absorvem informação deles, e passam adiante uma versão um pouco mais inteligente de si mesmos — e isso se repete, camada após camada, até virar a resposta.

Se você chegou aqui, está indo bem

Encerrar o capítulo 3 significa ter passado pela montanha mais técnica do livro. Embedding, atenção, transformer empilhado. Você passou a fronteira para dentro do modelo e viu como o fluxo funciona. Com isso na mão, todos os capítulos seguintes — treinamento, fine-tuning, RAG, agentes, modelos de raciocínio — se assentam sobre uma base sólida.

Amanhã — Capítulo 4: Como o modelo aprende. Vamos dar um passo para trás, do funcionamento ao treinamento. Pré-treinamento versus fine-tuning, e como o RLHF transforma o modelo bruto no assistente que conhecemos no dia a dia.

Quer o quadro inteiro? O livro acompanha o fluxo do transformer com diagramas, mostrando o que muda em cada camada — sem cair em matrizes, mas com a precisão certa onde ela importa. Ver 『LLM Primer I』 na Amazon →