Capítulo 2 — Probabilidade, tokens e texto
Segundo post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. As duas palavras que mais importam do livro inteiro — token e probabilidade — desempacotadas com cuidado.
O modelo não vê palavras
O capítulo 2 começa por um detalhe meio contraintuitivo. Quando você manda uma frase para um LLM, do ponto de vista dele aquilo não é frase. É uma sequência de "tokens" — pedaços de palavra.
Tokens podem ser menores que palavras, ou maiores. Palavras frequentes — "the", "and", "modelo" — geralmente são um token só. Já uma palavra rara como "destokenização" costuma virar três ou quatro pedaços: "des / token / iz / ação". O vocabulário com que o LLM trabalha, no fim, é bem diferente da lista que vemos num dicionário.
Essa diferença é mais importante do que parece. Se você guarda na cabeça a ideia de que o modelo foi treinado "palavra por palavra", sua intuição sobre o que ele faz bem e o que ele faz mal escorrega junto. Ver como funciona a tokenização ajuda muito — explica por que LLMs tropeçam na grafia exata de nomes de autores, por que reagem de forma estranha a gírias novas, por que algumas línguas consomem mais tokens que outras.
Então o que, exatamente, o modelo está produzindo?
Aqui vem o segundo movimento grande do capítulo. Quando um LLM gera um token, ele não está apenas escolhendo aquele token. Ele está produzindo uma distribuição de probabilidades inteira — uma tabela com pontuação para cada um dos dezenas de milhares de tokens possíveis no vocabulário. "the" com 0.31, "a" com 0.12, "modelo" com 0.04, "banana" com 0.00001…
Vale parar nessa imagem, porque ela explica muita coisa sobre como LLMs se comportam. É por causa dela que o mesmo prompt pode dar saídas diferentes; é por causa dela que o mesmo modelo pode escrever de maneira chata ou criativa; é porque a resposta sai da distribuição, e não de um único "vencedor" pré-determinado.
O que vem em seguida é exatamente a pergunta: dada essa distribuição inteira, como escolher um token? Esse é o terreno da amostragem.
Temperature e top-p — os dois botões que importam
Há mais de uma maneira de tirar um token de uma distribuição. As duas que o livro trata com mais carinho — temperature e top-p — você provavelmente já viu, mas talvez não tenha visto explicadas direito.
Temperature mexe na própria forma da distribuição. Quando você abaixa, os candidatos do topo ficam ainda mais altos, e o modelo passa a escolher quase sempre o token mais seguro e previsível. A saída fica organizada — e tende a ficar achatada, monótona. Quando você sobe, a distribuição se alisa e candidatos antes desprezados começam a ganhar espaço. A saída fica fresca — e, se você subir demais, começa a parecer dispersa, descosida. Em uma linha: temperature é o dial entre novidade e coerência.
Top-p (nucleus sampling) ataca o mesmo problema por outro ângulo. Em vez de achatar a distribuição inteira, ele guarda apenas os candidatos cuja soma de probabilidades atinja p — por exemplo, 0.9 — e amostra dentro desse subconjunto. O efeito prático é cortar a cauda de candidatos improváveis, mas deixar diversidade entre os que fazem sentido.
Combinar essas duas perinhas — e há tantos modos de combinar — é o que permite que o mesmo LLM seja, conforme a configuração, consistente como um templo ou improvisado como um músico de jazz. Não é uma escolha entre "criativo" e "balanceado". O livro dedica bom espaço para mostrar de onde vem o efeito real desses controles.
Pensando token por token
Em todo o livro, o padrão mental mais útil que tento passar é este: nunca esquecer que o modelo está produzindo um token por vez.
Gerar uma resposta longa significa repetir, mais de mil vezes seguidas, o ciclo de pegar o que já foi escrito como contexto e amostrar mais um token. Cada token novo depende de tudo que veio antes. Um tropeço inicial reverbera pelo resto. Por outro lado, um começo bem traçado puxa a cadeia inteira para um caminho melhor.
Todo problema é um problema de próximo token
O capítulo fecha apontando a ideia maior. Codar, escrever poesia, resolver um problema de matemática, resumir um memorando, responder na quinta volta de uma conversa — para o modelo, qualquer dessas tarefas vira a mesma coisa. Dado o contexto até aqui, qual é o próximo token mais provável? E mais nada. É sobre essa única peça simples que toda a riqueza visível repousa.
Quando esse padrão entra na cabeça, sua interação com LLMs vai melhorando sem que você perceba — em como você escreve prompts, em como você escolhe modelos, em como você desenvolve intuição sobre o que cada modelo vai e o que não vai conseguir.
Amanhã — Capítulo 3: Como o texto flui dentro do modelo. Avançamos para o que acontece depois que o token entrou. Embedding (a representação numérica de cada token), atenção (como o modelo decide para onde "olhar"), e como tudo isso se costura no transformer.