Capítulo 1 — O que é, afinal, um Grande Modelo de Linguagem?

Primeiro post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Começamos pelo começo: pelo que está embaixo do rótulo, antes de tudo o que vem depois.

Uma pergunta enganosamente simples

Faça a pergunta "o que é um LLM?" para cem pessoas e você vai colher cem respostas. "É IA." "É chatbot." "É buscador que conversa." "É aquilo que escreveu o relatório de ontem." Nenhuma está completamente errada, mas todas falam do que o LLM faz, e não do que ele é.

O capítulo 1 trata justamente do segundo. É a pergunta que a maioria dos textos introdutórios pula, e que o marketing trata de embaçar de propósito. Mas pular essa parte custa caro: sem ela, fica praticamente impossível avaliar com clareza qualquer outra afirmação sobre LLMs que apareça pela frente.

Em uma frase: um Grande Modelo de Linguagem é uma máquina que estima "o que vem em seguida" em um texto. É isso. Tudo o que parece mais impressionante é o efeito de fazer essa estimativa simples, com altíssima precisão, bilhões de vezes seguidas.

As três palavras, levadas a sério

O livro começa desmontando a sigla, palavra por palavra. Faz diferença, porque cada uma carrega peso que a sigla esconde.

Grande não quer dizer fisicamente grande. Quer dizer que o sistema tem, por dentro, bilhões de parâmetros — ajustes numéricos — que foram afinados durante o treinamento. Também quer dizer que o volume de texto e de computação usados nesse treinamento é, ele próprio, enorme. E os três números — parâmetros, dados, computação — não funcionam isolados. Eles precisam crescer juntos para o modelo ficar realmente mais inteligente. Dobrar só um deles, sozinho, costuma dar resultado bem morno.

Linguagem parece a parte óbvia, mas aqui carrega um sentido particular. O modelo não entende gramática nem significado do jeito que uma pessoa entende. Ele opera sobre "tokens" — pedaços menores que palavras. Do ponto de vista do modelo, todo prompt acaba sendo uma sequência de números, e toda resposta é uma sucessão de "próximo número, e o próximo, e o próximo…".

Modelo é, das três, a palavra mais mal-entendida. Aqui ela não significa um banco de dados de fatos, nem alguém que "sabe" alguma coisa. Significa uma função matemática treinada — um reconhecedor de padrões — que, dado um texto, produz a continuação mais provável. Quando o LLM parece "saber" a capital da França, não está consultando nada. Está apenas devolvendo "Paris" porque, dado o contexto, "Paris" é o próximo token mais provável.

Esta distinção não é detalhe. Ela explica por que LLMs alucinam, por que erram com confiança, por que escrevem frases fluentes mas tropeçam em fatos. O livro volta a esta lente várias vezes — é a melhor ferramenta de previsão de comportamento que conheço para LLMs.

Como chegamos aqui, em um parágrafo

O capítulo 1 também faz uma visita curta à história. O LLM moderno é a cena mais recente de um filme que vem rolando há décadas. Por muito tempo, computadores lidaram com linguagem ou pelas regras gramaticais que humanos escreveram, ou contando com que frequência certas duplas de palavras apareciam juntas em livros. Os dois caminhos esbarraram em paredes. A virada veio quando, em vez de ensinar regras, alguém decidiu deixar a máquina aprender os padrões diretamente de muito, muito texto. A ideia que está na base dos LLMs é mais antiga do que a maioria imagina. O que é novo é a escala em que ela está rodando agora.

A virada arquitetural específica — aquela que mudou tudo — fica para os capítulos 3 e 4. Mas já vale deixar registrado: a passagem do "contar frequências" para o "aprender padrões" é a maior divisória da história do processamento de linguagem natural. Ver isso direito ajuda muito a entender o que vem depois.

Três mitos que vale a pena enfrentar

O capítulo fecha enfrentando três mitos sobre o comportamento de LLMs que insistem em aparecer. Vale enfrentar com franqueza, porque cada um deles, se acreditado, desregula totalmente o sentido do "até onde posso confiar nisto".

Primeiro, o mito de que o LLM entende como uma pessoa entende. Não entende. A saída parece compreensiva porque foi treinada em textos escritos por pessoas que de fato entendiam. Segundo, o mito de que é um banco de fatos. Não é. Os fatos estão distribuídos pelos bilhões de pesos, e por isso o modelo consegue produzir afirmações plausíveis e falsas sem nenhum desconforto interno. Terceiro, o mito de que modelo maior é sempre melhor. Não é. A escala interage com qualidade dos dados, objetivo de treinamento e arquitetura. O modelo maior à mão nem sempre é a escolha certa. A história é mais sutil que isso.

Vale lembrar: um "LLM que soa confiante" e um "LLM que está certo" são coisas diferentes. Fluência e exatidão nascem do mesmo mecanismo, mas obedecem a restrições diferentes.

O que o Capítulo 1 deixa

No fim do capítulo, você deve conseguir explicar, em palavras próprias, o que um LLM é e o que ele não é. Ganha também um sentido de história do campo e um filtro contra os mitos mais comuns. Para um único capítulo, é bastante coisa — e é o que torna possível continuar o resto do livro com solidez.

Mesmo se você parar por aqui, vai conseguir falar de LLMs com bem mais precisão do que as manchetes. Só isso, sinceramente, já paga o preço do capítulo.

Amanhã — Capítulo 2: Probabilidade, tokens e texto. Entramos no que tokens realmente são, por que o modelo é, no fundo, uma máquina de probabilidades, e como essa única coisa que ele faz — prever o próximo token — sustenta a variedade toda do que vemos saindo dele.

Quer o quadro inteiro? O livro cobre cada um dos fios deste post com diagramas, boxes "Em Linguagem Simples" e, onde necessário, o nível certo de precisão técnica. Ver 『LLM Primer I』 na Amazon →