Capítulo 5 — Ainda há pequenos defeitos
Quinto post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Um livro sobre LLM que não trata honestamente das fraquezas é meio livro só. O capítulo 5 é a outra metade.
O tom muda um pouco aqui
Até agora a série tratou de como o modelo funciona. Neste capítulo o foco muda: onde ele tropeça. E não para diminuir o LLM — pelo contrário, para mostrar que cada tropeço vem do mecanismo mesmo que vimos nos capítulos anteriores.
A razão para incluir este capítulo é uma só: ajudar você a desenvolver o sentido de até onde confiar no modelo, e a partir de onde é melhor apoiar com outras ferramentas.
Alucinação — não é "saber errado", é "produzir assim mesmo"
O defeito mais comentado é a alucinação. O modelo afirma, com toda a calma, coisas que não são verdade. Por que isso é tão persistente? A resposta está naquela linha que aceitamos como definição do modelo: ele produz "o próximo token mais provável", não "o fato".
Quando o modelo é perguntado sobre algo que não sabe, ele não recebe um sinal interno dizendo "não sei". Ele simplesmente puxa os candidatos a próximo token que parecem mais prováveis naquele contexto. Se eles batem com a realidade, chamamos a resposta de correta; se não, chamamos de alucinação. Para o modelo, são a mesma coisa. A separação é nossa, vista por fora.
Tempo — o modelo não sabe que dia é hoje
A segunda fraqueza é a lacuna temporal. O modelo é um instantâneo do momento em que terminou de ser treinado, e não sabe o que aconteceu depois. Pior — ele não sabe que não sabe. Então ele produz, com a mesma confiança, a resposta mais provável dada a distribuição de dados de treinamento, mesmo quando a pergunta é sobre hoje.
Por isso questões como "qual é a data de hoje?", "o que aconteceu recentemente?", "quem é o CEO daquela empresa agora?" tropeçam. O livro mostra como o RAG (geração com recuperação) e o uso de ferramentas vêm apoiar essa fraqueza, em capítulos seguintes.
Cálculo e rastreio preciso — fraqueza inesperada
Esta surpreende: tarefas aparentemente simples — multiplicação longa, controle de carry, raciocínio em vários passos com condições — fazem o modelo escorregar. O LLM não trabalha bem com representações numéricas precisas. Tudo continua sendo previsão de próximo token, e contagem cuidadosa não combina muito com essa lógica.
Daí o recurso natural: encaixar chamadas a ferramentas — calculadora, executor de código, busca — em vez de pedir ao modelo para resolver tudo internamente. Isso encadeia bem com os capítulos sobre agentes e modelos de raciocínio mais adiante.
Consistência — "o mesmo modelo, a mesma pergunta, respostas diferentes"
Outra fraqueza é a oscilação. O mesmo modelo, com o mesmo prompt, nem sempre devolve exatamente a mesma resposta — e isso costuma incomodar quando você tenta avaliar ou operar.
De onde vem? Da amostragem que vimos no capítulo 2. Cada token é tirado de uma distribuição, e essa tiragem é, ela mesma, probabilística. Você pode pôr temperature em zero para colar a saída, mas paga em vivacidade (a resposta fica mais chata, mais previsível).
Conhecer os defeitos torna o LLM mais confiável
O capítulo 5 não foi escrito para amedrontar. É o oposto. Para operar bem com LLM, você precisa distinguir com clareza o que vai pro modelo e o que precisa ficar fora dele, em outras ferramentas. Esse capítulo é a base dessa distinção.
Aceitando que o mesmo mecanismo produz força e fraqueza juntas, fica mais simples desenhar como conviver com os limites. E daí o caminho natural é o próximo capítulo — alinhamento, isto é, manter o modelo no rumo que se quer.
Amanhã — Capítulo 6: Segurança, alinhamento, e o significado real de "ser útil". Vem uma das maiores decisões do livro: que ser fluente e ser útil são coisas diferentes, e que alinhamento é a ponte entre elas. Esta edição de 2026 traz, no §6.6, IA Constitucional, modelos baseados em debate e o que há de novo em alinhamento.