Capítulo 11 — Avaliação, Calibração e Inferência
Décimo primeiro post do passeio capítulo a capítulo pelo LLM Primer II: Language Models Through Mathematics. O capítulo em que perguntamos como alguém pode, no mundo real, medir uma máquina capaz de dizer qualquer coisa — e descobre-se que um modelo confiante costuma ser um modelo mal calibrado.
A pergunta que se revela matemática
Construímos um modelo na Parte II, treinamos na Parte III, alinhamos no capítulo 10. Como saber se algo daquilo, de fato, funcionou? Parece pergunta mole. É das mais difíceis e das mais matemáticas do campo, porque um modelo de linguagem pode produzir basicamente qualquer texto, e "bom" resiste a definição.
11.1 Perplexidade
A medida mais fundamental não precisa de humano — sai direto do objetivo de treinamento. Meça a probabilidade que o modelo atribui a um conjunto de teste reservado. Por token e exponenciada, isso é perplexidade — a surpresa média do modelo, lida como fator efetivo de ramificação. Barata, objetiva, automática. Cega para quase tudo que importa na prática: utilidade, verdade, segurança. Não comparável entre tokenizadores diferentes. O capítulo também cobre BLEU, ROUGE, taxa de execução de código, notas de modelo-juiz — cada um com seus modos de falha conhecidos.
11.2 Calibração
Um modelo é bem calibrado se a confiança dele bate com a acurácia — quando ele diz que tem 80% de certeza, deveria acertar 80% das vezes. Não é a mesma coisa que acurácia. Um modelo pode ser acurado e excessivamente confiante, ou inacurado e ainda assim honesto sobre isso. Para qualquer uso de alto risco, calibração importa tanto quanto acurácia.
Mede-se com um diagrama de confiabilidade: agrupe as previsões pela confiança declarada, confira a acurácia dentro de cada grupo. Um modelo perfeitamente calibrado segue a diagonal; o caso comum fica abaixo dela (excesso de confiança). Métrica resumo: o Expected Calibration Error (ECE). Temperature scaling — dividir os logits por um escalar aprendido — é uma correção pós-hoc simples e eficaz. RLHF, curiosamente, costuma piorar a calibração.
11.3 Incerteza de benchmark
Quando um modelo "tira 87% num benchmark", a pergunta que falta é: 87% mais ou menos quanto? O erro-padrão da acurácia perto de 50% em n questões é aproximadamente 1/(2√n). Para n=1000, isso dá cerca de 1,6 ponto percentual — ou seja, 87% e 85% não são, necessariamente, diferentes. Riscos que se acumulam: comparações múltiplas (teste modelos demais em benchmarks demais e algum vai parecer melhor por acaso) e contaminação (se questões do benchmark vazaram no treino, a nota está medindo memorização). Essa é a seção que a imprensa de IA mais precisaria ler.
11.4 Alucinação e geometria da recuperação
Alucinação — afirmar com confiança algo falso — é o modo de falha que mais define os limites de um LLM, e é o mais difícil de medir porque exige julgar verdade. Métricas de fidelidade testam se cada afirmação da resposta está sustentada pelo contexto fornecido.
A ferramenta mais eficaz contra alucinação é a geração aumentada por recuperação: ancorar o modelo em documentos reais. A operação central dela nos devolve, com elegância, à geometria da Parte I — busca por produto interno máximo sobre os embeddings (capítulo 3) da query e dos trechos candidatos. A geometria do capítulo 3 vira, de repente, peça portante na produção.
O que o capítulo 11 prepara
Você sai com o kit da medição honesta: perplexidade como régua intrínseca, calibração como a pergunta às vezes mais importante do que a acurácia, barras de erro como antídoto ao teatro dos benchmarks, geometria da recuperação como ferramenta de produção para conter alucinação. A Parte III fecha aqui. Daqui o livro vira para o que efetivamente fazemos com esses modelos.
Próximo — Capítulo 12: Aplicações Reais dos LLMs. O primeiro capítulo da Parte IV. Geração de texto, sumarização, QA, tradução, raciocínio — o que cada um significa à luz da matemática que agora temos.