Capítulo 11 — Modelos menores, modelos mais espertos
Décimo primeiro post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Quando o tamanho deixa de ser virtude — e onde está, em 2026, a fronteira do "modelo esperto".
O modelo grande, sozinho, não é resposta
Os modelos enormes que vimos até aqui têm peso de operação alto. Resposta lenta, custo por token alto, infraestrutura pesada. Em operações reais, a pergunta natural aparece: dá para preservar a capacidade do modelo grande dentro de um modelo menor, mais rápido, mais barato?
O capítulo 11 é essa pergunta, em detalhe.
Destilação — passar o que o "professor" sabe para o aluno
O caminho mais consagrado é a destilação. Em uma linha: um modelo grande ("professor") gera respostas para várias entradas; um modelo pequeno ("aluno") aprende a imitar essas respostas — não só a resposta final, mas a distribuição inteira que o professor produziu. O aluno absorve, além da resposta certa, a "textura de confiança" do professor.
Por isso o aluno destilado costuma se sair melhor do que um aluno treinado só com respostas certas — ele herda a intuição do professor, não só os fatos.
Quantização — baixar a precisão dos pesos
O segundo caminho é a quantização. Os pesos do modelo — bilhões de números — geralmente são guardados em 32 ou 16 bits. Quantizar é baixar essa precisão para 8 bits, 4 bits, ou ainda menos.
Quando a precisão cai, o modelo todo encolhe na mesma proporção. Mais modelo entra na mesma GPU. O mesmo modelo roda mais rápido. E — meio surpreendentemente — bem feito, o comportamento se mantém em grande parte. Nem todo modelo aguenta quantização sem perda; modelos bem treinados costumam tolerar bem.
MoE — separar conhecimento por especialistas
O terceiro caminho é diferente em natureza. MoE (Mixture of Experts) coloca, dentro de um modelo grande, várias sub-redes "especialistas". Para cada token, só algumas dessas sub-redes são ativadas. O total de parâmetros é grande; o que de fato roda em cada chamada é pequeno.
O interessante é que o modelo, no agregado, abriga vários estilos de especialidade — mas em cada chamada usa apenas o trecho mais ajustado àquela entrada.
§11.6 — a seção nova de 2026, sobre modelos de raciocínio
Na edição de 2026 abri o §11.6 para tratar de uma frente bem diferente. Não é eficiência, é o oposto.
Em uma linha: deixar o modelo escrever, em cada chamada, mais tokens dentro do próprio raciocínio. E afinar essa cadeia de raciocínio com RLHF, para que o modelo aprenda a raciocinar com mais cuidado por dentro. A resposta final, ao chegar, atravessou um raciocínio mais profundo do que o de um modelo equivalente.
Eficiência reduz o custo de gerar a mesma resposta. Modelos de raciocínio sobem o custo de gerar uma resposta — em troca de qualidade. Essas duas direções convivem, hoje, dentro das mesmas famílias de modelo. É o eixo grande do biênio 2025–2026.
O fio do Capítulo 11
O que fica: não existe um "modelo certo" universal. Existe o modelo certo para a tarefa, para o orçamento e para o tipo de resposta que se quer. Saber transitar entre eficiência e raciocínio profundo é parte de operar bem com LLM em 2026.
Amanhã — Capítulo 12: Construir um sistema LLM — e o que vem depois. O último post. Modelos, ferramentas, RAG, avaliação, guarda-fios — costurados em um sistema só. E o passo do Livro 1 para os Livros 2 a 7 da série.