Capítulo 11 — Modelos menores, modelos mais espertos

Décimo primeiro post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Quando o tamanho deixa de ser virtude — e onde está, em 2026, a fronteira do "modelo esperto".

O modelo grande, sozinho, não é resposta

Os modelos enormes que vimos até aqui têm peso de operação alto. Resposta lenta, custo por token alto, infraestrutura pesada. Em operações reais, a pergunta natural aparece: dá para preservar a capacidade do modelo grande dentro de um modelo menor, mais rápido, mais barato?

O capítulo 11 é essa pergunta, em detalhe.

Em uma frase: "modelo maior = melhor resposta" é frase de manchete. Em operação, o modelo certo para a tarefa quase sempre vence o modelo maior à mão.

Destilação — passar o que o "professor" sabe para o aluno

O caminho mais consagrado é a destilação. Em uma linha: um modelo grande ("professor") gera respostas para várias entradas; um modelo pequeno ("aluno") aprende a imitar essas respostas — não só a resposta final, mas a distribuição inteira que o professor produziu. O aluno absorve, além da resposta certa, a "textura de confiança" do professor.

Por isso o aluno destilado costuma se sair melhor do que um aluno treinado só com respostas certas — ele herda a intuição do professor, não só os fatos.

Quantização — baixar a precisão dos pesos

O segundo caminho é a quantização. Os pesos do modelo — bilhões de números — geralmente são guardados em 32 ou 16 bits. Quantizar é baixar essa precisão para 8 bits, 4 bits, ou ainda menos.

Quando a precisão cai, o modelo todo encolhe na mesma proporção. Mais modelo entra na mesma GPU. O mesmo modelo roda mais rápido. E — meio surpreendentemente — bem feito, o comportamento se mantém em grande parte. Nem todo modelo aguenta quantização sem perda; modelos bem treinados costumam tolerar bem.

MoE — separar conhecimento por especialistas

O terceiro caminho é diferente em natureza. MoE (Mixture of Experts) coloca, dentro de um modelo grande, várias sub-redes "especialistas". Para cada token, só algumas dessas sub-redes são ativadas. O total de parâmetros é grande; o que de fato roda em cada chamada é pequeno.

O interessante é que o modelo, no agregado, abriga vários estilos de especialidade — mas em cada chamada usa apenas o trecho mais ajustado àquela entrada.

§11.6 — a seção nova de 2026, sobre modelos de raciocínio

Na edição de 2026 abri o §11.6 para tratar de uma frente bem diferente. Não é eficiência, é o oposto.

Em uma linha: deixar o modelo escrever, em cada chamada, mais tokens dentro do próprio raciocínio. E afinar essa cadeia de raciocínio com RLHF, para que o modelo aprenda a raciocinar com mais cuidado por dentro. A resposta final, ao chegar, atravessou um raciocínio mais profundo do que o de um modelo equivalente.

Eficiência reduz o custo de gerar a mesma resposta. Modelos de raciocínio sobem o custo de gerar uma resposta — em troca de qualidade. Essas duas direções convivem, hoje, dentro das mesmas famílias de modelo. É o eixo grande do biênio 2025–2026.

Importante: eficiência e modelos de raciocínio são duas faces da mesma escolha — "quantos tokens vamos gastar em cada chamada?". Uma direção corta, a outra investe. Quem opera precisa saber escolher.

O fio do Capítulo 11

O que fica: não existe um "modelo certo" universal. Existe o modelo certo para a tarefa, para o orçamento e para o tipo de resposta que se quer. Saber transitar entre eficiência e raciocínio profundo é parte de operar bem com LLM em 2026.

Amanhã — Capítulo 12: Construir um sistema LLM — e o que vem depois. O último post. Modelos, ferramentas, RAG, avaliação, guarda-fios — costurados em um sistema só. E o passo do Livro 1 para os Livros 2 a 7 da série.

Quer o quadro inteiro? O livro reúne eficiência e raciocínio em um só lugar, com o §11.6 novo. Ver 『LLM Primer I』 na Amazon →