Capítulo 12 — Construir um sistema LLM, e o que vem depois

Último post do passeio capítulo a capítulo pelo LLM Primer I: How Generative AI Works. Fechamos o livro e abrimos a porta para os próximos.

Sair de "modelo" e entrar em "sistema"

Da primeira página até aqui, passamos onze capítulos olhando para dentro do modelo. No último, o foco muda. Vejo o LLM de longe, como peça em um sistema maior.

O modelo não trabalha sozinho na vida real. Ele trabalha junto com ferramentas, com RAG, com avaliação, com guarda-fios, com monitoramento, com supervisão humana. É o sistema inteiro que chega no usuário, e é a saúde do sistema inteiro que define se a coisa toda funciona.

Em uma frase: a pergunta "qual modelo é o melhor?" raramente tem resposta. A pergunta "qual modelo é o melhor para qual peça do meu sistema?" quase sempre tem.

Avaliação — a peça que mais falta na maioria dos sistemas

De todas as peças do sistema, avaliação é a que vejo faltar mais frequentemente. Saber, com dados, se o modelo está cumprindo o que o caso de uso pede — em vez de adivinhar.

Uma boa avaliação tem três pilares. Um conjunto de exemplos que de fato representa a sua tarefa. Avaliação automática combinada com supervisão humana periódica. E rotina — avaliação que roda toda vez que algo do sistema é trocado. Sem essa rotina, "melhorias" se tornam crença, e crença vai bem até o dia em que para de ir.

Guarda-fios — compensar onde o modelo escorrega

Guarda-fios são as barreiras que pegam o modelo quando ele sai do trilho. Não são só filtros de conteúdo. São o conjunto de regras que decidem, por exemplo, recusar entradas perigosas, expor caminhos de raciocínio quando isso importa, deixar claro quando o modelo está incerto, escalar para um humano em casos sensíveis.

Saber, com clareza, onde o modelo tem que decidir e onde o sistema decide por ele — é essa fronteira que separa o sistema que aguenta carga real do que parece elegante mas dá problema no primeiro caso de borda.

Cinco padrões que aparecem em quase todo sistema

No capítulo final eu reúno cinco padrões que cobrem a maioria dos sistemas com que vi pessoas trabalharem.

Chamada simples e sem ornamentos; RAG plano; modelo com ferramentas; agente de passo único ou de múltiplos passos; e composição de vários modelos em coreografia. Cada padrão se encaixa melhor em certos tipos de tarefa. Saber qual escolher para qual problema é tão importante quanto saber prompt — e ajuda você a não usar um martelo onde uma chave de fenda resolveria.

Vale lembrar: nem todo problema pede o padrão mais complexo. Não envolver um agente em algo que seria uma chamada simples é, na operação, dos hábitos que mais valem.

Por que o livro é o "Volume I" de uma série

O LLM Primer I é o primeiro livro de uma série. Aqui assentamos a base — como um modelo funciona e como costurar ele em um sistema. Em cima dessa base, vão vir, livro a livro, os aprofundamentos.

Os próximos livros — RAG, agentes, avaliação e operação, fine-tuning e adaptação, multimodal na prática, sistemas LLM em produção — pegam, cada um, um pedaço do ecossistema e mergulham nele. O Livro 1 é o que torna o mergulho seguro. Quem chegar até aqui pode acompanhar os próximos sem traumatismo.

Uma última linha

Se eu pudesse deixar uma frase que resumisse o livro inteiro, seria esta: LLM não é mistério. É engenharia em camadas, em cima de um mecanismo simples — previsão de próximo token. Quando cada camada é entendida em palavras próprias, qualquer modelo novo que apareça encontra um lugar fácil no seu mapa.

Obrigado por chegar até aqui comigo. Até o próximo livro.

Quer o quadro inteiro em um lugar só? O livro reúne tudo, do mecanismo à operação, com diagramas — em uma única leitura coerente. Ver 『LLM Primer I』 na Amazon →

Para quem leu a série inteira até aqui — meu sincero obrigado, mais uma vez.