LLM Primer III — Aprimorando a IA Empresarial com RAG: Introdução da Série e Índice
"Um modelo base é brilhante e improvável. RAG é a arquitetura que o torna ao mesmo tempo atualizado e citável." Bem-vindo ao Livro III da série LLM Primer — e ao passeio que o acompanha. Nos próximos onze dias, um post por capítulo, vamos abrir a pilha da geração aumentada por recuperação e olhar para as decisões que determinam se um sistema RAG empresarial funciona silenciosamente ou falha silenciosamente.
Por que o Livro III existe
Os livros I e II desta série deram a você o modelo. O Livro I contou em linguagem clara o que são LLMs e como se constroem sistemas em torno deles. O Livro II abriu a matemática por baixo. O Livro III é sobre o que cerca um modelo quando você tenta colocá-lo para trabalhar sobre documentos que mudam, sobre conhecimento que precisa ser citado, e sobre controles de acesso que não são opcionais.
RAG parece simples por fora. Três caixinhas num slide: embed, recupera, gera. Quem já levou um para produção sabe que cada caixinha é uma disciplina própria, e que a distância entre uma demo que funciona e um sistema em que um time jurídico vai confiar se mede em meses de engenharia contra problemas que a demo nunca expôs. O parser achata tabelas em silêncio. O chunker corta uma definição do seu qualificador. O pushdown de filtro do banco vetorial é mais fraco do que o benchmark sugeria. O retriever devolve vizinhos confiantes de um embedding sem sentido. O harness de avaliação relata dashboards verdes em cima de alucinações.
Este livro caminha pela pilha de forma honesta, camada por camada. Cada capítulo é a disciplina por trás de uma das caixinhas — as perguntas que um time sério precisa responder para colocar aquela camada em produção. A promessa não é que existe uma única arquitetura certa. A promessa é que, ao final, você saberá qual arquitetura é a certa para o seu corpus, o seu time e o seu perímetro regulatório, e quais custos está pagando em cada eixo.
Para quem este livro foi escrito
Engenheiros construindo sistemas RAG, PMs técnicos escopando-os e arquitetos que precisam defender as escolhas em uma revisão de segurança. O livro assume que o leitor está confortável com o panorama do Livro I sobre como um LLM se comporta; não assume a matemática do Livro II. Onde a matemática importa, ela aparece como intuição, não como dedução para se decifrar. O centro de gravidade é a engenharia: onde moram os modos de falha, quais decisões são reversíveis e quais prendem o time por anos.
Como ler
Três modos que funcionaram para leitores em pré-visualização. Da frente para trás, se você está prestes a começar a construir um sistema RAG empresarial e quer a pilha na ordem em que as decisões realmente chegam. Como referência, se você tem um sistema rodando e uma camada específica está doendo — os capítulos de parsing, chunking e avaliação se sustentam sozinhos. Ou como pauta para a revisão de arquitetura, em que cada capítulo vira o roteiro da conversa que o time precisa ter antes de fechar com um fornecedor.
O passeio em 11 capítulos
18 de março — Capítulo 1: A Evolução da Arquitetura RAG. As quatro posturas arquiteturais — Naive, Avançada, Modular, Agêntica — e quando fine-tuning é a melhor resposta do que recuperação.
19 de março — Capítulo 2: Parsing Inteligente de Documentos. Por que achatar um PDF perde o que importa, os parsers conscientes de layout que recolocam os sinais, e a trilha multimodal em que o modelo lê a página direto.
20 de março — Capítulo 3: Frameworks Avançados de Chunking. O espectro do chunking, o mito do overlap, o penhasco de contexto, e as técnicas de fronteira — recuperação contextual e late chunking — que reescrevem a conta.
21 de março — Capítulo 4: Escolhendo o Banco de Dados Vetorial Certo. Arquiteturas dedicadas versus extensões, as líderes gerenciadas, o campo open-source, e os três eixos — residência, ops, custo — que decidem a escolha real.
22 de março — Capítulo 5: Arquitetando o Pipeline de Recuperação. Busca híbrida, reciprocal rank fusion, reranking com cross-encoder, e a camada de entendimento de query que faz a ponte entre como o usuário pergunta e como os documentos respondem.
23 de março — Capítulo 6: Modelos de Ameaça e Vulnerabilidades em RAG. Prompt injection, injection indireta via conteúdo recuperado, caminhos de exfiltração de dados, e o modelo de ameaças que você de fato precisa defender.
24 de março — Capítulo 7: Implementando Controle de Acesso. Permissões por documento, segurança em nível de linha no índice, propagação de identidade pela chamada de recuperação, e os padrões que sobrevivem a uma auditoria.
25 de março — Capítulo 8: Anonimização de Dados no Pipeline RAG. Detecção de PII na ingestão, o lugar certo para redigir, as assimetrias entre dados de treino e corpus de recuperação, e o quadro de risco residual.
26 de março — Capítulo 9: A Tríade de Avaliação de RAG. Relevância de contexto, fidelidade da resposta, relevância da resposta — as três medições que localizam de onde veio uma regressão.
27 de março — Capítulo 10: Principais Frameworks de Avaliação. RAGAS, TruLens, DeepEval, e a pergunta prática de como tornar a tríade utilizável no CI.
28 de março — Capítulo 11: Atualizações Contínuas e Otimização do Pipeline. Indexação incremental, detecção de drift, estratégia de reindexação, e a disciplina operacional que impede um sistema RAG de degradar em silêncio depois do lançamento.
Sobre este livro e a série
A série LLM Primer é a resposta longa para a pergunta que engenheiros, founders e o regulador ocasional não param de fazer: como esses sistemas funcionam de verdade, e o que é preciso para construir um que aguente carga? O Livro I deu a forma. O Livro II deu a matemática. O Livro III dá a arquitetura de produção. O Livro IV, em andamento, vira para o MCP e a camada de cognição que se assenta acima do modelo.
Até amanhã, com o Capítulo 1.