A Série LLM Primer

Um guia de campo em sete volumes sobre IA generativa, por Sho Shimoda — agora completo.

O que esta série é

A IA generativa está em toda parte agora, mas a maior parte do que se escreve sobre ela cai em dois extremos. De um lado, manchetes que tratam o assunto como mágica. Do outro, artigos técnicos que exigem álgebra linear pesada antes mesmo do parágrafo dois. Entre esses dois extremos sobra muito pouco — e é justamente nesse vão que profissionais reais precisam tomar decisões reais todos os dias.

A Série LLM Primer foi escrita para preencher esse vão, e agora está completa. Sete volumes, cada um pegando uma camada diferente do trabalho com grandes modelos de linguagem — dos fundamentos, à matemática por baixo, ao RAG, aos agentes com MCP, aos sistemas em produção, à escala, à segurança — abrem o capô de cada camada e mostram como aquilo funciona de um jeito que dá para usar no dia seguinte. Sem mistificação, mas também sem cair na armadilha de exigir doutorado antes do parágrafo três.

A série é escrita por Sho Shimoda — engenheiro, fundador e CTO. A voz é a mesma em todos os volumes: clara, direta, com o cuidado de explicar o porquê antes do como. Um volume puxa o outro, mas cada um se sustenta sozinho. Você pode entrar pelo Volume I e seguir a sequência, ou pular para o volume que resolve o seu problema agora. Um volume companheiro sobre Physical AI — quando os LLMs saem da tela e passam a controlar robôs, veículos autônomos e sistemas do mundo físico — acompanha a série.

Para quem é esta série: engenheiros que estão entrando no lado generativo, líderes técnicos que precisam tomar boas decisões sem fingir entender, profissionais de áreas vizinhas — dados, segurança, plataforma, suporte — que sentem o terreno mudando sob os pés, e pessoas curiosas que cansaram das manchetes e querem ver de perto como a coisa de fato funciona.

Como ler esta página

Cada volume abaixo lista o seu sumário completo, organizado por Parte, junto do link para comprar na Amazon e para o passeio capítulo a capítulo publicado neste canal. Cada capítulo tem um artigo de passeio — clique para ler.

Os apêndices estão listados por transparência, mas são conteúdo exclusivo do livro — material de referência, cheat sheets, exercícios com solução, e tudo o que pertence ao fim do livro em vez de um artigo separado. Para ter os apêndices, é ler o livro mesmo.

Volume I — How Generative AI Works

Um guia claro e prático para os fundamentos dos Grandes Modelos de Linguagem.

A rampa de acesso, em linguagem comum, para a série inteira. Partindo do zero — tokens, treinamento, e o ato simples de prever o próximo token — ele constrói uma fotografia honesta e sem jargão do que é um LLM, como ele é treinado, e por que se comporta do jeito que se comporta, sem pressupor base anterior. É a fundação sobre a qual todos os volumes seguintes se erguem.

Disponível agora na Amazon. Ver LLM Primer I na Amazon →

Introdução da série: LLM Primer I — passeio capítulo a capítulo: introdução e índice

Parte I — Os fundamentos

Capítulo 1 —	O que é, afinal, um Grande Modelo de Linguagem?
Capítulo 2 —	Probabilidade, tokens e texto
Capítulo 3 —	Como o texto flui dentro do modelo

Parte II — Como o modelo aprende e onde tropeça

Capítulo 4 —	Como o modelo aprende
Capítulo 5 —	Ainda há pequenos defeitos
Capítulo 6 —	Segurança, alinhamento, e o que "ser útil" realmente significa

Parte III — Trabalhando com o modelo

Capítulo 7 —	Engenharia de prompt como ofício de campo
Capítulo 8 —	Quando um modelo não basta: ferramentas e agentes
Capítulo 9 —	RAG: costurando informação fresca no contexto

Parte IV — O panorama mais amplo

Capítulo 10 —	Multimodal: para além do texto
Capítulo 11 —	Modelos menores, modelos mais espertos
Capítulo 12 —	Construir um sistema LLM, e o que vem depois

Apêndices (apenas no livro)

A —	Glossário de LLM
B —	A matemática por trás da atenção
C —	Cheat sheet de prompting

D —	Ferramentas e bibliotecas
E —	Leituras recomendadas

Volume II — Language Models Through Mathematics

Explorando o funcionamento interno da IA com olhar matemático.

Um passeio matematicamente rigoroso, mas legível, pelas entranhas da IA: atenção, dinâmica de otimização, paisagem de perda, comportamento sob escala — explicados pela matemática que faz tudo aquilo funcionar. Cada equação que importa é derivada por inteiro, e cada uma vem embrulhada em uma história, uma analogia e um exemplo numérico trabalhado. Para quem quer a matemática que o primeiro volume deixou nas notas laterais.

Disponível agora na Amazon. Ver LLM Primer II na Amazon →

Introdução da série: LLM Primer II — passeio capítulo a capítulo: introdução e índice

Parte I — Fundamentos e ferramentas

Capítulo 1 —	Intuição matemática para modelos de linguagem
Capítulo 2 —	Os LLMs em contexto
Capítulo 3 —	Ferramentas matemáticas

Parte II — A arquitetura do transformer

Capítulo 4 —	Atenção
Capítulo 5 —	Posição, ordem e estrutura de sequência
Capítulo 6 —	Blocos do transformer
Capítulo 7 —	Eficiência e variantes do transformer

Parte III — Treinamento, alinhamento e avaliação

Capítulo 8 —	Como os modelos aprendem
Capítulo 9 —	Treinamento em escala
Capítulo 10 —	Matemática do pós-treinamento e alinhamento
Capítulo 11 —	Avaliação, calibração e inferência

Parte IV — Aplicações, limites e prática

Capítulo 12 —	Aplicações reais dos LLMs
Capítulo 13 —	Limitações, riscos e desafios em aberto
Capítulo 14 —	Conhecimento prático para engenheiros

Apêndices (apenas no livro)

O cheat sheet matemático dos LLMs

Uma perspectiva estatística sobre LLMs

Perguntas que as pessoas fazem

Derivações trabalhadas

Exercícios, com soluções

Índice de símbolos

Um forward pass completo, em números

Uma linha do tempo das ideias

Volume III — Enhancing Enterprise AI with RAG

Um guia prático para construir sistemas de geração aumentada por recuperação para o ambiente corporativo.

RAG na prática — bancos de vetores, estratégias de chunking, e a arquitetura de ancorar o modelo nos seus próprios documentos para ter respostas corporativas confiáveis, atualizadas e rastreáveis. É o volume que se lê quando o seu trabalho é entregar funcionalidades de IA que precisam continuar atuais e precisam citar a fonte.

Disponível agora na Amazon. Ver LLM Primer III na Amazon →

Introdução da série: LLM Primer III — Introdução da série e índice

Parte I — Fundamentos do RAG

Capítulo 1 —

A evolução da arquitetura RAG

Parte II — Ingestão, parsing e chunking de dados

Capítulo 2 —	Parsing inteligente de documentos
Capítulo 3 —	Frameworks avançados de chunking

Parte III — Bancos de vetores e otimização de recuperação

Capítulo 4 —	Escolhendo o banco de vetores certo
Capítulo 5 —	Arquitetando o pipeline de recuperação

Parte IV — Segurança, privacidade e controle de acesso

Capítulo 6 —	Modelos de ameaça e vulnerabilidades do RAG
Capítulo 7 —	Implementando controle de acesso
Capítulo 8 —	Anonimização de dados no pipeline RAG

Parte V — Avaliação, monitoramento e manutenção

Capítulo 9 —	A tríade de avaliação do RAG
Capítulo 10 —	Frameworks de avaliação de referência
Capítulo 11 —	Atualizações contínuas e otimização do pipeline

Apêndices (apenas no livro)

A —	Fórmulas matemáticas essenciais para otimização de RAG
B —	Exemplos de system prompts para anonimização e avaliação

C —	Matrizes de decisão de bancos de vetores e ferramentas
D —	Datasets de benchmark para avaliação de RAG

Volume IV — Designing AI Cognition with MCP

Engenharia de contexto, ferramentas e memória para agentes de IA confiáveis.

Modelagem estruturada de contexto e orquestração: como dar forma ao raciocínio de um modelo desenhando o contexto e as situações que ele vê, em vez de mexer no modelo. É o volume que se lê quando se está construindo sistemas agentivos — inventários de ferramentas, loops longos, memória entre sessões, e a disciplina de desenhar com cuidado o que o modelo vai enxergar.

Disponível agora na Amazon. Ver LLM Primer IV na Amazon →

Introdução da série: LLM Primer IV — Introdução da série e índice

Parte I — A mudança de paradigma na integração de IA

Capítulo 1 —	A crise da integração de IA e o surgimento da arquitetura agentiva
Capítulo 2 —	Apresentando o Model Context Protocol (MCP)

Parte II — A mecânica central do MCP

Capítulo 3 —	Primitivas de servidor — expondo contexto e capacidades
Capítulo 4 —	Primitivas de cliente — comportamentos agentivos e controle
Capítulo 5 —	Protocolos de transporte e descoberta

Parte III — Padrões de orquestração multi-agente

Capítulo 6 —	Estratégias fundamentais de orquestração
Capítulo 7 —	Padrões colaborativos avançados e dinâmicos
Capítulo 8 —	Topologias de implantação arquitetural

Parte IV — Cognição da IA: contexto e memória

Capítulo 9 —	Administrando o orçamento de atenção
Capítulo 10 —	Memória para tarefas de longo prazo

Parte V — Segurança de workflows agentivos

Capítulo 11 —	Superfícies de ataque e vulnerabilidades do protocolo
Capítulo 12 —	Endurecimento de protocolo e defesas

Parte VI — Engenharia de produção e escala

Capítulo 13 —	Frameworks e integração com nuvem
Capítulo 14 —	Benchmarking, testes e performance

Apêndices (apenas no livro)

A —	Referência rápida e cheat sheet de MCP
B —	Blueprints de implementação e exemplos de código
C —	Checklists de prontidão de produção e segurança

D —	Especificações avançadas e Standard Enhancement Proposals (SEPs)
E —	Benchmarks e dados de performance
F —	Recursos oficiais e links do ecossistema

Volume V — Building Real-World LLM Applications

Projetar, avaliar e operar sistemas LLM em produção.

Um guia focado em sistema, do protótipo à produção — design de API, loops de avaliação, monitoramento e integração — transformando um modelo capaz em um produto confiável. É o volume que transforma a compreensão da arquitetura em serviços que rodam, com usuários reais em cima.

Disponível agora na Amazon. Ver LLM Primer V na Amazon →

Introdução da série: LLM Primer V — Introdução da série e índice

Parte I — Fundamentos da engenharia de IA

Capítulo 1 —	A disciplina da engenharia de IA
Capítulo 2 —	Modelos de fundação e engenharia de prompt

Parte II — Capacidades agentivas e de recuperação

Capítulo 3 —	Geração aumentada por recuperação (RAG)
Capítulo 4 —	Agentes de IA e chamada de ferramentas

Parte III — Qualidade e observabilidade

Capítulo 5 —	Avaliando aplicações LLM
Capítulo 6 —	Observabilidade e tracing de IA

Parte IV — Segurança, escala e otimização

Capítulo 7 —	Segurança de LLM e guarda-fios
Capítulo 8 —	Otimizando performance, serving e custo

Apêndices (apenas no livro)

A —	Checklists de prontidão de produção e segurança
B —	Matrizes de seleção de ferramentas e frameworks
C —	Protocolos, streaming e saídas estruturadas

D —	Arquitetura de rate limiting e gestão de custos
E —	Glossário de métricas e termos de engenharia de IA

Volume VI — Scaling AI Systems

Arquitetando inferência de LLM com baixa latência para a escala de produção.

Arquitetando inferência de alta performance: serving distribuído, otimização de latência e modelagem de custo para sistemas que precisam responder milhões de vezes por dia. É o volume que se lê quando o seu sistema de IA passou de um único servidor e agora precisa se comportar como infraestrutura de verdade.

Disponível agora na Amazon. Ver LLM Primer VI na Amazon →

Introdução da série: LLM Primer VI — Introdução da série e índice

Parte I — Fundamentos da inferência de LLM

Capítulo 1 —	A mecânica da geração de tokens
Capítulo 2 —	O desafio da cache de chave-valor (KV)

Parte II — O substrato de hardware

Capítulo 3 —	GPUs de data center para IA generativa
Capítulo 4 —	Silício especializado e ASICs para IA

Parte III — Otimização de modelo (compressão)

Capítulo 5 —	Desmistificando a quantização
Capítulo 6 —	Pruning e destilação de conhecimento

Parte IV — Otimizações de sistema e engine

Capítulo 7 —	Estratégias avançadas de batching
Capítulo 8 —	Gestão de KV cache de próxima geração
Capítulo 9 —	Decodificação especulativa

Parte V — Frameworks de serving e orquestração

Capítulo 10 —	A camada de engine de LLM
Capítulo 11 —	A camada de plataforma e orquestração
Capítulo 12 —	Serving desagregado e Kubernetes
Capítulo 13 —	Autoscaling e mitigação de cold start

Parte VI — Economia em nível de aplicação e TCO

Capítulo 14 —	Economia de tokens e preço de API
Capítulo 15 —	APIs serverless vs. infraestrutura dedicada
Capítulo 16 —	Estratégias de corte de custo em produção

Apêndices (apenas no livro)

A —	Fórmulas matemáticas e referência de modelagem de custo
B —	Guia de especificações de hardware e aceleradores

C —	Configurações de deployment e snippets de código
D —	Metodologia de benchmarking e definição de métricas

Volume VII — AI Security

Defendendo sistemas LLM contra prompt injection, jailbreaks e ameaças adversariais.

Projetando IA segura e robusta: riscos adversariais, prompt injection, frameworks de governança e design defensivo para sistemas que vão para o mundo real. É o volume que se lê quando o seu sistema de IA precisa ser tratado como infraestrutura sensível à segurança.

Disponível agora na Amazon. Ver LLM Primer VII na Amazon →

Introdução da série: LLM Primer VII — Introdução da série e índice

Parte I — Fundamentos de segurança de IA

Capítulo 1 —	Por que segurança de IA é diferente
Capítulo 2 —	Modelagem de ameaças para sistemas LLM
Capítulo 3 —	Segurança de dados e privacidade

Parte II — Segurança de prompt e interação

Capítulo 4 —	Prompt injection e jailbreaks
Capítulo 5 —	Validação de entrada e filtragem de saída
Capítulo 6 —	Riscos de geração aumentada por recuperação

Parte III — Robustez e confiabilidade do modelo

Capítulo 7 —	Alucinações e confiabilidade
Capítulo 8 —	Ataques adversariais a modelos
Capítulo 9 —	Integridade do modelo e riscos de cadeia de suprimentos

Parte IV — Arquitetura de segurança em nível de sistema

Capítulo 10 —	Projetando arquiteturas LLM seguras
Capítulo 11 —	Observabilidade, logging e resposta a incidentes
Capítulo 12 —	Controle de acesso e identidade

Parte V — Governança, ética e compliance

Capítulo 13 —	Panorama regulatório
Capítulo 14 —	Viés, justiça e IA responsável
Capítulo 15 —	Construindo uma organização de IA segura

Parte VI — Tópicos avançados

Capítulo 16 —	Fine-tuning seguro e adaptação
Capítulo 17 —	Ameaças futuras e defesas emergentes

Apêndices (apenas no livro)

A —	Checklist de segurança de IA para sistemas em produção
B —	Template de modelagem de ameaças
C —	Padrões de design seguro para prompts

D —	Template de resposta a incidentes para aplicações LLM
E —	Ferramentas e frameworks recomendados

Physical AI — um volume companheiro

Os sete volumes do LLM Primer cobrem os modelos que vivem dentro da tela — texto entrando, texto saindo, ferramentas do outro lado de uma API. Mas há uma segunda linha de trabalho que corre em paralelo: Physical AI, quando o modelo sai da caixa e passa a controlar coisas do mundo físico — braços robóticos, veículos autônomos, drones, sistemas de manufatura. Sensores como entrada, atuadores como saída, e camadas de segurança que precisam responder em tempo de latência de hardware, não de token. É um volume companheiro à série, escrito com a mesma voz e a mesma disciplina, para engenheiros que estão pisando no lado físico da IA.