LLM Primer III — Mejorando la IA empresarial con RAG: Introducción a la serie e índice

"Un modelo base es brillante e indemostrable. RAG es la arquitectura que lo vuelve, a la vez, actualizado y citable." Bienvenidos al Libro III de la serie LLM Primer — y al recorrido que lo acompaña. Durante los próximos once días, una entrega por capítulo, abriremos la pila de la generación aumentada por recuperación y miraremos de cerca las decisiones que determinan si un sistema RAG empresarial funciona en silencio o falla en silencio.

Por qué existe el Libro III

Los libros I y II de esta serie dieron el modelo. El Libro I contó, en lenguaje llano, la historia de qué son los LLM y cómo se construyen sistemas a su alrededor. El Libro II abrió las matemáticas que están debajo. El Libro III trata de lo que rodea a un modelo cuando intentas ponerlo a trabajar sobre documentos que cambian, sobre conocimiento que hay que citar y sobre controles de acceso que no son opcionales.

RAG parece sencillo desde fuera. Tres cajas en una diapositiva: embeber, recuperar, generar. Quien haya llevado uno a producción sabe que cada caja es una disciplina propia, y que la distancia entre una demo que funciona y un sistema en el que un equipo legal confiará se mide en meses de ingeniería contra problemas que la demo nunca sacó a la luz. El parser aplana tablas sin avisar. El chunker corta una definición de su matiz. El push-down de filtros de la base vectorial es más débil de lo que sugería el benchmark. El retriever devuelve vecinos confiados de un embedding sin sentido. El arnés de evaluación pinta cuadros verdes sobre alucinaciones.

Este libro recorre la pila con honestidad, capa a capa. Cada capítulo es la disciplina detrás de una de esas cajas — las preguntas que un equipo serio tiene que responder para llevar esa capa a producción. La promesa no es que exista una sola arquitectura correcta. La promesa es que, al final, sabrás qué arquitectura es la correcta para tu corpus, tu equipo y tu perímetro regulatorio, y qué costes estás pagando en cada eje.

El libro en una línea: el RAG empresarial es una pila de decisiones — parsing, chunking, indexación, recuperación, seguridad, evaluación y actualización — y cada capa restringe lo que la capa de arriba puede hacer.

Para quién lo escribí

Para ingenieros que construyen sistemas RAG, PMs técnicos que les ponen alcance y arquitectos que tienen que defender las decisiones en una revisión de seguridad. El libro asume que el lector está cómodo con la imagen del Libro I de cómo se comporta un LLM; no asume las matemáticas del Libro II. Donde las matemáticas importan, aparecen como intuición, no como derivación a moler paso a paso. El centro de gravedad es la ingeniería: dónde viven los modos de fallo, qué decisiones son reversibles y cuáles encierran al equipo durante años.

Cómo leerlo

Tres modos que han funcionado para lectores tempranos. De principio a fin, si estás a punto de empezar a construir un sistema RAG empresarial y quieres la pila en el orden en que las decisiones realmente llegan. Como referencia, si ya tienes un sistema en marcha y una capa concreta te está doliendo — el capítulo de parsing, el de chunking y el de evaluación se sostienen por sí solos. O como guion lateral para la revisión de arquitectura, donde los capítulos se convierten en las preguntas que un equipo necesita hacerse antes de comprometerse con un proveedor.

El recorrido de los 11 capítulos

18 de marzo — Capítulo 1: La evolución de la arquitectura RAG. Las cuatro posturas arquitectónicas — Naive, Avanzada, Modular, Agéntica — y cuándo el fine-tuning es mejor respuesta que la recuperación.

19 de marzo — Capítulo 2: Parsing inteligente de documentos. Por qué aplanar un PDF pierde lo que importa, los parsers conscientes del layout que reponen las señales y la vía multimodal en la que el modelo lee la página directamente.

20 de marzo — Capítulo 3: Frameworks avanzados de chunking. El espectro del chunking, el mito del solapamiento, el precipicio de contexto y las técnicas de frontera — recuperación contextual y late chunking — que cambian las cuentas.

21 de marzo — Capítulo 4: Elegir la base de datos vectorial correcta. Arquitecturas dedicadas frente a extensiones, los líderes gestionados, el campo open-source y los tres ejes — residencia, operación, coste — que deciden la elección real.

22 de marzo — Capítulo 5: Arquitectura de la pipeline de recuperación. Búsqueda híbrida, reciprocal rank fusion, reranking con cross-encoder y la capa de comprensión de consultas que tiende el puente entre cómo preguntan los usuarios y cómo responden los documentos.

23 de marzo — Capítulo 6: Modelos de amenazas y vulnerabilidades en RAG. Inyección de prompts, inyección indirecta a través del contenido recuperado, caminos de exfiltración de datos y el modelo de amenazas que realmente tienes que defender.

24 de marzo — Capítulo 7: Implementar el control de acceso. Permisos por documento, seguridad a nivel de fila en el índice, propagación de identidad a través de la llamada de recuperación y los patrones que sobreviven a una auditoría.

25 de marzo — Capítulo 8: Anonimización de datos en la pipeline RAG. Detección de PII en la ingesta, el lugar correcto para redactar, las asimetrías entre datos de entrenamiento y corpus de recuperación, y el mapa de riesgo residual.

26 de marzo — Capítulo 9: La tríada de evaluación de RAG. Relevancia del contexto, fidelidad de la respuesta, relevancia de la respuesta — las tres medidas que localizan de dónde vino la regresión.

27 de marzo — Capítulo 10: Frameworks de evaluación líderes. RAGAS, TruLens, DeepEval y la pregunta práctica de cómo hacer que la tríada sea usable en CI.

28 de marzo — Capítulo 11: Actualizaciones continuas y optimización de la pipeline. Indexación incremental, detección de deriva, estrategia de reindexación y la disciplina operativa que evita que un sistema RAG se degrade en silencio tras el lanzamiento.

Qué diferencia al Volumen III: los volúmenes anteriores trataban del modelo. Este trata del aparato que lo rodea. La mayoría de los fallos de RAG no son fallos de modelo — son decisiones tomadas tres capas más arriba que ninguna ingeniería de prompts puede rescatar. El libro está organizado para que esas decisiones aparezcan en el orden en que realmente hay que tomarlas.

Sobre este libro y la serie

La serie LLM Primer es la respuesta larga a la pregunta que me hacían sin parar ingenieros, fundadores y algún regulador ocasional: ¿cómo funcionan de verdad estos sistemas y qué hace falta para construir uno que aguante bajo carga? El Libro I dio la forma. El Libro II dio las matemáticas. El Libro III da la arquitectura de producción. El Libro IV, en marcha, gira hacia MCP y la capa de cognición que se asienta encima del modelo.

¿Quieres el panorama completo ahora mismo? LLM Primer III: Enhancing Enterprise AI with RAG es el libro que este recorrido está mapeando — con las comparaciones arquitectónicas completas, los playbooks de evaluación, las listas de comprobación de seguridad y las plantillas operativas que el walkthrough sólo esboza. Verlo en Amazon →

Nos vemos mañana, con el Capítulo 1.

LLM Primer III — Introducción a la serie e índice