Introducción a LLM

Esta página proporciona una guía sencilla sobre los modelos de lenguaje de gran escala (LLM), desde lo básico hasta las aplicaciones para los entusiastas de la IA.

Total de 42 artículos disponibles. | Actualmente en la página 1 de 1.

Capítulo 11 — Observabilidad, registro y respuesta a incidentes

Undécima entrega del recorrido de LLM Primer VII. Logging, alertado y respuesta a incidentes como la capa que convierte las defensas arquitectónicas en un sistema que los operadores pueden realmente operar.

2026-05-20

Capítulo 7 — Alucinaciones y fiabilidad

Séptima entrega del recorrido de LLM Primer VII. La fiabilidad como propiedad de seguridad — porque una salida confiadamente incorrecta es un problema de seguridad siempre que las consecuencias dependan de la corrección.

2026-05-16

Capítulo 6 — Riesgos de la generación aumentada por recuperación

Sexta entrega del recorrido de LLM Primer VII. El corpus de recuperación como canal de entrada no confiable — porque cada documento indexado es, desde la perspectiva del modelo, una instrucción en pie de igualdad con la pregunta del usuario.

2026-05-15

Capítulo 5 — Validación de entradas y filtrado de salidas

Quinta entrega del recorrido de LLM Primer VII. La arquitectura de mitigación en cuatro capas convertida en disciplina operativa — etapas de saneamiento, tooling de guardrails, salida estructurada, red teaming y métricas de seguridad que significan algo.

2026-05-14

Capítulo 2 — Modelado de amenazas para sistemas LLM

Segunda entrega del recorrido de LLM Primer VII. Las cuatro preguntas de Shostack, STRIDE, PASTA y MITRE ATLAS aplicados a un sistema cuyo componente más poderoso lee toda entrada como potencialmente instructiva.

2026-05-11

Capítulo 1 — Por qué la seguridad de la IA es diferente

Primera entrega del recorrido de LLM Primer VII. Por qué la seguridad de la IA no es simplemente la seguridad tradicional con un adjetivo de ML pegado detrás — el sustrato ha cambiado y cada capítulo posterior se deriva de ese cambio.

2026-05-10

LLM Primer VII — Introducción e índice de la serie

Recorrido de LLM Primer VII: Seguridad de la IA. El volumen final, donde el arco de ingeniería de la serie aterriza en la disciplina que decide si algo de lo anterior sobrevive frente a adversarios, reguladores y los modos de fallo cotidianos de los sistemas probabilísticos.

2026-05-09

Capítulo 12 — Serving desagregado y Kubernetes

Duodécima entrega del recorrido de LLM Primer VI. Separar prefill y decode en flotas GPU distintas, y las primitivas de Kubernetes que mantienen los pods del lado correcto de la interconexión. LeaderWorkerSet, Grove PodCliqueSet y el scheduler consciente de topología.

2026-05-04

Capítulo 11 — La capa de plataforma y orquestación

Undécima entrega del recorrido de LLM Primer VI. La elección de plataforma no es sobre features sino sobre qué modelo operativo encaja con la cultura de operaciones del equipo. Ray Serve como Python-first, KServe como Kubernetes-first, BentoML como artefacto y Triton como batcher heterogéneo.

2026-05-03

Capítulo 8 — Gestión de caché KV de nueva generación

Octava entrega del recorrido de LLM Primer VI. Traer la paginación del sistema operativo dentro del motor de inferencia, y convertir la caché KV de una losa de bytes reservados en un recurso compartido, evictable y prefix-cacheable. PagedAttention, H2O, InfiniGen y RadixAttention.

2026-04-30

Capítulo 7 — Estrategias de batching avanzadas

Séptima entrega del recorrido de LLM Primer VI. Por qué el batching no es una optimización sino el movimiento que hace tratable el decoding limitado por ancho de banda, y por qué el batch es un verbo, no un sustantivo. Estático, continuo y chunked prefill.

2026-04-29

Capítulo 4 — Silicio especializado y ASICs de IA

Cuarta entrega del recorrido de LLM Primer VI. La elección entre GPU y ASIC es una pregunta sobre la forma de la carga. Cuándo ganan Groq, Inferentia, TPU y Gaudi, y por qué las GPUs siguen ganando en la frontera y en la variedad de modelos.

2026-04-26

LLM Primer VI — Introducción a la serie e índice

Índice y prólogo del recorrido capítulo por capítulo de LLM Primer VI. Por qué el mismo H100 que sirve un modelo de 70B queda inactivo el 99,7 % del tiempo, y cómo los dieciséis capítulos convierten esa ociosidad en throughput sin romper la latencia que percibe el usuario.

2026-04-22

Capítulo 7 — Seguridad LLM y guardrails

Séptima entrega del recorrido de LLM Primer V. El nuevo eje de seguridad que introducen las aplicaciones LLM, la taxonomía inyección directa versus indirecta con la noción de origen de confianza, la matriz de mitigación en cuatro capas y las topologías soberanas air-gapped para industrias reguladas.

2026-04-20

Capítulo 5 — Evaluar aplicaciones LLM

Quinta entrega del recorrido de LLM Primer V. Por qué assertEqual está muerto para salidas LLM, cómo se reconstruye el testing alrededor de jueces anclados, el RAG Triad y los tests de trayectoria para agentes, y el bucle donde las trazas de producción alimentan la evaluación que da paso a la siguiente release.

2026-04-18

Capítulo 4 — Agentes de IA y llamada a herramientas

Cuarta entrega del recorrido de LLM Primer V. El bucle ReAct como base y sus tres aumentaciones, los esquemas de herramientas como contrato del que depende toda la fiabilidad, y las tres capas de memoria — a corto plazo, a largo plazo y semántica — que un agente necesita de verdad.

2026-04-17

Capítulo 3 — Generación aumentada por recuperación

Tercera entrega del recorrido de LLM Primer V. El pipeline RAG de cinco etapas — cargar, chunkear, embebir, recuperar, generar — donde casi toda queja de calidad rastreada hasta su raíz resulta ser una queja de chunking disfrazada, y la recuperación híbrida con reranker es la forma en la que converge la producción.

2026-04-16

Capítulo 2 — Modelos base e ingeniería de prompts

Segunda entrega del recorrido de LLM Primer V. Selección de modelo como decisión de enrutado, muestreo como perfil deliberado, y prompts defensivos con salidas estructuradas — cuatro superficies de control que el equipo opera con intención o sufre las consecuencias.

2026-04-15

LLM Primer V — Presentación de la serie e índice

Presentación del recorrido capítulo por capítulo de LLM Primer V. Por qué la ingeniería de IA es una disciplina en sí misma — no un truco de prompt — y el índice de los ocho capítulos, publicado un artículo al día del 14 al 21 de abril.

2026-04-13

Capítulo 10 — Memoria de tareas de horizonte largo

Décima entrega del recorrido de LLM Primer IV. Memoria a corto plazo mediante ventanas y scratchpads ReAct, memoria a largo plazo mediante vectores episódicos y almacenes semánticos, y las técnicas de compactación que mantienen productivo a un agente a lo largo de horas y días.

2026-04-08

Capítulo 9 — Administrando el presupuesto de atención

Novena entrega del recorrido de LLM Primer IV. Context rot, el acantilado de lost-in-the-middle, tool-loadout rot, y las tres respuestas arquitectónicas — MCP, RAG, fine-tuning — a la pregunta de dónde corresponde de verdad el conocimiento que le falta a un modelo.

2026-04-07

Capítulo 8 — Distribuciones arquitectónicas de despliegue

Octava entrega del recorrido de LLM Primer IV. Las tres distribuciones de despliegue que han emergido en el ecosistema MCP — agente reutilizable, pureza estricta, híbrida — y las cuatro restricciones vinculantes que determinan cuál encaja con cada proyecto.

2026-04-06

LLM Primer IV — Introducción a la serie e índice

Apertura del recorrido capítulo a capítulo del Libro IV de la serie LLM Primer — Diseñando la cognición de la IA con MCP. Por qué los agentes necesitan una capa de protocolo para escalar más allá de la demo, para quién está escrito, y el calendario de los catorce posts que siguen, del 30 de marzo al 12 de abril.

2026-03-29

Capítulo 11 — Actualizaciones continuas y optimización de la pipeline

Undécima y última entrega del recorrido de LLM Primer III. CDC e indexación incremental mantienen el corpus fresco, la caché semántica y la estratificación de modelos mantienen baja la latencia, y un bucle de feedback de cuatro etapas cierra la distancia entre lo que la producción le dice al equipo y lo que el equipo realmente cambia — más un puente al Volumen IV sobre Model Context Protocol.

2026-03-28

Capítulo 10 — Frameworks de evaluación líderes

Décima entrega del recorrido de LLM Primer III. Una guía de campo sobre los frameworks que convierten la tríada de evaluación en algo que un equipo puede correr de verdad — RAGAS, TruLens, DeepEval por un lado, Braintrust, LangSmith, Phoenix, Galileo, Opik por el otro, y el Hueco de Evaluación que ninguno ha cerrado aún.

2026-03-27

Capítulo 9 — La tríada de evaluación de RAG

Novena entrega del recorrido de LLM Primer III. Un sistema RAG puede fallar en tres lugares distintos y los fallos parecen idénticos desde fuera — la tríada de evaluación de Relevancia del Contexto, Fidelidad y Relevancia de la Respuesta es el pequeño vocabulario que evita arreglar un bug mientras se mide otro.

2026-03-26

Capítulo 8 — Anonimización de datos en la pipeline RAG

Octava entrega del recorrido de LLM Primer III. Anonimización pre-generación frente a post-generación, las tres familias técnicas — enmascaramiento, reemplazo sintético, privacidad diferencial — y la disyuntiva utilidad-privacidad que determina si el sistema sigue siendo útil.

2026-03-25

Capítulo 7 — Implementar el control de acceso

Séptima entrega del recorrido de LLM Primer III. ACLs a nivel de documento como base, RBAC con etiquetas de sensibilidad de Microsoft Purview, ReBAC con Zanzibar y SpiceDB, y la disciplina pre-filter frente a post-filter que corre por debajo de todos ellos.

2026-03-24

Capítulo 6 — Modelos de amenazas y vulnerabilidades en RAG

Sexta entrega del recorrido de LLM Primer III. La superficie de ataque ampliada de la recuperación — envenenamiento del corpus, chunks adversariales, inyección indirecta de prompts, inversión de embeddings y el problema del confused deputy en RAG agéntico. Ataques concretos, todos demostrados, todos reproducibles.

2026-03-23

Capítulo 5 — Arquitectura de la pipeline de recuperación

Quinta entrega del recorrido de LLM Primer III. Por qué una sola búsqueda vectorial no es una pipeline — recuperación híbrida, reciprocal rank fusion, reranking con cross-encoder y reescritura y HyDE en el lado de la consulta — ensamblado en la arquitectura de producción hacia la que convergen los sistemas RAG maduros.

2026-03-22

Capítulo 4 — Elegir la base de datos vectorial correcta

Cuarta entrega del recorrido de LLM Primer III. La división arquitectónica entre bases de datos vectoriales dedicadas y extensiones tipo Postgres, los líderes gestionados (Pinecone, Vertex), el campo open-source (Qdrant, Milvus, Weaviate), las opciones embebidas, y los tres ejes operativos — residencia, operación, coste — que deciden la elección real.

2026-03-21

Capítulo 3 — Frameworks avanzados de chunking

Tercera entrega del recorrido de LLM Primer III. El espectro del chunking desde tamaño fijo hasta consciente de la estructura, el mito del solapamiento, el precipicio de contexto que destruye la recuperación en silencio y las técnicas de recuperación contextual y late chunking que han remodelado la frontera.

2026-03-20

Capítulo 2 — Parsing inteligente de documentos

Segunda entrega del recorrido de LLM Primer III. Por qué un PDF no es un fichero de texto, qué preserva en realidad un parser consciente del layout, el panorama actual de herramientas (LlamaParse, Docling, Unstructured, Marker-PDF, Firecrawl, DeepSeek-OCR) y la vía multimodal que recupera directamente sobre imágenes de página.

2026-03-19

Capítulo 1 — La evolución de la arquitectura RAG

Primera entrega del recorrido de LLM Primer III. Las cuatro posturas arquitectónicas de RAG — Naive, Avanzada, Modular, Agéntica — leídas como una historia sobre ceder cada vez más agencia al LLM, y la respuesta honesta a cuándo el fine-tuning es mejor herramienta que la recuperación.

2026-03-18

LLM Primer III — Introducción a la serie e índice

Inicio del recorrido capítulo por capítulo del Libro III de la serie LLM Primer — Mejorando la IA empresarial con RAG. Por qué la generación aumentada por recuperación parece simple desde fuera y por dentro es una pila de disciplinas, para quién está escrito el libro y el calendario de las once entregas que siguen, del 18 al 28 de marzo.

2026-03-17

Capítulo 12 — Construyendo tu propio sistema LLM: de los conjuntos de datos a la producción

Capítulo 12 de la serie LLM Primer I. El capítulo final. Lo que realmente se requiere para construir un sistema impulsado por LLM de extremo a extremo — licenciamiento de conjuntos de datos, pipelines de entrenamiento, marcos de evaluación, la pila de aplicaciones integrada y los patrones de casos de estudio que distinguen a los despliegues exitosos de los pilotos fallidos.

2026-03-01

Capítulo 11 — Investigación de vanguardia: MoE, modelos de razonamiento y el nuevo eje de escalado

Capítulo 11 de la serie LLM Primer I. Las fronteras de investigación que ahora son realidad de producción — mixture-of-experts, memoria con recuperación, tokenización multimodal nativa, aprendizaje continuo y el paradigma de escalado en tiempo de inferencia que produjo los modelos de razonamiento de hoy. La mayor adición de contenido de la edición de 2026.

2026-02-28

Capítulo 9 — Rendimiento, escalado y costos: los compromisos reales de ingeniería

Capítulo 9 de la serie LLM Primer I. Las realidades operativas de ejecutar LLM a escala — tamaño del modelo vs capacidad, el compromiso latencia–throughput, economía de costos, cuantización y despliegue en el borde. Por qué los modelos de frontera son a menudo la elección equivocada incluso cuando puedes permitírtelos.

2026-02-26

Capítulo 8 — Usando LLM en aplicaciones: chatbots, código, extracción y agentes

Capítulo 8 de la serie LLM Primer I. Los patrones de aplicación que realmente llegan a producción — chatbots, resumen, asistentes de código, extracción estructurada y el auge de los sistemas agénticos donde el modelo conduce un bucle de uso de herramientas. Más los benchmarks que todo ingeniero debería reconocer por su nombre.

2026-02-25

Capítulo 7 — Más allá de la predicción del siguiente token: embeddings, recuperación y multimodalidad

Capítulo 7 de la serie LLM Primer I. Las capacidades que convierten a un predictor del siguiente token en algo mucho más — embeddings, búsqueda semántica, generación aumentada con recuperación y la transición a entradas multimodales. Cómo RAG realmente mantiene un LLM anclado en documentos reales en lugar de inventar.

2026-02-24

Capítulo 6 — Ajuste fino y adaptación: del modelo crudo al asistente útil

Capítulo 6 de la serie LLM Primer I. La pila completa de adaptación — desde el direccionamiento barato basado en prompts, pasando por el ajuste fino eficiente en parámetros, hasta la alineación completa con RLHF y sus sucesores modernos como DPO. Por qué el post-entrenamiento es ahora donde las APIs de modelos cerrados realmente se diferencian.

2026-02-23

La Serie LLM Primer — Una guía de campo de la IA generativa, construida volumen a volumen

La serie LLM Primer — una guía de campo de siete volúmenes ya completa sobre IA generativa por Sho Shimoda. Desde fundamentos hasta seguridad. Incluye Physical AI como volumen hermano. Los 7 volúmenes disponibles en Amazon.

2026-02-15