Introducción a LLM

Esta página proporciona una guía sencilla sobre los modelos de lenguaje de gran escala (LLM), desde lo básico hasta las aplicaciones para los entusiastas de la IA.

Total de 43 artículos disponibles. | Actualmente en la página 1 de 1.

Capítulo 17 — Amenazas futuras y defensas emergentes

Última entrega del recorrido de LLM Primer VII y cierre de la serie. Agentes autónomos, superficies de ataque multimodales, identidad sintética y la carrera armamentística IA-contra-IA de mediados de 2026, con un puente reflexivo hacia el volumen hermano Physical AI.

2026-05-26

Capítulo 13 — Panorama regulatorio

Decimotercera entrega del recorrido de LLM Primer VII. El panorama regulatorio plural y aún en consolidación mapeado sobre los controles técnicos desarrollados en capítulos anteriores.

2026-05-22

Capítulo 12 — Control de acceso e identidad

Duodécima entrega del recorrido de LLM Primer VII. Quién tiene permiso para invocar qué capacidad de una aplicación integrada con LLM, y cómo se estructura la aplicación a lo largo de los componentes del sistema.

2026-05-21

Capítulo 10 — Diseño de arquitecturas seguras para LLM

Décima entrega del recorrido de LLM Primer VII. La arquitectura como disciplina primaria de seguridad — porque la configuración más segura de un componente probabilístico es aquella cuyo radio de daño está acotado por la estructura, no por la propia moderación del componente.

2026-05-19

Capítulo 9 — Integridad del modelo y riesgos de la cadena de suministro

Novena entrega del recorrido de LLM Primer VII. El artefacto del modelo como binario distribuido por terceros — con las preocupaciones de deserialización, puertas traseras y procedencia que la distribución binaria siempre ha llevado consigo.

2026-05-18

Capítulo 5 — Validación de entradas y filtrado de salidas

Quinta entrega del recorrido de LLM Primer VII. La arquitectura de mitigación en cuatro capas convertida en disciplina operativa — etapas de saneamiento, tooling de guardrails, salida estructurada, red teaming y métricas de seguridad que significan algo.

2026-05-14

Capítulo 4 — Inyección de prompts y jailbreaks

Cuarta entrega del recorrido de LLM Primer VII. Por qué la inyección de prompts no tiene una corrección estructural análoga a las consultas parametrizadas, y la arquitectura de mitigación por capas que responde a esa ausencia.

2026-05-13

Capítulo 3 — Seguridad de datos y privacidad

Tercera entrega del recorrido de LLM Primer VII. Los datos como activo con ciclo de vida — desde corpus de entrenamiento memorizados hasta entradas de usuario que ingenieros de Samsung pegaron en ChatGPT antes de que el incidente tuviera nombre.

2026-05-12

Capítulo 1 — Por qué la seguridad de la IA es diferente

Primera entrega del recorrido de LLM Primer VII. Por qué la seguridad de la IA no es simplemente la seguridad tradicional con un adjetivo de ML pegado detrás — el sustrato ha cambiado y cada capítulo posterior se deriva de ese cambio.

2026-05-10

LLM Primer VII — Introducción e índice de la serie

Recorrido de LLM Primer VII: Seguridad de la IA. El volumen final, donde el arco de ingeniería de la serie aterriza en la disciplina que decide si algo de lo anterior sobrevive frente a adversarios, reguladores y los modos de fallo cotidianos de los sistemas probabilísticos.

2026-05-09

Capítulo 16 — Estrategias de reducción de coste en producción

Última entrega del recorrido de LLM Primer VI. El catálogo de jugadas ortogonales que se acumulan en un tercio o la mitad de la factura del mes pasado. Routing inteligente, compactación, APIs de batch, caché semántica — cómo cuatro movimientos independientes se multiplican en un 80 % de reducción.

2026-05-08

Capítulo 15 — APIs serverless frente a infraestructura dedicada

Decimoquinta entrega del recorrido de LLM Primer VI. Cuándo autohostear ahorra dinero y cuándo la ingeniería de plataforma se lo come todo. La fórmula del punto de equilibrio, la función escalón que la decide, y por qué la postura realista es híbrida con un router en la frontera.

2026-05-07

Capítulo 10 — La capa del motor LLM

Décima entrega del recorrido de LLM Primer VI. La frontera entre motor y plataforma, y los cinco motores que dominan la capa en 2026. vLLM como default Python-nativo, TensorRT-LLM como pipeline de build, SGLang como RadixAttention agéntico, TGI como Hugging Face y Ollama como edge.

2026-05-02

Capítulo 9 — Decodificación especulativa

Novena entrega del recorrido de LLM Primer VI. Cómo la decodificación especulativa paga por una suposición barata y una verificación un poco más ancha, y si acierta lo bastante a menudo el modelo objetivo produce varios tokens al coste de reloj de uno. EAGLE, Medusa, la aritmética del speedup.

2026-05-01

Capítulo 8 — Gestión de caché KV de nueva generación

Octava entrega del recorrido de LLM Primer VI. Traer la paginación del sistema operativo dentro del motor de inferencia, y convertir la caché KV de una losa de bytes reservados en un recurso compartido, evictable y prefix-cacheable. PagedAttention, H2O, InfiniGen y RadixAttention.

2026-04-30

Capítulo 6 — Pruning y destilación de conocimiento

Sexta entrega del recorrido de LLM Primer VI. Cómo el pruning y la destilación atacan el número de pesos y transfieren la distribución del profesor a un estudiante más pequeño. La sparsity 2:4 que Hopper acelera nativa y las tres compresiones apiladas en su orden correcto.

2026-04-28

Capítulo 5 — Desmitificando la cuantización

Quinta entrega del recorrido de LLM Primer VI. Por qué un modelo de 70B sobrevive la cuantización a 4 bits mientras que uno de 1B no, qué hacen realmente AWQ, GPTQ, SmoothQuant y GGUF, y dónde deja de ser segura y empieza a degradar en silencio.

2026-04-27

Capítulo 4 — Silicio especializado y ASICs de IA

Cuarta entrega del recorrido de LLM Primer VI. La elección entre GPU y ASIC es una pregunta sobre la forma de la carga. Cuándo ganan Groq, Inferentia, TPU y Gaudi, y por qué las GPUs siguen ganando en la frontera y en la variedad de modelos.

2026-04-26

Capítulo 3 — GPUs de centro de datos para IA generativa

Tercera entrega del recorrido de LLM Primer VI. Por qué se compra una GPU de serving por su ancho de banda de HBM y su capacidad de VRAM, no por el número de FLOP/s de la portada de la hoja de especificaciones. H100, H200, B200, L40S y MI300X leídos como perfiles de ancho de banda y capacidad.

2026-04-25

LLM Primer VI — Introducción a la serie e índice

Índice y prólogo del recorrido capítulo por capítulo de LLM Primer VI. Por qué el mismo H100 que sirve un modelo de 70B queda inactivo el 99,7 % del tiempo, y cómo los dieciséis capítulos convierten esa ociosidad en throughput sin romper la latencia que percibe el usuario.

2026-04-22

Capítulo 1 — La disciplina de la ingeniería de IA

Primera entrega del recorrido de LLM Primer V. La brecha de fiabilidad entre demo y producción, el envoltorio determinista alrededor del núcleo probabilístico, y los cinco pilares — fiabilidad, calidad, rendimiento, coste, evolución — que sostienen un sistema LLM que un negocio puede operar.

2026-04-14

LLM Primer V — Presentación de la serie e índice

Presentación del recorrido capítulo por capítulo de LLM Primer V. Por qué la ingeniería de IA es una disciplina en sí misma — no un truco de prompt — y el índice de los ocho capítulos, publicado un artículo al día del 14 al 21 de abril.

2026-04-13

Capítulo 14 — Benchmarking, testing y rendimiento

Decimocuarta y última entrega del recorrido de LLM Primer IV. El MCP-Universe Benchmark sobre servidores reales, los dos modos de fallo sistémico que expuso, la brecha de diez veces en throughput entre sesión por petición y pools de sesión compartidos, y el puente al Volumen V.

2026-04-12

Capítulo 10 — Memoria de tareas de horizonte largo

Décima entrega del recorrido de LLM Primer IV. Memoria a corto plazo mediante ventanas y scratchpads ReAct, memoria a largo plazo mediante vectores episódicos y almacenes semánticos, y las técnicas de compactación que mantienen productivo a un agente a lo largo de horas y días.

2026-04-08

Capítulo 9 — Administrando el presupuesto de atención

Novena entrega del recorrido de LLM Primer IV. Context rot, el acantilado de lost-in-the-middle, tool-loadout rot, y las tres respuestas arquitectónicas — MCP, RAG, fine-tuning — a la pregunta de dónde corresponde de verdad el conocimiento que le falta a un modelo.

2026-04-07

Capítulo 8 — Distribuciones arquitectónicas de despliegue

Octava entrega del recorrido de LLM Primer IV. Las tres distribuciones de despliegue que han emergido en el ecosistema MCP — agente reutilizable, pureza estricta, híbrida — y las cuatro restricciones vinculantes que determinan cuál encaja con cada proyecto.

2026-04-06

Capítulo 1 — La crisis de integración de la IA y el auge de la arquitectura agéntica

Primera entrega del recorrido de LLM Primer IV. Por qué los agentes monolíticos se deshilachan al crecer el system prompt, el problema de integración N por M que se esconde debajo, y el paso de la ingeniería de prompts a la ingeniería de contexto que MCP vino a habilitar.

2026-03-30

LLM Primer IV — Introducción a la serie e índice

Apertura del recorrido capítulo a capítulo del Libro IV de la serie LLM Primer — Diseñando la cognición de la IA con MCP. Por qué los agentes necesitan una capa de protocolo para escalar más allá de la demo, para quién está escrito, y el calendario de los catorce posts que siguen, del 30 de marzo al 12 de abril.

2026-03-29

Capítulo 11 — Actualizaciones continuas y optimización de la pipeline

Undécima y última entrega del recorrido de LLM Primer III. CDC e indexación incremental mantienen el corpus fresco, la caché semántica y la estratificación de modelos mantienen baja la latencia, y un bucle de feedback de cuatro etapas cierra la distancia entre lo que la producción le dice al equipo y lo que el equipo realmente cambia — más un puente al Volumen IV sobre Model Context Protocol.

2026-03-28

Capítulo 8 — Anonimización de datos en la pipeline RAG

Octava entrega del recorrido de LLM Primer III. Anonimización pre-generación frente a post-generación, las tres familias técnicas — enmascaramiento, reemplazo sintético, privacidad diferencial — y la disyuntiva utilidad-privacidad que determina si el sistema sigue siendo útil.

2026-03-25

Capítulo 7 — Implementar el control de acceso

Séptima entrega del recorrido de LLM Primer III. ACLs a nivel de documento como base, RBAC con etiquetas de sensibilidad de Microsoft Purview, ReBAC con Zanzibar y SpiceDB, y la disciplina pre-filter frente a post-filter que corre por debajo de todos ellos.

2026-03-24

Capítulo 5 — Arquitectura de la pipeline de recuperación

Quinta entrega del recorrido de LLM Primer III. Por qué una sola búsqueda vectorial no es una pipeline — recuperación híbrida, reciprocal rank fusion, reranking con cross-encoder y reescritura y HyDE en el lado de la consulta — ensamblado en la arquitectura de producción hacia la que convergen los sistemas RAG maduros.

2026-03-22

Capítulo 4 — Elegir la base de datos vectorial correcta

Cuarta entrega del recorrido de LLM Primer III. La división arquitectónica entre bases de datos vectoriales dedicadas y extensiones tipo Postgres, los líderes gestionados (Pinecone, Vertex), el campo open-source (Qdrant, Milvus, Weaviate), las opciones embebidas, y los tres ejes operativos — residencia, operación, coste — que deciden la elección real.

2026-03-21

Capítulo 1 — La evolución de la arquitectura RAG

Primera entrega del recorrido de LLM Primer III. Las cuatro posturas arquitectónicas de RAG — Naive, Avanzada, Modular, Agéntica — leídas como una historia sobre ceder cada vez más agencia al LLM, y la respuesta honesta a cuándo el fine-tuning es mejor herramienta que la recuperación.

2026-03-18

LLM Primer III — Introducción a la serie e índice

Inicio del recorrido capítulo por capítulo del Libro III de la serie LLM Primer — Mejorando la IA empresarial con RAG. Por qué la generación aumentada por recuperación parece simple desde fuera y por dentro es una pila de disciplinas, para quién está escrito el libro y el calendario de las once entregas que siguen, del 18 al 28 de marzo.

2026-03-17

Capítulo 12 — Construyendo tu propio sistema LLM: de los conjuntos de datos a la producción

Capítulo 12 de la serie LLM Primer I. El capítulo final. Lo que realmente se requiere para construir un sistema impulsado por LLM de extremo a extremo — licenciamiento de conjuntos de datos, pipelines de entrenamiento, marcos de evaluación, la pila de aplicaciones integrada y los patrones de casos de estudio que distinguen a los despliegues exitosos de los pilotos fallidos.

2026-03-01

Capítulo 11 — Investigación de vanguardia: MoE, modelos de razonamiento y el nuevo eje de escalado

Capítulo 11 de la serie LLM Primer I. Las fronteras de investigación que ahora son realidad de producción — mixture-of-experts, memoria con recuperación, tokenización multimodal nativa, aprendizaje continuo y el paradigma de escalado en tiempo de inferencia que produjo los modelos de razonamiento de hoy. La mayor adición de contenido de la edición de 2026.

2026-02-28

Capítulo 7 — Más allá de la predicción del siguiente token: embeddings, recuperación y multimodalidad

Capítulo 7 de la serie LLM Primer I. Las capacidades que convierten a un predictor del siguiente token en algo mucho más — embeddings, búsqueda semántica, generación aumentada con recuperación y la transición a entradas multimodales. Cómo RAG realmente mantiene un LLM anclado en documentos reales en lugar de inventar.

2026-02-24

Capítulo 5 — Entrenando modelos grandes: qué se necesita realmente para un modelo de frontera

Capítulo 5 de la serie LLM Primer I. Cómo se entrenan realmente los LLM de frontera — la tubería de datos, la función de pérdida, los meses de tiempo de GPU y por qué el "entrenamiento" es ahora un problema de ingeniería a escala industrial más que un problema de investigación. Desmitifica para qué están pagando esas corridas de cientos de millones de dólares.

2026-02-22

Capítulo 4 — La arquitectura Transformer: dentro del motor de la IA moderna

Capítulo 4 de la serie LLM Primer I. Un recorrido por el bloque Transformer — cómo el self-attention, la codificación posicional y las capas apiladas se combinan para producir la arquitectura sobre la que está construido cada LLM moderno. Incluye una explicación clara de por qué escalar Transformers funciona, y cuánto cuesta.

2026-02-21

Capítulo 3 — Redes neuronales para el lenguaje: de las RNN al self-attention

Capítulo 3 de la serie LLM Primer I. Por qué las redes feedforward no podían manejar el lenguaje, cómo las RNN chocaron contra un muro y qué cambió la atención. Una progresión conceptual limpia a través de las tres formas de red neuronal que definieron el PLN moderno — sin la ansiedad matemática.

2026-02-20

Un recorrido capítulo por capítulo de LLM Primer I — Introducción a la serie e índice

Introducción e índice del recorrido en doce partes capítulo por capítulo de LLM Primer I: Cómo funciona la IA generativa. Una publicación por día, del 18 de febrero al 1 de marzo de 2026. Léelos en orden o elige el capítulo que más te importe. Los doce están listados y enlazados aquí.

2026-02-17

La Serie LLM Primer — Una guía de campo de la IA generativa, construida volumen a volumen

La serie LLM Primer — una guía de campo de siete volúmenes ya completa sobre IA generativa por Sho Shimoda. Desde fundamentos hasta seguridad. Incluye Physical AI como volumen hermano. Los 7 volúmenes disponibles en Amazon.

2026-02-15