Introducción a LLM

Esta página proporciona una guía sencilla sobre los modelos de lenguaje de gran escala (LLM), desde lo básico hasta las aplicaciones para los entusiastas de la IA.

Total de 83 artículos disponibles. | Actualmente en la página 1 de 2.

Capítulo 17 — Amenazas futuras y defensas emergentes

Última entrega del recorrido de LLM Primer VII y cierre de la serie. Agentes autónomos, superficies de ataque multimodales, identidad sintética y la carrera armamentística IA-contra-IA de mediados de 2026, con un puente reflexivo hacia el volumen hermano Physical AI.

2026-05-26

Capítulo 16 — Ajuste fino y adaptación seguros

Decimosexta entrega del recorrido de LLM Primer VII. El modelo ajustado como artefacto cuyas propiedades de seguridad deben ganarse, no heredarse — porque los mismos pasos de gradiente que enseñan vocabulario de dominio pueden erosionar el alineamiento del modelo base.

2026-05-25

Capítulo 15 — Construir una organización de IA segura

Decimoquinta entrega del recorrido de LLM Primer VII. Cultura de seguridad, red teams, riesgo de proveedores y stewardship a largo plazo como la infraestructura organizacional que sostiene la disciplina a lo largo de los años.

2026-05-24

Capítulo 14 — Sesgo, equidad e IA responsable

Decimocuarta entrega del recorrido de LLM Primer VII. La IA responsable como disciplina de elecciones bajo incertidumbre — donde las herramientas técnicas hacen aflorar las disyuntivas sin resolverlas.

2026-05-23

Capítulo 13 — Panorama regulatorio

Decimotercera entrega del recorrido de LLM Primer VII. El panorama regulatorio plural y aún en consolidación mapeado sobre los controles técnicos desarrollados en capítulos anteriores.

2026-05-22

Capítulo 12 — Control de acceso e identidad

Duodécima entrega del recorrido de LLM Primer VII. Quién tiene permiso para invocar qué capacidad de una aplicación integrada con LLM, y cómo se estructura la aplicación a lo largo de los componentes del sistema.

2026-05-21

Capítulo 11 — Observabilidad, registro y respuesta a incidentes

Undécima entrega del recorrido de LLM Primer VII. Logging, alertado y respuesta a incidentes como la capa que convierte las defensas arquitectónicas en un sistema que los operadores pueden realmente operar.

2026-05-20

Capítulo 10 — Diseño de arquitecturas seguras para LLM

Décima entrega del recorrido de LLM Primer VII. La arquitectura como disciplina primaria de seguridad — porque la configuración más segura de un componente probabilístico es aquella cuyo radio de daño está acotado por la estructura, no por la propia moderación del componente.

2026-05-19

Capítulo 9 — Integridad del modelo y riesgos de la cadena de suministro

Novena entrega del recorrido de LLM Primer VII. El artefacto del modelo como binario distribuido por terceros — con las preocupaciones de deserialización, puertas traseras y procedencia que la distribución binaria siempre ha llevado consigo.

2026-05-18

Capítulo 8 — Ataques adversariales contra modelos

Octava entrega del recorrido de LLM Primer VII. El linaje de ataques adversariales desde FGSM en 2014 hasta TextFooler, los sufijos universales y el robo de modelos contra APIs de producción.

2026-05-17

Capítulo 7 — Alucinaciones y fiabilidad

Séptima entrega del recorrido de LLM Primer VII. La fiabilidad como propiedad de seguridad — porque una salida confiadamente incorrecta es un problema de seguridad siempre que las consecuencias dependan de la corrección.

2026-05-16

Capítulo 6 — Riesgos de la generación aumentada por recuperación

Sexta entrega del recorrido de LLM Primer VII. El corpus de recuperación como canal de entrada no confiable — porque cada documento indexado es, desde la perspectiva del modelo, una instrucción en pie de igualdad con la pregunta del usuario.

2026-05-15

Capítulo 5 — Validación de entradas y filtrado de salidas

Quinta entrega del recorrido de LLM Primer VII. La arquitectura de mitigación en cuatro capas convertida en disciplina operativa — etapas de saneamiento, tooling de guardrails, salida estructurada, red teaming y métricas de seguridad que significan algo.

2026-05-14

Capítulo 4 — Inyección de prompts y jailbreaks

Cuarta entrega del recorrido de LLM Primer VII. Por qué la inyección de prompts no tiene una corrección estructural análoga a las consultas parametrizadas, y la arquitectura de mitigación por capas que responde a esa ausencia.

2026-05-13

Capítulo 3 — Seguridad de datos y privacidad

Tercera entrega del recorrido de LLM Primer VII. Los datos como activo con ciclo de vida — desde corpus de entrenamiento memorizados hasta entradas de usuario que ingenieros de Samsung pegaron en ChatGPT antes de que el incidente tuviera nombre.

2026-05-12

Capítulo 2 — Modelado de amenazas para sistemas LLM

Segunda entrega del recorrido de LLM Primer VII. Las cuatro preguntas de Shostack, STRIDE, PASTA y MITRE ATLAS aplicados a un sistema cuyo componente más poderoso lee toda entrada como potencialmente instructiva.

2026-05-11

Capítulo 1 — Por qué la seguridad de la IA es diferente

Primera entrega del recorrido de LLM Primer VII. Por qué la seguridad de la IA no es simplemente la seguridad tradicional con un adjetivo de ML pegado detrás — el sustrato ha cambiado y cada capítulo posterior se deriva de ese cambio.

2026-05-10

LLM Primer VII — Introducción e índice de la serie

Recorrido de LLM Primer VII: Seguridad de la IA. El volumen final, donde el arco de ingeniería de la serie aterriza en la disciplina que decide si algo de lo anterior sobrevive frente a adversarios, reguladores y los modos de fallo cotidianos de los sistemas probabilísticos.

2026-05-09

Capítulo 16 — Estrategias de reducción de coste en producción

Última entrega del recorrido de LLM Primer VI. El catálogo de jugadas ortogonales que se acumulan en un tercio o la mitad de la factura del mes pasado. Routing inteligente, compactación, APIs de batch, caché semántica — cómo cuatro movimientos independientes se multiplican en un 80 % de reducción.

2026-05-08

Capítulo 15 — APIs serverless frente a infraestructura dedicada

Decimoquinta entrega del recorrido de LLM Primer VI. Cuándo autohostear ahorra dinero y cuándo la ingeniería de plataforma se lo come todo. La fórmula del punto de equilibrio, la función escalón que la decide, y por qué la postura realista es híbrida con un router en la frontera.

2026-05-07

Capítulo 14 — Economía del token y precios de API

Decimocuarta entrega del recorrido de LLM Primer VI. Por qué el token es la unidad de precio, por qué la salida cuesta 4–8× más que la entrada, y cómo la acumulación de contexto y los tokens invisibles de razonamiento acaban en la factura.

2026-05-06

Capítulo 13 — Autoscaling y mitigación de cold start

Decimotercera entrega del recorrido de LLM Primer VI. Por qué el HPA por defecto produce outages bajo tráfico LLM, cómo KEDA escala sobre profundidad de cola, TTFT y ocupación de KV, y cómo CRIU comprime un cold start de 90 segundos hasta 3–6 segundos.

2026-05-05

Capítulo 12 — Serving desagregado y Kubernetes

Duodécima entrega del recorrido de LLM Primer VI. Separar prefill y decode en flotas GPU distintas, y las primitivas de Kubernetes que mantienen los pods del lado correcto de la interconexión. LeaderWorkerSet, Grove PodCliqueSet y el scheduler consciente de topología.

2026-05-04

Capítulo 11 — La capa de plataforma y orquestación

Undécima entrega del recorrido de LLM Primer VI. La elección de plataforma no es sobre features sino sobre qué modelo operativo encaja con la cultura de operaciones del equipo. Ray Serve como Python-first, KServe como Kubernetes-first, BentoML como artefacto y Triton como batcher heterogéneo.

2026-05-03

Capítulo 10 — La capa del motor LLM

Décima entrega del recorrido de LLM Primer VI. La frontera entre motor y plataforma, y los cinco motores que dominan la capa en 2026. vLLM como default Python-nativo, TensorRT-LLM como pipeline de build, SGLang como RadixAttention agéntico, TGI como Hugging Face y Ollama como edge.

2026-05-02

Capítulo 9 — Decodificación especulativa

Novena entrega del recorrido de LLM Primer VI. Cómo la decodificación especulativa paga por una suposición barata y una verificación un poco más ancha, y si acierta lo bastante a menudo el modelo objetivo produce varios tokens al coste de reloj de uno. EAGLE, Medusa, la aritmética del speedup.

2026-05-01

Capítulo 8 — Gestión de caché KV de nueva generación

Octava entrega del recorrido de LLM Primer VI. Traer la paginación del sistema operativo dentro del motor de inferencia, y convertir la caché KV de una losa de bytes reservados en un recurso compartido, evictable y prefix-cacheable. PagedAttention, H2O, InfiniGen y RadixAttention.

2026-04-30

Capítulo 7 — Estrategias de batching avanzadas

Séptima entrega del recorrido de LLM Primer VI. Por qué el batching no es una optimización sino el movimiento que hace tratable el decoding limitado por ancho de banda, y por qué el batch es un verbo, no un sustantivo. Estático, continuo y chunked prefill.

2026-04-29

Capítulo 6 — Pruning y destilación de conocimiento

Sexta entrega del recorrido de LLM Primer VI. Cómo el pruning y la destilación atacan el número de pesos y transfieren la distribución del profesor a un estudiante más pequeño. La sparsity 2:4 que Hopper acelera nativa y las tres compresiones apiladas en su orden correcto.

2026-04-28

Capítulo 5 — Desmitificando la cuantización

Quinta entrega del recorrido de LLM Primer VI. Por qué un modelo de 70B sobrevive la cuantización a 4 bits mientras que uno de 1B no, qué hacen realmente AWQ, GPTQ, SmoothQuant y GGUF, y dónde deja de ser segura y empieza a degradar en silencio.

2026-04-27

Capítulo 4 — Silicio especializado y ASICs de IA

Cuarta entrega del recorrido de LLM Primer VI. La elección entre GPU y ASIC es una pregunta sobre la forma de la carga. Cuándo ganan Groq, Inferentia, TPU y Gaudi, y por qué las GPUs siguen ganando en la frontera y en la variedad de modelos.

2026-04-26

Capítulo 3 — GPUs de centro de datos para IA generativa

Tercera entrega del recorrido de LLM Primer VI. Por qué se compra una GPU de serving por su ancho de banda de HBM y su capacidad de VRAM, no por el número de FLOP/s de la portada de la hoja de especificaciones. H100, H200, B200, L40S y MI300X leídos como perfiles de ancho de banda y capacidad.

2026-04-25

Capítulo 2 — El desafío de la caché KV

Segunda entrega del recorrido de LLM Primer VI. La estructura de datos que se come la VRAM de todo sistema de serving antes de que los pesos tengan oportunidad, la fórmula que gobierna su tamaño, las variantes arquitectónicas que la reducen y el problema de fragmentación que arruina la asignación ingenua.

2026-04-24

Capítulo 1 — La mecánica de la generación de tokens

Primera entrega del recorrido de LLM Primer VI. Por qué casi toda pregunta difícil sobre el serving de LLMs desciende de un único hecho — el bucle que produce cada token está limitado por el ancho de banda de memoria, y el cómputo caro por el que pagaste está inactivo el 99,7 % del tiempo.

2026-04-23

LLM Primer VI — Introducción a la serie e índice

Índice y prólogo del recorrido capítulo por capítulo de LLM Primer VI. Por qué el mismo H100 que sirve un modelo de 70B queda inactivo el 99,7 % del tiempo, y cómo los dieciséis capítulos convierten esa ociosidad en throughput sin romper la latencia que percibe el usuario.

2026-04-22

Capítulo 6 — Observabilidad y trazado en IA

Sexta entrega del recorrido de LLM Primer V. Del log plano de peticiones a la traza causal anidada, las convenciones semánticas GenAI de OpenTelemetry, las métricas — TTFT, TPOT, coste, calidad — que sí importan, y el pipeline de exportación que convierte cada traza de producción en el próximo caso de evaluación.

2026-04-19

Capítulo 5 — Evaluar aplicaciones LLM

Quinta entrega del recorrido de LLM Primer V. Por qué assertEqual está muerto para salidas LLM, cómo se reconstruye el testing alrededor de jueces anclados, el RAG Triad y los tests de trayectoria para agentes, y el bucle donde las trazas de producción alimentan la evaluación que da paso a la siguiente release.

2026-04-18

Capítulo 4 — Agentes de IA y llamada a herramientas

Cuarta entrega del recorrido de LLM Primer V. El bucle ReAct como base y sus tres aumentaciones, los esquemas de herramientas como contrato del que depende toda la fiabilidad, y las tres capas de memoria — a corto plazo, a largo plazo y semántica — que un agente necesita de verdad.

2026-04-17

Capítulo 3 — Generación aumentada por recuperación

Tercera entrega del recorrido de LLM Primer V. El pipeline RAG de cinco etapas — cargar, chunkear, embebir, recuperar, generar — donde casi toda queja de calidad rastreada hasta su raíz resulta ser una queja de chunking disfrazada, y la recuperación híbrida con reranker es la forma en la que converge la producción.

2026-04-16

Capítulo 1 — La disciplina de la ingeniería de IA

Primera entrega del recorrido de LLM Primer V. La brecha de fiabilidad entre demo y producción, el envoltorio determinista alrededor del núcleo probabilístico, y los cinco pilares — fiabilidad, calidad, rendimiento, coste, evolución — que sostienen un sistema LLM que un negocio puede operar.

2026-04-14

LLM Primer V — Presentación de la serie e índice

Presentación del recorrido capítulo por capítulo de LLM Primer V. Por qué la ingeniería de IA es una disciplina en sí misma — no un truco de prompt — y el índice de los ocho capítulos, publicado un artículo al día del 14 al 21 de abril.

2026-04-13

Capítulo 14 — Benchmarking, testing y rendimiento

Decimocuarta y última entrega del recorrido de LLM Primer IV. El MCP-Universe Benchmark sobre servidores reales, los dos modos de fallo sistémico que expuso, la brecha de diez veces en throughput entre sesión por petición y pools de sesión compartidos, y el puente al Volumen V.

2026-04-12

Capítulo 13 — Frameworks e integración con la nube

Decimotercera entrega del recorrido de LLM Primer IV. Strands con Bedrock, el patrón de capa de estado de AWS, el Microsoft Agent Framework, LangChain, Semantic Kernel — y las tres formas de integración de producción a las que los equipos llegan de forma independiente.

2026-04-11

Capítulo 12 — Endurecimiento del protocolo y defensas

Duodécima entrega del recorrido de LLM Primer IV. Los cuatro racimos de defensa — atestación criptográfica, disciplina de scopes OAuth con sesiones acotadas, sandboxing en tiempo de ejecución y puertas human-in-the-loop — se componen en una postura que no depende de que el modelo se comporte correctamente bajo condiciones adversarias.

2026-04-10

Capítulo 11 — Superficies de ataque y vulnerabilidades del protocolo

Undécima entrega del recorrido de LLM Primer IV. Los ataques clásicos adaptados a MCP — Confused Deputy, Token Passthrough, Session Hijacking — los defectos a nivel de protocolo de escalado de capacidades y sampling sin autenticar, y la propagación implícita de confianza que vuelve estructural y no de higiene el envenenamiento de contexto.

2026-04-09

Capítulo 10 — Memoria de tareas de horizonte largo

Décima entrega del recorrido de LLM Primer IV. Memoria a corto plazo mediante ventanas y scratchpads ReAct, memoria a largo plazo mediante vectores episódicos y almacenes semánticos, y las técnicas de compactación que mantienen productivo a un agente a lo largo de horas y días.

2026-04-08

Capítulo 9 — Administrando el presupuesto de atención

Novena entrega del recorrido de LLM Primer IV. Context rot, el acantilado de lost-in-the-middle, tool-loadout rot, y las tres respuestas arquitectónicas — MCP, RAG, fine-tuning — a la pregunta de dónde corresponde de verdad el conocimiento que le falta a un modelo.

2026-04-07

Capítulo 8 — Distribuciones arquitectónicas de despliegue

Octava entrega del recorrido de LLM Primer IV. Las tres distribuciones de despliegue que han emergido en el ecosistema MCP — agente reutilizable, pureza estricta, híbrida — y las cuatro restricciones vinculantes que determinan cuál encaja con cada proyecto.

2026-04-06

Capítulo 7 — Patrones colaborativos avanzados y dinámicos

Séptima entrega del recorrido de LLM Primer IV. Consenso en mesa redonda, enrutado por handoff y orquestación magéntica — los patrones que aparecen cuando la topología hay que construirla por petición, con los modos de fallo (no-terminación, mis-routing, planificación descontrolada) que los patrones más simples evitan.

2026-04-05

Capítulo 6 — Estrategias fundamentales de orquestación

Sexta entrega del recorrido de LLM Primer IV. Las dos formas fundacionales de orquestación — pipelines secuenciales y scatter-gather concurrente — y la pregunta previa que todo equipo debería hacerse: ¿es un sistema multi-agente la respuesta correcta?

2026-04-04

Página 1 de 2