Capítulo 10 — Memoria de tareas de horizonte largo

Décima entrega del recorrido capítulo por capítulo de LLM Primer IV: Designing AI Cognition with MCP. En el que la pregunta deja de ser "cuánto cabe" y pasa a ser "qué recordar y qué olvidar", y las ventanas de contexto de siete cifras que llegan hoy resulta que posponen el muro una hora, no lo retiran.

Por qué existe este capítulo

Un agente que corre treinta segundos puede llevar en su prompt todo lo que necesita. Un agente que corre tres horas no. El trabajo que haga en la primera hora no cabrá junto al que haga en la tercera, y la cuestión de qué recordar y qué olvidar se convierte en el problema central de ingeniería. La ventana de contexto ya no es un presupuesto a administrar; es una superficie de trabajo que hay que refrescar continuamente contra un almacén más profundo. Este capítulo trata la arquitectura de recordar — memoria a corto plazo para razonamiento inmediato, memoria a largo plazo para persistencia entre sesiones, y las técnicas de compactación y externalización que las conectan.

En una línea: la memoria a corto plazo no es la memoria del modelo sino la memoria del bucle del agente, materializada como texto e inyectada en cada llamada — lo que significa que cada decisión sobre lo que el modelo recuerda es una decisión que el bucle toma explícitamente, en código, sin estado oculto que depurar.

10.1 Memoria a corto plazo: ventanas, scratchpads, ReAct

La memoria a corto plazo es lo que sea que esté dentro de la ventana de contexto actual y disponible sin lookup externo. La política más simple es la ventana deslizante: mantén el system prompt y las descripciones de herramientas arriba, mantén los N turnos más recientes abajo, descarta todo lo del medio. Funciona mientras el contexto relevante sea reciente, lo que es verdad para conversaciones cortas y falso para casi todo lo demás. El modo de fallo es limpio — una vez que un turno se descarta, se acabó — y el agente olvidará visiblemente las instrucciones del usuario en el punto predecible en el que la ventana se llene por primera vez.

La siguiente capa es el scratchpad, una región estructurada del contexto en la que el modelo escribe deliberadamente. Los scratchpads internos llevan el razonamiento intermedio hacia adelante dentro del bucle; los externos escriben notas vía llamada a herramienta en un buffer almacenado que contextos futuros inyectan. El patrón que le dio a los scratchpads su forma canónica es ReAct — Reason and Act — introducido por Yao y colegas en 2022. El bucle intercala pensamiento, acción, observación, hasta que el modelo decide que tiene la respuesta. La estructura externaliza el razonamiento como artefactos textuales explícitos a los que el modelo puede referirse, y le da al bucle del agente andamiaje visible para operaciones de memoria: los pensamientos se pueden resumir, las acciones deduplicar, las observaciones compactar. Los agentes construidos sin ReAct o una variante cercana tienden a enredar razonamiento y acción de formas que vuelven opaco su estado.

Un complemento práctico es Reflexion, que añade un paso explícito de reflexión en el que el modelo evalúa sus acciones recientes y escribe una crítica en el scratchpad para el siguiente intento. Los frameworks modernos de agente mezclan los dos en un único bucle configurable, con la reflexión disparada por una señal de fallo en vez de en cada ciclo.

10.2 Memoria a largo plazo: episódica y semántica

Cuando la memoria a corto plazo termina, empieza la de largo plazo. La distinción de la ciencia cognitiva entre memoria episódica (eventos específicos) y semántica (hechos generales) ha resultado útil para los agentes. La memoria episódica es el registro de interacciones pasadas específicas; la semántica es el conocimiento destilado que sobrevivió — que este usuario prefiere unidades métricas, que el comando de despliegue de este proyecto es make ship, que esta API devuelve errores con pinta de éxito.

La memoria episódica es, en la práctica actual, casi siempre una base de datos vectorial. Cada interacción pasada se embebe, se guarda con metadatos y se recupera en tiempo de consulta por similitud semántica. El patrón es RAG aplicado al pasado del propio agente en vez de a un corpus de documentos, y la ingeniería — chunking, elección de embeddings, evaluación de recuperación — es prácticamente idéntica a lo que cubre el Volumen III.

La memoria semántica está menos estandarizada. Los dos sustratos dominantes son almacenes clave-valor estructurados y grafos de conocimiento. Los clave-valor son simples, rápidos, fáciles de inspeccionar; los grafos soportan consultas multi-salto como "cuál es el comando de despliegue del proyecto en el que el usuario está trabajando ahora" pero requieren mantenimiento y un lenguaje de consulta. La mayoría de los agentes en producción empiezan con clave-valor y se gradúan a grafo sólo cuando las consultas exigen joins. Muchos nunca lo hacen.

La política de actualización es donde la mayoría de los equipos se mete en líos. Un hecho extraído de una sola conversación no es necesariamente cierto en general. Una política ingenua que promueva cada afirmación a memoria semántica producirá un almacén corrupto que se contradice a sí mismo. La disciplina emergente es ponderar afirmaciones por contexto, versionar hechos con timestamp y procedencia, y — en dominios de alto riesgo — gatear las actualizaciones con confirmación explícita del usuario. Un patrón que ha emergido bajo nombres como MemGPT es darle al agente herramientas explícitas de gestión de memoria para que sea el propio modelo el que decida qué guardar, recuperar y olvidar. La victoria es que el modelo a menudo sabe sobre qué memorias importan cosas que ningún extractor basado en reglas captaría. El coste es que el modelo también se equivoca, y un almacén de memoria curado por el modelo necesita barandillas contra el crecimiento descontrolado.

10.3 Sobrevivir al límite de contexto: compactación y notas estructuradas

Incluso con memoria episódica y semántica en su sitio, la sesión actual del agente sigue topando con su ventana. El remedio más común es la compactación basada en resumen: cuando el contexto se acerca al sesenta u ochenta por ciento de la ventana, un paso en segundo plano resume los turnos viejos y los sustituye. Los modos de fallo son deriva del resumen (la esencia sobrevive pero hechos específicos que luego importan se pierden) y suavizado recursivo (cada pasada resume un resumen, y la pérdida acumulada es severa). Los remedios son prompts de resumen estructurados que preservan entidades nombradas, decisiones y preguntas abiertas, y resumir desde los originales cuando se puede en vez de desde resúmenes anteriores.

El tool result clearing desaloja el grueso de los retornos de herramientas tras unos turnos intermedios, sustituyéndolos por notas breves como "consultada tabla users, 47 filas devueltas, encontrado user 12345". La toma estructurada de notas exige al agente mantener un fichero de notas autoritativo que capture el objetivo actual, los pasos completados, los pasos restantes y las preguntas abiertas — tratado como la fuente de verdad, no como un transcript. La externalización mueve los artefactos producidos al filesystem o a la base de datos, dejando que el contexto sólo guarde referencias. El principio unificador es que la ventana de contexto es para el trabajo activo, no para el archivo. Las ventanas más grandes hacen el almacén externo más importante, no menos, porque habilitan sesiones más largas en las que la arquitectura de externalización tiene más tiempo o de funcionar o de fallar.

Vale la pena recordar: los agentes de horizonte largo no son simplemente agentes de horizonte corto más largos. Son un problema de ingeniería distinto, con modos de fallo distintos — los patrones de investigador, ingeniería, operaciones y background componen las primitivas de forma diferente. Haz el estado de memoria inspeccionable en forma humanamente legible, registra cada lectura y escritura, y prueba la reanudación de sesión y la alta carga de memoria como casos rutinarios, no como casos límite.

Lo que prepara el Capítulo 10

Los Capítulos 9 y 10 cierran juntos la Parte IV con dos modelos mentales complementarios: el contexto como presupuesto finito dentro de una sola llamada, y la memoria como arquitectura para recordar de manera selectiva entre sesiones. Lo que ninguno de los dos abordó es la presión adversaria. Cada escritura de memoria es un sitio donde un atacante puede envenenar. Cada llamada a herramienta es un sitio donde un atacante puede interceptar. Cada memoria recuperada es un sitio donde un atacante puede inyectar instrucciones que el agente tratará como propios pensamientos. Las arquitecturas de los dos últimos capítulos se diseñaron para corrección y eficiencia, no para sobrevivir bajo ataque.

Próximamente — Capítulo 11: Superficies de ataque y vulnerabilidades del protocolo. Confused Deputy, Token Passthrough, Session Hijacking, Capability Escalation, Unauthenticated Sampling, y la propagación implícita de confianza que vuelve tan difícil de arreglar el envenenamiento de contexto.

¿Quieres el panorama completo? El libro recorre los cuatro patrones canónicos — investigador, ingeniería, operaciones, agentes en segundo plano — con sus modos de fallo característicos, la disciplina de checkpoints sobre la que han convergido los agentes de codificación de larga duración, y la arquitectura de borrado que separa un sistema de memoria que se vuelve más sabio con el uso de uno que se vuelve más ruidoso. Consulta LLM Primer IV en Amazon →