Capítulo 7 — Más allá de la predicción del siguiente token

Esta es la Parte 7 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer cubrimos la pila completa de adaptación — desde prompts hasta alineación. Hoy extendemos el LLM más allá de la pura generación. Embeddings, recuperación, memoria híbrida y la transición a entradas multimodales.

Embeddings: significado como geometría

Si la fortaleza de un Transformer es que produce representaciones internas ricas para cada token, la siguiente pregunta natural es: ¿qué pasaría si usáramos esas representaciones directamente, en lugar de como un paso hacia la generación de texto?

Esa es la idea detrás de los embeddings. Un modelo de embeddings toma una pieza de texto — una palabra, una oración, un párrafo, un documento — y produce una lista de números (típicamente de unos pocos cientos a unos pocos miles) que captura su significado. Dos piezas de texto con significados similares producen listas de números similares. Dos con significados diferentes producen listas diferentes.

Una vez que tienes embeddings, puedes hacer cosas notables con ellos. Puedes buscar documentos por significado en lugar de por palabras clave: pregunta "¿cómo cancelo mi suscripción?" y encuentra páginas que hablan de "terminar mi plan" o "discontinuar el servicio" aunque ninguna palabra coincida. Puedes agrupar documentos por tema sin etiquetas. Puedes detectar duplicados, encontrar casi-coincidencias y enrutar consultas al sistema correcto.

Idea clave: Los embeddings son el puente entre los modelos de lenguaje y la búsqueda. Convierten el significado en geometría, y una vez que el significado es geometría, cada algoritmo estándar de búsqueda y agrupamiento se vuelve disponible.

Generación frente a recuperación

Generación y recuperación a menudo se presentan como enfoques competidores, pero no lo son. La generación inventa texto a partir de patrones internalizados. La recuperación selecciona texto existente de un corpus almacenado. Cada uno tiene sus fortalezas.

La generación es creativa, flexible y capaz de producir respuestas a preguntas que nadie ha hecho. También es capaz de producir con seguridad respuestas equivocadas — el modelo no tiene manera de verificar lo que está diciendo. La recuperación es lo opuesto: limitada a lo que está en la biblioteca, pero anclada en material fuente real y verificable.

El movimiento interesante es combinarlas. Un modelo que recupera primero y luego genera puede producir texto fluido, sobre el tema, personalizado, mientras se mantiene anclado en documentos reales. Este es el patrón de diseño central que ha emergido para los sistemas LLM en producción.

Memoria híbrida: el modelo más una biblioteca

El libro trata esto como un concepto arquitectónico mayor en lugar de una sola técnica. La idea es darle al modelo dos tipos de memoria. Su memoria paramétrica vive en sus pesos entrenados — amplia, densa, pero fija en el momento del entrenamiento. Su memoria no paramétrica vive en un almacén externo — estrecha, específica y actualizable en tiempo real.

Cuando llega una consulta, el sistema la convierte en embedding, busca material relevante en el almacén externo y pasa tanto la consulta original como el material recuperado al modelo. El modelo entonces compone una respuesta usando ambos — su comprensión amplia del lenguaje y la información específica y actual que acaba de recibir.

Este patrón tiene consecuencias prácticas. Actualizar el conocimiento sobre el que un sistema puede responder ya no requiere reentrenamiento; actualizas el almacén externo. Las citas se vuelven posibles porque el sistema sabe de qué documento extrajo. La calibración de confianza mejora porque el modelo puede saber si tuvo contexto relevante o no.

RAG, con más cuidado

La implementación más común de este patrón híbrido se llama Retrieval-Augmented Generation, o RAG. Vale la pena entender los pasos reales, porque la mayoría de los asistentes de IA en producción con los que trabajarás son sistemas RAG por debajo.

El flujo es directo. Primero, conviertes tu base de conocimiento en embeddings — documentación, mensajes de clientes, wikis internos — y almacenas los embeddings en una base de datos vectorial. Segundo, cuando llega una consulta, la conviertes en embedding de la misma manera y encuentras las top-k piezas más similares de tu base de conocimiento. Tercero, ensamblas un prompt que incluye la pregunta del usuario y las piezas recuperadas, y lo envías al modelo. Cuarto, el modelo genera una respuesta usando el material recuperado como contexto anclado.

Cada paso tiene sutilezas que determinan si el sistema funciona bien o mal. El chunking — cómo divides tus documentos fuente — importa enormemente. El reranking — cómo eliges qué candidatos recuperados realmente entran al prompt — importa más de lo que la gente cree. El libro recorre qué funciona y qué no, basándose en despliegues reales.

Importante: La mayoría de los despliegues de IA empresarial que fallan no fallan en la capa del modelo. Fallan en la capa de recuperación. El modelo produce una salida que se ve correcta, pero el contexto recuperado no contenía realmente la información correcta, y el modelo — fluido como siempre — inventó una respuesta plausible de todos modos.

Extensiones multimodales

El Capítulo 7 cierra extendiendo el marco más allá del texto. Las imágenes, el audio y el video pueden tokenizarse — convertirse en secuencias de pequeñas piezas que la misma maquinaria del Transformer puede procesar. Un codificador de visión convierte una imagen en una secuencia de parches. Un codificador de audio convierte el sonido en una secuencia de vectores de características. Ambos pueden alinearse con embeddings de texto para que el modelo pueda razonar entre modalidades.

La primera generación de sistemas multimodales usaba codificadores separados para cada modalidad y unía las salidas en una capa de fusión. La generación actual es más elegante: trata todas las modalidades como solo más tipos de tokens alimentados en un único Transformer compartido. Por eso los modelos de frontera modernos pueden mezclar suavemente texto, imágenes y voz en una sola conversación.

Lo que prepara el Capítulo 7

Al final del Capítulo 7, entiendes cómo los LLM se vuelven útiles en el mundo real. Puedes razonar sobre la tubería embeddings → recuperación → generación que impulsa a la mayoría de la IA empresarial. Puedes leer anuncios sobre modelos multimodales y ubicarlos correctamente en la evolución arquitectónica. Y tienes las herramientas conceptuales para diseñar o evaluar un sistema RAG para tu propio trabajo.

Próximamente — Capítulo 8: Usando LLM en aplicaciones. Mañana entramos en la práctica. Chatbots, resumen, generación de código, extracción de conocimiento, evaluación y el auge de los sistemas agénticos donde el modelo es el controlador, no el controlado.

¿Quieres el panorama completo? El libro recorre la tubería embeddings/recuperación/generación en detalle con diagramas del flujo RAG, los compromisos en cada capa y el cambio arquitectónico multimodal visualizado con claridad. Consigue LLM Primer I en Amazon →

Capítulo 7 — Más allá de la predicción del siguiente token: embeddings, recuperación y multimodalidad