Capítulo 4 — La arquitectura Transformer
Esta es la Parte 4 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer vimos por qué self-attention reemplazó a la recurrencia como la arquitectura neuronal dominante para el lenguaje. Hoy abrimos el Transformer en sí — el diseño específico que llevó la atención de una idea inteligente a la base de cada LLM moderno.
Un Transformer es una pila
Lo primero que hay que saber sobre el Transformer es que es modular. La arquitectura real consiste en un solo bloque de construcción — llamado capa Transformer o bloque Transformer — repetido muchas veces en una pila. Los LLM modernos tienen entre 32 y más de 100 de estas capas apiladas una encima de otra. Cada capa tiene exactamente la misma estructura interna; lo que cambia es lo que cada una ha aprendido a hacer a medida que la entrada pasa a través de ella.
Puedes pensar en la pila como una tubería de refinamiento. Las primeras capas tienden a manejar patrones de bajo nivel — identidad de tokens, relaciones sintácticas básicas. Las capas intermedias manejan estructuras más abstractas — significado a nivel de frase, referencias, inferencia básica. Las capas superiores manejan relaciones muy abstractas — tema general, tono, encuadre de la tarea. Para cuando el texto ha pasado por toda la pila, cada token ha sido enriquecido con contexto extraído de toda la entrada.
Dentro del bloque: atención y una red feedforward
Cada bloque Transformer tiene dos piezas principales. La primera es multi-head self-attention — múltiples cálculos de atención ejecutándose en paralelo, cada uno aprendiendo a atender a un tipo diferente de relación. Una "head" puede aprender a rastrear la concordancia sujeto-verbo; otra puede rastrear a qué sustantivo se refiere cada pronombre; una tercera puede rastrear la coherencia temática. Ninguna de estas está programada; emergen como efectos colaterales del entrenamiento.
La segunda pieza es una red feedforward — una pequeña red neuronal estándar que opera sobre cada token de forma independiente. Después de que la atención ha mezclado información a través de los tokens, el paso feedforward le permite al modelo hacer procesamiento por token, aplicando cualquier transformación que haya aprendido a cada representación enriquecida.
Ambas piezas están envueltas en dos detalles técnicos que importan para la estabilidad: conexiones residuales (que permiten que la información se salte cada pieza y avance directamente) y normalización de capas (que mantiene los números en un rango estable a lo largo de la profundidad de la pila). Sin estos trucos, entrenar una pila tan profunda como la de un LLM moderno no funciona.
Self-attention, con un poco más de precisión
El Capítulo 4 le da a self-attention el tratamiento cuidadoso que merece, incluyendo las matemáticas, pero el mecanismo se puede describir intuitivamente. Cada token produce tres vectores — llamados query, key y value. El query dice "esto es lo que estoy buscando". El key dice "esto es lo que represento". El value dice "esto es lo que contribuiré si me encuentras útil".
La atención funciona comparando el query de cada token contra el key de todos los demás tokens, produciendo una matriz de puntuaciones de similitud. Esas puntuaciones se normalizan en pesos que suman uno (usando softmax), y luego la nueva representación de cada token se convierte en una suma ponderada de los values de todos los demás tokens. Toda la operación son unas pocas líneas de álgebra de matrices.
El libro incluye un esquema de seis líneas de código de este cálculo, porque verlo de forma compacta en código hace que encaje para muchos lectores de una manera que las ecuaciones por sí solas no logran. El libro también explica por qué cada pieza está ahí — por qué importa escalar por la raíz cuadrada de la dimensión, por qué softmax, por qué tres vectores separados en lugar de uno.
Cómo conoce el modelo el orden de las palabras
Self-attention tiene una propiedad que suena inofensiva pero no lo es: no codifica el orden de forma natural. Para las matemáticas, una oración es un conjunto desordenado de tokens. Sin intervención, "el perro muerde al hombre" y "el hombre muerde al perro" se verían idénticos.
La codificación posicional arregla esto etiquetando cada token con información sobre dónde se sienta en la secuencia. El Transformer original usaba un truco ingenioso con ondas seno y coseno a diferentes frecuencias. Las variantes modernas usan embeddings posicionales aprendidos o codificaciones de posición rotatorias (RoPE) que manejan contextos largos con más elegancia. Los detalles varían; el principio no.
¿Codificador, decodificador o solo decodificador?
La investigación temprana del Transformer produjo tres sabores. Los modelos solo de codificador como BERT están diseñados para leer texto y producir una representación profunda; son excelentes para clasificación, generación de embeddings y búsqueda. Los modelos solo de decodificador como GPT están diseñados para generar texto un token a la vez; son los que impulsan la mayoría de los LLM tipo chat. Los modelos codificador-decodificador combinan los dos, con el codificador digiriendo la entrada y el decodificador generando la salida; son útiles para traducción y tareas estructuradas.
Hoy, los modelos solo de decodificador dominan el mercado de IA orientado al consumidor porque la misma maquinaria maneja la lectura del prompt y la escritura de la respuesta. La distinción sigue importando cuando estás eligiendo un modelo para un trabajo específico, y el libro recorre cuándo cada tipo es la herramienta correcta.
La historia del escalado y por qué funciona
El Capítulo 4 cierra explicando cómo escalan los Transformers. A medida que aumentas los parámetros, los datos de entrenamiento y el cómputo — juntos, en proporciones coordinadas — el rendimiento del modelo mejora de una manera notablemente predecible. Este hallazgo empírico, conocido como leyes de escalado, es lo que justificó las inversiones masivas de los últimos años. Duplicar los parámetros de un Transformer aproximadamente reduce a la mitad la pérdida, dentro de ciertos rangos. La relación es tan consistente que los investigadores pueden predecir el rendimiento de un modelo antes de entrenarlo.
El libro tiene cuidado de explicar qué no te dicen las leyes de escalado — sobre capacidades emergentes, sobre el valor marginal del escalado adicional y sobre las maneras en que la narrativa simple de "más grande es mejor" se quiebra. El desarrollo de frontera moderno se trata mucho menos de fuerza bruta y mucho más de calidad de datos, trucos arquitectónicos como mixture-of-experts y métodos de entrenamiento ingeniosos. Esa historia continúa en capítulos posteriores.
Lo que prepara el Capítulo 4
Al final del Capítulo 4, puedes leer cualquier artículo o anuncio técnico moderno sobre LLM y ubicar sus afirmaciones correctamente. Sabes qué contiene un bloque Transformer, por qué están ahí esos componentes y cómo el diseño equilibra expresividad y eficiencia. El resto del libro se construye sobre esto sin volver a explicarlo.
Próximamente — Capítulo 5: Entrenando modelos grandes. Mañana miramos cómo se entrenan realmente estas arquitecturas: de dónde vienen los datos, qué hardware hace el trabajo, cómo se ve el proceso de optimización en la práctica y por qué entrenar un modelo de frontera ahora toma meses y cuesta cientos de millones de dólares.