Capítulo 3 — Redes neuronales para el lenguaje

Esta es la Parte 3 de una serie que recorre LLM Primer I: How Generative AI Works. Ayer enmarcamos el modelado del lenguaje como un problema de probabilidad y vimos por qué los viejos enfoques basados en conteos no podían escalar. Hoy miramos la maquinaria computacional que los reemplazó — y cómo evolucionó hacia el diseño que impulsa a cada LLM moderno.

Qué es realmente una red neuronal

Deja a un lado por un momento las imágenes de cerebros y sinapsis. Una red neuronal es una larga receta matemática con millones o miles de millones de perillas internas, cada perilla un número. Le das una entrada (una lista de números que representa tu input), la receta la transforma a través de una serie de pasos, y por el otro lado sale otra lista de números.

Entrenar la red significa mostrarle muchos ejemplos y ajustar suavemente todas las perillas — automáticamente, usando un proceso llamado descenso de gradiente — de modo que la salida para cada ejemplo se acerque un poco a la respuesta que querías. Repite ese proceso a través de miles de millones de ejemplos y eventualmente tienes una red cuya configuración de perillas codifica una cantidad notable de estructura sobre lo que sea que la entrenaste.

Idea clave: Una red neuronal entrenada es solo la configuración final de todas sus perillas. La "inteligencia" vive en esos números. Nada más sobre la red es conceptualmente misterioso.

El Capítulo 3 dedica tiempo a la mecánica — embeddings, capas ocultas, funciones de activación no lineales y el proceso de optimización que actualiza las perillas. El libro no esquiva las ideas, pero explica cada paso para que un lector sin formación matemática pueda seguir lo que pasa. Si puedes leer una receta, puedes leer este capítulo.

Tres formas, y solo una ganó

La historia de las redes neuronales aplicadas al lenguaje es, en términos generales, la historia de tres ideas arquitectónicas. Cada una fue un avance real sobre su predecesora. Cada una tuvo una limitación fatal. La tercera — self-attention — finalmente resolvió el problema a escala.

La primera forma es la red feedforward. Le entregas un trozo de entrada de tamaño fijo, lo transforma y produce una salida. Las redes feedforward son excelentes para muchas tareas, pero tienen un problema estructural con el lenguaje: el lenguaje no viene en trozos de tamaño fijo. Una oración puede tener tres palabras o trescientas. Una red feedforward no tiene forma elegante de manejar esa variación.

La segunda forma es la red neuronal recurrente, o RNN. Las RNN leen el texto un token a la vez, llevando un pequeño resumen — llamado estado oculto — adelante de cada paso al siguiente. Esto imita la forma en que un humano lee, y resolvió el problema de la longitud variable. Pero las RNN tuvieron dos problemas nuevos. El resumen que llevan adelante gradualmente pierde detalle a lo largo de pasajes largos, así que el modelo "olvida" cosas de antes en el texto. Y como cada paso tiene que esperar al anterior, el entrenamiento de RNN no puede paralelizarse en el hardware moderno, lo que hizo imposible escalarlas.

La tercera forma es self-attention, que abandonó el enfoque secuencial por completo. En lugar de llevar un resumen adelante, cada token en la secuencia mira directamente a todos los demás tokens en la secuencia — todo a la vez — y decide cuáles importan. Esto resolvió el problema del olvido (cada token tiene acceso directo a cada otro token) y el problema de paralelización (toda la secuencia puede procesarse simultáneamente en una GPU). Y es la base de cada LLM basado en Transformer.

Importante: El paso de las RNN a la atención no es un refinamiento menor. Es una ruptura arquitectónica. Los modelos recurrentes no podrían haber alcanzado la escala a la que operan los LLM modernos. Self-attention hizo posible el resto del campo.

Por qué la atención "lo cambió todo"

Esa frase se usa mucho, incluso en el título del famoso artículo de 2017 que presentó la arquitectura Transformer. El Capítulo 3 se toma el cuidado de explicar qué cambió específicamente.

La atención es, en esencia, un mecanismo de enrutamiento. Cada token transmite lo que está buscando ("¿qué otro token tiene información sobre mi sujeto?") y lo que ofrece ("esto es lo que represento"). La matemática calcula un promedio ponderado sobre todos los demás tokens, con los pesos determinados por qué tan bien cada uno coincide con la consulta del token que pregunta. El resultado es que cada token, después de pasar por una capa de atención, ha sido enriquecido con información relevante de todo el resto de la secuencia.

La razón profunda por la que esto funciona es que es a la vez expresivo y paralelizable. Expresivo porque puede modelar dependencias de largo alcance — un token en la posición 1 puede informar directamente a uno en la posición 1000. Paralelizable porque todos los promedios ponderados pueden calcularse a la vez, como una operación de matrices en la que el hardware moderno destaca. La combinación es lo que desbloqueó la era del escalado.

Lo que prepara el Capítulo 3

Al final del Capítulo 3, tienes una comprensión práctica de por qué los diseños anteriores de redes neuronales chocaron contra un muro con el lenguaje, y por qué la atención logró pasar. Sabes lo que significa entrenar una red, mecánicamente. Y tienes el andamiaje conceptual para entender por qué la arquitectura del próximo capítulo — el Transformer — está construida como está.

Este es el capítulo donde la mayoría de los lectores deja de pensar en los LLM como una caja negra misteriosa y empieza a pensar en ellos como un tipo específico de ingeniería. Ese cambio es el objetivo central del libro.

Próximamente — Capítulo 4: La arquitectura Transformer. Mañana abrimos la caja. Self-attention, multi-head attention, codificación posicional, pilas de capas y las decisiones de diseño que determinan si estás mirando a GPT, BERT o algo intermedio.

¿Quieres el panorama completo? El libro recorre cada componente de un bloque Transformer con diagramas y un breve ejemplo de código que se puede leer en cualquier lenguaje. Consigue LLM Primer I en Amazon →

Capítulo 3 — Redes neuronales para el lenguaje: de las RNN al self-attention