Capítulo 2 — Probabilidad, tokens y texto

Esta es la Parte 2 de una serie que recorre LLM Primer I: How Generative AI Works. En la publicación de ayer sobre el Capítulo 1, establecimos lo que realmente es un LLM: una máquina de adivinanzas para texto. Hoy nos ponemos específicos sobre qué significa eso.

Antes de que el modelo vea algo, ve números

Aquí hay algo que la mayoría de las introducciones a los LLM pasan por alto: el modelo nunca ve tus palabras. Para cuando tu prompt llega a la primera capa del modelo, ya ha sido cortado en pequeñas piezas llamadas tokens, y cada token ha sido reemplazado por un número.

Un token suele ser más corto que una palabra. Palabras comunes como "el" o "lenguaje" suelen ser un solo token. Las palabras más largas o raras se dividen en piezas — "tokenización" podría convertirse en "token" + "ización", por ejemplo. Por eso los precios de las APIs de LLM se miden en tokens y no en palabras, y por eso la misma frase en otro idioma puede costar dos o tres veces más procesarla.

Idea clave: Los tokens son las piezas LEGO del modelado del lenguaje. Las piezas comunes son una sola, las raras se ensamblan con piezas más pequeñas. El modelo solo trabaja con secuencias de estas piezas, codificadas como números.

Cómo ocurre la división — con métodos llamados Byte Pair Encoding, WordPiece y unos cuantos más — recibe un tratamiento cuidadoso en el libro. Diferentes familias de LLM usan esquemas distintos, lo cual es una razón por la que las salidas de los modelos a veces se rompen en lugares sorprendentes cuando trabajas con código, símbolos matemáticos o escrituras no latinas.

Todo el asunto es un juego de adivinanzas

Una vez que el prompt está tokenizado, la tarea del modelo es asombrosamente simple de describir: producir una distribución de probabilidad sobre cada posible próximo token. No "la respuesta", no "el token correcto" — una distribución que dice, en efecto, "dado todo lo que he visto hasta ahora, así de probable es cada posible próximo token".

Si le preguntas al modelo "la capital de Francia es", la probabilidad de que el siguiente token sea "París" será muy alta, con cantidades menores de probabilidad asignadas a "la", "ubicada", "actualmente", y así sucesivamente. El modelo entonces elige uno de esos candidatos (con la elección influida por un ajuste llamado temperatura) y lo añade a la secuencia. Luego hace todo de nuevo. Y de nuevo. Un token a la vez.

Eso es todo. Cada ensayo, cada traducción, cada fragmento de código, cada poema producido por un LLM es el resultado de este bucle ejecutándose repetidamente, sin plan, sin diseño global, sin más meta que producir el siguiente token plausible.

El Capítulo 2 dedica tiempo real a por qué esto funciona. El hecho de que la pura predicción del siguiente token, con suficiente escala, produzca algo que parece razonamiento no es obvio. Es uno de los descubrimientos empíricos más interesantes en la IA moderna, y el libro se toma el cuidado de explicar por qué.

La vieja manera frente a la nueva

Antes de que las redes neuronales dominaran, los modelos de lenguaje funcionaban contando. Si querías predecir la próxima palabra, mirabas las dos o tres anteriores, las encontrabas en cualquier lugar donde aparecieran en tu corpus de entrenamiento y preguntabas: ¿qué venía después, en promedio? Esto funcionaba, más o menos. Producía texto gramatical, a veces. Pero tenía dos problemas paralizantes.

El primero era la dispersión. La mayoría de las combinaciones de tres palabras nunca aparecen en ningún conjunto de entrenamiento, por grande que sea. Así que el modelo no tenía opinión sobre la mayoría de las secuencias. El segundo era la generalización. La frase "el perro persiguió al gato" y "el lobo persiguió al conejo" comparten una estructura que los humanos vemos al instante, pero un modelo basado en conteos las trata como completamente no relacionadas. No aprende nada de una que se aplique a la otra.

Los modelos de lenguaje neuronales arreglan ambos problemas aprendiendo patrones en lugar de memorizar combinaciones. Mapean cada token a una lista de números — un embedding — y luego aprenden cómo esos números se transforman a lo largo de las secuencias. Dos oraciones con estructura similar terminan con representaciones internas similares, incluso si el modelo nunca ha visto ninguna oración específica.

Idea clave: El paso de contar a aprender patrones es el cambio conceptual más importante en la historia del procesamiento de lenguaje natural. Casi todo lo que los LLM pueden hacer y los sistemas anteriores no podían se remonta a él.

Midiendo qué tan buenas son las adivinanzas

El Capítulo 2 cierra con dos métricas de las que oirás hablar constantemente: entropía y perplejidad. El libro se toma su tiempo con estas porque son fáciles de malinterpretar. La versión corta, con disculpas a quien haya visto las ecuaciones:

La entropía es incertidumbre. Si el modelo está muy seguro de lo que viene después, la entropía es baja. Si el modelo está genuinamente inseguro, la entropía es alta. La perplejidad es una forma de expresar esa incertidumbre como un número que puedes comparar entre modelos. Una perplejidad más baja significa un modelo que es consistentemente menos sorprendido por el texto que ve.

No necesitas conocer las fórmulas para usar estas intuiciones. Cuando lees que "el Modelo A tiene una perplejidad de 4,2 en este benchmark", puedes traducir mentalmente: "las adivinanzas del Modelo A en este benchmark son bastante seguras — promedia unos 4 tokens siguientes plausibles de incertidumbre por posición". Cuando la perplejidad es 50, el modelo está mucho menos seguro. Eso es suficiente para darle sentido a la mayoría de los artículos de investigación.

Lo que prepara el Capítulo 2

Al final del Capítulo 2, tienes un modelo mental práctico del bucle de entrada y salida que define cada LLM: entra texto, salen tokens, se calculan probabilidades, se muestrea el siguiente token, se repite. Sabes por qué este bucle es matemáticamente tratable y cuáles son sus límites. Y tienes el vocabulario para leer el resto del libro, y la mayoría de la investigación sobre LLM, sin tropezar.

Esto prepara la pregunta central de los próximos capítulos: cómo produce el modelo esas probabilidades. ¿Qué está pasando realmente por dentro? Esa historia empieza mañana.

Próximamente — Capítulo 3: Redes neuronales para el lenguaje. Acercamos la lupa a la maquinaria computacional que hace el trabajo real. ¿Cómo está construida una red neuronal? ¿Por qué fracasaron los diseños anteriores con el lenguaje? ¿Y qué significa "entrenar" miles de millones de parámetros?

¿Quieres el panorama completo? El libro da a cada idea de esta publicación un tratamiento cuidadoso e ilustrado, incluyendo tablas que comparan esquemas de tokenización y ejemplos resueltos del bucle del siguiente token. Consigue LLM Primer I en Amazon →

Capítulo 2 — Probabilidad, tokens y texto: el juego de adivinar la siguiente palabra