Capítulo 1 — ¿Qué es un modelo de lenguaje grande?
Esta es la Parte 1 de una serie que recorre LLM Primer I: How Generative AI Works — una guía centrada en mecanismos sobre la tecnología detrás de la IA moderna. A lo largo de las próximas doce publicaciones adelantaré cada capítulo del libro, compartiré los marcos que organizan el material y explicaré por qué lo escribí como lo hice.
La pregunta que suena sencilla, y no lo es
Si le preguntas a cien personas qué es un modelo de lenguaje grande, obtendrás cien respuestas y la mayoría estarán equivocadas de alguna manera interesante. "Es una IA." "Es un chatbot." "Es un buscador que te responde hablando." "Es lo que escribió mi informe anoche."
Ninguna de esas respuestas es totalmente incorrecta. Pero describen lo que hace un LLM, no lo que es. El Capítulo 1 trata de la segunda pregunta — la que la mayoría de las introducciones pasan por alto y que el marketing oscurece deliberadamente. Porque si no puedes responderla con precisión, cualquier otra afirmación sobre los LLM se vuelve más difícil de evaluar.
Las tres palabras, tomadas en serio
El libro comienza desmontando el término LLM, palabra por palabra, porque cada una carga un peso que se ignora una vez que "LLM" se convierte en una abreviatura cotidiana.
Grande no significa físicamente grande. Significa que el sistema tiene del orden de miles de millones de ajustes numéricos internos — llamados parámetros — que se afinaron durante el entrenamiento. También significa que el entrenamiento mismo utilizó enormes cantidades de texto y enormes cantidades de poder de cómputo. Cada uno de esos tres números — parámetros, datos, cómputo — tiene que crecer en conjunto para que el modelo se vuelva realmente más capaz. Duplicar solo uno de ellos tiende a decepcionar.
Lenguaje suena obvio, pero aquí tiene un significado específico. El modelo no entiende la gramática ni el significado como tú lo haces. Trabaja con secuencias de pequeños fragmentos de texto llamados tokens — normalmente más cortos que las palabras. Desde el punto de vista del modelo, cada prompt es una secuencia de números, y cada respuesta es solo el siguiente número, y el siguiente, y el siguiente.
Modelo es la palabra más cargada de las tres. Un modelo en este sentido no es una base de datos que almacena hechos. No es una persona que sabe cosas. Es una función matemática entrenada — un reconocedor de patrones — que produce continuaciones probables del texto que recibió. Cuando el modelo "sabe" la capital de Francia, no busca el dato. Produce "París" porque, dado el resto del prompt, "París" es el siguiente token más probable según los patrones que absorbió de los datos de entrenamiento.
Esa distinción importa más de lo que parece. Explica por qué los LLM alucinan. Explica por qué pueden estar equivocados con confianza. Explica por qué son tan buenos generando texto fluido y tan poco confiables cuando se les pide ser autoridad sobre hechos. El libro vuelve a esta distinción repetidamente porque es el marco más útil para predecir cómo se comportará cualquier LLM en cualquier situación.
Cómo llegamos aquí, en un párrafo
El Capítulo 1 también recorre cómo evolucionó realmente el modelado del lenguaje — porque el LLM moderno es el último capítulo de una historia que se remonta a décadas. Durante mucho tiempo, las computadoras manejaron el lenguaje usando reglas gramaticales escritas a mano o contando con qué frecuencia aparecían ciertas combinaciones de palabras en los libros. Ambos enfoques se estancaron. El gran avance fue aprender patrones directamente a partir de enormes cantidades de texto, en lugar de que se le dijeran las reglas. Las ideas que sustentan los LLM actuales son más antiguas de lo que la gente piensa; lo nuevo es la escala a la que se aplican ahora.
No voy a revelar el avance arquitectónico específico que lo cambió todo — eso es para los Capítulos 3 y 4. Pero diré esto: la transición de "buscar conteos de palabras" a "aprender patrones" es el cambio más importante en la historia del procesamiento de lenguaje natural, y entenderlo hace que todo lo que vino después tenga sentido.
Tres mitos que me tomo lo suficientemente en serio para desmentir
El capítulo termina abordando tres conceptos erróneos persistentes sobre lo que hacen los LLM. Los tomo en serio porque cada uno de ellos, si lo crees, te llevará a tomar malas decisiones sobre cuándo confiar en un LLM y cuándo no.
El primer mito es que los LLM entienden como lo hacen los humanos. No es así. Producen salidas que parecen comprensión porque fueron entrenados con texto escrito por personas que sí entienden. El segundo es que los LLM son bases de datos de hechos. No lo son. Los hechos están distribuidos entre miles de millones de pesos, por eso los modelos pueden producir con seguridad afirmaciones plausibles pero falsas. El tercero es que los modelos más grandes siempre son más inteligentes. No lo son. La escala interactúa con la calidad de los datos, los métodos de entrenamiento y las elecciones arquitectónicas, y el modelo más grande disponible no siempre es la herramienta correcta para el trabajo.
Lo que prepara el Capítulo 1
Al final del capítulo, tienes una definición práctica de lo que es y lo que no es un LLM, una idea de cómo el campo llegó hasta aquí y una visión lúcida de los conceptos erróneos más comunes. No es un beneficio pequeño para un solo capítulo. Es la base que hace posible leer el resto del libro.
Si lees el Capítulo 1 y nada más, saldrás capaz de razonar sobre los LLM con más precisión que la mayoría de los titulares sobre ellos. Eso por sí solo es, para muchos lectores, suficiente para que el libro valga el precio.
Próximamente — Capítulo 2: Probabilidad, tokens y texto. Mañana entramos en detalle sobre qué son realmente esos "tokens", por qué el modelo es fundamentalmente una máquina de probabilidad y cómo la predicción del siguiente token — la única cosa que el modelo realmente hace — se convierte en todo lo demás que puede hacer.