Capítulo 11 — Evaluación, calibración e inferencia

Undécima entrega del recorrido capítulo por capítulo de LLM Primer II: Language Models Through Mathematics. El capítulo en el que nos preguntamos cómo es siquiera posible medir una máquina capaz de decir cualquier cosa, y descubrimos que un modelo seguro suele ser un modelo mal calibrado.

La pregunta que resulta ser matemática

Hemos construido un modelo en la Parte II, lo hemos entrenado en la Parte III y lo hemos alineado en el Capítulo 10. ¿Cómo sabemos si algo de eso ha funcionado realmente? Suena a pregunta blanda. Es una de las preguntas más difíciles y más matemáticas del campo, porque un modelo de lenguaje puede producir esencialmente cualquier texto, y la palabra "bueno" se resiste a ser definida.

11.1 Perplejidad

La medida más básica no necesita humanos: cae directamente del objetivo de entrenamiento. Se mide la probabilidad que el modelo asigna a un conjunto de prueba fuera del entrenamiento. Por token y exponenciada, esto es la perplejidad — la sorpresa media del modelo expresada como un factor de ramificación efectivo. Barata, objetiva, automática. Ciega ante casi todo lo que importa en la práctica: utilidad, verdad, seguridad. No es comparable entre tokenizadores. El capítulo cubre también BLEU, ROUGE, la tasa de ejecución de código y las puntuaciones de modelos juez — cada una con sus modos de fallo conocidos.

En una línea: la perplejidad es la vara de medir intrínseca y barata. Es honesta sobre la predicción y silenciosa sobre todo lo demás.

11.2 Calibración

Un modelo está bien calibrado cuando su confianza coincide con su precisión: si dice estar 80% seguro, debería acertar el 80% de las veces. No es lo mismo que precisión. Un modelo puede ser preciso pero excesivamente confiado, o incluso impreciso pero honesto. Para cualquier uso de alto riesgo, la calibración importa tanto como la precisión.

Se mide con un diagrama de fiabilidad: se agrupan las predicciones por confianza declarada y se mide la precisión en cada bin. Un modelo perfectamente calibrado traza la diagonal; el caso común se hincha por debajo de ella (sobreconfianza). Métrica resumen: el Expected Calibration Error (ECE). El escalado por temperatura — dividir los logits por un escalar aprendido — es un parche post-hoc simple y efectivo. RLHF, curiosamente, suele empeorar la calibración.

11.3 Incertidumbre de los benchmarks

Cuando un modelo "saca 87% en un benchmark", la pregunta que falta es: 87% más o menos cuánto. El error estándar de la precisión cerca del 50% sobre n preguntas es aproximadamente 1/(2√n). Para n=1000 son unos 1,6 puntos porcentuales: así que un 87% y un 85% no son necesariamente distintos. Peligros que se suman: las comparaciones múltiples (prueba suficientes modelos en suficientes benchmarks y, por azar, alguno parecerá mejor) y la contaminación (si las preguntas del benchmark filtran al conjunto de entrenamiento, la puntuación mide memorización). Esta es la sección que la prensa de IA más necesita leer.

11.4 Alucinación y geometría de la recuperación

La alucinación — afirmar una falsedad con seguridad — es el modo de fallo que más define los límites de un LLM, y es el más difícil de medir porque exige juzgar la verdad. Las métricas de fidelidad comprueban si cada afirmación de una respuesta está implicada por el contexto suministrado.

La herramienta principal para reducir la alucinación es la generación aumentada con recuperación: anclar el modelo en documentos reales. Su operación central nos devuelve, oportunamente, a la geometría de la Parte I — búsqueda del producto interno máximo sobre los embeddings (Capítulo 3) de la consulta y los pasajes candidatos. La geometría del Capítulo 3, de pronto, sostiene la producción.

Vale la pena recordar — ley de Goodhart: "cuando una medida se convierte en objetivo, deja de ser una buena medida". Cada métrica de este capítulo se vuelve una medida corrompida en el instante en que la optimizas. No hay forma de escapar; solo de gestionar — benchmarks frescos, triangulación entre muchas métricas y humanos en el bucle allí donde la automatización no llega.

Lo que prepara el Capítulo 11

Sales con la caja de herramientas de la medición honesta: perplejidad como vara intrínseca, calibración como pregunta a menudo más importante que la precisión, barras de error como antídoto al teatro de los benchmarks y geometría de recuperación como herramienta de producción para controlar la alucinación. La Parte III cierra aquí. Desde aquí, el libro se vuelve hacia lo que de verdad hacemos con estos modelos.

Próximamente — Capítulo 12: Aplicaciones de los LLM en el mundo real. El primer capítulo de la Parte IV. Generación de texto, resumen, preguntas y respuestas, traducción, razonamiento — cómo se ve cada uno a través de las matemáticas que ahora tenemos.

¿Quieres el panorama completo? El libro incluye la derivación del diagrama de fiabilidad, la fórmula del ECE, las matemáticas del error estándar de los benchmarks y las métricas de fidelidad para la alucinación, además de la conexión con la geometría de embeddings del Capítulo 3. Consulta LLM Primer II en Amazon →