Глава 11 — Оценка, калибровка и вывод

Одиннадцатый пост разбора LLM Primer II: Language Models Through Mathematics по главам. Глава, в которой мы спрашиваем: как вообще измерить машину, способную сказать что угодно — и обнаруживаем, что уверенная модель часто оказывается плохо откалиброванной.

Вопрос, который оказывается математическим

Мы построили модель в Части II, обучили её в Части III и согласовали в Главе 10. Как понять, заработало ли всё это? Звучит как мягкий вопрос. На деле — один из самых трудных и математически насыщенных в области, потому что языковая модель может выдать почти любой текст, а «хорошо» сопротивляется определению.

11.1 Перплексия

Самой фундаментальной мере человек не нужен — она прямо выпадает из цели обучения. Измерьте вероятность, которую модель присваивает отложенному тестовому набору. На токен и с экспонентой — это перплексия, средняя удивлённость модели, выраженная как эффективный коэффициент ветвления. Дёшево, объективно, автоматически. И почти слепо ко всему, что важно на практике: полезности, истине, безопасности. И ещё несопоставимо между токенизаторами. Глава охватывает также BLEU, ROUGE, рейт исполнения кода, оценки моделями-судьями — у каждой меры свои известные провалы.

Если коротко: перплексия — дешёвая внутренняя линейка. Она честна про предсказание и молчит обо всём остальном.

11.2 Калибровка

Модель хорошо откалибрована, если её уверенность совпадает с её точностью: когда она говорит «уверена на 80%», она должна быть права примерно в 80% случаев. Это не то же самое, что точность. Модель может быть точной, но переоценивать себя; или неточной, но честной. В любых ответственных задачах калибровка важна не меньше точности.

Замеряют диаграммой надёжности: разбиваете предсказания по заявленной уверенности на корзины и в каждой смотрите фактическую точность. Идеально откалиброванная модель идёт по диагонали; типичный случай прогибается ниже неё (переуверенность). Сводная метрика — Expected Calibration Error (ECE). Простой и действенный пост-фикс — temperature scaling: разделить логиты на обученный скаляр. Интересно, что RLHF часто ухудшает калибровку.

11.3 Неопределённость бенчмарков

Когда модель «набирает 87% на бенчмарке», недостающий вопрос таков: 87% плюс-минус сколько? Стандартная ошибка точности около 50% на n вопросах — примерно 1/(2√n). Для n=1000 это около 1,6 процентных пункта, то есть 87% и 85% — необязательно разные результаты. Поверх этого — множественные сравнения (протестируйте достаточно моделей на достаточном числе бенчмарков, и часть из них выйдет лучше случайно) и контаминация (если вопросы бенчмарка попали в обучение, оценка измеряет память, а не способность). Это та секция, которую больше всех должна прочитать ИИ-журналистика.

11.4 Галлюцинации и геометрия поиска

Галлюцинация — уверенное утверждение неправды — режим отказа, который сильнее всего определяет границы LLM, и труднее всего измеримый, потому что требует судить о правде. Метрики верности проверяют, следует ли каждое утверждение в ответе из предоставленного контекста.

Главный инструмент снижения галлюцинаций — retrieval-augmented generation: заземление модели в реальных документах. Его базовая операция возвращает нас, что уместно, к геометрии Части I — поиску максимального скалярного произведения по эмбеддингам (Глава 3) запроса и кандидатных фрагментов. Геометрия из Главы 3 неожиданно оказывается несущей конструкцией в продакшене.

Стоит запомнить — закон Гудхарта: «как только мера становится целью, она перестаёт быть хорошей мерой». Любая метрика этой главы превращается в испорченную меру в ту секунду, когда вы начинаете под неё оптимизировать. Выхода нет — есть только управление: новые бенчмарки, триангуляция между метриками, человек в петле там, где автомат не дотягивается.

Что Глава 11 готовит

Вы выходите с инструментарием честных измерений: перплексия как внутренняя линейка, калибровка как вопрос, который часто важнее точности, доверительные интервалы как противоядие от бенчмарк-театра, геометрия поиска как продакшен-инструмент против галлюцинаций. Часть III на этом закрывается. Дальше книга поворачивает к тому, что мы с этими моделями реально делаем.

Завтра — Глава 12: Применение LLM в реальном мире. Первая глава Части IV. Генерация текста, суммаризация, QA, перевод, рассуждения — что каждая из этих задач выглядит через ту математику, что у нас теперь есть.

Хочется всю картину? Книга содержит вывод диаграммы надёжности, формулу ECE, математику стандартной ошибки бенчмарков и метрики верности для галлюцинаций — плюс связку обратно к эмбеддинговой геометрии Главы 3. Открыть LLM Primer II на Amazon →