Глава 2 — Вероятность, токены и текст

Второй пост разбора LLM Primer I: How Generative AI Works по главам. Два самых важных слова всей книги — токен и вероятность — аккуратно распаковываем.

Модель не видит слов

Глава 2 начинается с небольшой контринтуитивной детали. Когда вы посылаете LLM фразу, с его точки зрения это не фраза. Это последовательность «токенов» — кусков слов.

Токены бывают и короче слова, и длиннее. Частые слова — «the», «and», «модель» — обычно ложатся в один токен. А редкое вроде «детокенизация» режется на «де / токен / из / ация». Словарь, с которым работает LLM, в итоге довольно сильно отличается от того, что мы видим в словаре языка.

Это различие важнее, чем кажется. Если держать в голове идею, что модель обучалась «слово за словом», интуиция о её сильных и слабых местах сразу плывёт. Увидев, как устроена токенизация, проще понять — почему LLM путается в точном написании имён авторов, почему странно реагирует на новые сленговые слова, почему одни языки расходуют больше токенов, чем другие.

Если коротко: токены — это атомы вселенной LLM. В них всё производится, в них всё читается, в них всё тарифицируется. Знакомство с ними стоит того.

Что именно производит модель?

Дальше — крупный второй ход главы. Когда LLM выдаёт токен, он не просто выбирает этот токен. Он строит целое распределение вероятностей — таблицу с оценкой для каждого из десятков тысяч возможных токенов в словаре. «the» — 0.31, «a» — 0.12, «модель» — 0.04, «банан» — 0.00001…

На этом образе стоит задержаться, потому что он много чего объясняет. Именно поэтому один и тот же промпт может давать разные ответы; именно поэтому одна и та же модель может писать скучно или живо. Ответ берётся из распределения, а не из заранее назначенного «победителя».

Дальше идёт вопрос — а как именно из этого распределения вытянуть один токен? Это и есть сэмплинг.

Temperature и top-p — две ручки, которые важны

Из распределения можно вытаскивать по-разному. Те две ручки, которым в книге уделено больше всего внимания — temperature и top-p — вы наверняка видели, но, возможно, не видели объяснёнными по-настоящему.

Temperature меняет саму форму распределения. Когда вы её опускаете, лидирующие кандидаты делаются ещё выше, и модель почти всегда выбирает безопасный и предсказуемый токен. Вывод становится упорядоченным — и заодно плоским, монотонным. Когда вы её поднимаете, распределение разглаживается, и кандидаты, которыми обычно пренебрегают, начинают получать шанс. Вывод становится живым — а если поднять слишком, начинает выглядеть разбросанным, расшатанным. В одной строке: temperature — это ручка между новизной и связностью.

Top-p (nucleus sampling) подходит к той же задаче с другой стороны. Вместо того чтобы прижимать всё распределение, он оставляет только те кандидаты, у которых суммарная вероятность набирает p — обычно 0.9 — и сэмплит из этого подмножества. Эффект: отрезается хвост маловероятных, но сохраняется разнообразие среди тех, что осмысленны.

Комбинируя эти две ручки — а способов комбинации больше, чем кажется — можно сделать так, чтобы один и тот же LLM либо отвечал последовательно, как монастырь, либо импровизировал, как джазовый музыкант. Это не выбор между «креативно» и «сбалансированно». Книга уделяет немало места тому, чтобы показать, откуда берётся реальный эффект этих ручек.

Мыслить токен за токеном

На всю книгу самый полезный мысленный паттерн, который я пытаюсь передать, такой: ни на секунду не забывать, что модель производит по одному токену за раз.

Сгенерировать длинный ответ — значит повторить более тысячи раз подряд цикл «взять всё уже написанное как контекст, и выбрать ещё один токен». Каждый новый токен зависит от всего предыдущего. Спотыкание в начале аукается до самого конца. И наоборот, удачно взятое начало тянет всю цепочку в лучшее русло.

Важно: всё — галлюцинации, рассуждение, юмор, любое поведение — выходит из одного и того же цикла «следующий токен, пожалуйста». Нет отдельного «режима фактчекинга» и отдельного «креативного режима». Это один и тот же механизм, выглядящий по-разному при разном вводе и разной настройке сэмплинга.

Любая задача — это задача следующего токена

Глава закрывает крупной мыслью. Писать код, складывать стихи, решать математическую задачу, резюмировать меморандум, отвечать на пятом ходу разговора — с точки зрения модели любая из этих задач сводится к одному. С учётом контекста до этого момента, какой следующий токен наиболее вероятен? И больше ничего. На этой единственной простой детали и держится всё видимое богатство.

Когда этот паттерн оседает в голове, ваше взаимодействие с LLM улучшается само — в том, как вы пишете промпты, в том, как выбираете модель, и в чувстве, что именно модель сделает хорошо, а что — нет.

Завтра — Глава 3: Как текст течёт внутри модели. Делаем шаг внутрь — после того, как токен уже зашёл. Эмбеддинг (числовое представление токена), внимание (как модель решает, куда «смотреть»), и то, как всё это сходится в архитектуру трансформера.

Хочется всю картину? Книга разбирает токенизацию, вероятность и сэмплинг с диаграммами, а во врезках «Простыми словами» переформулирует каждое понятие на бытовой язык. Открыть LLM Primer I на Amazon →