Глава 3 — Как текст течёт внутри модели

Третий пост разбора LLM Primer I: How Generative AI Works по главам. Одна из моих любимых глав всей книги — заглядываем внутрь, чтобы увидеть, что происходит с токеном после того, как он переступил порог.

Что значит «слово становится вектором»

Вот здесь начинается по-настоящему интересное. В момент, когда токен заходит в модель, он перестаёт быть буквами. Каждый токен превращается в последовательность чисел — эмбеддинг — с несколькими сотнями измерений.

Зачем столько хлопот? Потому что эта числовая последовательность каким-то образом несёт «значение» токена — по крайней мере, в той форме, с которой модель умеет работать. В этом пространстве «король» оказывается рядом с «королевой», «Париж» — рядом с «Францией». Эмбеддинг токена хранит куда больше информации, чем короткая строка, — с какими словами он обычно соседствует, в каких контекстах появляется, на какие другие слова похож по поведению.

Глава 3 уделяет место тому, как эти эмбеддинги формируются, и — это всегда удивляет — тому, что они не статичный словарь. Это выученное представление.

Если коротко: эмбеддинг — это паспорт токена. То же слово в разных контекстах несёт разное значение, и за эту тонкость отвечает эмбеддинг (а после — внимание).

Внимание — поворот, изменивший всё

После эмбеддинга — деталь, которая перекроила всю область. Внимание — точнее, self-attention — это идея: обрабатывая отдельный токен, модель может посмотреть на все остальные токены последовательности и решить для каждого, насколько он важен для понимания именно этого.

До внимания модели читали текст слово за словом, по порядку. С вниманием любой токен может связаться с любым другим за один проход.

Почему это весит так много? Возьмите фразу: «Он вошёл в сад, и тот уже был пуст». Чтобы понять, к кому относится «тот» — к человеку или к саду, — модели нужно провести линию от «тот» к нужному подлежащему. Внимание — это и есть механизм, позволяющий такую линию провести.

В книге внимание показано без того, чтобы топить вас в матрицах. Когда эта мысленная картинка встаёт на место, почти всё, что идёт следом про поведение LLM, начинает объясняться через неё.

Трансформер — сложите один и тот же блок шестьдесят раз

Если внимание так мощно, что если просто сложить из него много слоёв? Архитектура трансформера — это и есть такой ответ. Внимание плюс простое позиционное преобразование (feed-forward слой) образуют блок, и этот блок повторяется — двенадцать, шестьдесят, в более крупных моделях сотни раз.

Каждый слой уточняет представление токенов, делая их более абстрактными, более согласованными с контекстом. Метафора, к которой я возвращаюсь в книге, — понимать текст с поверхности (буквы), через грамматику, к смыслу, и в финале — к «какой следующий токен наиболее вероятен» — хорошо работает, чтобы представить, что делает каждый слой.

В этом одеянии становится менее загадочно, как один и тот же шаблон блока, повторённый шестьдесят раз, рождает такое богатство поведения.

Важно: внутри трансформера нет отдельного «модуля рассуждения» отдельно от «модуля знаний». Это один и тот же тип блока, обученный одним и тем же образом, сложенный стопкой. Видимые способности возникают из этого — и в этой простоте большая часть очарования.

Абзац, который мне доставил больше всего радости

Где-то в этой главе есть страница, над которой мне работалось особенно с удовольствием — та, где в рисунке и в тексте описано, как информация течёт внутри трансформера.

Мы стартуем со входного эмбеддинга, проходим слой внимания — и представление становится богаче. Ещё слой — ещё богаче. К концу представление каждого токена несёт уже не только то, чем он «является», но и то, что с ним делает весь контекст. Читатели иногда пишут: после того как однажды увидел эту страницу, начинаешь думать о LLM иначе.

Если бы я мог резюмировать главу одной фразой: трансформер — это машина, в которой токены смотрят на соседей, впитывают информацию от них и передают дальше чуть более умную версию себя, и так слой за слоем, пока не получится ответ.

Если вы добрались сюда — вы хорошо идёте

Завершить главу 3 — значит пройти самую техническую гору книги. Эмбеддинг, внимание, сложенный трансформер. Вы переступили порог внутрь модели и увидели, как там устроен поток. С этой картинкой в руке все следующие главы — обучение, fine-tuning, RAG, агенты, модели рассуждения — лягут на прочный фундамент.

Завтра — Глава 4: Как модель обучается. Делаем шаг назад — от «как работает» к «как обучалось». Предобучение и fine-tuning, и то, как RLHF превращает сырую модель в того ассистента, которым мы пользуемся каждый день.

Хочется всю картину? Книга идёт по потоку трансформера на диаграммах, показывая, что меняется на каждом слое — без матриц, но с нужной точностью там, где она важна. Открыть LLM Primer I на Amazon →