Глава 3 — Как текст течёт внутри модели
Третий пост разбора LLM Primer I: How Generative AI Works по главам. Одна из моих любимых глав всей книги — заглядываем внутрь, чтобы увидеть, что происходит с токеном после того, как он переступил порог.
Что значит «слово становится вектором»
Вот здесь начинается по-настоящему интересное. В момент, когда токен заходит в модель, он перестаёт быть буквами. Каждый токен превращается в последовательность чисел — эмбеддинг — с несколькими сотнями измерений.
Зачем столько хлопот? Потому что эта числовая последовательность каким-то образом несёт «значение» токена — по крайней мере, в той форме, с которой модель умеет работать. В этом пространстве «король» оказывается рядом с «королевой», «Париж» — рядом с «Францией». Эмбеддинг токена хранит куда больше информации, чем короткая строка, — с какими словами он обычно соседствует, в каких контекстах появляется, на какие другие слова похож по поведению.
Глава 3 уделяет место тому, как эти эмбеддинги формируются, и — это всегда удивляет — тому, что они не статичный словарь. Это выученное представление.
Внимание — поворот, изменивший всё
После эмбеддинга — деталь, которая перекроила всю область. Внимание — точнее, self-attention — это идея: обрабатывая отдельный токен, модель может посмотреть на все остальные токены последовательности и решить для каждого, насколько он важен для понимания именно этого.
До внимания модели читали текст слово за словом, по порядку. С вниманием любой токен может связаться с любым другим за один проход.
Почему это весит так много? Возьмите фразу: «Он вошёл в сад, и тот уже был пуст». Чтобы понять, к кому относится «тот» — к человеку или к саду, — модели нужно провести линию от «тот» к нужному подлежащему. Внимание — это и есть механизм, позволяющий такую линию провести.
В книге внимание показано без того, чтобы топить вас в матрицах. Когда эта мысленная картинка встаёт на место, почти всё, что идёт следом про поведение LLM, начинает объясняться через неё.
Трансформер — сложите один и тот же блок шестьдесят раз
Если внимание так мощно, что если просто сложить из него много слоёв? Архитектура трансформера — это и есть такой ответ. Внимание плюс простое позиционное преобразование (feed-forward слой) образуют блок, и этот блок повторяется — двенадцать, шестьдесят, в более крупных моделях сотни раз.
Каждый слой уточняет представление токенов, делая их более абстрактными, более согласованными с контекстом. Метафора, к которой я возвращаюсь в книге, — понимать текст с поверхности (буквы), через грамматику, к смыслу, и в финале — к «какой следующий токен наиболее вероятен» — хорошо работает, чтобы представить, что делает каждый слой.
В этом одеянии становится менее загадочно, как один и тот же шаблон блока, повторённый шестьдесят раз, рождает такое богатство поведения.
Абзац, который мне доставил больше всего радости
Где-то в этой главе есть страница, над которой мне работалось особенно с удовольствием — та, где в рисунке и в тексте описано, как информация течёт внутри трансформера.
Мы стартуем со входного эмбеддинга, проходим слой внимания — и представление становится богаче. Ещё слой — ещё богаче. К концу представление каждого токена несёт уже не только то, чем он «является», но и то, что с ним делает весь контекст. Читатели иногда пишут: после того как однажды увидел эту страницу, начинаешь думать о LLM иначе.
Если бы я мог резюмировать главу одной фразой: трансформер — это машина, в которой токены смотрят на соседей, впитывают информацию от них и передают дальше чуть более умную версию себя, и так слой за слоем, пока не получится ответ.
Если вы добрались сюда — вы хорошо идёте
Завершить главу 3 — значит пройти самую техническую гору книги. Эмбеддинг, внимание, сложенный трансформер. Вы переступили порог внутрь модели и увидели, как там устроен поток. С этой картинкой в руке все следующие главы — обучение, fine-tuning, RAG, агенты, модели рассуждения — лягут на прочный фундамент.
Завтра — Глава 4: Как модель обучается. Делаем шаг назад — от «как работает» к «как обучалось». Предобучение и fine-tuning, и то, как RLHF превращает сырую модель в того ассистента, которым мы пользуемся каждый день.