Глава 10 — Мультимодальность: за пределами текста
Десятый пост разбора LLM Primer I: How Generative AI Works по главам. Текст перестаёт быть единственным входом — изображение и звук входят в ту же модель.
Что значит «та же модель и картинку видит»
Глядя на мультимодальную модель, естественно задаться вопросом: как одна и та же модель работает и с текстом, и с изображением, и со звуком — сразу? Ответ, после всего, что мы уже видели, проще, чем кажется. Потому что любой вход в итоге становится последовательностью токенов, а токены — эмбеддингами.
Возвращаемся к картинке из главы 3. Внутри модели токены — это эмбеддинги с сотнями измерений. Откуда взялись эти эмбеддинги — из текста, картинки, звука — после того, как они оказались внутри потока, перестаёт определять общую картину. Трансформер обрабатывает все три одинаково, тем же своим вниманием.
Как «токенизируют» изображение
Как превратить изображение в последовательность токенов? Закрепившийся способ — vision transformer (ViT) — режет изображение на маленькие квадратики (патчи) и каждый патч трактует как токен. Одно изображение становится горстью патч-токенов. Эти токены через тот же механизм внимания смотрят друг на друга, и модель впитывает общую форму изображения из этого взаимодействия.
Интересно то, что текстовые и визуальные токены могут идти рядом, в одном и том же контексте. Когда вы посылаете фразу вместе с картинкой, внимание свободно проводит линии между ними.
Звук
Звук идёт похожим путём. Короткие временные кусочки превращаются в эмбеддинги и попадают в контекст. Общая форма та же самая: сходимость к одному пространству эмбеддингов.
С этой деталью одна модель начинает отвечать на «прочти, что написано на этой вывеске», «какой тон у этой записи», «опиши ход этого видео одной строкой» — всё внутри одного взаимодействия.
Сильные стороны и ограничения мультимодальности
Сила — в естественной интеграции. Вы показываете картинку, задаёте вопрос текстом — и модель сшивает их вместе. То, что собранное вручную выглядело бы как сложный pipeline, превращается в один вызов.
Ограничение, честно: текст по-прежнему фундамент, и компетенция в тексте — глубже всего. Изображение в общих чертах схватывается хорошо, но детали — мелкие буквы, точное расположение, числа с точностью — не всегда. Звук тоже: тон и общую структуру схватывает, тонкие нюансы — пока ещё с шагом, который предстоит пройти.
Нить Главы 10
Что остаётся в одной строке: сердцевина мультимодальности — это сходимость к одному пространству эмбеддингов. С этой мыслью в голове новые модели — для видео, для звука, для чего угодно — лягут на ту же ментальную карту без травм.
Завтра — Глава 11: Меньше модели, умнее модели. Уходим в эффективность. Дистилляция, квантизация, MoE — и новая §11.6, целиком посвящённая моделям рассуждения.