Глава 10 — Мультимодальность: за пределами текста

Десятый пост разбора LLM Primer I: How Generative AI Works по главам. Текст перестаёт быть единственным входом — изображение и звук входят в ту же модель.

Что значит «та же модель и картинку видит»

Глядя на мультимодальную модель, естественно задаться вопросом: как одна и та же модель работает и с текстом, и с изображением, и со звуком — сразу? Ответ, после всего, что мы уже видели, проще, чем кажется. Потому что любой вход в итоге становится последовательностью токенов, а токены — эмбеддингами.

Возвращаемся к картинке из главы 3. Внутри модели токены — это эмбеддинги с сотнями измерений. Откуда взялись эти эмбеддинги — из текста, картинки, звука — после того, как они оказались внутри потока, перестаёт определять общую картину. Трансформер обрабатывает все три одинаково, тем же своим вниманием.

Если коротко: мультимодальность — это не «несколько моделей бок о бок». Это разные виды входа, сходящиеся в одно и то же пространство эмбеддингов. Именно в этой сходимости одна модель начинает видеть всё.

Как «токенизируют» изображение

Как превратить изображение в последовательность токенов? Закрепившийся способ — vision transformer (ViT) — режет изображение на маленькие квадратики (патчи) и каждый патч трактует как токен. Одно изображение становится горстью патч-токенов. Эти токены через тот же механизм внимания смотрят друг на друга, и модель впитывает общую форму изображения из этого взаимодействия.

Интересно то, что текстовые и визуальные токены могут идти рядом, в одном и том же контексте. Когда вы посылаете фразу вместе с картинкой, внимание свободно проводит линии между ними.

Звук

Звук идёт похожим путём. Короткие временные кусочки превращаются в эмбеддинги и попадают в контекст. Общая форма та же самая: сходимость к одному пространству эмбеддингов.

С этой деталью одна модель начинает отвечать на «прочти, что написано на этой вывеске», «какой тон у этой записи», «опиши ход этого видео одной строкой» — всё внутри одного взаимодействия.

Сильные стороны и ограничения мультимодальности

Сила — в естественной интеграции. Вы показываете картинку, задаёте вопрос текстом — и модель сшивает их вместе. То, что собранное вручную выглядело бы как сложный pipeline, превращается в один вызов.

Ограничение, честно: текст по-прежнему фундамент, и компетенция в тексте — глубже всего. Изображение в общих чертах схватывается хорошо, но детали — мелкие буквы, точное расположение, числа с точностью — не всегда. Звук тоже: тон и общую структуру схватывает, тонкие нюансы — пока ещё с шагом, который предстоит пройти.

Важно: «мультимодальность = видит всё» — это фраза заголовка. Хорошо эксплуатировать мультимодальную модель — значит честно признавать, где каждая модальность ещё спотыкается, и опираться на модель там, где она действительно сильна.

Нить Главы 10

Что остаётся в одной строке: сердцевина мультимодальности — это сходимость к одному пространству эмбеддингов. С этой мыслью в голове новые модели — для видео, для звука, для чего угодно — лягут на ту же ментальную карту без травм.

Завтра — Глава 11: Меньше модели, умнее модели. Уходим в эффективность. Дистилляция, квантизация, MoE — и новая §11.6, целиком посвящённая моделям рассуждения.

Хочется всю картину? Книга разбирает механику vision transformer и токенизации звука с диаграммами. Открыть LLM Primer I на Amazon →