Глава 1 — Что такое, в сущности, Большая Языковая Модель?

Первый пост разбора LLM Primer I: How Generative AI Works по главам. Начинаем с самого начала — с того, что прячется под ярлыком, прежде чем всё остальное.

Вопрос, обманчиво простой

Задайте сотне людей вопрос «что такое LLM?» — получите сто ответов. «Это ИИ.» «Чат-бот.» «Поисковик, который разговаривает.» «То, что вчера написало мой отчёт.» Ни один из ответов не совсем неверен, но все они о том, что LLM делает, а не о том, что LLM есть.

Глава 1 — как раз про второе. Это вопрос, который большинство вводных книг проскакивает, а маркетинг намеренно размывает. Но пропустить эту часть дорого: без неё практически невозможно ясно оценить любое другое утверждение о LLM, которое попадётся вам на пути.

Если коротко: Большая Языковая Модель — это машина, которая угадывает, что идёт дальше в тексте. И всё. Всё, что выглядит впечатляюще, — это эффект от повторения этого простого угадывания, с очень высокой точностью, миллиарды раз подряд.

Три слова — всерьёз

Книга начинается с того, что разбирает аббревиатуру по словам. Это важно: каждое слово несёт вес, который сама аббревиатура прячет.

Большая — не значит физически большая. Это значит, что внутри системы — миллиарды числовых настроек (параметров), отлаженных во время обучения. И что объём текста и вычислений, на которых она обучалась, тоже огромен. А эти три числа — параметры, данные, вычисления — не работают по отдельности. Чтобы модель становилась действительно умнее, все три должны расти вместе. Удвоить только одно из них в одиночку — обычно получите весьма унылый результат.

Языковая — кажется самой очевидной частью, но и она несёт особый смысл. Модель не понимает грамматику или значение так, как их понимает человек. Она работает с «токенами» — кусками меньше слова. С точки зрения модели любой промпт в итоге оказывается последовательностью чисел, а любой ответ — это «следующее число, и ещё следующее, и ещё…».

Модель — из трёх слов самое неправильно понятое. Здесь это не база фактов и не кто-то, кто что-то «знает». Это обученная математическая функция — распознаватель паттернов — которая по заданному тексту выдаёт наиболее вероятное продолжение. Когда LLM как будто «знает» столицу Франции, он ничего не сверяет. Он просто возвращает «Париж», потому что с учётом остального контекста «Париж» — наиболее вероятный следующий токен.

Это разделение — не мелочь. Оно объясняет, почему LLM галлюцинируют, почему уверенно ошибаются, почему пишут гладкие фразы, но спотыкаются на фактах. В книге я возвращаюсь к этой линзе многократно — это лучший способ предсказать поведение LLM, который я знаю.

Как мы сюда пришли — одним абзацем

Глава 1 заглядывает и в историю. Современный LLM — лишь последний кадр фильма, идущего десятилетиями. Долгое время компьютеры работали с языком либо по грамматическим правилам, которые писали люди, либо подсчитывая, как часто пары слов встречаются вместе в книгах. Оба пути упёрлись в стену. Прорыв случился, когда вместо обучения правилам кто-то решил позволить машине самой учить паттерны прямо из больших, очень больших корпусов текста. Идея, на которой построены LLM, — старше, чем кажется большинству. Новое — это масштаб, на котором она сейчас разворачивается.

Конкретный архитектурный поворот, изменивший всё, оставим на главы 3 и 4. Но стоит уже зафиксировать: переход от «считать частоты» к «учить сами паттерны» — крупнейшая развилка в истории обработки естественного языка. Увидев её ясно, гораздо проще понимать всё, что идёт следом.

Три мифа, с которыми стоит разобраться

В конце главы я серьёзно беру в работу три мифа о поведении LLM, которые упорно живут. Серьёзно — потому что каждый из них, если в него верить, полностью сбивает чувство «насколько вообще можно этому доверять».

Первый — что LLM понимает так, как понимает человек. Не понимает. Вывод выглядит понимающим, потому что обучен на текстах людей, которые действительно понимали. Второй — что LLM это база фактов. Нет. Факты размазаны по миллиардам весов, и именно поэтому модель умеет так невозмутимо производить правдоподобные и ложные утверждения. Третий — что чем модель больше, тем умнее. Не всегда. Масштаб взаимодействует с качеством данных, целью обучения и архитектурой. Самая большая модель под рукой — не всегда верный выбор. История сложнее, чем кажется.

Стоит запомнить: «LLM, звучащий уверенно» и «LLM, отвечающий правильно» — разные вещи. Связность и точность рождаются из одного механизма, но подчиняются разным ограничениям.

Что оставляет Глава 1

К концу главы вы сможете объяснить своими словами, что такое LLM и чем он не является. Получите чувство истории области и фильтр от наиболее распространённых мифов. Для одной главы это немало — и именно этот фундамент позволяет дальше идти по книге уверенно.

Даже если вы остановитесь только на Главе 1, говорить о LLM сможете уже куда точнее заголовков. Этим, по-моему, как минимум одна глава полностью оправдана.

Завтра — Глава 2: Вероятность, токены и текст. Разбираемся, что такое токены на самом деле, почему модель по сути своей — машина вероятностей, и как эта единственная вещь, которую она делает — предсказание следующего токена — порождает всё разнообразие того, что мы из неё получаем.

Хочется всю картину? Книга раскрывает каждую нить этого поста — с диаграммами, врезками «Простыми словами» и нужной мерой технической точности там, где она важна. Открыть LLM Primer I на Amazon →