LLM入門

このページでは、AI技術に関心のある方のために、LLM(大規模言語モデル)の基礎から応用までをわかりやすく解説します。


合計 3 件の記事があります。 | 現在 1 ページ中の 1 ページ目です。

第10章 — ポストトレーニングとアラインメントの数学

LLM Primer II シリーズの第10章です。事前学習で出来上がった「賢いが野生のままの次トークン予測器」を、いかにして役に立つアシスタントへと飼い慣らすか。教師ありファインチューニング、Bradley–Terry に基づく報酬モデル、KL の手綱付き RLHF、そして報酬モデルも RL ループも消し去る DPO の鮮やかな導出。アラインメントの数学を、3つの楽章として整理します。

2026-03-12

第9章 — スケールでの学習

LLM Primer II シリーズの第9章を紹介します。データ前処理が後段すべてを静かに左右する数学、ミニバッチと並列化の力学、そして数千の GPU にまたがる学習を数値的に安定に保つための、思いのほか繊細な工夫を、控えめに整理します。

2026-03-11

第6章 — ファインチューニングと適応: 生のモデルから役に立つアシスタントへ

LLM Primer I シリーズの第6章です。プロンプトベースの安価な操作から、パラメータ効率の良いファインチューニング、そして RLHF やその現代的な後継 DPO による本格的なアライメントまで、適応の全スタックを扱います。なぜ今や API 型クローズドモデルの差別化要因が後学習にあるのかも整理します。

2026-02-23