1.2 確率論の基本と対話生成｜LLMの次単語予測を学ぶ / LLM入門 X 数学

1.2 確率論の基本と対話生成

大規模言語モデル（LLM）は、文章を「予測の連続」として処理しています。たとえば「今日は天気が」と入力すると、モデルは「いい」「悪い」「晴れ」など、次に続く候補を確率的に予測します。この章では、その背後にある確率論の基本を、対話生成の流れに沿って直感的に解説します。

言葉は曖昧で多様。
「今日は天気が」→「いい」「悪い」「変だ」「気になる」…
どれも自然だけれど“正解”は一つではありません。LLMは「もっともらしさ」に応じて確率を割り当て、柔軟な応答を生み出しています。

文脈（すでに入力された単語列）を条件に、次の単語の確率を計算します。数式で表すと：

P(next word | context)

例：

これらから「最も確からしい単語」か、ランダム性を加えた選択（Top-k sampling, Temperature制御）で応答が決まります。

確率が偏るほど確信が高く、均等に近いほど“迷い”が大きい状態。次章の情報理論（エントロピー）で、ばらつきの度合いを定量的に測ります。

このページのコンテンツは下記の本から抜粋

機械が言葉を理解するのは、なぜか？――その“数学的な理由”を、やさしく、でも本質的に解き明かす一冊。ChatGPTをはじめとするLLM（大規模言語モデル）が、いかにして自然言語を理解し、生成しているのか？本書はその仕組みを、数式と直感をバランスよく交えて、深く、わかりやすく解説します。

1,815円 (税込み)

次のセクション：2. LLMの基礎概念