4.0 トランスフォーマーの数理 - セルフアテンションとマルチヘッドアテンションの仕組み / LLM入門 X 数学

前のセクションでは、「線形代数：ベクトル空間と埋め込み表現」について学びました。ここでは、第４章の紹介として、セルフアテンションメカニズムとマルチヘッドアテンションが、どのように文脈理解を強化するかを見ていきましょう。

4. トランスフォーマーの数理

トランスフォーマーモデルは、自然言語処理における最も革新的な技術の一つであり、特にセルフアテンションメカニズムに基づく数理的な仕組みがその中核を担っています。トランスフォーマーモデルは、並列処理とアテンション機構を活用して、長文のテキストを効率的に処理し、文脈理解を高精度で行います。このセクションでは、トランスフォーマーにおける数理モデルの仕組みを解説し、どのようにしてLLMが膨大なデータを効率的に処理し、高い精度で言語生成を行っているのかを明らかにします。

セルフアテンションメカニズム
セルフアテンションメカニズムは、トランスフォーマーモデルの中心的な数理技術であり、文中の各単語が他の単語に対してどの程度関連しているかを動的に計算する仕組みです。このアテンションは、行列演算を基にして計算され、各単語間の関連性を数値的に表現します。

セルフアテンションの計算は、クエリ（Query）、キー（Key）、バリュー（Value）の3つのベクトルを用いて行われます。各単語はこれらのベクトルに変換され、クエリとキーの内積を計算することで単語同士の関連度が算出されます。この関連度はソフトマックス関数を使って正規化され、最終的にはバリューベクトルに重み付けされて計算されます。これにより、文中の各単語が文脈に基づいてどの単語に注目すべきかが決定されます。

数学的には、クエリとキーの行列演算は次のように表されます：

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

ここで、$ Q $ はクエリ行列、$ K $ はキー行列、$ V $ はバリュー行列、$ d_k $ はキーの次元です。この式により、単語間の注意（アテンション）が計算され、重み付けされたバリューが得られます。
マルチヘッドアテンション
トランスフォーマーモデルのもう一つの強力な数理的技術が、マルチヘッドアテンションです。この仕組みでは、セルフアテンションを複数の「ヘッド」に分割し、異なる部分に焦点を当てたアテンション計算を同時に行います。各ヘッドは、異なる視点から文中の単語間の関連性を捉えるため、より豊かな文脈情報をモデルが獲得できるようになります。

マルチヘッドアテンションは、各ヘッドが個別のクエリ、キー、バリューの組み合わせを使い、異なる重み付けを行います。最終的に、全てのヘッドの出力を結合し、次のレイヤーに送ります。この手法は、文の異なる部分に対して同時に注意を払うことを可能にし、長い文脈における情報の損失を防ぐために非常に効果的です。

数式的には、マルチヘッドアテンションは以下のように定義されます：

$$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \dots, \text{head}_h)W_O $$

ここで、各 head は個別のセルフアテンションの出力を表し、$ W_O $ は最終的な出力に適用される学習可能な重み行列です。

次のセクションでは、「セルフアテンションメカニズム」について学びます。セルフアテンションの仕組みとその数理的基盤について詳しく見ていきましょう。

4. トランスフォーマーの数理

下田 昌平

下田昌平