4.2 マルチヘッドアテンションの数理 - トランスフォーマーモデルにおける文脈理解の強化 / LLM入門 X 数学

前のセクションでは、「セルフアテンションメカニズム」について学びました。このセッションではセルフアテンションを複数のヘッドに分割し、文中の異なる視点を同時に捉える方法を見ていきましょう。

4.2 マルチヘッドアテンション

マルチヘッドアテンションは、セルフアテンションの強化版であり、トランスフォーマーモデルの中心的な技術です。この仕組みにより、モデルは文章全体の異なる側面に対して同時に注意を払い、より深い文脈理解が可能になります。

マルチヘッドアテンションは、セルフアテンションを複数の「ヘッド」に分け、それぞれが異なるクエリ、キー、バリューの組み合わせを使って計算を行います。各ヘッドは、異なる視点から単語間の関連性を捉え、それぞれの視点でアテンション計算を行います。最終的に、各ヘッドの結果を結合して次のレイヤーに送ります。この並列的な処理により、長い文脈や複雑な文章に対しても効果的に機能します。

数式で表すと、マルチヘッドアテンションは次のように表現されます：

$$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \dots, \text{head}_h)W_O $$

ここで、各headは個別のセルフアテンションの出力を表し、$ W_O $ は全てのヘッドの出力を結合した後に適用される学習可能な重み行列です。各ヘッドが異なる視点からのアテンション計算を行い、最終的にすべてのヘッドの結果を結合して次のレイヤーに送ります。

具体的な処理フロー：各ヘッドは、異なる視点や情報に基づいて単語間の関連性を捉え、例えば、あるヘッドは文脈的な関連性を捉え、別のヘッドは単語の意味的な類似性を強調することができます。これにより、各ヘッドは独立して異なる情報を抽出し、全体の文脈をより深く理解することができます。

ソフトマックス関数は、計算されたスコアを正規化して確率分布として解釈可能な形に変換します。各スコアが確率として解釈されるため、関連度の高い単語には高い重みが割り当てられ、逆に関連度の低い単語は無視されます。この過程によって、各ヘッドが同時に多くの単語間の関連性を処理できます。最終的に、これらのアテンションスコアを使ってバリューベクトルに加重平均を行い、文脈に基づいた適切な単語生成が行われます。

さらに、マルチヘッドアテンションの利点は、単一のアテンションメカニズムでは捉えきれない多様な視点を一度に捉えられる点です。各ヘッドが独立して異なる情報を抽出することで、単語やフレーズの異なる側面を同時に学習できます。これにより、文全体における文脈理解がより深くなり、特に長い文脈や複雑な文章に対しても高精度な言語処理を実現できます。

例：例えば、「彼女は映画館で映画を観た」という文を処理する際、あるヘッドは「映画館」と「映画」という単語の物理的な関係に注目し、別のヘッドは「彼女」と「観た」というアクションに焦点を当てます。このようにして、文の異なる部分に対する注意を並行して処理することで、文全体の理解がより正確になります。

次に第５章では、「勾配降下法とモデル最適化」について学びます。勾配降下法の仕組みと、どのようにしてLLMのモデル最適化を行うかについて詳しく解説します。

4.2 マルチヘッドアテンション

下田 昌平

下田昌平