4.1 セルフアテンションメカニズム

前のセクションでは、第４章の紹介として「トランスフォーマーの数理」について軽く触れました。ここではセルフアテンションの仕組みとその数理的基盤について詳しく見ていきましょう。

セルフアテンションメカニズムは、トランスフォーマーモデルの中心的な構成要素であり、文中の単語間の関係を計算して、どの単語が重要かを動的に評価します。これにより、文脈に基づいて単語同士の関連性を考慮し、より適切な言語理解や生成を行うことができます。このメカニズムは、行列演算を用いた計算に基づいており、非常に効率的に大規模なデータを処理できます。

セルフアテンションの計算は、クエリ（Query）、キー（Key）、バリュー（Value）という3つのベクトルに依存しています。各単語はこれらのベクトルに変換され、クエリとキーの内積を計算することで、単語同士の関連性（スコア）が算出されます。これらのスコアは、ソフトマックス関数を使って正規化され、最終的にバリューベクトルに重み付けを行い出力されます。このプロセスは、次の数式で表されます：

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

ここで、Q はクエリ行列、K はキー行列、V はバリュー行列、d_k はキーの次元です。この数式では、クエリとキーの内積を計算し、その結果をソフトマックス関数で正規化してバリューベクトルに重み付けを行います。

ソフトマックス関数の詳しい解説

ソフトマックス関数は、入力されたスコアを確率分布に変換するための重要な関数です。スコアが異なるスケールを持っていても、この関数を使うことで適切に正規化できます。ソフトマックス関数の定義は以下の通りです：

$$ \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}} $$

ここで、$ z_i $ は各単語間の関連スコアであり、ソフトマックス関数を使うことで、各スコアを 0 から 1 の範囲に正規化し、確率分布として解釈可能な形にします。関連度が高い単語にはより大きな重みが割り当てられ、関連度の低い単語は無視されやすくなります。

重み付けのロジック

正規化されたスコアはバリューベクトルに重み付けされ、各単語の情報が出力として反映されます。具体的には、関連性の高い単語が文脈の理解に強く影響を与え、関連性の低い単語は無視されます。これにより、重要な情報だけが抽出され、文脈に基づいた適切な言語生成が行われます。

並列処理と長距離依存性の捉え方

セルフアテンションの強力な点は、各単語が他のすべての単語に対して同時に注目できる点です。これは、従来のリカレントニューラルネットワーク（RNN）と異なり、単語を順次処理する必要がないため、並列処理が可能になることを意味します。並列処理により、文の長さに関わらず、長距離依存性を捉えることができ、文全体にわたる関連性を高精度で計算できます。

次のセクションでは、「マルチヘッドアテンション」について学びます。セルフアテンションを複数のヘッドに分割し、文中の異なる視点を同時に捉える方法を詳しく解説します。