第5章 — 位置、順序、系列の構造

『LLM Primer II: 数学で読み解く言語モデル』を章ごとに紹介していくシリーズ、第5回です。前章で気づかなかった、Attention の小さな不具合をそっと直しにいく章になります。

この章の問い

第4章で Attention をひととおり手に入れました。第5章は、その式をもう一度よく眺め直したときに浮かび上がる、奇妙な性質に手をかけます。Attention の式は、入力を「順序のある系列」ではなく「トークンの集合」として扱っているのです。トークンを並べ替えれば出力も一緒に並べ替わるだけで、どのトークンも「自分が何番目か」を知りません。

言語にとって、これはちょっと困った話です。「猫がマットの上に座った」と「マットが猫の上に座った」は同じトークン集合を持っています。素のままの Attention では区別がつきません。第5章は、Transformer がこのほつれをどう繕ったか、そしてその繕い方が思いがけず豊かな数学につながっていく道筋を、ささやかに追いかける章になります。

ひとことで言うと: Attention だけでは、文ではなく「トークンの袋」しか見えていません。位置エンコーディングは、その目に順序を与えるための、控えめだけれど欠かせない一手です。

5.1 位置という情報がなぜ要るのか

冒頭の節では、不具合を具体的な計算で示してみます。同じトークン集合の異なる並べ替えに対して、Attention の出力が並び替えと等しく動いてしまうこと(置換に対する同変性)を確かめ、Attention の式の内側からはこの問題は直せないことを示します。情報は外から足さなくてはなりません。

その外から足す情報が、位置エンコーディングです。各トークンの埋め込みに、Attention が見る前に「私は3番目のトークンです」というささやかな印を加える(あるいは別の形で注入する)ベクトル、というふうにご理解いただけるかと思います。

5.2 正弦波エンコーディングと周期構造

もともとの Transformer 論文は、正弦波による位置エンコーディングを採用しました。5.2 節では、これを導出します。なぜ「波長を幾何的に並べた sin/cos の組み合わせ」というかたちが、アーキテクチャの求める性質 — 公式を直接教えなくても、エンコーディングの差から相対位置を読み取れること — を満たすのか、その理由を丁寧にほどいてまいります。

章のなかでは、その性質を支える数式と、「sin と cos を並べる」という選択が見かけほど恣意的ではない理由を、ひとつずつ追いかけていきます。周波数は、1トークン分の距離から数千トークン分の距離まで、ひとつの埋め込みベクトルのなかにスケールよく収まる。短い系列で学習したモデルが、より長い系列にある程度まで外挿できるのも、同じ作りのおかげです。

5.3 相対位置エンコーディング

5.3 節は、小さいけれど大切な一歩です。Attention が本当に欲しい情報は、しばしば各トークンの絶対位置ではなく、ペアのあいだの相対距離である、というお話です。「動詞は主語の3つあと」のほうが「主語は7番目」よりも使い勝手がいい場面が多い、というのが直観です。

節のなかでは、相対位置エンコーディング — 位置情報を埋め込みに加えるのではなく、Attention のスコアに直接折り込む変種 — を紹介します。数式の手数は少ないのに、効果は地味に大きく、学習時に見たことのない長さの系列にも汎化しやすくなる手当てです。

5.4 回転位置埋め込み(RoPE)と幾何の回転

5.4 節は、多くの読者の方にとってこの章の山場になるのではと思います。回転位置埋め込み(RoPE)は、最近の公開モデルで静かに標準となった位置エンコーディングです。

章のなかでは、RoPE をゼロから組み立てます。直観は幾何的です。位置ベクトルを足すのではなく、クエリとキーのベクトルを、位置に比例する角度だけ回転させる。系列のなかで距離が等しい2トークンの組は、どこに現れても、回転後の内積は同じ値を取ります。つまり、相対距離が Attention の計算のなかにすでに焼き込まれている、というかたちです。

数式は、複素数のささやかな恒等式をいくつか並べると、ぱたぱたと組み上がります。章のなかでは、小さな数値例を傍に置きながら、ゆっくり導出していきます。なぜ RoPE がこれほど広まったのか、その理由が手のひらに残っていただけたら幸いです。

5.5 位置エンコーディングを Fourier の目で眺める

章を閉じる節では、一歩引いてここまで全体を見渡します。正弦波エンコーディング、RoPE、相対位置 — 言い方こそ違えど、いずれも形を変えた Fourier 解析だ、というお話です。位置を、異なる周波数の振動の重ね合わせに分解しておき、どう重みづけるかをモデルに学ばせている、と読み替えることができます。

これは偶然ではありません。位置と周波数は、数学的に互いの双対の関係にあります。そこに気づくと、文献の景色が一段すっきりと見えてまいります。なぜ長い系列に外挿できる方式とできない方式があるのか、なぜ周波数の刻みが効くのか、そして今後この領域に登場するであろう工夫が、信号処理に親しんでこられた方には見慣れた姿で現れる理由 — そのあたりが、視界に静かに揃ってきます。

覚えておきたいこと: 位置エンコーディングは、Attention の幾何と、波の幾何が交わる場所です。どの方式を選ぶかは、モデルにどの周波数を見せるかを選ぶこととほぼ同じだ、と捉えてみてください。

この章を踏まえて

第5章を読み終えるころには、Attention は集合ではなく系列を読めるようになり、さらに、次に流れてくる位置エンコーディングの論文を Fourier の目で素早く読むだけの余裕も、手元に残っているはずです。ここから先は、Attention と位置の機構を、Transformer ブロックのもう片方の半身 — フィードフォワード層 — と組み合わせる場面へと進みます。

次回 — 第6章: Transformer ブロック。 Attention、フィードフォワード、残差結合 — 現代の Transformer ブロックを構成する三点セット。この組み合わせが、どちらの要素単独よりも豊かな関数を表せる理由、そして「深さ」と「幅」が数学的に何を買ってくれるのかを、控えめにたどってまいります。

全体像を押さえたい方へ: 本書では、RoPE を複素数の恒等式まで含めて丁寧に書き下し、位置と周波数の分解を視覚的に追える図も添えています。Amazonで『LLM Primer II』を見る