LLM入門
このページでは、AI技術に関心のある方のために、LLM(大規模言語モデル)の基礎から応用までをわかりやすく解説します。
第5章 — 位置、順序、系列の構造
LLM Primer II シリーズの第5章をご紹介させていただきます。Attention が抱えていた「順序を見ない」という静かな不具合を、正弦波エンコーディング、相対位置、RoPE、そして Fourier の視点から控えめにたどってまいります。
2026-03-07第4章 — Attention
LLM Primer II シリーズの第4章をご紹介させていただきます。Attention を直観から導出し、クエリ・キー・バリューの幾何、softmax の温度、マルチヘッド構造、そして Attention をカーネル法として読み直す視点まで、控えめに歩いてまいります。
2026-03-06第2章 — 確率、トークン、テキスト: 次の単語を当てるゲーム
LLM Primer I シリーズの第2章です。LLM がテキストをトークンに変換する仕組み、なぜ言語モデリングが本質的に確率の問題なのか、そして昔の n-gram アプローチが汎化できるニューラルモデルにどう道を譲ったかを解説します。パープレキシティのやさしい言葉での説明と、トークン境界がなぜ重要かも扱います。
2026-02-19LLM入門書シリーズ — 生成AIを理解するために、分解してみる
LLM入門書シリーズは、大規模言語モデルとどう向き合うかを、全7巻にわたって扱う入門書です。第1巻の基礎から、第6巻の本番運用、第7巻の安全性まで、巻ごとに別の角度から取り上げています。このページでは、シリーズ全体の構成と、すでに読める第1巻・第2巻について、章ごとの解説をまとめて紹介します。
2026-02-153.1 LLMのサブワードトークナイザーの使用方法|BERTやGPT-2でのトークン化の解説
サブワードトークナイザーを使用したLLMのトークン化方法を解説。Hugging FaceのBERTやGPT-2トークナイザーを使用し、Pythonコード例で具体的な実装方法を紹介します。
2024-11-106.1 データセットの前処理 - トレーニングデータのクリーニングと最適化方法
LLM(大規模言語モデル)のトレーニングに使用されるデータセットの前処理手法を解説します。データのクリーニング、トークン化、バイアス軽減、サンプリングなど、効果的な学習のためのプロセスを紹介します。
2024-10-17LLMの構成要素とは?|LLM入門 2.2|トークン・ベクトル・パラメータで理解する内部構造
LLM(大規模言語モデル)の内部で何が起きているのか?本記事では、トークン化・埋め込み(Embedding)・パラメータ・アーキテクチャなど、モデルを構成する基本要素をわかりやすく解説します。自然言語を数値で処理するAIの仕組みを学びましょう。
2024-10-063.1 LLMのデータセットと前処理 | データクリーニングとトークナイゼーションの重要性
LLM(大規模言語モデル)のトレーニングに必要なデータセットと前処理をエンジニア向けに解説。データのノイズ除去、トークナイゼーション、正規化、データバランスの取り方について詳しく説明します。
2024-09-12