LLMの基礎知識について② - The light of hope to the other side of the tunnel

LLMはどうやってテキストを生成しているのか

LLMが文章を生成する仕組みは、確率的な単語の予測に基づいています。

文を理解して、一語ずつテキスト生成します。

具体的には以下のようなステップで進みます。

1. トレーニングデータの学習

LLM は、大量のテキストデータ（ウェブサイト、書籍、論文、コードなど）を学習して、単語やフレーズの統計的な関係を理解します。
この学習は、主に トランスフォーマー（Transformer） というニューラルネットワークアーキテクチャを使用します。

2. トークン化

テキストは、単語や部分的な単語（サブワード）などの トークン に分割されます。例えば、「こんにちは、世界！」という文章は、以下のようにトークン化されることがあります：

["こん", "にちは", "、", "世界", "！"]

この処理は、モデルがより柔軟に単語を扱えるようにするために行われます。

3. 次の単語を予測（確率分布の計算）

モデルがテキストを生成する際は、与えられた入力から次に来る単語（トークン）の確率を計算します。
たとえば、「私は今日」という入力に対して、次の単語の確率分布は以下のようになるかもしれません：

「学校」（40%）
「映画」（25%）
「図書館」（20%）
「家」（15%）

モデルはこの確率分布からランダムに（または特定のルールに従って）次の単語を選びます。

4. 繰り返しによる文章の生成

この予測を繰り返すことで、文章が次々と生成されていきます。例えば：

入力：「私は今日」
予測：「学校」(40%の確率で選択)
新しい入力：「私は今日学校」
次の予測：「に行きます」
新しい入力：「私は今日学校に行きます」
次の予測：「。」（文章の終了）

このようにして、モデルは一文字ずつ、または一単語ずつ文章を作り上げていきます。

5. 温度 (temperature) と多様性

テキスト生成には、いくつかのパラメータが関与します：

Temperature（温度）: 生成のランダム性を調整する値。低いとより確実な単語を選び、高いとランダム性が増す。
Top-k サンプリング: 上位k個の単語候補のみを考慮することで、意味のない単語を避ける。
Top-p（Nucleus）サンプリング: 確率の合計がpになるまでの単語のみを考慮し、より自然な文章を生成する。

6. 文脈理解と注意メカニズム

LLM は 「注意機構（Attention）」 を使い、文脈を理解します。たとえば「Apple」という単語が「りんご」の意味なのか「アップル社」の意味なのかを、周囲の単語を考慮して判断します。

"大規模"とは？

大規模言語モデルの何が大規模か？

①パラメータ数が膨大：モデルのサイズが膨大

②学習データが膨大：トークン数が膨大

③計算リソースが膨大：計算資源が膨大

学習データには、Web、書籍などさまざまな文章が格納されており、LLMは大量の文章で学習し、"次の単語予測"の精度を上げていく。

LLMのサイズは、パラメータ数で表わされる。

また、LLMのトレーニングにはスーパーコンピュータ並みのGPU/TPUクラスタが必要となります。

”大規模化”のメリット

LLMは大規模にすればするほど性能が向上し、新しい能力を獲得できます。

スケーリング則(Scaling Laws)：

スケーリング則（Scaling Laws）とは、モデルのサイズ（パラメーター数）、データの量、計算リソースを増やすことで、言語モデルの性能がどのように向上するかを表す法則のことです。

簡単に言えば：

「モデルを大きくすると、どこまで賢くなるのか？」「どのリソースを増やせば、一番効率よく性能が上がるのか？」を研究する理論です。

この概念は、OpenAI の研究者 Jared Kaplan らが 2020 年の論文で提唱しました。

創発的能力（Emergent Abilities）：

創発的能力（Emergent Abilities）とは、LLM（大規模言語モデル）のパラメータ数や学習データ量が増えることで、ある閾値を超えたときに突然現れる高度な能力のこと。

簡単に言えば：

「小さいモデルではできなかったのに、大きくしたら突然できるようになった！」という現象。

これは、単純なスケーリング（大きくすること）だけでは説明しにくい新しい能力が、ある特定の規模を超えたときに突然現れるという特性を指します。

まとめると、

・LLMは大規模にするほど性能が上がる

・LLMは大規模にするほど汎用性が上がる

”大規模化”のデメリット

計算コスト・開発費用の増大

モデルサイズと学習データが大きくなったので、トレーニングに膨大な計算コストがかかるようになっています。
計算リソースに加え、電力消費も増大するためコストが掛かるようなっています。

スケーリングの限界

スケーリング則によれば、一定以上のパラメータ数を超えると、性能向上の効率が悪化する。また、ただ大きくするだけでは、賢くなりません。

データの品質問題

役に立たないゴミデータが学習されてしまう。
LLMは大量のウェブデータを学習しているため、低品質な情報も含まれてしまう。

推論の速度低下

モデルが大きいほど、リアルタイムでの応答速度が遅くなる

スマホやPCでは動作しない

説明性・透明性の低下

なぜその回答を出したのか分からない

LLMは「ブラックボックス」的な仕組み
- 「この答えを出した理由は？」と聞いても、モデル自身が説明できない
- 「推論の根拠」や「正しさの保証」が難しい

法律・倫理的な問題

企業や政府機関がLLMを使う場合、透明性が求められる
- AIの判断プロセスを説明できないと、導入が難しい
- 特に金融・医療・法務の分野では大きな課題

幻覚（Hallucination）問題

LLMは時々ウソをつく

存在しない情報を作り出す
- 例：「この論文の著者は？」→ 架空の名前を生成する
- 例：「○○の最新ニュースは？」→ デタラメな情報を返す

セキュリティ・悪用のリスク

サイバー攻撃への悪用

LLMを使って、フィッシングメールやマルウェアの自動生成が可能
ゼロデイ攻撃の発見など、悪意あるハッカーにとっても強力なツールに

プライバシー侵害のリスク

AIが学習データから個人情報を漏らすリスク
企業がLLMを導入する際、顧客データをどう保護するか？が課題

文化・倫理的な影響

文化の均質化

英語圏のデータが多いため、非英語圏の文化的背景が反映されにくい
「グローバルAI」になると、ローカルな文化が消えてしまう危険性

バイアスの問題

モデルが偏ったデータを学習すると、回答にもバイアスがかかる
- 例：性別・人種・宗教に関する偏見
- 公平なAIを作るには、バイアスを軽減する研究が必要

ほなほな。