LLMはどうやってテキストを生成しているのか
LLMが文章を生成する仕組みは、確率的な単語の予測に基づいています。
文を理解して、一語ずつテキスト生成します。
具体的には以下のようなステップで進みます。
1. トレーニングデータの学習
LLM は、大量のテキストデータ(ウェブサイト、書籍、論文、コードなど)を学習して、単語やフレーズの統計的な関係を理解します。
この学習は、主に トランスフォーマー(Transformer) というニューラルネットワークアーキテクチャを使用します。
2. トークン化
テキストは、単語や部分的な単語(サブワード)などの トークン に分割されます。例えば、「こんにちは、世界!」という文章は、以下のようにトークン化されることがあります:
["こん", "にちは", "、", "世界", "!"]
この処理は、モデルがより柔軟に単語を扱えるようにするために行われます。
3. 次の単語を予測(確率分布の計算)
モデルがテキストを生成する際は、与えられた入力から次に来る単語(トークン)の確率を計算します。
たとえば、「私は今日」という入力に対して、次の単語の確率分布は以下のようになるかもしれません:
- 「学校」(40%)
- 「映画」(25%)
- 「図書館」(20%)
- 「家」(15%)
モデルはこの確率分布からランダムに(または特定のルールに従って)次の単語を選びます。
4. 繰り返しによる文章の生成
この予測を繰り返すことで、文章が次々と生成されていきます。例えば:
- 入力:「私は今日」
- 予測:「学校」(40%の確率で選択)
- 新しい入力:「私は今日 学校」
- 次の予測:「に行きます」
- 新しい入力:「私は今日 学校 に行きます」
- 次の予測:「。」(文章の終了)
このようにして、モデルは一文字ずつ、または一単語ずつ文章を作り上げていきます。
5. 温度 (temperature) と多様性
テキスト生成には、いくつかのパラメータが関与します:
- Temperature(温度): 生成のランダム性を調整する値。低いとより確実な単語を選び、高いとランダム性が増す。
- Top-k サンプリング: 上位k個の単語候補のみを考慮することで、意味のない単語を避ける。
- Top-p(Nucleus)サンプリング: 確率の合計がpになるまでの単語のみを考慮し、より自然な文章を生成する。
6. 文脈理解と注意メカニズム
LLM は 「注意機構(Attention)」 を使い、文脈を理解します。たとえば「Apple」という単語が「りんご」の意味なのか「アップル社」の意味なのかを、周囲の単語を考慮して判断します。
"大規模"とは?
大規模言語モデルの何が大規模か?
①パラメータ数が膨大:モデルのサイズが膨大
②学習データが膨大:トークン数が膨大
③計算リソースが膨大:計算資源が膨大
学習データには、Web、書籍などさまざまな文章が格納されており、LLMは大量の文章で学習し、"次の単語予測"の精度を上げていく。
LLMのサイズは、パラメータ数で表わされる。
また、LLMのトレーニングにはスーパーコンピュータ並みのGPU/TPUクラスタが必要となります。
”大規模化”のメリット
LLMは大規模にすればするほど性能が向上し、新しい能力を獲得できます。
スケーリング則(Scaling Laws):
スケーリング則(Scaling Laws) とは、モデルのサイズ(パラメーター数)、データの量、計算リソース を増やすことで、言語モデルの性能がどのように向上するかを表す法則のことです。
簡単に言えば:
「モデルを大きくすると、どこまで賢くなるのか?」 「どのリソースを増やせば、一番効率よく性能が上がるのか?」 を研究する理論です。
この概念は、OpenAI の研究者 Jared Kaplan らが 2020 年の論文で提唱しました。
創発的能力(Emergent Abilities):
創発的能力(Emergent Abilities) とは、LLM(大規模言語モデル)のパラメータ数や学習データ量が増えることで、ある閾値を超えたときに突然現れる高度な能力のこと。
簡単に言えば:
「小さいモデルではできなかったのに、大きくしたら突然できるようになった!」 という現象。
これは、単純なスケーリング(大きくすること)だけでは説明しにくい新しい能力が、ある特定の規模を超えたときに突然現れる という特性を指します。
まとめると、
・LLMは大規模にするほど性能が上がる
・LLMは大規模にするほど汎用性が上がる
”大規模化”のデメリット
計算コスト・開発費用の増大
モデルサイズと学習データが大きくなったので、トレーニングに膨大な計算コストがかかるようになっています。
計算リソースに加え、電力消費も増大するためコストが掛かるようなっています。
スケーリングの限界
スケーリング則 によれば、一定以上のパラメータ数を超えると、性能向上の効率が悪化する。また、ただ大きくするだけでは、賢くなりません。
データの品質問題
役に立たないゴミデータが学習されてしまう。
LLMは大量のウェブデータ を学習しているため、低品質な情報も含まれてしまう。
推論の速度低下
モデルが大きいほど、リアルタイムでの応答速度が遅くなる
スマホやPCでは動作しない
説明性・透明性の低下
なぜその回答を出したのか分からない
-
LLMは 「ブラックボックス」 的な仕組み
-
「この答えを出した理由は?」 と聞いても、モデル自身が説明できない
-
「推論の根拠」や「正しさの保証」が難しい
-
法律・倫理的な問題
-
企業や政府機関がLLMを使う場合、透明性が求められる
-
AIの判断プロセスを説明できないと、導入が難しい
-
特に 金融・医療・法務の分野では大きな課題
-
幻覚(Hallucination)問題
LLMは時々ウソをつく
-
存在しない情報を作り出す
-
例:「この論文の著者は?」→ 架空の名前を生成する
-
例:「○○の最新ニュースは?」→ デタラメな情報を返す
-
セキュリティ・悪用のリスク
サイバー攻撃への悪用
プライバシー侵害のリスク
-
AIが学習データから個人情報を漏らすリスク
-
企業がLLMを導入する際、顧客データをどう保護するか? が課題
文化・倫理的な影響
文化の均質化
バイアスの問題
-
モデルが偏ったデータを学習すると、回答にもバイアスがかかる
-
例:性別・人種・宗教に関する偏見
-
公平なAIを作るには、バイアスを軽減する研究が必要
-
ほなほな。