LLMの基礎知識について②

LLMはどうやってテキストを生成しているのか

LLMが文章を生成する仕組みは、確率的な単語の予測に基づいています。

文を理解して、一語ずつテキスト生成します。

具体的には以下のようなステップで進みます。

1. トレーニングデータの学習

LLM は、大量のテキストデータ(ウェブサイト、書籍、論文、コードなど)を学習して、単語やフレーズの統計的な関係を理解します。
この学習は、主に トランスフォーマー(Transformer) というニューラルネットワークアーキテクチャを使用します。

2. トークン化

テキストは、単語や部分的な単語(サブワード)などの トーク に分割されます。例えば、「こんにちは、世界!」という文章は、以下のようにトークン化されることがあります:

["こん", "にちは", "、", "世界", "!"]

この処理は、モデルがより柔軟に単語を扱えるようにするために行われます。

3. 次の単語を予測(確率分布の計算)

モデルがテキストを生成する際は、与えられた入力から次に来る単語(トークン)の確率を計算します。
たとえば、「私は今日」という入力に対して、次の単語の確率分布は以下のようになるかもしれません:

  • 「学校」(40%)
  • 「映画」(25%)
  • 「図書館」(20%)
  • 「家」(15%)

モデルはこの確率分布からランダムに(または特定のルールに従って)次の単語を選びます。

4. 繰り返しによる文章の生成

この予測を繰り返すことで、文章が次々と生成されていきます。例えば:

  1. 入力:「私は今日」
  2. 予測:「学校」(40%の確率で選択)
  3. 新しい入力:「私は今日 学校」
  4. 次の予測:「に行きます」
  5. 新しい入力:「私は今日 学校 に行きます」
  6. 次の予測:「。」(文章の終了)

このようにして、モデルは一文字ずつ、または一単語ずつ文章を作り上げていきます。

5. 温度 (temperature) と多様性

テキスト生成には、いくつかのパラメータが関与します:

  • Temperature(温度): 生成のランダム性を調整する値。低いとより確実な単語を選び、高いとランダム性が増す。
  • Top-k サンプリング: 上位k個の単語候補のみを考慮することで、意味のない単語を避ける。
  • Top-p(Nucleus)サンプリング: 確率の合計がpになるまでの単語のみを考慮し、より自然な文章を生成する。

6. 文脈理解と注意メカニズム

LLM は 「注意機構(Attention)」 を使い、文脈を理解します。たとえば「Apple」という単語が「りんご」の意味なのか「アップル社」の意味なのかを、周囲の単語を考慮して判断します。

"大規模"とは?

大規模言語モデルの何が大規模か?

①パラメータ数が膨大:モデルのサイズが膨大

②学習データが膨大:トークン数が膨大

③計算リソースが膨大:計算資源が膨大

 

学習データには、Web、書籍などさまざまな文章が格納されており、LLMは大量の文章で学習し、"次の単語予測"の精度を上げていく。

LLMのサイズは、パラメータ数で表わされる。

また、LLMのトレーニングにはスーパーコンピュータ並みのGPU/TPUクラスタが必要となります。

”大規模化”のメリット

LLMは大規模にすればするほど性能が向上し、新しい能力を獲得できます。


スケーリング則(Scaling Laws):

スケーリング則(Scaling Laws) とは、モデルのサイズ(パラメーター数)、データの量、計算リソース を増やすことで、言語モデルの性能がどのように向上するかを表す法則のことです。

簡単に言えば:

「モデルを大きくすると、どこまで賢くなるのか?」 「どのリソースを増やせば、一番効率よく性能が上がるのか?」 を研究する理論です。

この概念は、OpenAI の研究者 Jared Kaplan らが 2020 年の論文で提唱しました。

 

創発的能力(Emergent Abilities):

創発的能力(Emergent Abilities) とは、LLM(大規模言語モデル)のパラメータ数や学習データ量が増えることで、ある閾値を超えたときに突然現れる高度な能力のこと。

簡単に言えば:

「小さいモデルではできなかったのに、大きくしたら突然できるようになった!」 という現象。

これは、単純なスケーリング(大きくすること)だけでは説明しにくい新しい能力が、ある特定の規模を超えたときに突然現れる という特性を指します。

 

まとめると、

・LLMは大規模にするほど性能が上がる

・LLMは大規模にするほど汎用性が上がる

 

”大規模化”のデメリット

計算コスト・開発費用の増大

モデルサイズと学習データが大きくなったので、トレーニングに膨大な計算コストがかかるようになっています。
計算リソースに加え、電力消費も増大するためコストが掛かるようなっています。

 

スケーリングの限界

スケーリング則 によれば、一定以上のパラメータ数を超えると、性能向上の効率が悪化する。また、ただ大きくするだけでは、賢くなりません。

 

データの品質問題

役に立たないゴミデータが学習されてしまう。
LLMは大量のウェブデータ を学習しているため、低品質な情報も含まれてしまう。

 

推論の速度低下

モデルが大きいほど、リアルタイムでの応答速度が遅くなる

スマホやPCでは動作しない

 

説明性・透明性の低下

なぜその回答を出したのか分からない

  • LLMは 「ブラックボックス」 的な仕組み

    • 「この答えを出した理由は?」 と聞いても、モデル自身が説明できない

    • 「推論の根拠」や「正しさの保証」が難しい

法律・倫理的な問題

  • 企業や政府機関がLLMを使う場合、透明性が求められる

    • AIの判断プロセスを説明できないと、導入が難しい

    • 特に 金融・医療・法務の分野では大きな課題

幻覚(Hallucination)問題

LLMは時々ウソをつく

  • 存在しない情報を作り出す

    • 例:「この論文の著者は?」→ 架空の名前を生成する

    • 例:「○○の最新ニュースは?」→ デタラメな情報を返す

 

セキュリティ・悪用のリスク

サイバー攻撃への悪用

プライバシー侵害のリスク

  • AIが学習データから個人情報を漏らすリスク

  • 企業がLLMを導入する際、顧客データをどう保護するか? が課題

 

文化・倫理的な影響

文化の均質化

  • 英語圏のデータが多いため、非英語圏の文化的背景が反映されにくい

  • 「グローバルAI」になると、ローカルな文化が消えてしまう危険性

バイアスの問題

  • モデルが偏ったデータを学習すると、回答にもバイアスがかかる

    • 例:性別・人種・宗教に関する偏見

    • 公平なAIを作るには、バイアスを軽減する研究が必要

 

ほなほな。