OWASP Top 10 for LLM Applications 2025 について: ④ Data and Model Poisoning

説明:

データ・ポイズニングとは、事前学習(pre-training)、ファインチューニング(fine-tuning)、または埋め込みデータ(embedding data)が操作されることで、脆弱性バックドア、またはバイアスが意図的に導入される攻撃を指します。
この操作により、モデルのセキュリティ、パフォーマンス、または倫理的な振る舞い
が損なわれ、有害な出力や能力の低下を引き起こす可能性があります。

データ・ポイズニングの主なリスク

  • モデルの性能低下
  • バイアスや有害なコンテンツの生成
  • 下流のシステム(downstream systems)の悪用

データ・ポイズニングは、LLM(大規模言語モデル)のライフサイクルの異なる段階を標的とする可能性があります。

  1. 事前学習(Pre-training): 一般的なデータから学習する段階
  2. ファインチューニング(Fine-tuning): モデルを特定のタスクに適応させる段階
  3. 埋め込み(Embedding): テキストを数値ベクトルに変換する段階

 

データ・ポイズニングは、インテグリティ(整合性)に対する攻撃(Integrity Attack)と見なされます。
レーニングデータが改ざんされることで、モデルの正確な予測能力が損なわれる
ためです。
特に外部データソースを使用する場合、検証されていない、または悪意のあるデータが含まれるリスクが高まります。

また、オープンソースや共有リポジトリ経由で配布されるモデルには、データ・ポイズニング以外にも悪意のあるピックル(malicious pickling)などのリスクが潜んでいます。
これは、モデルのロード時に悪意のあるコードを実行する技術です。
さらに、バックドア攻撃を仕込むことで、特定のトリガーが作動するまでモデルの動作を正常に保つことも可能です。
このような「スリーパーエージェント(Sleeper Agent)」的なモデルは、テストや検出が困難になります。

 

データ・ポイズニングの具体例

  1. 悪意のあるデータを学習データに組み込むことで、バイアスのある出力を生成させる。
    • 例: 「スプリットビュー・データ・ポイズニング(Split-View Data Poisoning)」や「フロントランニング・ポイズニング(Frontrunning Poisoning)」などの手法を活用。
    • 参考リンク:

      github.com

    • 参考リンク:

      github.com

    • 攻撃者が学習データに直接有害なコンテンツを注入し、モデルの出力品質を低下させる。
  2. ユーザーが無意識のうちに機密情報や専有データを入力し、それが後の出力に露出するリスクがある。

    • 例: OWASP Top 10 for LLM Applications v2.0 にも記載。
  3. 未検証のデータを学習に利用すると、バイアスのある、または誤った出力が増えるリスクが高まる。

  4. データ取得のアクセス制限が不十分な場合、安全でないデータを取り込む可能性がある

防止策・緩和策(Prevention and Mitigation Strategies)

  1. データの出所と変換履歴を追跡する。

    • ツール: OWASP CycloneDX、ML-BOM などを使用し、データの正当性を検証
  2. データ提供元(ベンダー)の厳格な審査を実施し、信頼できる情報源と比較してモデル出力を検証。

  3. サンドボックス環境を設定し、未検証のデータがモデルに影響を与えないように制限。

    • 異常検知技術を活用し、敵対的データをフィルタリング。
  4. 用途ごとに異なるデータセットでモデルをファインチューニングし、目的に適した出力を生成させる。

  5. インフラストラクチャの制御を強化し、モデルが意図しないデータにアクセスしないようにする。

  6. データのバージョン管理(DVC)を活用し、データセットの変更を追跡。

    • データ改ざんの検知に重要。
  7. ユーザーの入力情報をベクターデータベースに保存し、再トレーニングせずにモデルの調整を可能にする。

  8. レッドチームによる攻撃シミュレーションや、敵対的学習(Federated Learning)を活用し、データ改ざんの影響を軽減。

  9. レーニングロス(Training Loss)の監視とモデルの振る舞い分析を行い、異常な出力を検出するための閾値を設定。

  10. 推論時に「RAG(Retrieval-Augmented Generation)」や「グラウンディング技術」を導入し、幻覚(Hallucination)を抑制

 

ほなほな。