TT AI Log

人工知能 / AI / 脳機能解析 に関する「個人」の調査・研究・参照ログ

AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能

【要点】

◎AI研究機関の調査で、LLMへのデータポイズニングはモデル規模に関係なく約250件の悪意文書で実行可能と判明。公開データ汚染の危険性が浮上。


【要約】

イギリスのAIセキュリティ研究所とアラン・チューリング研究所がAnthropicと共同で行った研究により、大規模言語モデル(LLM)へのデータポイズニング攻撃は、モデルの規模や学習データ量に関係なく、わずか約250件の悪意ある文書を混入させるだけで成功する可能性があることが判明した。データポイズニングとは、学習データを改ざんしてAIに意図的な誤動作や情報漏えい、偏向を引き起こす攻撃手法。研究結果は、Wikipediaなど公開ソースを通じた汚染の現実的リスクを示唆している。


【ニュース】

◆AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能 (Gigazine, 2025/10/10 11:50)
https://gigazine.net/news/20251010-llm-data-poisoning-250-documents/


Copyright (C) 谷川哲司 (Tetsuji Tanigawa) 1997 - 2023