Direct Model Tamperingとは
Direct Model Tamperingとは、AIモデルの重みや内部パラメータを直接変え、特定の入力で誤情報や望まない挙動を出すようにする改ざんです。プロンプトでその場でだます攻撃ではなく、配布されるモデル自体が変えられている点が大きな違いになります。
日本語表記:モデル直接改ざん
入力ではなくモデルの中身を変える
プロンプトインジェクションは、AIへ与える指示を細工する攻撃です。Direct Model Tamperingはその前段階で、対象はモデルの中身そのもの。利用者から見ると普通のモデルに見えても、特定の質問、業務、条件でだけ答えが歪む可能性があります。
OWASPでは、Direct TamperingはLLM Supply Chainの攻撃シナリオの一つです。Vulnerable Pre-Trained ModelやWeak Model Provenanceと近く、外部モデルを取り込む企業にとっては調達と検証の問題です。モデルをダウンロードできることと、安全に使えることは別と考える必要があります。
平均点だけの評価では見逃す
改ざんモデルは、すべての回答でおかしくなるとは限りません。普段の質問には普通に答え、狙ったテーマだけ誤る形なら、一般的なテストを通ってしまう可能性があります。社内評価では、平均点だけでなく、自社にとって危険な質問、禁止したい出力、業務固有の境界条件を入れるべきでしょう。
対策は、出どころの確認、署名やハッシュ(モデルが改ざんされていないか照合する電子的な仕組み)、モデルカード、検証ログ、AIレッドチーミングを組み合わせることです。特に外部モデルを使う場合は、導入後も挙動を監視します。AIの回答品質だけでなく、モデルの変更履歴を管理することが守りの出発点になります。
TopicPoisonGPTは「モデル編集」の悪用可能性を見せた実証
Mithril SecurityのPoisonGPT実証は、GPT-J-6BにROME(Rank-One Model Editing)という知識編集手法を使った研究デモとして公開されました。名前の印象は強いですが、要点は「大規模な再学習をしなくても、一部の知識だけを書き換える発想がある」こと。導入担当者が配布元と版の来歴を見る理由を説明しやすくなる事例です。
Direct Model Tamperingに関するよくある質問
- 外部モデルを使うとき、最初に疑うべきサインはありますか?
- 配布元が曖昧、更新履歴が追えない、評価結果が少ない、同じ名前の類似リポジトリがある場合は注意が必要です。人気や性能だけで判断しないほうが安全です。
- 導入側はどう見抜けばよいですか?
- 入手元、署名、ハッシュ、評価ログ、変更履歴を確認し、自社で危険な質問を含むテストを行います。一般的な平均点だけでは、狙った改ざんを見逃すことがあります。