用語

Semantic Norm Driftとは

Semantic Norm Driftとは、AIエージェントが記憶や検索結果に混ざった「ルールらしい情報」に引っ張られ、判断基準が少しずつずれる現象です。モデル本体が急に変わったのではなく、参照している文脈の側がずれる点が特徴です。

ルールのように見える情報が判断を変える

社内規程、運用ポリシー、FAQ、過去の対応履歴は、AIエージェントにとって強い根拠に見えます。そこへ未承認の文書や攻撃者が作ったポリシー風の文章が混ざると、AIは本来の規則ではなく、保存された文脈を規範として扱うおそれがあります。RAGメモリポイズニングを使う環境では、特に見落としやすいリスクです。

経営層にとっての教訓は、AIの回答ミスをすぐ「モデルが悪い」と決めつけないことです。どの文書を根拠にしたのか、誰が入れた情報なのかを追えなければ、原因がモデル、データ、運用のどこにあるのか切り分けられません。Trust Laundering ChainCounterfactual Composition Testingは、この切り分けを考える手がかりになります。

Topic「モデルの失敗」に見えるが、原因は記憶かもしれない

The Misattribution Gapの論文は、メモリ層の攻撃がモデル本体の失敗のように見える問題を指摘しています。AIが変な判断をした時、モデルを入れ替えるだけでは不十分かもしれません。根拠として取り込んだ記憶や文書の調査が必要です。

Semantic Norm Driftに関するよくある質問

モデルを変えれば解決しますか?
原因が記憶や参照文書にある場合、モデル交換だけでは再発します。根拠データの確認が必要です。
社内AIでは何を記録すべきですか?
回答の根拠文書、文書の承認状態、更新日、誰が追加した情報かを追える形にしておきます。

あわせて読みたい記事