用語

Counterfactual Composition Testingとは

Counterfactual Composition Testingとは、AIエージェントの問題行動について、「もしこの記憶や文書がなかったら同じことが起きたか」を比べて原因を探る考え方です。反実仮想、つまり「別の条件ならどうだったか」を使うテストと言えます。

原因を外して、同じ失敗が残るかを見る

AIエージェントが不適切な判断をした時、原因はモデル本体、指示文、検索結果、長期メモリ、ツールのどこにあるか分かりにくいものです。Counterfactual Composition Testingは、構成要素を入れ替えたり外したりして、どの情報が問題行動を引き起こしたのかを調べていく発想になります。障害調査で部品を一つずつ切り分ける感覚に近いでしょう。

特にSemantic Norm DriftTrust Laundering Chainでは、AIが「正しいルール」と思い込んだ文書が原因になり得ます。そこで、対象文書を外した場合、別の記憶だけにした場合、権限を変えた場合を比べると、モデルを交換する前に原因を絞りやすくなります。AI監査では、結果だけでなく構成要素の比較が必要です。

Topic安全分類器だけでなく、構成を変えて確かめる

The Misattribution Gapの論文では、問題の検出だけでなく、記憶や文書の構成を変えて原因を確かめるCounterfactual Composition Testingが紹介されています。AIの事故調査でも「何を足したら壊れたか」だけでなく「何を抜けば戻るか」を見る発想が役立つでしょう。

Counterfactual Composition Testingに関するよくある質問

通常のログ確認と何が違いますか?
ログを見るだけでなく、疑わしい記憶や文書を外した条件と比較し、原因の候補を絞る点が違います。
本番運用で使うなら何が必要ですか?
入力、記憶、検索結果、ツール呼び出しを再現できる記録が必要です。再現できない環境では切り分けが難しくなります。

あわせて読みたい記事