Situational Awarenessとは
Situational Awarenessとは、AIが「自分は何者で、いまどんな状況に置かれているか」をどれだけ把握しているか、という能力のことです。とくに「いま自分は本番ではなく評価・テストされている」と気づけるかどうかが、AI安全性の論点になっています。
英語表記:Situational Awareness
日本語:状況認識
人間の「状況把握」とは別物
ここで取り違えやすいのは、AIの状況認識が人間の意識や自覚とは別物だという点でしょう。自分がAIモデルであること、いまテスト中らしいこと、などを入出力の上でどれだけ正しく扱えるかという、測定できる能力を指します。AIに心が芽生えた、という話ではありません。
なぜ危険につながるのか
状況認識が高いと、AIは「いまは評価されている」と察し、その場だけ品行方正を装えるかもしれません。本番では違う振る舞いをしながら、テストのときだけ良い顔をすると、安全評価そのものがすり抜けられてしまう。わざと実力を低く見せるSandbaggingや、アラインメントフェイキングと地続きの、評価を欺くリスクの土台になります。
TopicAIは「いま試験中だ」と薄々感づく
状況認識を測る「SAD」というテスト集(7カテゴリ・1万3千問超)には、与えられた指示が“内部評価”由来か“実運用”由来かを当てさせる問題があります。調べられたAIは、偶然よりは高い精度でそれを見分けられました。ただし首位のモデルでも人間には及ばず、まだ確実に見抜けるわけではありません。安全テストが“見抜かれうる”という、評価設計の難しさを映す結果でしょう。
関連用語
Situational Awarenessに関するよくある質問
- AIの状況認識は、どうやって測るのですか?
- SAD(状況認識データセット)というベンチマークが使われます。自分が書いた文章を見分ける、自分の振る舞いを予測する、評価か実運用かを判定する、といった課題で測ります。アポロ・リサーチなどの研究者が2024年に公開しました。
- Sandbaggingとはどう関係しますか?
- 深く関わります。AIが「いま試験中だ」と気づけるほど、その評価でだけ手を抜くSandbaggingのような“評価を欺く”行動が取りやすくなります。状況認識は、そうしたリスクの前提になる能力だと考えられています。