Inference-Time Interventionとは

Inference-Time Interventionとは、AIを再学習させずに、答えを作るその場で内部の信号を「真実に向かう方向」へ少し押し、より正直な答えを引き出す手法です。略称はITI、日本語では「推論時介入」とも呼ばれます。2023年に提案されました。

特徴は、その操作がとても外科手術的な点です。AIの内部にある多数の処理のうち、真実らしさと関わりの深いごく一部だけを選び、そこの信号を真実の側へそっとずらします。数百例ほどの少ないデータで効き、計算も軽い。大がかりな再学習をするRLHFのような方法と比べ、手軽さとコストの低さが際立ちます。前項で触れたアクティベーションステアリング(内部信号に介入して傾向を変える手法群)の仲間で、なかでも「正直さ」に狙いを絞ったものと捉えるとよいでしょう。

経営にとっては、もっともらしい誤り(ハルシネーション)を軽く抑える選択肢になりえます。論文では、ある真実性テストでAIの正答が約32%から約65%へ、ほぼ倍に伸びたと報告されました。とはいえ、これで嘘がゼロになるわけではありません。あくまで真実性を底上げする工夫であり、過信は禁物でしょう。重要な用途では人による確認を残す。そのうえで精度を一段引き上げる、補助的な手段として位置づけるのが現実的です。

TopicAIは「本当の答え」を内心では知っている?

この手法の根っこには、AIは正しい答えを内部では捉えているのに、表に出さないことがある、という見立てがあります。論文の題名も「正直な答えを引き出す」というもの。知らないから間違えるのではなく、知っているのに言いそびれている。だとすれば、その隠れた手がかりを内側からそっと押し出してやろう、という発想です。AIの“本音”を引き出す、と言うと少し擬人的すぎるでしょうか。

Inference-Time Interventionに関するよくある質問

ITIはいつ登場した手法ですか?
2023年に発表され、同年の国際会議NeurIPSで紹介されました。AIの正直さを軽い手間で底上げする研究として注目されました。
アクティベーションステアリングとはどんな関係ですか?
推論時に内部信号へ介入する手法群の一種で、ITIはその中でも「正直さ」に的を絞ったものです。広い手法の中の特化版という位置づけです。

Inference-Time Interventionに関連する記事