Deliberative Alignmentとは
Deliberative Alignmentとは、AIが回答する前に安全のための方針(ルール)を自分で思い出し、それに照らして考えてから答えるように訓練する手法です。OpenAIが2024年12月に公表し、同社の推論モデルに使われました。日本語では「熟議的アライメント」と呼ばれることもあるでしょう。
従来の主流であるRLHF(人間のフィードバックで好ましい振る舞いを学ばせる方法)は、「この答えは良い・悪い」というラベルから、方針を暗黙のうちに身につけさせます。これに対しDeliberative Alignmentは、安全方針の文章そのものをAIに覚えさせ、答える前に該当する規則を引き当てて推論させます。マニュアルを丸暗記させるのではなく、手元の規程を開いて確認してから対応する社員に近い発想でしょう。
経営の視点で効くのは、判断の根拠を追いやすくなる点です。AIがなぜその依頼を断ったのか、どの方針に沿った判断なのか。これが説明できると、社内規程やコンプライアンスとの整合も確かめやすくなります。OpenAIの報告では、危険な依頼への耐性を高めつつ、安全な依頼まで過剰に断る問題を同時に減らせたとされます。守りと使い勝手の二律背反をやわらげる狙いがうかがえるでしょう。
Topic「賢く考えさせる技術」を、暴走を抑える側に使う発想
近年のAIは、答えを出す前に頭の中で筋道を立てて考える「推論」が得意になってきました。Deliberative Alignmentは、その考える力を安全対策に転用した点が新しいところ。しかも、人間がお手本の思考プロセスを書いて与えるのではなく、AI自身に安全方針を参照させて考えさせると報告されています。賢さを伸ばす研究と、行儀よくさせる研究が、ここで一本につながったわけです。
Deliberative Alignmentに関するよくある質問
- Deliberative AlignmentはRLHFを置き換えるものですか?
- 完全な置き換えというより、安全方針を明示的に参照させる工夫を上乗せする考え方です。OpenAIは推論が得意なモデルでこの手法を用いたと説明しています。
- この手法を使えばAIは絶対に安全になりますか?
- いいえ。危険な依頼への耐性を高める工夫であり、あらゆる悪用を防ぐ保証ではありません。安全のための対策のひとつとして位置づけるのが現実的です。