憲法AIとは

憲法AIとは、AIに「守るべき原則の一覧」を与え、その原則に沿って自分の答えを正していく訓練方法のことです。英語ではConstitutional AI。Claudeを開発するAnthropicが考案しました。ここでいう憲法とは、国を治める法律ではなく、AIが従う行動原則を書いた文書のこと。

AIが自分の答えを「憲法」で正す

やり方は、大きく2段階に分かれます。まずAIに、自分が出した答えを憲法の原則に照らして見直させ、まずい点があれば書き直させます。次に、人の代わりにAI自身が原則をものさしにして「どちらの答えがより良いか」を判定し、その判断を手本に訓練を重ねるのです。価値観の基準を、人手による評価ではなく文書の原則に置くのが、この手法の肝になります。

RLHFとの違い

よく似た技術にRLHF(人間のフィードバックによる強化学習)があります。RLHFは、人が答えを見比べて「こちらが良い」と評価する方式。憲法AIは、その評価役をAIに任せる点が大きく異なります。人が不快・有害な内容を延々チェックする負担を減らせるうえ、AIの価値観を文書としてはっきり示せるのが利点です。

AIの価値観を「見える化」する

この手法は、Claudeの土台に使われています。AIがなぜその答えを返すのかという価値判断を、隠れた大量のデータ任せにせず、読める原則として明文化する。透明性を高める工夫といえます。AIを人の意図や社会の規範に沿わせる「アラインメント」の、代表的なアプローチのひとつでもあります。

Topic人権宣言からAppleの規約まで

憲法AIの「憲法」が、何を参考に書かれているかご存じでしょうか。Anthropicによれば、国連の世界人権宣言のような人権の理念から、Appleの利用規約まで、幅広い文書を下敷きにしているとのこと。お堅い法律文書だけでなく、企業のルールまで混ざっているのは少し意外です。AIに良識を教えるために、人間社会のさまざまな約束事が引っ張ってこられている、というわけです。

憲法AIに関するよくある質問

憲法AIの「憲法」とは、法律のことですか?
いいえ。ここでの「憲法」は国を治める法律ではなく、AIが従う行動原則を書いた文書のことです。AnthropicがClaudeのために考案した手法で、AIに自分の答えをその原則に照らして見直させ、書き直させることで、価値観の基準を人手の評価ではなく文書の原則に置きます。
憲法AIとRLHFはどう違いますか?
RLHFは人が答えを見比べて「こちらが良い」と評価する方式なのに対し、憲法AIはその評価役をAI自身に任せます。人が有害な内容を延々チェックする負担を減らせるうえ、AIの価値観を文書としてはっきり示せるのが利点です。
憲法AIの「憲法」は何を参考にしているのですか?
Anthropicによれば、国連の世界人権宣言のような人権の理念から、Appleの利用規約まで幅広い文書を下敷きにしています。お堅い法律文書だけでなく企業のルールまで混ざっており、AIに良識を教えるために人間社会のさまざまな約束事が引用されています。