アクティベーションステアリングとは
アクティベーションステアリングとは、AIを再学習させずに、内部の信号に「方向」を足し込んで、出力の傾向を推論時に調整する手法です。話題や口調、感情の向きなどを、その場で寄せられます。2023年ごろから整理されてきました。
英語表記:Activation Steering
AIが文章を作る途中では、頭の中にあたる場所を信号(活性)が流れています。この手法は、その流れにあらかじめ用意した「向き」を少し加えることで、出てくる答えの傾向を傾けます。船の舵を切るように、進路をそっと寄せるイメージでしょう。学習をやり直さず、動かしながら調整できるのが大きな特徴です。
プロンプト(指示文)で「優しく答えて」とお願いするのと似て見えますが、ねらいどころが違います。指示は入口の言葉でお願いする方法、ステアリングは内部の信号に直接働きかける方法です。経営の視点では、再学習のコストをかけずに挙動を寄せられる点が利点でしょう。一方で、効き目は大ざっぱで、狙わない副作用が出ることもあります。精密なコントロールというより、傾向を後押しする道具として捉えるのが無難ではないでしょうか。
Topic「愛」から「憎しみ」を引いて、向きを取り出す
では足し込む「向き」はどう作るのか。研究では、たとえば「Love(愛)」と「Hate(憎しみ)」という対になる言葉をAIに通し、その内部信号の差を取る方法が示されました。差し引きで残るのが「愛らしさの向き」というわけです。しかもたった1組の対からでも作れるとされ、言葉の引き算で性格の傾きを取り出す発想が、なんとも面白いところ。
関連用語
アクティベーションステアリングに関するよくある質問
- プロンプトでお願いするのと何が違うのですか?
- プロンプトは入口の言葉で頼む方法ですが、こちらはAI内部の信号に直接「向き」を加える方法です。指示文に書かなくても傾向を寄せられる点が異なります。
- ファインチューニングの代わりになりますか?
- 用途しだいです。学習をやり直さず軽く調整できる利点がある反面、効き目は大ざっぱで副作用も出やすいため、精密さが要る用途では再学習のほうが向く場合があります。