SimPO(シンポ)とは

SimPOとは、AIに人間の好みを学ばせる選好最適化(人が「こちらの回答が良い」と選んだ例から、好まれる答え方を覚えさせる調整)の手法のひとつです。よく使われるDPOという手法を、より簡素にした2024年提案のやり方です。

英語表記:Simple Preference Optimization (SimPO)

DPOでは、調整前のモデル(参照モデル)を学習中ずっと別に持っておき、新しいモデルの答えと突き合わせます。SimPOはこの参照モデルを丸ごと省き、答えそのものの「もっともらしさ」を点数代わりに使います。手元に同じモデルを二重で抱えなくてよいぶん、学習に必要なメモリや計算を減らせるのが利点です。会議で言えば、過去の議事録を毎回横に開いて見比べるのをやめ、いま出てきた案そのものの質で判断するようなイメージでしょう。

自社のデータや方針にAIを合わせ込みたい企業にとって、調整の計算コストは見えにくい負担になります。SimPOのような軽い手法は、限られたGPU(画像処理にも使う高速な計算装置)で試行錯誤を回したい場面で選択肢になります。ただし、どの手法が合うかはデータ量や目的しだい。「簡素=常に最良」ではない点は押さえておきたいところです。提案元の報告では、同じ条件のDPOを上回る評価も示されていますが、結果は設定によって変わります。

Topic「シンプル」を名乗る手法が、人気投票で上位に立った話

SimPOの提案論文によると、実際の利用者が二つの回答を見比べて投票する「Chatbot Arena」で、約100億パラメータ未満のモデルのなかで1位に立ったと報告されています。名前のとおり仕組みは簡素なのに、研究用の採点だけでなく生身の利用者の評価でも上位に届いた、という点が面白いところ。手の込んだ作りより、無駄をそぎ落とした設計のほうが効く場面もあるわけです。

SimPOに関するよくある質問

SimPOはどんなときに使う手法ですか?
既存のモデルを自社の好みや方針に合わせて微調整したいときの、学習方法の選択肢のひとつです。少ない計算資源で試行錯誤を回したい場合に向きます。
SimPOはいつ登場しましたか?
2024年5月に公開され、同年の国際会議NeurIPSで発表されました。AIの好み学習を効率化する研究が活発だった時期の手法です。

あわせて読みたい記事