AlpacaEvalとは
AlpacaEvalとは、指示に従うLLMの回答品質を自動で比べるベンチマークです。質問に対する複数モデルの回答を、GPT-4系の自動採点者で比較し、勝率として示します。人手評価より速く安く回せる一方で、採点するAIの癖や、長い回答を好みやすい偏りへの考慮が欠かせません。
何に向いているか
AlpacaEvalは、チャットAIが一般的な指示にどれだけ上手に従うかを見る評価です。公式ページでは、AlpacaEval 2.0や、回答長をそろえて見る勝率が示されています。これは、回答が長いだけで高く評価される問題を抑えるための指標です。社内AIの比較でも、長文で丁寧に見える回答と、本当に役立つ回答は分けて見る必要があります。
Topic長い回答は得をしやすい
AlpacaEvalの関連論文は、自動評価では長い回答が好まれやすい偏りがあると指摘し、それを抑える補正版を提案しました。これは、会議資料や提案書にも似ています。分量が多いと立派に見えますが、実際に価値が高いとは限りません。
AlpacaEvalに関するよくある質問
- AlpacaEvalは人間の評価を置き換えますか?
- 完全には置き換えません。大量比較を速く回すには便利ですが、自動採点者の癖や評価対象の狭さがあるため、重要な導入判断では人間の確認も必要です。
- AlpacaEvalは安全性も評価しますか?
- 公式ページでは、安全性を評価しないと説明されています。指示追従の比較には使えますが、有害回答、情報漏えい、業務上の禁止事項は別の評価軸で確認する必要があります。