IFEvalとは
IFEvalとは、AI(大規模言語モデル)が「指示どおりの形式」で答えられるかを測るベンチマークです。Googleの研究チームが2023年11月の論文で提案しました。賢さや知識の量ではなく、言われたとおりに従えるかという「素直さ」を数字にする試験です。
英語表記:Instruction-Following Evaluation
採点は機械的、だからごまかせない
出題は「400語以上で書く」「キーワードAIを3回以上入れる」のような、守れたかどうかを機械的に確認できる指示25タイプ・約500問。プロンプト(AIへの指示文)に従えたかをプログラムが白黒判定するので、人の採点者やAI採点のような曖昧さが入り込みません。安く、速く、何度でも同じ条件で再現できる試験というわけです。
地味に見えて、実務との関係は深い指標でしょう。AIに帳票づくりやメールの下書き、データの整形を任せるとき、出力形式の安定は自動化の生命線になります。決めた形式を1カ所でも破られると、続く処理や確認の手間が一気に増えるからです。
Topic「素直さ」が「賢さ」と同格の採点科目に
世界中の公開AIモデルを採点するHugging FaceのOpen LLM Leaderboardでは、IFEvalが難問推論のBBHや知識試験のMMLU-Proと並ぶ6つの採点科目の一つに採用されています。いわば「指示に従えるか」という素直さの試験が、賢さの試験と同じ重みで成績表に載っているということ。賢いのに言うことを聞かないAIは実務では使いにくい、という現場の本音が試験制度に反映された格好です。
関連用語
IFEvalに関するよくある質問
- 賢いモデルなら、指示には当然従えるのではありませんか?
- 別問題です。知識や推論の試験で高得点のモデルでも、文字数や書式の指示を破ることはあります。だからこそ形式遵守だけを測る専用試験が作られ、モデル採点表でも独立した科目になっています。
- 経営の現場では何の役に立つ指標ですか?
- AIに帳票づくりやデータ整形を任せる場面で効きます。出力形式が安定しないと後工程が壊れて手直しが増えるため、IFEvalの成績は「決めた形式を守り続けられるAIか」を見極める参考になります。