SWE-benchとは
SWE-benchとは、実在するGitHubのバグ報告や改修要望をAIに与え、テストに通る修正を書けるかどうかで「実際のソフトウェア開発をこなせるか」を測るベンチマークのことです。HumanEvalのような小さな関数ではなく、現場の本物の課題で実力を試す点が特徴で、AIに開発業務を任せられるかの目安として注目されました。
本物のバグを直せるかを測る
SWE-benchは2023年10月、プリンストン大学などのチームが公開しました。人気の12のPythonプロジェクトから集めた、2,294件の実際の課題で構成されています。AIにはプログラム一式とバグの説明を渡し、コードを直させたうえで、本物のテストを実行して合否を判定します。複数のファイルにまたがる修正が必要で、現場の開発に近い難しさがある点が特徴です。
どれほど難しいかは、公開当時の数字が物語ります。当時もっとも高性能だったClaude 2でも、わずか1.96%しか直せませんでした。教科書的な小問題なら高得点を取れるAIでも、本物の開発はまるで歯が立たなかったわけです。
SWE-bench Verifiedと、2026年の曲がり角
原版には「説明が曖昧」「テストが厳しすぎて正しい解まで落とす」といった難があり、AIの実力を低く見積もってしまう面がありました。そこでOpenAIが原著者と協力し、2024年8月に人手で精査した500件「SWE-bench Verified」を公開しました。これがAIエージェントの開発力を示す事実上の標準として、各社の発表で広く使われるようになります。
ところが2026年2月、OpenAI自身がSWE-bench Verifiedの利用をやめると発表しました。問題が公開リポジトリ由来のため学習データに答えが混ざる汚染が進んだこと、スコアが頭打ちになる飽和が起きたことが理由で、後継のSWE-bench Proを推奨しています。リーダーボードの90%前後という数字も、ツールを使い何度も試すエージェント構成での結果が多く、モデル単体が一発で解く力(pass@1)とは区別して読む必要があります。
Topic3年で1.96%が90%近くに、ただし一因は「答えの暗記」
2023年に1.96%しか直せなかったAIは、約3年で90%近くまで跳ね上がりました。劇的な進歩に見えますが、その急上昇の一因は、ベンチマークの問題がAIの学習データに混ざっていたことでした。いわば答えを暗記していたわけです。OpenAIは2026年2月、最新モデルが人間の書いた正解をそっくり再現できてしまうと認め、自らこの指標の使用をやめました。「ベンチマークの高得点が、そのまま実務で使える証明とは限らない」という教訓を残した出来事です。
SWE-benchに関するよくある質問
- HumanEvalのような他のコード評価と何が違うのですか?
- HumanEvalが小さな関数を書かせるのに対し、SWE-benchは実在するGitHubのバグ報告や改修要望を与え、複数ファイルにまたがる修正を本物のテストで判定します。現場の開発に近い難しさで「実際の開発をこなせるか」を測る点が違います。
- 公開当時、AIはどれくらい解けたのですか?
- 2023年10月の公開時、当時もっとも高性能だったClaude 2でも、わずか1.96%しか直せませんでした。教科書的な小問題なら高得点を取れるAIでも、本物の開発にはまるで歯が立たなかったわけです。なお人手で精査した「SWE-bench Verified」(2024年8月・500件)が事実上の標準として広く使われました。
- SWE-benchの高得点は、実力の証明になりますか?
- 額面どおりには読めません。約3年で90%近くまで跳ね上がりましたが、急上昇の一因はベンチマークの問題がAIの学習データに混ざる「汚染」でした。OpenAIは2026年2月、最新モデルが正解をそっくり再現できてしまうと認めて使用をやめ、後継のSWE-bench Proを推奨しています。90%前後の数字も、何度も試すエージェント構成の結果が多く、一発で解く力(pass@1)とは区別が要ります。