スコアが高いAIなら、自社のシステム開発を任せられますか？

競技プログラミング型の問題を解く力が高い証拠にはなりますが、実務は大規模なコードの理解・保守・仕様調整が主戦場です。コーディング支援AIの選定では、参考指標の一つとして自社環境での試験運用と組み合わせるのが堅実です。

リーダーボードの順位はそのまま信用してよいですか？

評価条件しだいで順位が動く点に注意が必要です。LiveCodeBenchは「いつ以降に公開された問題で採点するか」を選べる設計のため、同じモデルでも採点期間が違えば結果が変わります。順位は評価条件と時点をセットで確認してください。

問題はどのくらいの頻度で増えるのですか？

公開後も競技サイトの新作問題を取り込み続ける設計で、論文の初版（2024年3月）時点で300問超、改訂版では400問と増えています。評価時には「いつ以降の問題で採点したか」を指定できます。

LiveCodeBenchとは？意味をわかりやすく解説

LiveCodeBenchとは、AI（大規模言語モデル）のプログラミング能力を、「カンニングの利かない新しい問題」で測り続けるベンチマーク（AIの実技試験）です。UCバークレーなどの研究チームが2024年3月の論文で公開しました。名前のLiveは、問題集が固定ではなく「生きて」更新され続けることを表しています。

「過去問を覚えたAI」を見抜く仕組み

AIの評価には、汚染（コンタミネーション）という厄介な問題があります。試験問題と答えがAIの訓練データに混ざっていると、過去問を丸暗記した受験生のように、実力以上のスコアが出てしまうのです。問題が固定された従来の試験ほど、この影響を受けやすくなります。

では、どうすれば本当の実力だけを測れるのか。LiveCodeBenchの答えはシンプルでした。競技プログラミングサイト（LeetCode・AtCoder・Codeforces）から新しい問題を集め続け、1問ごとに「いつ公開された問題か」の日付を付けて管理します。こうすれば、AIモデルの訓練データの締め切り日より後に出た問題だけで採点でき、「初見の問題を解く本当の実力」だけを測れるというわけです。

「書く力」だけでなく「読んで直す力」も測る

もう一つの特徴は、試験科目の幅。コードを書く「コード生成」に加え、エラーを直す「自己修復」、コードの動きを頭の中で追う「コード実行」、結果を見積もる「テスト出力予測」の4シナリオで評価します。実際の開発業務では、ゼロから書く時間より既存のコードを読んで直す時間のほうが長いもの。コーディングAIエージェントを比べるとき、書く力に偏らない物差しとして参考になるでしょう。

Topic出題元のひとつは日本のAtCoder

問題の収集元3サイトのうちAtCoderは、AtCoder株式会社（東京）が運営する日本発の競技プログラミングサイトです。設立はChatGPT登場（2022年11月）より10年も早い2012年。世界中のAI研究者が最先端モデルの腕試しに使うベンチマークの「問題用紙」に、日本のサービスの問題が日々取り込まれていることになります。日本のエンジニア文化が、思わぬ形で世界のAI評価を支えている好例といえるかもしれません。

LiveCodeBenchに関するよくある質問

スコアが高いAIなら、自社のシステム開発を任せられますか？: 競技プログラミング型の問題を解く力が高い証拠にはなりますが、実務は大規模なコードの理解・保守・仕様調整が主戦場です。コーディング支援AIの選定では、参考指標の一つとして自社環境での試験運用と組み合わせるのが堅実です。
リーダーボードの順位はそのまま信用してよいですか？: 評価条件しだいで順位が動く点に注意が必要です。LiveCodeBenchは「いつ以降に公開された問題で採点するか」を選べる設計のため、同じモデルでも採点期間が違えば結果が変わります。順位は評価条件と時点をセットで確認してください。
問題はどのくらいの頻度で増えるのですか？: 公開後も競技サイトの新作問題を取り込み続ける設計で、論文の初版（2024年3月）時点で300問超、改訂版では400問と増えています。評価時には「いつ以降の問題で採点したか」を指定できます。

LiveCodeBenchとは

「過去問を覚えたAI」を見抜く仕組み

「書く力」だけでなく「読んで直す力」も測る

Topic出題元のひとつは日本のAtCoder

LiveCodeBenchに関するよくある質問

あわせて読みたい記事

Claude Fable 5とOpus・Sonnetの違い【Anthropic新旧3モデルの比較解説】

Anthropicが「Claude Corps」発表｜AI人材1,000人を非営利へ1年配置

AnthropicがDXCと提携｜Claude導入が「現場実装チーム込み」で広がる

いま読まれている用語

まだそこまで読まれていない用語