過学習とは
過学習とは、AIが訓練データに合わせすぎて、新しいデータではうまく予測できなくなってしまう状態のことです。学習に使ったデータでは高い正解率を出すのに、本番の少し違うデータになると急に当たらなくなる。機械学習でつまずきやすい、代表的な落とし穴のひとつです。
「理解」ではなく「丸暗記」してしまう
過学習は、たとえるなら過去問だけを丸暗記した生徒が、本番の少しひねった問題で点を取れない状態に似ています。AIが、データに共通する本質的な傾向ではなく、そのデータにたまたま含まれる細かなばらつき(ノイズ)まで覚え込んでしまうために起こります。覚えることと、応用が利くように理解することは別、というわけです。
どう見つけ、どう防ぐか
過学習が起きているかは、学習に使っていない検証データで試すとわかります。訓練データでは好成績なのに検証データで急に成績が落ちるなら、丸暗記のサインです。データを増やす、モデルを複雑にしすぎない、といった対策で和らげられます。AIの精度を語るときは、どのデータで測った数字かを確かめることが大切です。
TopicAIは「カンペ丸暗記」で満点も取れてしまう
極端な話、AIに十分な自由度を与えると、訓練データを丸ごと暗記して、その問題には完璧に答えられてしまうことがあります。ところが、ほんの少し違う新しい問題を出すと、とたんにひどく外す。一見すると満点でも、それは実力ではなく暗記にすぎないわけです。だからこそ、本当の力は「一度も見ていないデータ」で測る必要があります。
関連用語
過学習に関するよくある質問
- AIが高い正解率でも油断できないのはなぜですか?
- 訓練データに合わせすぎる「過学習」が起きていると、学習に使ったデータでは高得点でも、本番の少し違うデータで急に外すことがあるからです。極端には訓練データを丸暗記して満点を取ることすらあり、それは実力ではなく暗記にすぎません。
- 過学習が起きているかは、どう見分けますか?
- 学習に使っていない検証データで試すと分かります。訓練データでは好成績なのに検証データで急に成績が落ちるなら、丸暗記のサインです。だからこそ、本当の力は「一度も見ていないデータ」で測る必要があります。
- 過学習を防ぐにはどうすればいいですか?
- データを増やす、モデルを複雑にしすぎない、といった対策で和らげられます。AIの精度を語るときは、どのデータで測った数字かを確かめることも大切です。