データセットとは
データセットとは、AIの学習や性能評価に使う、整理されたデータの集まりのことです。AIは大量の例を見て学ぶため、どんなデータセットを与えるかが、その賢さや得意分野を大きく左右します。「良いデータがなければ良いAIは育たない」という、AI開発の土台となる存在です。
役割ごとに分けて使う
データセットは、ふつう役割ごとに分けて使います。学ぶための「訓練データ」、途中の出来を確かめる「検証データ」、最終的な実力を測る「テストデータ」といった具合です。同じデータで学習と採点をしてしまうと、答えを丸暗記しただけの「カンニング状態」になりかねません。だから、実力を測る用のデータは分けて取っておくわけです。
質と偏りが結果を決める
データに偏りがあれば、AIの判断にもその偏りがそのまま乗り移ります。特定の層に偏ったデータで学習すれば、その外側に弱いAIができあがってしまう。量を集めるだけでなく、質と偏りのなさが問われます。「ゴミを入れればゴミが出てくる」という言葉どおり、データセットの良し悪しは、そのままAIの信頼性へ直結するのです。
Topic1つのデータセットがAIの時代を変えた
関連用語
データセットに関するよくある質問
- データセットはなぜ用途ごとに分けるのですか?
- 同じデータで学習と採点をすると、答えを丸暗記しただけの「カンニング状態」になりかねないためです。そこで学ぶための訓練データ、途中の出来を確かめる検証データ、最終的な実力を測るテストデータに分けて使います。
- データの量さえ多ければ、良いAIになりますか?
- いいえ。データに偏りがあれば、AIの判断にもその偏りがそのまま乗り移ります。「ゴミを入れればゴミが出てくる」という言葉どおり、量だけでなく質と偏りのなさが、そのままAIの信頼性を左右します。
- データセットがAIの歴史を変えた例はありますか?
- 「ImageNet」が象徴的です。スタンフォード大のフェイフェイ・リー氏らが構築した1,400万枚超の画像データセットで、2012年にこれを使ったコンペでディープラーニングが圧勝し、今のAIブームの号砲となりました。優れたデータの整備がアルゴリズム以上に時代を動かした好例です。