データセットとは

データセットとは、AI学習や性能評価に使う、整理されたデータの集まりのことです。AIは大量の例を見て学ぶため、どんなデータセットを与えるかが、その賢さや得意分野を大きく左右します。「良いデータがなければ良いAIは育たない」という、AI開発の土台となる存在です。

役割ごとに分けて使う

データセットは、ふつう役割ごとに分けて使います。学ぶための「訓練データ」、途中の出来を確かめる「検証データ」、最終的な実力を測る「テストデータ」といった具合です。同じデータで学習と採点をしてしまうと、答えを丸暗記しただけの「カンニング状態」になりかねません。だから、実力を測る用のデータは分けて取っておくわけです。

質と偏りが結果を決める

データに偏りがあれば、AIの判断にもその偏りがそのまま乗り移ります。特定の層に偏ったデータで学習すれば、その外側に弱いAIができあがってしまう。量を集めるだけでなく、質と偏りのなさが問われます。「ゴミを入れればゴミが出てくる」という言葉どおり、データセットの良し悪しは、そのままAIの信頼性へ直結するのです。

Topic1つのデータセットがAIの時代を変えた

データセットの威力を象徴するのが「ImageNet」です。スタンフォード大のフェイフェイ・リー氏らが構築した、1,400万枚を超える手作業でラベル付けされた画像の巨大データセットで、ラベリングには世界167カ国の作業者が参加しました。2012年、このデータを使ったコンペでディープラーニングが圧勝し、いまのAIブームの号砲となります。優れたデータの整備が、アルゴリズム以上に時代を動かした好例といえるでしょう。

データセットに関するよくある質問

データセットはなぜ用途ごとに分けるのですか?
同じデータで学習と採点をすると、答えを丸暗記しただけの「カンニング状態」になりかねないためです。そこで学ぶための訓練データ、途中の出来を確かめる検証データ、最終的な実力を測るテストデータに分けて使います。
データの量さえ多ければ、良いAIになりますか?
いいえ。データに偏りがあれば、AIの判断にもその偏りがそのまま乗り移ります。「ゴミを入れればゴミが出てくる」という言葉どおり、量だけでなく質と偏りのなさが、そのままAIの信頼性を左右します。
データセットがAIの歴史を変えた例はありますか?
「ImageNet」が象徴的です。スタンフォード大のフェイフェイ・リー氏らが構築した1,400万枚超の画像データセットで、2012年にこれを使ったコンペでディープラーニングが圧勝し、今のAIブームの号砲となりました。優れたデータの整備がアルゴリズム以上に時代を動かした好例です。