データシートとは

データシートとは、AI学習に使うデータセットに添える、そのデータの素性をまとめた説明文書のことです。AIモデル自体を説明するモデルカードと対になり、こちらは「学習に使ったデータ」の側を記録します。

データの素性を記録する

データシートには、そのデータが何のために作られ、どんな中身で、どう集められ、どんな使い道が向いているかが記録されます。AIの品質や偏りの問題は、もとをたどると学習データの素性に行き着くことが少なくありません。データの作り手と使い手が、認識を取り違えないための橋渡しになる文書だと言えるでしょう。モデルカードと同じく2018年に提唱され、機械学習の透明性を高める取り組みとして広まりました。

Topic名前は、電子部品の世界から借りてきた

「データシート」という言葉は、もともと電子部品の世界の用語です。抵抗やICといった部品には必ず仕様書(データシート)が付いてくる、というものづくりの慣習を、AIの学習データにも持ち込もうという発想から名づけられました。まったく新しい造語ではなく、長く根づいた習慣の借用だという点が面白いところです。

データシートに関するよくある質問

モデルカードとは何が違うのですか?
対になる文書で、対象が違います。モデルカードが「学習済みのAI」を説明するのに対し、データシートは「学習に使ったデータ」の素性(目的・中身・集め方・向く用途)を記録します。AIの偏りや品質の問題は、もとをたどると学習データに行き着くことが少なくないためです。
「データシート」という名前の由来は?
もともと電子部品の世界の用語です。抵抗やICといった部品には必ず仕様書(データシート)が付く、というものづくりの慣習を、AIの学習データにも持ち込もうという発想から名づけられました。2018年に提唱されています。