自己教師あり学習とは
自己教師あり学習とは、人手のラベル(正解)を使わず、データそのものから正解を自動で作り出して学習する方法のことです。文章の「次の単語」を当てる、文の一部を隠して当てる、といった形で、データの中に最初から答えが埋まっている点が持ち味。大規模言語モデルを支える学習法として広まりました。
データ自身が「正解」を持っている
ふつうの学習では、人が一つひとつ正解(ラベル)を付ける必要があります。自己教師あり学習は、そこが大きく違います。「この続きは何の単語か」「隠したここには何が入るか」という問いを、データ自身から自動でつくり、その正解もデータの中にあるので、人の手をほとんど借りずに大量に学べるのが強みです。
教師あり・教師なしとの関係
学習法は、大きく3つに分けて捉えられます。人がラベルを付ける「教師あり学習」、ラベルなしでデータの構造を探る「教師なし学習」、ラベルなしのデータから自分で正解をつくる「自己教師あり学習」です。ラベル付けの手間がいらない点は教師なし学習と似ていますが、はっきりした”問題と答え”を自分で設定して学ぶところが異なります。
大規模言語モデルの土台に
この学習法は、GPTやBERTといった大規模言語モデルの「事前学習」の土台になっています。インターネット上の膨大な文章を、人手のラベルなしでそのまま教材にできるからこそ、これほど大きなモデルが育ちました。いまのAIの賢さは、この仕組みに支えられている面が大きいといえるでしょう。
Topicデータが、自分自身の「先生」になる
「自己教師あり」という名前には、うまい仕掛けが隠れています。正解(教師)を外から与えるのではなく、データ自身が自分の先生になるのです。文章を読ませて「次の単語は何か」を当てさせる。答えはすぐ次に書いてあるので、隠して当てさせるだけで学習がどんどん進みます。膨大な文章を、人の採点なしでひたすら教材にできるのが強みです。
自己教師あり学習に関するよくある質問
- 教師あり学習・教師なし学習とどう違うのですか?
- 人がラベルを付けるのが教師あり、ラベルなしでデータの構造を探るのが教師なし、ラベルなしのデータから自分で正解をつくるのが自己教師あり学習です。ラベル付けの手間がいらない点は教師なしと似ていますが、はっきりした「問題と答え」を自分で設定して学ぶところが異なります。
- なぜ大規模言語モデルの土台になっているのですか?
- インターネット上の膨大な文章を、人手のラベルなしでそのまま教材にできるからです。「次の単語は何か」「隠したここに何が入るか」という問いと答えがデータの中に最初から埋まっているため、人の採点なしで大量に学べ、これほど大きなモデルが育ちました。
- なぜ「自己教師あり」と呼ぶのですか?
- 正解(教師)を外から与えるのではなく、データ自身が自分の先生になるからです。文章を読ませて「次の単語は何か」を当てさせると、答えはすぐ次に書いてあるので、隠して当てさせるだけで学習がどんどん進みます。