特徴量とは

特徴量とは、AIが予測や判断をするときに手がかりにする「入力データの個々の項目」のことです。たとえば中古車の価格を予測するなら、走行距離や年式、車種といった一つひとつの項目が特徴量にあたります。英語のfeatureを訳した言葉で、AIに「何を見て考えるか」を与える材料だと捉えるとわかりやすいでしょう。

特徴量とは何を指すのか

特徴量は、AIに学習させるデータを「列」で見たときの一つひとつの項目だと整理できます。表計算ソフトの表でいえば、各列(走行距離、年式など)が特徴量、各行が1件分のデータにあたると捉えるとわかりやすいでしょう。

特徴量には、数値で測れるもの(年齢や金額)と、種類で分けるもの(色や地域)があります。種類で分けるデータは、AIが計算できるように数値へ置き換えてから使うのが一般的でしょう。こうして並べた数値の組をまとめて特徴ベクトルと呼びます。

正解にあたる「ラベル」との違い

特徴量と混同しやすいのが、正解にあたるラベルです。両者の関係はシンプルで、特徴量がAIに与える”問題”、ラベルがその”答え”にあたります。中古車の例なら、走行距離や年式が特徴量(問題)、実際の販売価格がラベル(答え)。AIは大量の「問題と答えの組」を見比べながら、どの特徴量がどう効くのかを少しずつ学んでいきます。

日常語の「特徴」とも、意味合いが少し違う点は押さえておきたいところ。人について「明るいのが特徴」と言うときの漠然とした印象ではなく、AIの世界では測ったり数えたりして数値で表せる項目を特徴量と呼びます。ここを取り違えると、AIが何をもとに判断しているのかが見えにくくなりかねません。

どの特徴量を選ぶかで精度が変わる

AIの予測精度を大きく左右するのが、どんな特徴量を与えるかという点です。生のデータから「予測に効きそうな項目」を見つけ出し、使いやすい形に整える作業を特徴量エンジニアリングと呼びます。

たとえば売上を予測したいとき、日付をそのまま渡すよりも「曜日」や「祝日かどうか」に作り替えたほうが、当たりやすくなる場合があります。経営の視点でいえば、自社にどんなデータがあり、その中の何が結果を左右するのかを見極めることが、AI活用の成否を分ける一歩になるはずです。立派なAIモデルを用意しても、与える特徴量がずれていれば力を発揮できません。

Topicかつては人の腕の見せどころだった特徴量づくり

写真から猫を見分けるAIを作る場面を考えてみます。ひと昔前は「輪郭の形」や「色の傾向」といった手がかりを、技術者が頭をひねって設計していました。どんな特徴量を用意するかこそ、機械学習の腕の見せどころだったのです。その流れを変えたのが深層学習(ディープラーニング)で、大量のデータから特徴量そのものをAIが自動で見つけ出すようになりました。人が手で組み立てていた工程をAIが肩代わりするこの仕組みは、「特徴量を学ぶ」という意味でfeature learning(表現学習)と呼ばれます。

特徴量に関するよくある質問

特徴量とラベルは何が違いますか?
特徴量がAIに与える“問題”、ラベルがその“答え”にあたります。中古車の価格予測なら、走行距離や年式が特徴量(問題)、実際の販売価格がラベル(答え)です。AIは大量の「問題と答えの組」を見比べながら、どの特徴量がどう効くのかを少しずつ学んでいきます。
特徴量はAIの精度にどう影響しますか?
どんな特徴量を与えるかがAIの予測精度を大きく左右します。生のデータから「予測に効きそうな項目」を見つけ使いやすい形に整える作業を特徴量エンジニアリングと呼び、たとえば日付をそのまま渡すより「曜日」や「祝日かどうか」に作り替えたほうが当たりやすくなる場合があります。立派なAIモデルでも、与える特徴量がずれていれば力を発揮できません。
日常語の「特徴」とは違うのですか?
違います。人について「明るいのが特徴」と言うときの漠然とした印象ではなく、AIの世界では測ったり数えたりして数値で表せる項目を特徴量と呼びます。ここを取り違えると、AIが何をもとに判断しているのかが見えにくくなりかねません。