カテゴリ変数とは
カテゴリ変数とは、血液型や都道府県、性別のように、数値ではなく「種類・区分」で表されるデータの項目のことです。身長や売上のように大小を測る数値データと対になる考え方で、機械学習では、こうした区分も特徴量の一つとして扱います。
数値データとの違いと扱い方
カテゴリ変数には、色や名前のように順序がないものと、学歴(高校・学士・修士)のように順序があるものがあります。注意したいのは、郵便番号や背番号のように数字で書かれていても、足し引きに意味がなければカテゴリ変数だという点です。多くのAIは数値しか計算できないため、カテゴリ変数はそのままでは使えず、数字へ置き換える前処理が必要になります。
TopicAIは「東京・大阪」をそのまま読めない
関連用語
カテゴリ変数に関するよくある質問
- 数値データとは何が違うのですか?
- 身長や売上のように大小を測るのが数値データ、血液型や都道府県のように「種類・区分」で表すのがカテゴリ変数です。注意したいのは、郵便番号や背番号のように数字で書かれていても、足し引きに意味がなければカテゴリ変数だという点です。
- カテゴリ変数はそのままAIに使えるのですか?
- 使えません。多くのAIは数値しか計算できないため、数字へ置き換える前処理が必要です。よく使われるのが「東京なら1・それ以外は0」という列を区分の数だけ作る方法(ワンホットエンコーディング)で、言葉のラベルをAIが読める“0と1の地図”に変換します。