カテゴリ変数とは

カテゴリ変数とは、血液型や都道府県、性別のように、数値ではなく「種類・区分」で表されるデータの項目のことです。身長や売上のように大小を測る数値データと対になる考え方で、機械学習では、こうした区分も特徴量の一つとして扱います。

数値データとの違いと扱い方

カテゴリ変数には、色や名前のように順序がないものと、学歴(高校・学士・修士)のように順序があるものがあります。注意したいのは、郵便番号や背番号のように数字で書かれていても、足し引きに意味がなければカテゴリ変数だという点です。多くのAIは数値しか計算できないため、カテゴリ変数はそのままでは使えず、数字へ置き換える前処理が必要になります。

TopicAIは「東京・大阪」をそのまま読めない

機械学習モデルは数値しか扱えないので、「東京・大阪・福岡」といった区分をそのまま渡せません。そこでよく使われるのが「東京なら1・それ以外は0」という列を区分の数だけ作る方法(ワンホットエンコーディング)です。言葉のラベルを、AIが読める“0と1の地図”に置き換える。カテゴリ変数を扱う裏では、こんな地味な変換が働いています。

カテゴリ変数に関するよくある質問

数値データとは何が違うのですか?
身長や売上のように大小を測るのが数値データ、血液型や都道府県のように「種類・区分」で表すのがカテゴリ変数です。注意したいのは、郵便番号や背番号のように数字で書かれていても、足し引きに意味がなければカテゴリ変数だという点です。
カテゴリ変数はそのままAIに使えるのですか?
使えません。多くのAIは数値しか計算できないため、数字へ置き換える前処理が必要です。よく使われるのが「東京なら1・それ以外は0」という列を区分の数だけ作る方法(ワンホットエンコーディング)で、言葉のラベルをAIが読める“0と1の地図”に変換します。