次元削減とは

次元削減とは、たくさんの特徴を持つ複雑なデータを、大事な性質を保ったまま少ない特徴に圧縮する手法のことです。ここでの「次元」は、データが持つ特徴(項目)の数のこと。クラスタリングなどと並ぶ、教師なし学習の代表的な手法として使われます。

特徴を減らしても本質は残す仕組み

顧客データに「年齢・年収・購入回数…」と項目が何十個もあると、人もコンピュータも扱いに困ります。そこで、互いに似た情報をまとめ、少数の重要な軸に置き換えるのが次元削減です。代表手法のPCA(主成分分析)やt-SNE、オートエンコーダなどが知られています。

特徴が多すぎるとデータがスカスカになり分析しづらくなる現象は、「次元の呪い」と呼ばれます。次元削減は、この呪いを和らげ、データを2〜3次元の図にして人が目で見られるようにするのにも役立つのです。

ビジネスでの使われ方

次元削減は、表立って目立つ技術ではありませんが、裏方として広く効いています。大量の顧客データを地図のように可視化する、機械学習の前処理として無駄な項目を減らし精度を上げる、データのノイズを取り除くといった用途が代表的です。複雑なデータを「見える」「扱える」形に整える下ごしらえ、と捉えると分かりやすいでしょう。

Topic120年以上前、コンピュータが無い時代に生まれた手法

次元削減の代表格であるPCA(主成分分析)は、驚くほど古い手法です。考案したのは統計学者のKarl Pearsonで、なんと1901年のこと。コンピュータもAIブームもはるか先の時代に、すでに「多すぎるデータを少ない軸にまとめる」発想は生まれていました。最新のAIも、こうした100年以上前の数学の上に立っています。

次元削減に関するよくある質問

次元削減の「次元」とは何ですか?
データが持つ特徴(項目)の数のことです。顧客データに「年齢・年収・購入回数…」と項目が何十個もあると人もコンピュータも扱いに困るため、互いに似た情報をまとめて少数の重要な軸に置き換えるのが次元削減です。代表手法にPCA(主成分分析)やt-SNEがあります。
次元削減は何の役に立つのですか?
大量の顧客データを地図のように可視化する、機械学習の前処理として無駄な項目を減らし精度を上げる、ノイズを取り除く、といった下ごしらえに広く使われます。特徴が多すぎてデータがスカスカになる「次元の呪い」を和らげ、データを2〜3次元の図にして人が目で見られるようにもできます。
次元削減は新しい技術ですか?
いいえ。代表格のPCA(主成分分析)は驚くほど古く、統計学者カール・ピアソンが1901年に考案しました。コンピュータもAIブームもはるか先の時代に、すでに「多すぎるデータを少ない軸にまとめる」発想は生まれており、最新のAIもこうした100年以上前の数学の上に立っています。