クラスタリングとは
クラスタリングとは、似たデータどうしを自動でグループ分けする手法のことです。正解をあらかじめ教えなくても、近いものどうしを機械がまとめてくれる、教師なし学習の代表的なやり方として知られています。
正解を教えずにまとめる仕組み
クラスタリングで特徴的なのは、「これが正解」というラベルを人が与えない点です。データの似ている度合いだけを手がかりに、近いものを同じグループ(クラスタ)へまとめていきます。代表手法のk-means法では、いくつかの中心点を置き、各データを最も近い中心へ振り分けていくイメージです。
グループに分けたあとで、「これは優良顧客の塊だ」といった意味を人が後から読み取ることもあります。答えを探すというより、データの中に隠れた構造を浮かび上がらせる手法と言えるでしょう。
「分類」とは似て非なるもの
分類(クラス分け)と混同されがちですが、両者は別物です。分類は「犬」「猫」という正解ラベルを先に教える教師あり学習、クラスタリングは正解を教えない教師なし学習。あらかじめ答えがあるかどうかが、いちばんの分かれ目になります。
ビジネスでの使われ方
クラスタリングは、まだ正解が見えていないデータを探るのに向いています。顧客を購買傾向で自然なグループに分ける、似た問い合わせをまとめる、不自然なデータの塊を見つけるといった使い方が代表的です。「どう分けるべきか分からない」段階で、データ自身に語らせるための道具になります。
Topic生成AIよりずっと昔、電話の信号から生まれた
関連用語
クラスタリングに関するよくある質問
- 「分類」とは何が違うのですか?
- 分類は「犬」「猫」という正解ラベルを先に教える教師あり学習、クラスタリングは正解を教えずに似たものをまとめる教師なし学習です。あらかじめ答えがあるかどうかが、いちばんの分かれ目になります。
- クラスタリングはどんな場面で役立ちますか?
- まだ正解が見えていないデータを探るのに向きます。顧客を購買傾向で自然なグループに分ける、似た問い合わせをまとめる、不自然なデータの塊を見つけるといった使い方が代表例で、「どう分けるべきか分からない」段階でデータ自身に語らせる道具になります。
- クラスタリングは新しい技術ですか?
- いいえ、意外なほど古い歴史があります。定番のk-means法は、基になるアルゴリズムが1957年にベル研究所のStuart Lloydが電話の信号を圧縮するために考案したもので、ChatGPTの登場より半世紀以上前からデータをまとめる発想は磨かれてきました。