k平均法(けーへいきんほう)とは
k平均法とは、たくさんのデータを、性質の似たものどうしでk個のグループ(クラスタ)に自動で分ける、代表的な手法のことです。正解ラベルを教えなくてもデータの中から自然なまとまりを見つけるため、教師なし学習の代表例として知られます。顧客の分類やデータ整理の現場で、今も広く使われています。
英語表記:k-means clustering
k平均法の仕組み
やり方はシンプルで、2つの作業を繰り返すだけです。まず各グループの中心点(重心)を仮に置き、すべてのデータを「いちばん近い中心」に振り分けます。次に、集まったデータの平均をとって中心点を置き直す。この「振り分け」と「置き直し」を、メンバーが安定するまで何度もくり返します。グループをいくつに分けるか(kの数)は、人があらかじめ決めるのがポイントでしょう。
k近傍法との違い
名前がそっくりで取り違えやすいのが、k近傍法(k-NN)です。k平均法は正解ラベルなしでデータをグループ分けする「教師なし学習」、k近傍法は正解付きデータを使って新しいデータを仕分ける「教師あり学習」。目的がまるで違います。どちらも「k」と「近さ」を使うので混同されがちですが、片や仲間分け、片や分類の物差し、と覚えると迷いません。
ビジネスでの使われ方
身近な活用が、顧客のグループ分け(セグメンテーション)です。購入金額や来店頻度などをもとに似た顧客をまとめれば、それぞれに合った施策を打ちやすくなります。ほかにも、写真の色数を減らして容量を軽くする画像圧縮や、大量データの下ごしらえにも使われます。手軽な半面、最初の中心点の置き方や、kをいくつにするかで結果が変わる点には注意がいるでしょう。
Topic名づけ親と発明者が、じつは別人
「k平均法」という名前を初めて使ったのは、1967年の数学者ジェームズ・マックィーンです。ところが、その中身にあたる標準的な手順は、それより前の1957年にベル研究所のスチュアート・ロイドが信号処理用に考え出していました(公表は1982年と、ずいぶん後のこと)。近い手法に複数の研究者が別々にたどり着いており、名前と中身の生みの親が違うという、変わった経歴を持つ手法なのです。
k平均法に関するよくある質問
- kの数(グループの数)は、どうやって決めればよいですか?
- 決まった正解はなく、目的に合わせて人が決めます。いくつか試してまとまりの良さを見比べる方法(エルボー法など)もよく使われます。分けすぎても粗すぎても扱いにくいため、使い道から逆算するのが現実的です。
- k平均法は、今のAI(ディープラーニング)の時代でも使われますか?
- 使われています。データをまず大まかにグループ分けする前処理や、傾向をつかむ探索的な分析で今も現役です。仕組みが分かりやすく、結果を説明しやすい点も実務で選ばれる理由です。