k平均法(けーへいきんほう)とは

k平均法とは、たくさんのデータを、性質の似たものどうしでk個のグループ(クラスタ)に自動で分ける、代表的な手法のことです。正解ラベルを教えなくてもデータの中から自然なまとまりを見つけるため、教師なし学習の代表例として知られます。顧客の分類やデータ整理の現場で、今も広く使われています。

英語表記:k-means clustering

k平均法の仕組み

やり方はシンプルで、2つの作業を繰り返すだけです。まず各グループの中心点(重心)を仮に置き、すべてのデータを「いちばん近い中心」に振り分けます。次に、集まったデータの平均をとって中心点を置き直す。この「振り分け」と「置き直し」を、メンバーが安定するまで何度もくり返します。グループをいくつに分けるか(kの数)は、人があらかじめ決めるのがポイントでしょう。

k近傍法との違い

名前がそっくりで取り違えやすいのが、k近傍法(k-NN)です。k平均法は正解ラベルなしでデータをグループ分けする「教師なし学習」、k近傍法は正解付きデータを使って新しいデータを仕分ける「教師あり学習。目的がまるで違います。どちらも「k」と「近さ」を使うので混同されがちですが、片や仲間分け、片や分類の物差し、と覚えると迷いません。

ビジネスでの使われ方

身近な活用が、顧客のグループ分け(セグメンテーション)です。購入金額や来店頻度などをもとに似た顧客をまとめれば、それぞれに合った施策を打ちやすくなります。ほかにも、写真の色数を減らして容量を軽くする画像圧縮や、大量データの下ごしらえにも使われます。手軽な半面、最初の中心点の置き方や、kをいくつにするかで結果が変わる点には注意がいるでしょう。

Topic名づけ親と発明者が、じつは別人

「k平均法」という名前を初めて使ったのは、1967年の数学者ジェームズ・マックィーンです。ところが、その中身にあたる標準的な手順は、それより前の1957年にベル研究所のスチュアート・ロイドが信号処理用に考え出していました(公表は1982年と、ずいぶん後のこと)。近い手法に複数の研究者が別々にたどり着いており、名前と中身の生みの親が違うという、変わった経歴を持つ手法なのです。

k平均法に関するよくある質問

kの数(グループの数)は、どうやって決めればよいですか?
決まった正解はなく、目的に合わせて人が決めます。いくつか試してまとまりの良さを見比べる方法(エルボー法など)もよく使われます。分けすぎても粗すぎても扱いにくいため、使い道から逆算するのが現実的です。
k平均法は、今のAI(ディープラーニング)の時代でも使われますか?
使われています。データをまず大まかにグループ分けする前処理や、傾向をつかむ探索的な分析で今も現役です。仕組みが分かりやすく、結果を説明しやすい点も実務で選ばれる理由です。

あわせて読みたい記事