DEVELOPER’s BLOG

技術ブログ

最初に学ぶ クラスタリングの特徴と種類

2019.08.06 富田 浩世
クラスタリング 機械学習
最初に学ぶ クラスタリングの特徴と種類

クラスタリングとは

 クラスタリングとは、異なる性質を持った多くのデータから類似性を見て自動的に分類する、機械学習の教師なし学習における手法のこと。(複数のコンピュータを連動させることにより、1台のコンピュータとして利用できるようにする技術を言うこともある)
 マーケティングでは、顧客層の特性分析や店舗取り扱い商品の構成分析に利用されており、多くの顧客や商品を分類し、どのような顧客が多いのかを明確にし、ターゲットを決定する。

 クラスタリングとクラス分類は混同しやすいが、別々のものである。大きな違いは、クラスタリングは教師なし学習で、クラス分類は教師あり学習という点である。
教師あり学習であるクラス分類は、どのグループに属するかという"ラベル"がついている既知データが手元にあり、それを用いてモデルを作って、"ラベル"がついていないデータの分類に用いるという手法であることに対し、
教師なし学習であるクラスタリングは、ラベル付きデータがない状態で、あるデータを分類するような手法である。

クラスタリングの手法の種類

 クラスタリングはデータ同士が「似ている」、「似ていない」かを基準に分類する。この「似ているかどうか」という尺度は人間の感覚的な部分があるため、これまで多くの研究者が様々な手法や考え方を提唱してきた。それらは未だ一本化されておらず、ここではその種類を紹介する。

  1. 「階層的クラスタリング」と「非階層的クラスタリング」
  2. 「ハードクラスタリング」と「ソフトクラスタリング」

image

階層的クラスタリング

 階層的クラスタリングとは、 各データを1つのクラスタとして、最も似ている2つのクラスタを合併すること(近いものから順番にくくる)を繰り返していく手法。最終的にクラスタが1つになるまで合併を繰り返す。(※1)

image (※1)

 クラスタの合併をしていくと、樹形図のようなデータの階層構造が得られ、デンドログラムで表現することができる。(※2)

image (※2)

非階層的クラスタリング

 非階層的クラスタリングとは、事前にいくつのクラスタに分けるかを決め、サンプルを決めたクラスタ数に分割していく手法。階層的でないクラスタリングである。そのため、木構造のデンドログラムでは表現されない。階層的クラスタリングでは分類するデータが多いと、計算量が多くなってしまったり、階層構造が複雑になってしまったりする。それに対して非階層的クラスタリングは、分類するデータが多くなってしまう場合でも対応することができる。

 また、非階層的クラスタリングの代表的な手法はk-meansという手法である。

image

ハードクラスタリング

 ハードクラスタリングとは、各データが1つのクラスのみに所属するようなクラスタリング。

 一般的にクラスタリングといえばハードクラスタリングをさす。

image

ソフトクラスタリング

 ソフトクラスタリングとは、各データが複数のクラスタに所属することを許すようなクラスタリング。   image

あとがき

 今回は、クラスタリングとはどんなものなのかについて広く浅く扱ってきた。

 次回は、今回詳しく説明することができなかったk-means、ウォード法、メディアン法など、クラスタリングの手法の種類の一つ一つをより具体的に説明していく。

(2019/11/28 追記)
k-means法について

関連記事

機械学習活用事例|エントリーシート採点サービス

機械学習を利用して「エントリーシート自己PR分析サービス」を作成しました。 エントリーシートの評価や言いたいことが伝わるか、心配ですよね。 また、企業の採用担当者は膨大な数のエントリーシートを確認することはかなりの業務量かと思います。 「エントリーシート自己PR分析サービス」では、自己PRの内容を入力すると点数や頻出単語を表示します。 [2020年2月21日追記:デモ動画] 機能追加しました! ・自己PRそのものの採点ができるようになりました。 サービスの

記事詳細
機械学習活用事例|エントリーシート採点サービス
クラスタリング 利用事例 機械学習 自然言語処理
マーケティングに使われるクラスタリング分析k-meansクラスタリング編-

はじめに クラスタリングはマーケティング手法としても使われている。 見込み顧客へ適切な施策を行うために、似た顧客同士をカテゴリ分けする必要があり、それをセグメンテーションという。 セグメンテーションのために機械学習の手法としてクラスタリングが使用されている。 k-meansクラスタリング(以下、k-means法)は複数個のデータをcentroids(重点)からの距離に応じて、あらかじめ決めたk個のクラスタに分ける非階層クラスタリング、及び、ハードクラスタリ

記事詳細
マーケティングに使われるクラスタリング分析k-meansクラスタリング編-
クラスタリング 機械学習
クラスタリングの基本と特徴

1.クラスタリングの定義 クラスタリングとは、機械学習の目的物を分類する一つである。 与えられたデータを外的基準なしに自動的に分類する手法の事である。 簡単に言えば、データの集合体をカテゴリに分けることである。 2.クラスタリングの特徴 機械学習には教師あり学習と教師なし学習に大別される。 1.教師あり学習 人が正解を提示してそれを元に観測したデータから予測する事である。 2.教師なし学習 観測データのみを分析する。 クラスタリングは教師なし学習に分類され

記事詳細
クラスタリングの基本と特徴
クラスタリング 機械学習

お問い合わせはこちらから