DEVELOPER’s BLOG
技術ブログ
クラスタリングの基本と特徴
1.クラスタリングの定義
クラスタリングとは、機械学習の目的物を分類する一つである。
与えられたデータを外的基準なしに自動的に分類する手法の事である。
簡単に言えば、データの集合体をカテゴリに分けることである。
2.クラスタリングの特徴
機械学習には教師あり学習と教師なし学習に大別される。
1.教師あり学習
人が正解を提示してそれを元に観測したデータから予測する事である。
2.教師なし学習
観測データのみを分析する。
クラスタリングは教師なし学習に分類される。
そのため、分類の基準が明確ではない。
分類の外的な基準が与えられていない場合にはどうしてそのように機械が分類したか分析する必要がある。
3.クラスタリングの目的
クラスタリングの目的は、まとまりのないデータを分類してマーケティング等で応用することである。
4.クラスタリングのアルゴリズム
クラスタリングを行うためには以下の2つのアルゴリズムを利用する。
1.断層クラスター分析
グラフ(例)
2.非断層クラスター分析
グラフ(例)
5.断層クラスター分析
断層クラスターとは、集合体のデータのうち最も類似している組み合わせにまとめて分類する手法である。
この手法は、結果を出すのに繰り返しデータを計算して断層的に併合するので樹形図のような形に見える。
6.断層クラスターのメリット・デメリット
断層クラスターは予めクラスターの数を決める必要がないので便利である。
しかし、断層が増えるたびに計算量が増加していき実行に時間がかかるので、膨大なデータを扱うのには向いていない。
7.非断層クラスター分析
非断層クラスターとは、異なるデータの集合体の中から対象のものを集めて分類する手法である。
ビッグデータを解析して大量のデータを分類する際に行う。
8.非断層クラスター分析のメリット・デメリット
非断層クラスターはデータの数が多いものでも取り扱う事ができる。
しかし、予めクラスターの数を決めておかなければならない。
9.クラスタリングの注意点
クラスタリングを行う際には、何らかの主観的視点に基づいているため客観的な証拠とする事ができない。
そのため、クラスタリングの結果を使う際は、その結果が妥当なのか検証しなければならない。
10.まとめ
クラスタリングは教師なし学習であり、似ているデータを分類する手法である。
クラスタリングは、断層クラスター分析と非断層クラスター分析のアルゴリズムを使用して分類を行う。