DEVELOPER’s BLOG
技術ブログ
機械学習の理解を深めるランダムフォレストの基本
2019.07.17
夏野光
木
機械学習
1.ランダムフォレストの定義
アルゴリズムで複数の決定木を使用して、「分類」または「回帰」をする、
機械学習の代表的なアルゴリズムのことである。
2.決定木とは
決定木とは、決定理論の分野において決定を行うためのグラフであり計画を 立案して目標を達成するために用いられる。 このグラフ(質問に対してyes or noと答える分岐グラフ)を見ると木のような 形をしていることから木構造であるといえる。 これが、決定木の名前の由来である。
3.決定木の種類
決定木は大別すると、分類と回帰に分ける事ができる。 分類木は性別を分けるように分類可能な変数で分類を目的にして決定木のアルゴリズムを使用する場合に使う。 回帰木は株価の変動のように分類がなく、過去からのデータを使い、未来の数値を予想する場合に使う。 これらの決定木のベースにアルゴリズムを形成することをランダムフォレストと呼ぶ。
4.アンサンブル学習
アンサンブル学習は決定木をランダムに構築してそれらの結果を合わせて分類と回帰をする方法である。
5.バギング
バギングは、アンサンブル学習を行う際に決定木を適用するアルゴリズムのことである。 これは、データのランダムサンプリングを繰り返すことで無作為に決定木のサンプリングを行います。
6.ランダムフォレストのメリット、デメリット
ランダムフォレストのメリット
- ノイズに強い
- 表現力が高い
- データ量が多くても高速に動く
ランダムフォレストのデメリット
- 説明変数が膨大
- 説明変数をランダムに抽出するためデータと変数が少ないとうまく機能しない
7.私見
ランダムフォレストは説明変数がある程度ないといけない面はあるが、機械学習における分類、 回帰、クラスタリングに用いられるほど汎用性の高い便利なモデルであると考える。