DEVELOPER’s BLOG

技術ブログ

機械学習の理解を深めるランダムフォレストの基本

2019.07.17 夏野光
機械学習
機械学習の理解を深めるランダムフォレストの基本

1.ランダムフォレストの定義

アルゴリズムで複数の決定木を使用して、「分類」または「回帰」をする、 機械学習の代表的なアルゴリズムのことである。

2.決定木とは

決定木とは、決定理論の分野において決定を行うためのグラフであり計画を 立案して目標を達成するために用いられる。 このグラフ(質問に対してyes or noと答える分岐グラフ)を見ると木のような 形をしていることから木構造であるといえる。 これが、決定木の名前の由来である。

3.決定木の種類

決定木は大別すると、分類と回帰に分ける事ができる。 分類木は性別を分けるように分類可能な変数で分類を目的にして決定木のアルゴリズムを使用する場合に使う。 回帰木は株価の変動のように分類がなく、過去からのデータを使い、未来の数値を予想する場合に使う。 これらの決定木のベースにアルゴリズムを形成することをランダムフォレストと呼ぶ。

4.アンサンブル学習

アンサンブル学習は決定木をランダムに構築してそれらの結果を合わせて分類と回帰をする方法である。

5.バギング

バギングは、アンサンブル学習を行う際に決定木を適用するアルゴリズムのことである。 これは、データのランダムサンプリングを繰り返すことで無作為に決定木のサンプリングを行います。

6.ランダムフォレストのメリット、デメリット

ランダムフォレストのメリット

  1. ノイズに強い
  2. 表現力が高い
  3. データ量が多くても高速に動く

ランダムフォレストのデメリット

  1. 説明変数が膨大
  2. 説明変数をランダムに抽出するためデータと変数が少ないとうまく機能しない

7.私見

ランダムフォレストは説明変数がある程度ないといけない面はあるが、機械学習における分類、 回帰、クラスタリングに用いられるほど汎用性の高い便利なモデルであると考える。

関連記事

GBDTの仕組みと手順を図と具体例で直感的に理解する

LightgbmやXgboostを利用する際に知っておくべき基本的なアルゴリズム「GBDT」を直感的に理解できるように数式を控えた説明をしています。 対象者 GBDTを理解してLightgbmやXgboostを活用したい人 GBDTやXgboostの解説記事の数式が難しく感じる人 ※GBDTを直感的に理解してもらうために、簡略化された説明をしています。 GBDTのメリット・良さ 精度が比較的高い 欠損値を扱える 不要な特徴量を追加しても精度が落ちにくい 汎

記事詳細
GBDTの仕組みと手順を図と具体例で直感的に理解する
kaggle
CatBoost解説 -pythonでLightGBM,XGBoostと性能比較-

GBDTのひとつ、Catboost GBDTという手法がKaggleなどでもメジャーなものになってきました。 今回はそんなGBDTライブラリの一つで比較的新しいCatboostについて見ていきます。 Catboostは、ロシア最大手検索エンジンサイトであるYandex社から2017年にリリースされ、11月29日現在v0.20まで公開されています。その革新さをいくつかあげられていたのでそれらをこちらの論文に沿いながら確認していきます。 目次 カテゴリ

記事詳細
CatBoost解説 -pythonでLightGBM,XGBoostと性能比較-
機械学習
Microsoft Azure Machine Learningで決定木アルゴリズムCARTを用いた性能評価

ここでは今は去りしデータマイニングブームで頻繁に活用されていた決定木について説明する。理論的な側面もするが、概念は理解しやすい部類であるので参考にしていただければと思う。 1 決定木(Decision Tree) 決定木とは木構造を用いて分類や回帰を行う機械学習の手法の一つで段階的にある事項のデータを分析、分離することで、目標値に関する推定結果を返すという方式である。データが木構造のように分岐している出力結果の様子から「決定木」との由来である。用途としては

記事詳細
Microsoft Azure Machine Learningで決定木アルゴリズムCARTを用いた性能評価
Azure Machine Learning 機械学習

お問い合わせはこちらから