DEVELOPER’s BLOG
技術ブログ
単回帰分析における最小二乗法の解説
回帰分析とは
先ず回帰分析とは、あるp個の変数が与えられた時、それと相関関係のあるyの値を説明、予測することである。ここで変数xを 説明変数 、変数yを 目的変数と呼ぶ。p=1、つまり説明変数が1つの時を単回帰、またp>=2、つまり説明変数が2つ以上の時を重回帰と呼ぶ。
単回帰分析
今回はp=1と置いた 単回帰分析 について説明する。
このとき、回帰式は y=ax+b(a,bは 回帰係数 と呼ばれる)となり直線の形でyの値を近似(予測)できる。
単回帰分析のデメリットとして知りたいデータを直線で近似してしまうため、精度が良くないと得られるデータに大きな誤差が生じてしまう。
しかしデータのおおよその値が視覚的に分かるため、データの大概を掴むことができ非常に便利な分析手法の1つである。
例として、ある店舗での来店者数(来場者数)について興味を持ったとしよう。ここで広告費(宣伝費)と来場者数について以下のような散布図が得られたとする。
この散布図を見ると、グラフに弱い人でも「宣伝費が高ければ来場者数が増える」と読み取れるだろう。
そこでパラメータa,bをうまく決定し( 最小二乗法 による)、下図のように直線を引けたとしよう。
グラフからも分かるようにデータは正しい値を取るわけではない、つまり厳密にとはならないことに留意せよ。
そこで後で説明する最小二乗法によって、パラメータa,bをうまく決定するのである。
最小二乗法
最小二乗法とは、誤差を伴う測定値の処理において、その誤差(残差)の二乗の和を最小にすることで最も確からしい関係式を求めることである。
プロットされた各点(xi, yi)における回帰式( y=ax+b)との残差の和が最小となるようにパラメータa,bを決定したい。
回帰式 y=ax+b にi番目のxの値を代入して得られるy(予測値)を、
とする。
そこでi番目のデータについての残差(実測値と予測値との差)をε_iと置くと、
となる。このままだと残差の符号にばらつきが出るため扱いづらい。そこで残差の2乗和について考える。(サンプルサイズはnとしている)
この式はパラメータ(a,b)の関数であり、最小二乗法によりこの残差の二乗和が最小となるようなパラメータ(a,b)を求める。
最小化の一階条件として上式をa,bでそれぞれ偏微分した値が0となる性質がある。先ず偏微分すると、
これより一階条件は、
となる。一般的にこの二本の方程式は 回帰の 正規方程式 と呼ばれている。
二本目の式より、を得るので、
となる。これより、
を得るが、これより y=ax+b が定点を通ることがわかる。
改めて、中心化した変数及びデータ、
を用いると、
然るに、残差平方和をbを含まない式に書き換えることができる。
よってaで偏微分して、残差平方和を最小にするaを求める。これをと書くことにする。
が得られたことになる。
決定係数
次に、求めたパラメータa,bに対して、目的変数yが説明変数xによってどれだけ説明されているかを検証してみる。
モデルの当てはまりが悪ければ、説明変数を追加するなどして、モデルを改良するための一つのインデックスとなる。
今回は、モデルの当てはまりの良さを表す指標の一つとして、 決定係数 を導出する。
決定係数とは、上で導出したパラメータa,bを持つ回帰式の精度を表す値である。
一般に決定係数は、
で定義される。第二項の分母は全変動と呼ばれ、データそのもののばらつき具合を表しており、分子は残差変動と呼ばれ、回帰モデルと実測値とのズレを表している。
即ち、決定係数が1に近いほど残差変動が小さいということであり、良い予測が出来ていると判断される。
関連するTheoremとして、「最小二乗法による直線フィッティングの場合、相関係数の二乗と決定係数は一致する」というものがある。
今回はこの証明は割愛するが、 こちらのサイト から是非確認してほしい。