DEVELOPER’s BLOG
技術ブログ
最初に学ぶ 単回帰分析の概要
2019.07.17
夏野光
回帰
機械学習
1.単回帰分析とは
回帰とは、統計学においてYが連続値の時にY=f(x)というモデルをあてはめる事である。
これにより二つの事項に関する相関関係などをを分析することができる。
2.単回帰分析の成り立ち
19世紀にフランシス・ゴルトンによって「回帰」という言葉が誕生した。
ゴルトンは、遺伝子学の研究において分析を行い、その際に身長と遺伝子の関係を回帰モデルを用いた事で後の統計学で使われる回帰モデルが発展した。
3.単回帰分析の例
例えば、都道府県の人口密度と人口100万人あたりのコンビニの数を示したグラフがあるとする。
薬局の数yを目的変数、人口密度xを説明変数とするとき、y=ax+bのa,bは回帰係数である。またy=ax+bのような式は単回帰式と呼ばれる。
4.単回帰分析の特徴
単回帰式は説明変数xが一つのみの状態の式である。
例えば、アパートの賃料を予想する際には、
単回帰分析の場合は、目的変数を賃料とおき,
説明変数を部屋の広さのみで求めるのに対して、重回帰分析ではその説明変数が複数あるものである。
5.y=ax+bの式には誤差が生じるがどう対処する。
データにはy=ax+bの線から離れた点も存在する。
これらの誤差が大きければ大きいほど予測が不正確になる
。
そのため、誤差を小さくしなければ正確な予想ができない。
そこで誤差をuとおきy=ax+bに挿入してu=y-ax-bと表す。
その後、誤差uを最小とするために最適なa、bを最小二乗法で求めれば誤差の小さい単回帰分析ができる。
6.回帰分析を用いるメリット
- 散布図から当てはまる直線を引くことで分かりやすく理解できる。
- データが無いところも推論できる。
7.総評
以上のことから単回帰分析は散布図から求められ、y=ax+bというわかりやすい線によって求めたい数を把握できるためメリットは大きい。しかしながら、使われる場面は重回帰分析の方が多い。