社会人のためのデータサイエンス入門 第2週 回帰分析
2種類以上のデータの間の関係を読み取る方法を回帰分析という。
予測したい値のことを目的変数、分かっている値を説明変数という。
平たく言うとY=aX+bの式を求めること。
例えば降雨量を予想するのに、気圧、風速、湿度が影響すると考える。
湿度から降雨量を予想する場合、湿度を説明変数、降雨量を目的変数といい、説明変数が1つなので、単回帰分析と呼ぶ。この場合は2次元のグラフ上に点の一番真ん中を通るように直線を引く。このY軸の時の値のことを切片、変化の度合いを傾きという。
一方、気圧、湿度から降雨量を予想する場合、気圧、湿度が説明変数、降雨量が目的変数となり、説明変数が2つなので重回帰分析と呼ぶ。この場合では3次元のグラフを書き、点の一番真ん中を通る平面を求める。
基本は曲線、曲面ではなく、直線、平面らしい。なぜかは説明がなかったが、なんとなく平面の方が計算しやすいからなのではないかと思っている。曲線を求めることもあるらしい。
この線はきれいに引けない場合もあるため、どれだけずれが出ているかを確認する必要がある。求め方としては予測値と目的変数との差を2乗してデータの個数で割るという手順で、この値を残差二乗の平均という。
この回帰分析による予測値がない場合は指標となる数値は平均しかないため、平均値と実際の値との差を2乗してデータの個数で割って、残差の二乗を求める。
2つの変数の間に関係があれば、平均よりもうまく説明できるはずなので、回帰分析による予測値の残差の二乗の平均と、平均による予測値の残差の二乗の平均を比べると、誤差は回帰分析の方が少ないはずで、回帰分析による予測値の残差の二乗の平均の方が小さくなるはずである。
ただ、これは単位や用いる値によって大きさが変わるため、様々なデータで説明できている度合を統一的に比較する際に障害となる。このため、どれだけ点を説明できるかという指標を利用する。これを決定係数という。
決定計数とは、
(平均の残差の二乗の平均ー回帰分析の予測値の二乗の平均)÷平均の残差の二乗の平均
で求められる。
誤差が0ならば回帰分析の残差の二乗の平均も0になるはずで、そうすると、
平均の残差の二乗の平均÷平均の残差の二乗の平均
となり、決定計数は1となる。
一般的にはそんなことはないので、0~1の間となるらしい、とここまで書いて、完全に説明できたら1だけど、そうじゃなかったらマイナスにならんかな、と思ったのでもうひと調べ。どうやら、マイナスもなくはないそうだ。回帰分析の結果として出てきた予測だから平均よりかはちょっとはましだろうということだろうか。
残差のイメージについては以下のサイトの絵が分かりやすい。