社会人のためのデータサイエンス入門 第2週 分散、標準偏差
2つのデータで平均、中央値、中央値が同じ場合でもデータのばらつき具合が異なる場合がある。(例えば、10年前と現在の年収の統計など)
データのばらつき、偏差を知るために、平均値との差を基準にしたいが、そうやって足していくとプラスとマイナスのばらつきがあるため合計するとばらつきが0となってしまう。それを避けるために、平均値との差を2乗して足してやる。このように平均値との差を合計して平均をとった値のことを分散という。これによりデータのばらつきがどのくらいあるかがわかる。
ただし、これだと単位も2乗となっているため、分散の平方根をとることで元の単位に戻すことができる。これを標準偏差という。この標準偏差が大きいほどデータにばらつきがあることを示す。
この標準偏差を用いて、平均からのデータの偏りを標準化した指標で測ることができる。例えば、試験で前回は問題が簡単で、今回は難しいといった場合に、テストの点数だけを比較してもいいのか悪いのか分からない。しかし、平均からの偏りであれば、比較することができる。このように個々の値を標準化することを変数の標準化という。
以下の式で求める。
(値-平均)/標準偏差
この操作により、-1から+1の間にデータの半分くらいが収まる。これを応用したのが、偏差値である。
偏差値は以下の式で求める。
(((値-平均)/標準偏差)× 10)+50
今まで偏差値にはいい思い出なかったけど偏差値というものは面白い。