name_untitledのエッセイ

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

社会人のためのデータサイエンス入門 第2週 関係の見方・相関係数

2つの変数の関係の見方を扱う。2つの変数が関係があるかどうかを見る場合にはまず、2つの軸の散布図を描く。そうするとなんとなく関係がありそうかどうかが分かる。

http://www.stat.go.jp/koukou/howto/process/images/p4_3_2_5_pic8.jpg

統計局のHPより

 

この散布図の情報を数値化して表すのが共分散である。共分散は、データ1つずつについて、変数1と変数2のそれぞれの平均との差をかけあわせた値を、データ全てで合計したものである。この値が0に近いと変数の間での関係は少なく、0から離れていると変数の間で関連があると見れる。

ただし、この値は単位の取り方によって値が大きく変わってしまう。平方メートルから平方センチメートルにすると上の散布図の共分散の値は大きくなる。

これを避けるために利用されるのが、相関係数である。相関係数は、単位を気にせず、変数間の関連を見ることができる値である。相関係数は、上の共分散を変数ごとの標準偏差の積で割ります。

なるほど統計学園高等部 | データの特性を見よう

 

共分散を標準偏差の積で割ることで、単位がそろい、結果として得られる相関係数は-1~+1までの値となる。-1に近ければ負の相関、+1に近ければ正の相関、0に近ければ相関がないということになる。

ただし、この相関係数は、変数間の直線的な関係性を見るのには良いが、曲線のパターンが現れていても相関係数は小さく見えるし、外れ値があると、大部分のデータを無視して相関が強く、または弱く出たりする。