name_untitledのエッセイ

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

社会人のためのデータサイエンス入門 第3週 比率の見方、時系列データの見方

比率の見方

母数の異なるデータを比較する時は母数が違うので実際の数をそのまま比較することができない。例えば、県内に住む男女の数を全都道府県で比較する、GNPを国で比較するといった場合などである。もちろん男女の数は大都市が多いだろうし、GNPは国民の数を無視すると偏った結果になる。県民の数が同じだったらいいけど、そんなことは期待できない。そこで一般的には比率を計算しその比率を比較する。上の例で言うと、県ごとの男女比を出す、国民一人当たりの総生産を出すなどする。

この比率には、構成比と相対比の2種類がある。構成比は、全体のうちの割合を計算するもので、分母と分子が同じ単位である。県内の住民数と女性の数は両方とも人数である。一方で、相対比は、別の基準に対する割合で、分母と分子の単位が異なる。GNPは金額、国民の数は人数である。

どちらで計算するのがよいか考えた上で選ぶ。

時系列データの見方

時系列データにはストックデータとフローデータがある。講師が例として挙げていたのは、お風呂のお湯。たまっているお湯の量がストックデータ、蛇口から1分間に出るお湯の量がフローデータとのこと。例としては携帯の保有率がストックデータ、携帯の契約成立数がフローデータである。別の言葉で言うと、ストックデータは状態の数字、フローデータはイベントの数字かなと思う。

時系列データの2つの変数に相関があるという場合、片方の変化と同時にもう片方にも変化が現れる同時相関と、片方の変化の後しばらくしてもう片方に変化が現れる相互相関がある。

 過去のデータを元に将来の値を推測することを時系列予測という。時系列予測には多項式回帰と自己回帰モデルによる予測の2種類があるらしいのだがググる自己回帰モデルばかり出てくる。自己回帰モデルは、1つ前のデータをインプットにして次を計算してという形で再帰的に計算するっぽい。多項式回帰はちょっとググっただけでは分からないけど、資料とかを見るに多項式回帰では過去のデータから大まかなトレンドを算出して予測する物らしい。
ちょっとここはもう少し調べたい。