2018-06-05

社会人のためのデータサイエンス入門第2週分散、標準偏差

２つのデータで平均、中央値、中央値が同じ場合でもデータのばらつき具合が異なる場合がある。（例えば、10年前と現在の年収の統計など）

データのばらつき、偏差を知るために、平均値との差を基準にしたいが、そうやって足していくとプラスとマイナスのばらつきがあるため合計するとばらつきが0となってしまう。それを避けるために、平均値との差を2乗して足してやる。このように平均値との差を合計して平均をとった値のことを分散という。これによりデータのばらつきがどのくらいあるかがわかる。

ただし、これだと単位も2乗となっているため、分散の平方根をとることで元の単位に戻すことができる。これを標準偏差という。この標準偏差が大きいほどデータにばらつきがあることを示す。

この標準偏差を用いて、平均からのデータの偏りを標準化した指標で測ることができる。例えば、試験で前回は問題が簡単で、今回は難しいといった場合に、テストの点数だけを比較してもいいのか悪いのか分からない。しかし、平均からの偏りであれば、比較することができる。このように個々の値を標準化することを変数の標準化という。

以下の式で求める。

（値－平均）／標準偏差

この操作により、-1から+1の間にデータの半分くらいが収まる。これを応用したのが、偏差値である。

偏差値は以下の式で求める。

（（（値－平均）／標準偏差）× 10）＋50

今まで偏差値にはいい思い出なかったけど偏差値というものは面白い。

【統計学】初めての「標準偏差」（統計学に挫折しないために）

2018-06-04

外れ値（Outlier）にはどんなものがあるか Intro to Machine Learning Lesson8

www.udacity.com

外れ値（Outlier）には以下のようなものが含まれる

センサーの異常（sensor malfunctions）
データの入力ミス（data entry errors）
想定外の出来事（freak event）

センサーの異常、データの入力ミスは除外すべきだが、想定外の出来事は状況に応じて、除外したい場合、そうでない場合がある。

2018-06-03

社会人のためのデータサイエンス入門第1週

f:id:name_untitled:20180603143228j:plain

Photo by Max Langelott on Unsplash

データの特徴を表す際に使われる数値を代表値という。この代表値には、一般でよく使われる平均の他にも、最頻値、中央値がある。

平均は全部の値を足して、データの個数で割った値

最頻値は、データの中で一番多く出現する値

中央値は、値の小さいほうから順番に並べてちょうど真ん中のデータの値

よく使われるのは平均だが、平均は外れ値の影響を受けやすい。たとえば、10人のクラスでテストで8人が30点、1人が90点、1人が100点だと平均値は、
(30*8+90*1+100*1)/10 = 43
だが、中央値、最頻値では30となる。なので、どの数字で見るかが大事。ちょうどこんなツイートが流れてたのでシェア。

30代の貯蓄額、中央値は83万で平均値は589万で最頻値は0万ってひでぇ格差だな…
— ふぇ...... やばたにえんのむりちゃづけ。・°°・(＞_＜)・°°・。 (@sigmapsi) 2018年6月1日

最頻値、中央値の使い分けがよく分からなかったので（講義で聞きのがしただけかも）調べておいた。中央値はデータのど真ん中をとるので、データの変化の傾向は追いづらい。最頻値はある程度データがないとブレるというのを考慮して中央値を選ぶと良いみたい。

math.nakaken88.com

あ、代表値は来週詳しくやるみたい。まぁ、予習と思っておこう。

2018-06-02

ブログを書いてたら体調が崩れてきたので立て直し策を考える。

f:id:name_untitled:20180602145734j:plain

Photo by rawpixel on Unsplash

他の人のエントリを見て火曜あたりから連続でブログを書いてみたけど、体調が崩れてしかたない。ちょっと立て直しをしないとと思って、ブログにまとめて考え直すことにした。もちろんこれは性格的な原因もあると思うので他の人には当てはまらないかも。

問題３つくらいある。
・ブログに書くことがない

・ブログを書くのに時間がかかる

・ブログ書いた後反応が気になる

これらの結果として寝るのが遅くなって、ぐったりして眠るというのが最近多い。

f:id:name_untitled:20180602155134p:plain

ブログでどんな結果が欲しいか、どうなったらうまくいったと思えるかが曖昧だった。

f:id:name_untitled:20180602155233j:plain

さらに掘り下げて、原因とそれについて思っていることに対して見方を転換してみた。そしたら、アクセス数が増えるといいなという記事と、関心持つ人が限られるだろうなという記事の2種類を書きたいような気がする。そして、アクセス数を増やしたいなら、社会人がブログを見るであろう朝夜の通勤が良いような気がする。あとは、関心持つ人がそんなに多くなさそうな記事は自分のために少しまとめる程度にする、とするとなんか続けられそうな気がする。