社会人のためのデータサイエンス入門 第1週
Photo by Max Langelott on Unsplash
データの特徴を表す際に使われる数値を代表値という。この代表値には、一般でよく使われる平均の他にも、最頻値、中央値がある。
平均は全部の値を足して、データの個数で割った値
最頻値は、データの中で一番多く出現する値
中央値は、値の小さいほうから順番に並べてちょうど真ん中のデータの値
よく使われるのは平均だが、平均は外れ値の影響を受けやすい。たとえば、10人のクラスでテストで8人が30点、1人が90点、1人が100点だと平均値は、
(30*8+90*1+100*1)/10 = 43
だが、中央値、最頻値では30となる。なので、どの数字で見るかが大事。ちょうどこんなツイートが流れてたのでシェア。
30代の貯蓄額、中央値は83万で平均値は589万で最頻値は0万ってひでぇ格差だな…
— ふぇ...... やばたにえんのむりちゃづけ。 ・°°・(>_<)・°°・。 (@sigmapsi) 2018年6月1日
最頻値、中央値の使い分けがよく分からなかったので(講義で聞きのがしただけかも)調べておいた。中央値はデータのど真ん中をとるので、データの変化の傾向は追いづらい。最頻値はある程度データがないとブレるというのを考慮して中央値を選ぶと良いみたい。
あ、代表値は来週詳しくやるみたい。まぁ、予習と思っておこう。