かざいむ日誌

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

社会人のためのデータサイエンス入門 第1週

f:id:name_untitled:20180603143228j:plain

Photo by Max Langelott on Unsplash

データの特徴を表す際に使われる数値を代表値という。この代表値には、一般でよく使われる平均の他にも、最頻値、中央値がある。

平均は全部の値を足して、データの個数で割った値

最頻値は、データの中で一番多く出現する値

中央値は、値の小さいほうから順番に並べてちょうど真ん中のデータの値

 

よく使われるのは平均だが、平均は外れ値の影響を受けやすい。たとえば、10人のクラスでテストで8人が30点、1人が90点、1人が100点だと平均値は、
(30*8+90*1+100*1)/10 = 43
だが、中央値、最頻値では30となる。なので、どの数字で見るかが大事。ちょうどこんなツイートが流れてたのでシェア。

最頻値、中央値の使い分けがよく分からなかったので(講義で聞きのがしただけかも)調べておいた。中央値はデータのど真ん中をとるので、データの変化の傾向は追いづらい。最頻値はある程度データがないとブレるというのを考慮して中央値を選ぶと良いみたい。

math.nakaken88.com

 

あ、代表値は来週詳しくやるみたい。まぁ、予習と思っておこう。