かざいむ日誌

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

社会人のためのデータサイエンス入門 第2週 箱ひげ図、パーセンタイル

中央値を利用したデータの表し方に箱ひげ図がある。私の箱ひげ図のイメージは為替相場の変動のグラフのイメージ。今調べたらこれはローソクというらしい。

箱ひげ図は、データをその個数で4等分して、分布の範囲を可視化する図です。25%~75%を箱として表示し、50%のところに線を引きます。そして、25%から50%、50~75%の間の距離の1.5倍の部分に一番近い値で線を引き、その外側の値を外れ値とする。

このような図で表すことによって、狭いスペースでもデータのばらつきを表現することができる。 

info.finance.yahoo.co.jp

 

また、これに時系列の変化を組み合わせて見たい場合に利用するのがパーセンタイルである。パーセンタイルとは四分位、25%よりも細かくデータを分割してそれを表や図にする。一般的な例としては、赤ちゃんの成長曲線だろうか。年齢と体重、または身長の推移を低い方のXXパーセント、高いほうのXXパーセントで線を引き、おおむねこの枠内に収まるだろうという目安を提供している。

詳しくは母子手帳をご参照ください。