社会人のためのデータサイエンス入門 第2週 分散、標準偏差
2つのデータで平均、中央値、中央値が同じ場合でもデータのばらつき具合が異なる場合がある。(例えば、10年前と現在の年収の統計など)
データのばらつき、偏差を知るために、平均値との差を基準にしたいが、そうやって足していくとプラスとマイナスのばらつきがあるため合計するとばらつきが0となってしまう。それを避けるために、平均値との差を2乗して足してやる。このように平均値との差を合計して平均をとった値のことを分散という。これによりデータのばらつきがどのくらいあるかがわかる。
ただし、これだと単位も2乗となっているため、分散の平方根をとることで元の単位に戻すことができる。これを標準偏差という。この標準偏差が大きいほどデータにばらつきがあることを示す。
この標準偏差を用いて、平均からのデータの偏りを標準化した指標で測ることができる。例えば、試験で前回は問題が簡単で、今回は難しいといった場合に、テストの点数だけを比較してもいいのか悪いのか分からない。しかし、平均からの偏りであれば、比較することができる。このように個々の値を標準化することを変数の標準化という。
以下の式で求める。
(値-平均)/標準偏差
この操作により、-1から+1の間にデータの半分くらいが収まる。これを応用したのが、偏差値である。
偏差値は以下の式で求める。
(((値-平均)/標準偏差)× 10)+50
今まで偏差値にはいい思い出なかったけど偏差値というものは面白い。
外れ値(Outlier)にはどんなものがあるか Intro to Machine Learning Lesson8
外れ値(Outlier)には以下のようなものが含まれる
センサーの異常(sensor malfunctions)
データの入力ミス(data entry errors)
想定外の出来事(freak event)
センサーの異常、データの入力ミスは除外すべきだが、想定外の出来事は状況に応じて、除外したい場合、そうでない場合がある。
社会人のためのデータサイエンス入門 第1週
Photo by Max Langelott on Unsplash
データの特徴を表す際に使われる数値を代表値という。この代表値には、一般でよく使われる平均の他にも、最頻値、中央値がある。
平均は全部の値を足して、データの個数で割った値
最頻値は、データの中で一番多く出現する値
中央値は、値の小さいほうから順番に並べてちょうど真ん中のデータの値
よく使われるのは平均だが、平均は外れ値の影響を受けやすい。たとえば、10人のクラスでテストで8人が30点、1人が90点、1人が100点だと平均値は、
(30*8+90*1+100*1)/10 = 43
だが、中央値、最頻値では30となる。なので、どの数字で見るかが大事。ちょうどこんなツイートが流れてたのでシェア。
30代の貯蓄額、中央値は83万で平均値は589万で最頻値は0万ってひでぇ格差だな…
— ふぇ...... やばたにえんのむりちゃづけ。 ・°°・(>_<)・°°・。 (@sigmapsi) 2018年6月1日
最頻値、中央値の使い分けがよく分からなかったので(講義で聞きのがしただけかも)調べておいた。中央値はデータのど真ん中をとるので、データの変化の傾向は追いづらい。最頻値はある程度データがないとブレるというのを考慮して中央値を選ぶと良いみたい。
あ、代表値は来週詳しくやるみたい。まぁ、予習と思っておこう。
ブログを書いてたら体調が崩れてきたので立て直し策を考える。
他の人のエントリを見て火曜あたりから連続でブログを書いてみたけど、体調が崩れてしかたない。ちょっと立て直しをしないとと思って、ブログにまとめて考え直すことにした。もちろんこれは性格的な原因もあると思うので他の人には当てはまらないかも。
問題3つくらいある。
・ブログに書くことがない
・ブログを書くのに時間がかかる
・ブログ書いた後反応が気になる
これらの結果として寝るのが遅くなって、ぐったりして眠るというのが最近多い。
ブログでどんな結果が欲しいか、どうなったらうまくいったと思えるかが曖昧だった。
さらに掘り下げて、原因とそれについて思っていることに対して見方を転換してみた。そしたら、アクセス数が増えるといいなという記事と、関心持つ人が限られるだろうなという記事の2種類を書きたいような気がする。そして、アクセス数を増やしたいなら、社会人がブログを見るであろう朝夜の通勤が良いような気がする。あとは、関心持つ人がそんなに多くなさそうな記事は自分のために少しまとめる程度にする、とするとなんか続けられそうな気がする。
経営学から見るシステム化の範囲など。『経営学入門キーコンセプト』、『経営学大図鑑』
経営学は人事、生産、財務、情報管理などからなる経営管理論と、企業戦略、事業戦略などからなる経営戦略論とに分けられる、とのこと。
今までシステムというと経営管理論を主な主戦場としていたが、システムが事業の核になってきたため、経営戦略とシステムが統合してきたのかも。SoRとSoEの対比は経営管理と経営戦略と言い換えてもいいかも。
これはすごく納得。ちっちゃい会社なのでちっちゃいマーケットを狙おうという話が良く出るけど、儲からないと、、、。こういうのをSTPマーケティングというらしい。Segmentation:市場の細分化、Targeting:ターゲットの絞り込み、Positioning:自社の位置づけの略。
市場を地理、属性などから細分化し、その中の1つ(または複数)にターゲットを絞り、自社の商品をどのように位置づけしてもらうかを考える。
今統計、機械学習で勉強してる教材、した教材、やるつもりの教材。
また知り合いからメールが来たので返事を貼りつけておきます。
統計は過去の説明のための学問、機械学習は未来を推測するための学問で、
ディープラーニングは分類の基準を自分で考えさせるための学問だそうです。
まずはTakramという最近ちょっと話題のデザインのコンサルタント会社が
手掛けたNHKの番組のAIを紹介するCG動画。
これの下の方にスクロールして、「2分でディープラーニング」というところの動画を一通り見るとこれまでの機械学習との違いが雰囲気で分かります。
あとは、ラオスでやりたいこと。
これはブラウザ上でできるようになってますが、手書きのラオ文字でもできるんじゃないかと。
Keras.js - Run Keras models in the browser
これは画像の識別
Keras.js - Run Keras models in the browser
夢はこんな感じで、それに向けてデータに関係する勉強をしているところです。
統計学はgaccoというMOOCのサービスで統計学I~IIIが半期ごとに開講されています。
ただ、統計学Iが終わったばかりで、次に開講されるのが統計学III(笑)
統計学I
統計学II
統計学III
あとは、同じようなシリーズで社会人向けのデータサイエンス講座があって、まだ少ししか見てないのですが講師に有名人もいてけっこう良さそうです。
社会人のためのデータサイエンス入門(始まったばかり)
社会人のためのデータサイエンス演習
《特別開講》誰でも使える統計オープンデータ(これもたぶんそのうちまたやるかと思います)
運用についてはこの辺りが役に立つかも。
総務省 ICTスキル総合習得プログラム(eラーニング編)
あと、本気の機械学習は、Udacityから演習多めのコースが出ていて、手に馴染んで覚えることができます。Pythonというプログラミング言語でやるのでちょっと知識は必要ですが。
Intro to Machine Learning
英語が分かってディープラーニングの雰囲気をつかみたいという時にはこのコースも良さそう。
ちょっとまとまりつかなくなってきた。
いろいろあるなぁ。
Data Science Cource Learn Data AnalysisはKaggleの提供するコースっぽい。これもやってみたいなぁ。