かざいむ日誌

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

社会人のためのデータサイエンス入門 第2週 分散、標準偏差

2つのデータで平均、中央値、中央値が同じ場合でもデータのばらつき具合が異なる場合がある。(例えば、10年前と現在の年収の統計など)

データのばらつき、偏差を知るために、平均値との差を基準にしたいが、そうやって足していくとプラスとマイナスのばらつきがあるため合計するとばらつきが0となってしまう。それを避けるために、平均値との差を2乗して足してやる。このように平均値との差を合計して平均をとった値のことを分散という。これによりデータのばらつきがどのくらいあるかがわかる。

ただし、これだと単位も2乗となっているため、分散の平方根をとることで元の単位に戻すことができる。これを標準偏差という。この標準偏差が大きいほどデータにばらつきがあることを示す。

この標準偏差を用いて、平均からのデータの偏りを標準化した指標で測ることができる。例えば、試験で前回は問題が簡単で、今回は難しいといった場合に、テストの点数だけを比較してもいいのか悪いのか分からない。しかし、平均からの偏りであれば、比較することができる。このように個々の値を標準化することを変数の標準化という。

以下の式で求める。

(値-平均)/標準偏差

この操作により、-1から+1の間にデータの半分くらいが収まる。これを応用したのが、偏差値である。

偏差値は以下の式で求める。

(((値-平均)/標準偏差)× 10)+50

 

今まで偏差値にはいい思い出なかったけど偏差値というものは面白い。

 

【統計学】初めての「標準偏差」(統計学に挫折しないために)

外れ値(Outlier)にはどんなものがあるか Intro to Machine Learning Lesson8

www.udacity.com

 

外れ値(Outlier)には以下のようなものが含まれる

センサーの異常(sensor malfunctions)
データの入力ミス(data entry errors)
想定外の出来事(freak event)

センサーの異常、データの入力ミスは除外すべきだが、想定外の出来事は状況に応じて、除外したい場合、そうでない場合がある。

社会人のためのデータサイエンス入門 第1週

f:id:name_untitled:20180603143228j:plain

Photo by Max Langelott on Unsplash

データの特徴を表す際に使われる数値を代表値という。この代表値には、一般でよく使われる平均の他にも、最頻値、中央値がある。

平均は全部の値を足して、データの個数で割った値

最頻値は、データの中で一番多く出現する値

中央値は、値の小さいほうから順番に並べてちょうど真ん中のデータの値

 

よく使われるのは平均だが、平均は外れ値の影響を受けやすい。たとえば、10人のクラスでテストで8人が30点、1人が90点、1人が100点だと平均値は、
(30*8+90*1+100*1)/10 = 43
だが、中央値、最頻値では30となる。なので、どの数字で見るかが大事。ちょうどこんなツイートが流れてたのでシェア。

最頻値、中央値の使い分けがよく分からなかったので(講義で聞きのがしただけかも)調べておいた。中央値はデータのど真ん中をとるので、データの変化の傾向は追いづらい。最頻値はある程度データがないとブレるというのを考慮して中央値を選ぶと良いみたい。

math.nakaken88.com

 

あ、代表値は来週詳しくやるみたい。まぁ、予習と思っておこう。

ブログを書いてたら体調が崩れてきたので立て直し策を考える。

f:id:name_untitled:20180602145734j:plain

Photo by rawpixel on Unsplash

 

他の人のエントリを見て火曜あたりから連続でブログを書いてみたけど、体調が崩れてしかたない。ちょっと立て直しをしないとと思って、ブログにまとめて考え直すことにした。もちろんこれは性格的な原因もあると思うので他の人には当てはまらないかも。


問題3つくらいある。
・ブログに書くことがない

・ブログを書くのに時間がかかる

・ブログ書いた後反応が気になる

これらの結果として寝るのが遅くなって、ぐったりして眠るというのが最近多い。

f:id:name_untitled:20180602155134p:plain

 

ブログでどんな結果が欲しいか、どうなったらうまくいったと思えるかが曖昧だった。

f:id:name_untitled:20180602155233j:plain

さらに掘り下げて、原因とそれについて思っていることに対して見方を転換してみた。そしたら、アクセス数が増えるといいなという記事と、関心持つ人が限られるだろうなという記事の2種類を書きたいような気がする。そして、アクセス数を増やしたいなら、社会人がブログを見るであろう朝夜の通勤が良いような気がする。あとは、関心持つ人がそんなに多くなさそうな記事は自分のために少しまとめる程度にする、とするとなんか続けられそうな気がする。

 

経営学から見るシステム化の範囲など。『経営学入門キーコンセプト』、『経営学大図鑑』

経営学は人事、生産、財務、情報管理などからなる経営管理論と、企業戦略、事業戦略などからなる経営戦略論とに分けられる、とのこと。

今までシステムというと経営管理論を主な主戦場としていたが、システムが事業の核になってきたため、経営戦略とシステムが統合してきたのかも。SoRとSoEの対比は経営管理と経営戦略と言い換えてもいいかも。

 

f:id:name_untitled:20180531012556j:plain

これはすごく納得。ちっちゃい会社なのでちっちゃいマーケットを狙おうという話が良く出るけど、儲からないと、、、。こういうのをSTPマーケティングというらしい。Segmentation:市場の細分化、Targeting:ターゲットの絞り込み、Positioning:自社の位置づけの略。

市場を地理、属性などから細分化し、その中の1つ(または複数)にターゲットを絞り、自社の商品をどのように位置づけしてもらうかを考える。

今統計、機械学習で勉強してる教材、した教材、やるつもりの教材。

また知り合いからメールが来たので返事を貼りつけておきます。

統計は過去の説明のための学問、機械学習は未来を推測するための学問で、
ディープラーニングは分類の基準を自分で考えさせるための学問だそうです。


まずはTakramという最近ちょっと話題のデザインのコンサルタント会社が
手掛けたNHKの番組のAIを紹介するCG動画。

人間ってナンだ?超AI入門 - NHK


これの下の方にスクロールして、「2分でディープラーニング」というところの動画を一通り見るとこれまでの機械学習との違いが雰囲気で分かります。

あとは、ラオスでやりたいこと。
これはブラウザ上でできるようになってますが、手書きのラオ文字でもできるんじゃないかと。

Keras.js - Run Keras models in the browser


これは画像の識別

Keras.js - Run Keras models in the browser

 

夢はこんな感じで、それに向けてデータに関係する勉強をしているところです。

統計学はgaccoというMOOCのサービスで統計学I~IIIが半期ごとに開講されています。
ただ、統計学Iが終わったばかりで、次に開講されるのが統計学III(笑)

統計学I

lms.gacco.org


統計学II

lms.gacco.org


統計学III

lms.gacco.org

 

あとは、同じようなシリーズで社会人向けのデータサイエンス講座があって、まだ少ししか見てないのですが講師に有名人もいてけっこう良さそうです。

社会人のためのデータサイエンス入門(始まったばかり)

lms.gacco.org


社会人のためのデータサイエンス演習

lms.gacco.org


《特別開講》誰でも使える統計オープンデータ(これもたぶんそのうちまたやるかと思います)

lms.gacco.org

運用についてはこの辺りが役に立つかも。

総務省 ICTスキル総合習得プログラム(eラーニング編)

lms.gacco.org

あと、本気の機械学習は、Udacityから演習多めのコースが出ていて、手に馴染んで覚えることができます。Pythonというプログラミング言語でやるのでちょっと知識は必要ですが。
Intro to Machine Learning

www.udacity.com

Deep Learning by Google

www.udacity.com

 

英語が分かってディープラーニングの雰囲気をつかみたいという時にはこのコースも良さそう。

developers.google.com

 

ちょっとまとまりつかなくなってきた。

いろいろあるなぁ。

www.udacity.com

www.udacity.com

www.udacity.com

Data Science Cource Learn Data AnalysisはKaggleの提供するコースっぽい。これもやってみたいなぁ。

JAVAのREPLのメモ

この記事読んで気になった。

employment.en-japan.com

 

自分の経験からしてもちょっと動かせるというのは入門者にとっては良いと思う。ちょっと前までプログラミングの入門はPythonいいかなぁと思ったけど、戻り値の定義が出来ないのとかが不自由な気がしてたので、REPLがあるならやっぱりJavaがよいような気がしている。

と思ったらけっこう既出の話だった。

devlights.hatenablog.com