Intro to Machine Learning Lesson8 Outliers 外れ値の除外がまだ終わらない

Udacityのこの単元では、Pythonのコードで実際に外れ値を除去して、単回帰分析の精度を上げる練習を行う。

それで、コードはほとんどセットアップされていて、書くべきコードはnumpyのndarrayで、年齢、年収、予測年収のリストを受け取って、予測年収と年収のかい離が大きい１０件の外れ値のTupleを返す。

まずは、numpyの配列の計算がすごく楽なのが勉強になった(笑)

配列と配列は+演算子で項目ごとに足せるし、配列の結合も簡単。

ただ、外れ値上位１０%のインデックスが拾えない、、、。先頭４件はこんな感じのndarrayでここから、差をerrorsにつめて、errorsの値上位１０件のインデックスが欲しいけど、とれない。

print(predictions[[range(0, 4)]])
[[314.65206822]
 [314.65206822]
 [197.85966342]
 [350.19758273]]
print(ages[[range(0, 4)]])
[[57]
 [57]
 [34]
 [64]]
print(net_worths[[range(0, 4)]])
[[338.08951849]
 [344.21586776]
 [243.79287312]
 [378.84578142]]
errors = numpy.round(numpy.sqrt(numpy.square(predictions - net_worths)))
count = int(errors.size * 0.1)
idxs = numpy.argpartition(errors, -1, 0, -count)[-count: ]

このサイトを参考にしたけど、配列の形式が違うからか。

誰か助けて。

naoyashiga.hatenablog.com

2018/06/09追記

結局、自分で調べてもダメだったのでUdacityのForumを参考にしながら解決。

Udacity

最終的にこんなコードになりました。

errors = numpy.round(numpy.sqrt(numpy.square(predictions - net_worths)))
#予測値と実際の値の差をリストで取得（差を2乗して平方根を求めることで、マイナスをなくす）
data = numpy.c_[ages, net_worths, errors]
#行列を結合して、データをひとまとまりにする
data = data[data[:, 2].argsort()[::-1]]
#3つ目の要素でデータをソートする
count = round(errors.size * 0.1)
#外れ値とするデータの個数を計算（10パーセント）
array = data.tolist()
#データをリストに変換
del array[0: count]
#外れ値でないデータを削除
for item in array:
    #対象のデータを1件ずつタプルに変換
    cleaned_data.append(tuple(item))
return cleaned_data

qiita.com

stackoverflow.com

かざいむ日誌

IT関係で知ったことなどを記事としてあげていきます。内容に不備や質問などあればぜひコメントをよせてください。

Intro to Machine Learning Lesson8 Outliers 外れ値の除外がまだ終わらない