前処理大全


2018年8月14日読了
データ分析の全行程のうち労力の8割を占めると言われるのが分析そのものよりも前処理工程と言われるところにある。

それも当然のはなしで、分析するために必要なデータを揃えたり分析しやすい形に加工したりするのは、分析モデルを走らせるためであり、データができてしまえば分析モデルを走らせる時間はたかが知れている。つまり、モデルに合う形を試行錯誤していくのが前処理工程なので、分析は自分がするから前処理は頼むということができない。依頼するなら、分析作業も含めて依頼することになるが、それは判断を伴わないため、希望する分析ができたものが上がってくるとは限らない。この点は、医者が放射線技師に決まったスペックで撮影を依頼した結果を使うのとは大きく違うところだ。

本書は実務に携わっている著者が、SQL、R、Pythonそれぞれを用いてサンプルデータを使って前処理工程を実践してみせたものだ。いままでこの領域はデータエンジニアリングが出来る人が「できるもの」として扱われていたので、属人的ノウハウの域を出なかったものを、惜しみなく本にしてくれたことには感謝。

分析対象データを絞った上で、加工をすると計算機に負荷がかからないというアタリマエのことを改めて認識した。その他、一般的なデータの整形の方法や分析しやすいデータの形、データの型の選び方(特に時間関係)など類書にない記載が多く、勉強になった。

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA


計算式を埋めてください * Time limit is exhausted. Please reload CAPTCHA.