データ分析の精度・品質とデータ前処理の重要性 - データ前処理ツール KNIME、Tableau Prep、Alteryx など

データ分析や回帰分析、機械学習、統計解析モデルにデータをインポートし計算処理させるなどなど、、あらゆる場面で取り扱われるデータですが、 そのデータがいわゆる「汚い」状態(messy data)だとそれらの分析結果の精度や品質もいいものとなりません。 

生データって多くの欠損値(いわゆる 空)やNull、タイプミスなどが含まれている場合が多いです。これら、データの前処理を行い事前に綺麗に整えておく必要があります。

データ分析の精度・品質とデータ前処理の重要性 - データ前処理


 
私はお酒とコーヒーが好きなのですが、
これらの飲料に共通するもっとも重要な成分「水」ですよね(水がデータだとして)。
これが良くないと、最終的に美味しいものに仕上がらないのと少し似てませんか?


データの前処理をツールで行う

いろんなツールやプログラミングを用いて、データを前処理で綺麗にする、もしくは複数のデータソースを組み合わせて解析に可能なデータを前処理で用意しておくなどの前処理が必要になる場合があります。

みなさんはどうしてますか?
前のブログ記事で紹介した無料のツールKNIMEだったり、ライセンス購入で使用可能な Tableau PrepAlteryxなんかがデータの前処理をノンコーディングで実施できるので導入しやすいツールかなと思います。 

Tableau Prepは、数値データの集計やグルーピングなどはできるものの、機能的にはかなり前処理用だけに特化したツールだと思います。それ単体で使い倒すというよりは、Tableau社のメインツールであるTableau Desktop用に使いやすいようにデータ前処理用を行うという感じだと思います。 

KNIME、Alteryxあたりはデータ前処理から、さらに、データ分析を行うR、Pythonのスクリプトにデータを流していけるようなところまで出来ちゃうツールです。
データ成果物(アウトプット)は各種データベースにデータエクスポートしていけるなどマルチに活躍できるツールだと思います。

他に、、使ったことはないですが、よく耳にするツール DataRobot、Dataiku なんかは、もっとAIに特化したツールなんだと思います。 


KNIMEでノード毎のデータプレビューを表示する - Node Monitor


さて、データ前処理ツール KNIME、Tableau Prep、Alteryxの画面ってかなり似てますよね。ツール・ノードを左から右に連結していってデータを加工していくUIになっていると思います。 

Tableau PrepのUI画面

alteryxのUI画面




最近、KNIMEを勉強しているんですが、Tableau Prep、Alteryxにはあるデータプレビューが無いので少々不便に感じることもありました。Tableau Prep、Alteryxって、ワークフロー画面にツール・ノードを足してフローを実行すると、そのツール毎に通過して変化したデータの状態がどうなっているかプレビューが右下画面に表示されるんですよね。


が、KNIMEにはこれが無い。。


データの状態をプレビューしたい場合はいちいちノードを右クリックし、
ダイアログからテーブルをプレビューする画面を出さないといけない。。


と、調べたところ、やはり同じような質問がKNIMEのフォーラムにも上がっていました。

で、結論から言うと、
簡単に表示することができました。


KNIME を立ち上げて、View menu → Other… → KNIME Views → Node Monitor を行なっていくことでノードモニターという画面をUIに追加でき、データプレビューが表示することができました :) 
 

KNIME add Node Monitor (View → Other… → KNIME Views → Node Monitor)



やはり!Node Monitorの表示に関しては、公式サイトのブログにもtipsとして掲載されていました!




データ前処理に使っているツールやテクニックなどあればコメント欄などで教えてくださいね!

このブログの人気の投稿

KNIME - CSV Readerのエンコード設定を調整してCSVファイル内の日本語の文字化けを回避する

KNIME - 複数ファイルの読み込み(ワイルドカード ユニオン)について

データサイエンス100本ノックをKNIME(ナイム)でやってみる