データ分析の精度・品質とデータ前処理の重要性 - データ前処理ツール KNIME、Tableau Prep、Alteryx など
データ分析や回帰分析、機械学習、統計解析モデルにデータをインポートし計算処理させるなどなど、、あらゆる場面で取り扱われるデータですが、 そのデータがいわゆる「汚い」状態(messy data)だとそれらの分析結果の精度や品質もいいものとなりません。 生データって多くの欠損値(いわゆる 空)やNull、タイプミスなどが含まれている場合が多いです。これら、データの前処理を行い事前に綺麗に整えておく必要があります。 データ分析の精度・品質とデータ前処理の重要性 - データ前処理 私はお酒とコーヒーが好きなのですが、 これらの飲料に共通するもっとも重要な成分「水」ですよね(水がデータだとして)。 これが良くないと、最終的に美味しいものに仕上がらないのと少し似てませんか? データの前処理をツールで行う いろんなツールやプログラミングを用いて、データを前処理で綺麗にする、もしくは複数のデータソースを組み合わせて解析に可能なデータを前処理で用意しておくなどの前処理が必要になる場合があります。 みなさんはどうしてますか? 前のブログ記事 で紹介した 無料のツールKNIME だったり、ライセンス購入で使用可能な Tableau Prep 、 Alteryx なんかがデータの前処理をノンコーディングで実施できるので導入しやすいツールかなと思います。 Tableau Prepは、数値データの集計やグルーピングなどはできるものの、機能的にはかなり前処理用だけに特化したツールだと思います。それ単体で使い倒すというよりは、Tableau社のメインツールであるTableau Desktop用に使いやすいようにデータ前処理用を行うという感じだと思います。 KNIME、Alteryxあたりはデータ前処理から、さらに、データ分析を行うR、Pythonのスクリプトにデータを流していけるようなところまで出来ちゃうツールです。 データ成果物(アウトプット)は各種データベースにデータエクスポートしていけるなどマルチに活躍できるツールだと思います。 他に、、使ったことはないですが、よく耳にするツール DataRobot、Dataiku なんかは、もっとAIに特化したツールなんだと思います。 KNIMEでノード毎のデータプレビューを表示する - Nod...