データサイエンス100本ノックをKNIME(ナイム)でやってみる

データサイエンス100本ノック構造化データ加工編ガイドブック」というデータ解析の書籍をお読みになった方はすでにピンときているかもしれませんが、こちらに関して、GitHub上に一般社団法人データサイエンティスト協会さんが無償でデータを配布してくれています。


 

 こちら、SQL、Python、Rを使用して100問の演習問題に取り組んでいき、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理などの、基礎的なデータハンドリングの修行を行なってもらうために用意されたコンテンツのようです。

こちらで配布されているデータを使用、 データ加工・データ準備の演習問題をオープンソースデータ加工ツール KNIMEで実際にやってみようと思います。すべてを実施することができるかは現段階では不明ですがまずはTRY!ということで。

GitHubからコンテンツのダウンロード

データサイエンティスト協会さんのGitHubよりZIPファイルをダウンロードすると、以下のようにコンテンツを展開することができる。docker > work > data 内に複数のデータがCSV形式で置かれています。
 
データサイエンス100本ノック(構造化データ加工編)- データ

その他、Dockerを使用した演習の開始方法や問題集(こちらのPDF)などが docker > work > doc のPDFにありますので目を通してみてください。配布データに関するER図もあります。

 

データサイエンス100本ノック(構造化データ加工編) - ER図


 さて、次回からは実際にデータ加工をやっていくことにします。

このブログの人気の投稿

KNIME - CSV Readerのエンコード設定を調整してCSVファイル内の日本語の文字化けを回避する

KNIME - 複数ファイルの読み込み(ワイルドカード ユニオン)について