データサイエンス100本ノックをKNIME(ナイム)でやってみる - 1本目 『全項目を指定行数抽出する』

「データサイエンス100本ノックをKNIME(ナイム)でやってみる」の1本目です。
 
実際に公開されている演習問題(100問はこちらに公開されております)に取り組んでいきます。一緒に手を動かしてやってみましょう。甲子園への道は長し!
  • KNIMEのインストールが完了していない場合はこちらを参考にしてみてください
  • KNIMEの基本的な使用方法などをざっと確認したい場合はアーカイブ
  • 「データサイエンス100本ノック」って何ですか?という場合はこちら


 


 

 

データサイエンス 100本ノック 1本目(1問目) 

P-001: レシート明細データ(receipt.csv)から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。
 
 
 
 以下の答え・解説を見る前に実際にチャレンジしてみてください。
 
 
 
 
 
 
 
 
 

KNIMEで実際にやってみよう!

KNIME(ナイム)は非常にツールが豊富なのでこちらを行う場合、幾つかの方法があると思っています。どんな時も「打つては無限」と心にどこかに据えてやってみましょう!
 
CSV Readerノードを新規ワークフローに配置し、receipt.csvを読み込んでみます。
行数が104,681で、列数は9と確認できました。

 
 
お次は、先頭10件を表示のお題に入っていきます。
 
これ実は、 CSV Readerノードの設定で取得行数の設定で10としてしまうことで先頭10件だけを表示することができます。

ただし、これだとその他のノードをこのノードの後に連結して解析をしていく際にこの限定された10行に対して行うことになります。 
 
まっ、今回のノック課題はクリアできますが。

 
 
 
他の方法だと、 CSV Readerノードでは全件を処理し、Row Filterノードで先頭の10行を絞り込むこともできますね。

 
 
Row Samplingノードで先頭の10件を取得ということもできますね。

 
という感じでどうでしょうか。 
 
データサイエンス100本ノックをKNIME(ナイム)でやってみるノック1本目はここで終了です!
 
お疲れ様でした!

このブログの人気の投稿

KNIME - CSV Readerのエンコード設定を調整してCSVファイル内の日本語の文字化けを回避する

KNIME - 複数ファイルの読み込み(ワイルドカード ユニオン)について

データサイエンス100本ノックをKNIME(ナイム)でやってみる