データサイエンス100本ノックをKNIME(ナイム)でやってみる - 1本目 『全項目を指定行数抽出する』
「データサイエンス100本ノックをKNIME(ナイム)でやってみる」の1本目です。
実際に公開されている演習問題(100問はこちらに公開されております)に取り組んでいきます。一緒に手を動かしてやってみましょう。甲子園への道は長し!
- KNIMEのインストールが完了していない場合はこちらを参考にしてみてください
- KNIMEの基本的な使用方法などをざっと確認したい場合はアーカイブを
- 「データサイエンス100本ノック」って何ですか?という場合はこちらを
データサイエンス 100本ノック 1本目(1問目)
P-001: レシート明細データ(receipt.csv)から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。
以下の答え・解説を見る前に実際にチャレンジしてみてください。
KNIMEで実際にやってみよう!
KNIME(ナイム)は非常にツールが豊富なのでこちらを行う場合、幾つかの方法があると思っています。どんな時も「打つては無限」と心にどこかに据えてやってみましょう!
CSV Readerノードを新規ワークフローに配置し、receipt.csvを読み込んでみます。
行数が104,681で、列数は9と確認できました。
行数が104,681で、列数は9と確認できました。
お次は、先頭10件を表示のお題に入っていきます。
これ実は、 CSV Readerノードの設定で取得行数の設定で10としてしまうことで先頭10件だけを表示することができます。
ただし、これだとその他のノードをこのノードの後に連結して解析をしていく際にこの限定された10行に対して行うことになります。
まっ、今回のノック課題はクリアできますが。
他の方法だと、 CSV Readerノードでは全件を処理し、Row Filterノードで先頭の10行を絞り込むこともできますね。
Row Samplingノードで先頭の10件を取得ということもできますね。という感じでどうでしょうか。
データサイエンス100本ノックをKNIME(ナイム)でやってみるノック1本目はここで終了です!
お疲れ様でした!