データサイエンス100本ノックをKNIME(ナイム)でやってみる - 5本目 『複数条件に合致する行を抽出する1』
「データサイエンス100本ノックをKNIME(ナイム)でやってみる」の5本目です。
実際に公開されている演習問題(100問はこちらに公開されております)に取り組んでいきます。一緒に手を動かしてやってみましょう。大リーグへの道は長し!
- KNIMEのインストールが完了していない場合はこちらを参考にしてみてください
- KNIMEの基本的な使用方法などをざっと確認したい場合はアーカイブを
- 「データサイエンス100本ノック」って何ですか?という場合はこちらを
データサイエンス 100本ノック 5本目
P-005: レシート明細データ(receipt.csv)から売上日(sales_ymd)、顧客ID(customer_id)、商品コード(product_cd)、売上金額(amount)の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
・顧客ID(customer_id)が”CS018205000001″
・売上金額(amount)が1,000以上
以下の答え・解説を見る前に実際にチャレンジしてみてください。
では、実際にKNIME(ナイム)でやってみよう!
今回のは、「複数条件に合致する行を抽出する」するということが必要になりますね。 複数の検索条件を異なる列に当ててデータのフィルターが必要ということですね。
やってみました。今回はRule-based Row Filterを使用しました。
こちらを使用して文字型データの特定の文字情報と、数値型のデータではある数値以上や以下などを絞り込めます。
やってみました。今回はRule-based Row Filterを使用しました。
こちらを使用して文字型データの特定の文字情報と、数値型のデータではある数値以上や以下などを絞り込めます。
設定ではフィルターしたいのは、顧客ID(customer_id)が"CS018205000001"で、売上金額(amount)が1,000以上でしたね。この場合は以下のように演算式(KNIME用の式)を書いてあげることで回答を得ることが出来ました。
という感じで今回もかなり簡単です!一つのノードで複数の条件でデータを絞り込めました。もちろん他の方法もあるので探ってみてください :)
今回のデータサイエンス100本ノックをKNIME(ナイム)でやってみるはここで終了です!
お疲れ様でした!