データサイエンス100本ノックをKNIME（ナイム）でやってみる

「データサイエンス100本ノックをKNIME（ナイム）でやってみる」の13本目です。

実際に公開されている演習問題（100問はこちらに公開されております）に取り組んでいきます。一緒に手を動かしてやってみましょう。大リーグへの道は長し！

データサイエンス 100本ノック 13本目

P-013: 顧客データ（customer.csv）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

以下の答え・解説を見る前に実際にチャレンジしてみてください。

さてさて、、いろんなやり方があると思うんですがKNIME（ナイム）にて正規表現（Regular Expression）を使って条件の抽出ができるかやってみます。

それ以外にも少し力技でマニュアルで抽出する方法も試していきましょう。

「先頭がアルファベットのA〜Fで始まるデータを全項目抽出」の正規表現をRow filterノードで実行してみます。その後で先頭の10件をお馴染みのTOP K Selectorノードで取得します。

『^[A-F].*』が正規表現の条件となります

Regular Expression 正規表現からの先頭の10件の結果です

それでは次の方法、最初の一文字目を抽出して、条件となるアルファベット（A〜F）を含んでいる行を探し出す方法について

String Manipulationノードで『substr($status_cd$, 0, 1)』で最初の1文字目だけの列を作成　

追加の列に対し、IN構文のフィルターで該当のアルファベットの条件だけを抽出します。

さて、取得結果です。正規表現のものと一緒ですね！

お疲れ様でした。

という感じで今回は終了となります！

もちろん他の方法もあるので探ってみてください :)

本日のデータサイエンス100本ノックをKNIME（ナイム）でやってみるはここで終了です！

お疲れ様でした！