投稿

9月, 2021の投稿を表示しています

データ分析の精度・品質とデータ前処理の重要性 - データ前処理ツール KNIME、Tableau Prep、Alteryx など

イメージ
データ分析や回帰分析、機械学習、統計解析モデルにデータをインポートし計算処理させるなどなど、、あらゆる場面で取り扱われるデータですが、 そのデータがいわゆる「汚い」状態(messy data)だとそれらの分析結果の精度や品質もいいものとなりません。  生データって多くの欠損値(いわゆる 空)やNull、タイプミスなどが含まれている場合が多いです。これら、データの前処理を行い事前に綺麗に整えておく必要があります。 データ分析の精度・品質とデータ前処理の重要性 - データ前処理   私はお酒とコーヒーが好きなのですが、 これらの飲料に共通するもっとも重要な成分「水」ですよね(水がデータだとして)。 これが良くないと、最終的に美味しいものに仕上がらないのと少し似てませんか? データの前処理をツールで行う いろんなツールやプログラミングを用いて、データを前処理で綺麗にする、もしくは複数のデータソースを組み合わせて解析に可能なデータを前処理で用意しておくなどの前処理が必要になる場合があります。 みなさんはどうしてますか? 前のブログ記事 で紹介した 無料のツールKNIME だったり、ライセンス購入で使用可能な Tableau Prep 、 Alteryx なんかがデータの前処理をノンコーディングで実施できるので導入しやすいツールかなと思います。  Tableau Prepは、数値データの集計やグルーピングなどはできるものの、機能的にはかなり前処理用だけに特化したツールだと思います。それ単体で使い倒すというよりは、Tableau社のメインツールであるTableau Desktop用に使いやすいようにデータ前処理用を行うという感じだと思います。  KNIME、Alteryxあたりはデータ前処理から、さらに、データ分析を行うR、Pythonのスクリプトにデータを流していけるようなところまで出来ちゃうツールです。 データ成果物(アウトプット)は各種データベースにデータエクスポートしていけるなどマルチに活躍できるツールだと思います。 他に、、使ったことはないですが、よく耳にするツール DataRobot、Dataiku なんかは、もっとAIに特化したツールなんだと思います。  KNIMEでノード毎のデータプレビューを表示する - Nod...

KNIME - 無料データ分析ソフト KNIME Analytics Platform をMacOSにインストール

イメージ
Hello Data!  データアフロです! 今日は無料データ分析ソフト KNIME(ナイム) Analytics Platform を私のMacOS Big Sur (version 11.6) インストールしてみます。 KNIME(ナイム) Analytics Platform インストール手順 KNIME(ナイム)Analytics Platformのインストール 「KNIME(ナイム)」インストール手順は数分で簡単に終了します。 インストーラーのUI言語は英語ですが、特に難しい内容は出てきません。 KNIME Analytics Platformインストーラーを公式サイトからダウンロード KNIME Analytics PlatformはWindows、Linux、MacOS用にインストーラーを配布しています(これなかなか凄い!)。データ分析のプロセスを自動化するツールで有名なAlteryxというツールがありますが現在はWindows版だけの配布となります。Tableau PrepというTableauが配布していたデータ前処理用のツールは無料公開版が既に無いので、、私みたいなMacOS使いにはKNIME Analytics Platformの存在は嬉しいです! 以下、KNIME公式サイトの  https://www.knime.com/ の右上 ダウンロードアイコンからダウンロードページへ。 KNIMEの公式サイト https://www.knime.com/  KNIME Analytics Platformダウンロードページにてユーザー登録情報を入力 メールアドレスや居住国を入力。メールニュースやアップデートが欲しい場合は任意でチェックボックスをマークする。 メールアドレスなどの入力が求められる KNIME Analytics Platformインストーラーの選択 OS別(Windows、Linux、MacOS) 現在(2021年9月)の最新バージョンとして、KNIME Analytics Platform 4.4.1がインストールされます。 OS別にインストーラーを選ぶ KNIME Analytics Platformインストーラーのダウンロード・起動 あとはDownloadボタン...

デジタル・シティズンシップ時代のデータ解析スキルの習得してデータ・シティズンに!

イメージ
Hello Data !! こちらデータ分析学習中の Data Afro (データアフロと言います。 勝手にキャラクターを作って進めていきます。※キャラクター現在作成中)です。 デジタルトランスフォーメーション(DX)とか、デジタル社会化だったりこういった言葉を聞かない日はないくらいAIやプロセスの自動化を進めていく動きが多くなりましたね。  「デジタル社会においても、よりよく生きることができる人材」を一言で言い表したものに 「デジタル・シティズンシップ」 という言葉があります。 同じように市民データという意味で、 「データ・シティズンシップ」、「シティズンデータサイエンス」や「データ・シティズン」 という言葉も生まれ、社会全体でデータに強くなる人材、データへのリテラシーが高い人を増やしていこうよという言葉もあります。データに基づく意思決定を意味するデータドリブンという言葉も当たり前に聞くようになりました。 このブログでは、データ分析・データ可視化(図表などに落とし込む)や、データの形式を変更したり、各種データ・データベースからインポートしてきたデータをブレンドして新しいデータソースを用意しないといけないとかそんな際に使えるツール・アプリケーションを中心に紹介し、日本国内のデータ市民である 「データ・シティズン」 の拡大に少しでも貢献できればと思います◎ データリテラシー・データ分析力を高める 少し簡単に自己紹介から わたくし、データアフロは、TableauやAlteryxというセルフサービス(自分で完結する)でデータ可視化・データ分析を行ういわゆるBIツールをこれまでに業務などで使用してきました。 これらの経験から、Tableauは、 Tableau Desktop Certified Professional を取得、Alteryxは、 Alteryx Designer Advanced Certified を取得することができました。どちらも英語で取得することができました。 最近では ナイム KNIME ( https://www.knime.com/ )と呼ばれる 無料のデータプロセス自動化ツール を試しています。 これ、、無料なんですがAlteryxに似ていて、データ前処理からデータ可視化までを行うことができる優秀なアプリケーションだ...