KNIME - CSV Readerのエンコード設定を調整してCSVファイル内の日本語の文字化けを回避する

こんにちは! Data Afroです!


2021年も10月ですね。10月1日は国際コーヒーの日であり、また日本酒の日だそうです。

KNIME内でエンコードを変更し文字化けした内容を正しく表示する。


KNIMEで日本語が文字化け

KNIMEで日本語の内容を含んだCSVをインポートしたときに列名やセル内の内容が文字化け(英語だとgarbled characterという)してしまうことがありました。

確認していたCSVファイルは、日経クロステックさんのKNIMEの使い方に関する特集記事に掲載されていた「味覚センサー.csv」です。

MAC OSだと初期設定でこんな感じでした


日本語のWindows 10なんかだと、SHIFT-JISがdefaultだと思うのでこのCSVファイルは問題なく読めると思います。私のMac OSは英語のOSなんですが、OS defaultでUTF-8。



この場合は、
CSV Readerノードの設定からエンコードを指定してあげることで回避できました。

CSV Reader > Encoding にてSHIFT-JISを設定


漢字やハングル文字などダブルバイト文字(マルチバイト文字)を含んだデータ内容の取り扱いって文字化けが起こることがありますよ。KNIMEなど、日本国内で開発されたアプリケーションでない場合は、文字化けが発生する箇所は意外と多いかもしれませんね。

特に古い形式のデータソースファイルなんかだともっと回避するのが複雑になるかと。。


そんな時は、KNIMEのフォーラムで検索してみてくださ。

質問を投稿することで他のユーザーから回避方法に関するヒントが得られると思います。
例えば、以下のように、インドのベンガル語の表示が難しいとかね。

UTF-8 characters not rendering in table view

https://forum.knime.com/t/utf-8-characters-not-rendering-in-table-view/13327



他に役立ちそうなリンク

  • UTF-8(ユーティーエフエイト)とは?文字コードの仕組みを知れば文字化けでも慌てない - https://ferret-plus.com/7006



Happy Data Analytics!

このブログの人気の投稿

KNIME - 複数ファイルの読み込み(ワイルドカード ユニオン)について

データサイエンス100本ノックをKNIME(ナイム)でやってみる