KNIME - CSV Readerのエンコード設定を調整してCSVファイル内の日本語の文字化けを回避する
こんにちは! Data Afroです!
2021年も10月ですね。10月1日は国際コーヒーの日であり、また日本酒の日だそうです。
KNIME内でエンコードを変更し文字化けした内容を正しく表示する。 |
KNIMEで日本語が文字化け
KNIMEで日本語の内容を含んだCSVをインポートしたときに列名やセル内の内容が文字化け(英語だとgarbled characterという)してしまうことがありました。
確認していたCSVファイルは、日経クロステックさんのKNIMEの使い方に関する特集記事に掲載されていた「味覚センサー.csv」です。
MAC OSだと初期設定でこんな感じでした |
日本語のWindows 10なんかだと、SHIFT-JISがdefaultだと思うのでこのCSVファイルは問題なく読めると思います。私のMac OSは英語のOSなんですが、OS defaultでUTF-8。
CSV Reader > Encoding にてSHIFT-JISを設定 |
漢字やハングル文字などダブルバイト文字(マルチバイト文字)を含んだデータ内容の取り扱いって文字化けが起こることがありますよ。KNIMEなど、日本国内で開発されたアプリケーションでない場合は、文字化けが発生する箇所は意外と多いかもしれませんね。
特に古い形式のデータソースファイルなんかだともっと回避するのが複雑になるかと。。
そんな時は、KNIMEのフォーラムで検索してみてくださ。
質問を投稿することで他のユーザーから回避方法に関するヒントが得られると思います。
例えば、以下のように、インドのベンガル語の表示が難しいとかね。
UTF-8 characters not rendering in table view
https://forum.knime.com/t/utf-8-characters-not-rendering-in-table-view/13327
他に役立ちそうなリンク
- UTF-8(ユーティーエフエイト)とは?文字コードの仕組みを知れば文字化けでも慌てない - https://ferret-plus.com/7006
Happy Data Analytics!