[PROD]Pandasからデータを読み込むときのエンコードの問題(Pandas read files、エンコードエラーなし)


ニュース記事のデータを読んでいると、ファイルのエンコードの問題でハングルが割れた.
問題は,各行のデータの符号化が若干異なり,どの符号化を用いても誤りを回避できないことである.
したがって、ほとんどのローがどのような符号化を使用しているかが分かれば、以下の方法で符号化エラーを無視してデータを取得することができる.
次に、pandas.read table公式ドキュメントの符号化関連コンテンツを示す.

パンダの最新バージョンを更新


-上記のドキュメントに従って、pandaのバージョンは1.3.0以上でなければサポートできません.
! conda update pandas

ファイルを読み込むには、次のオプションを使用します。


-encoding_errors = 'igonre'オプションが重要です!
data = pd.read_table(os.path.join(data_path, 'THHTSF060H00.dat'), sep = ",", header = None, encoding = "cp949", engine = "python", encoding_errors = 'ignore')