[PROD]Pandasからデータを読み込むときのエンコードの問題(Pandas read files、エンコードエラーなし)
ニュース記事のデータを読んでいると、ファイルのエンコードの問題でハングルが割れた.
問題は,各行のデータの符号化が若干異なり,どの符号化を用いても誤りを回避できないことである.
したがって、ほとんどのローがどのような符号化を使用しているかが分かれば、以下の方法で符号化エラーを無視してデータを取得することができる.
次に、pandas.read table公式ドキュメントの符号化関連コンテンツを示す.
パンダの最新バージョンを更新
問題は,各行のデータの符号化が若干異なり,どの符号化を用いても誤りを回避できないことである.
したがって、ほとんどのローがどのような符号化を使用しているかが分かれば、以下の方法で符号化エラーを無視してデータを取得することができる.
次に、pandas.read table公式ドキュメントの符号化関連コンテンツを示す.
パンダの最新バージョンを更新
-上記のドキュメントに従って、pandaのバージョンは1.3.0以上でなければサポートできません.! conda update pandas
ファイルを読み込むには、次のオプションを使用します。
-encoding_errors = 'igonre'
オプションが重要です!data = pd.read_table(os.path.join(data_path, 'THHTSF060H00.dat'), sep = ",", header = None, encoding = "cp949", engine = "python", encoding_errors = 'ignore')
Reference
この問題について([PROD]Pandasからデータを読み込むときのエンコードの問題(Pandas read files、エンコードエラーなし)), 我々は、より多くの情報をここで見つけました
https://velog.io/@hyangki0119/Python
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol
! conda update pandas
-
encoding_errors = 'igonre'
オプションが重要です!data = pd.read_table(os.path.join(data_path, 'THHTSF060H00.dat'), sep = ",", header = None, encoding = "cp949", engine = "python", encoding_errors = 'ignore')
Reference
この問題について([PROD]Pandasからデータを読み込むときのエンコードの問題(Pandas read files、エンコードエラーなし)), 我々は、より多くの情報をここで見つけました https://velog.io/@hyangki0119/Pythonテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol