Pythonであるディレクトリ以下のファイル全てに対して文字コードが何であるかチェックして出力
概要
[DIR_NAME]以下ファイル全てを対象に、
[TARGET_ENCODING_LIST]に定義されている文字コードのテキストファイルかチェックして、
[OUTPUT_NAME]のファイル名に出力します。
判別出来なければ、binaryと出力されます。
環境
Windows8+Python2.6系
コード
check_encoding.py
#!/usr/bin/python
# -*- coding: utf-8 -*-
# vim: fileencoding=utf-8
import os , sys
DIR_NAME = 'C:\\Program Files\\'
OUTPUT_NAME = 'result_file_encoding_list.txt'
TARGET_ENCODING_LIST = [
'utf-8',
'shift-jis',
'euc-jp',
'iso2022-jp'
]
FLAG_STDOUT = True
#FLAG_STDOUT = False
import os, sys
write = sys.stdout.write
def guess_charset(data):
file = lambda d, encoding: d.decode(encoding) and encoding
for enc in TARGET_ENCODING_LIST:
try:
file(data, enc)
return enc
except:
pass
return 'binary'
out = open(OUTPUT_NAME, 'w')
for dirpath, dirs, files in os.walk(DIR_NAME):
for fn in files:
path = os.path.join(dirpath, fn)
fobj = file(path, 'rU')
data = fobj.read()
fobj.close()
try:
enc = guess_charset(data)
except:
continue
str = path + ',' + enc + '\n'
try:
if FLAG_STDOUT == True:
write(str)
out.write(str)
except:
continue
補足
check_encoding.py
#!/usr/bin/python
# -*- coding: utf-8 -*-
# vim: fileencoding=utf-8
import os , sys
DIR_NAME = 'C:\\Program Files\\'
OUTPUT_NAME = 'result_file_encoding_list.txt'
TARGET_ENCODING_LIST = [
'utf-8',
'shift-jis',
'euc-jp',
'iso2022-jp'
]
FLAG_STDOUT = True
#FLAG_STDOUT = False
import os, sys
write = sys.stdout.write
def guess_charset(data):
file = lambda d, encoding: d.decode(encoding) and encoding
for enc in TARGET_ENCODING_LIST:
try:
file(data, enc)
return enc
except:
pass
return 'binary'
out = open(OUTPUT_NAME, 'w')
for dirpath, dirs, files in os.walk(DIR_NAME):
for fn in files:
path = os.path.join(dirpath, fn)
fobj = file(path, 'rU')
data = fobj.read()
fobj.close()
try:
enc = guess_charset(data)
except:
continue
str = path + ',' + enc + '\n'
try:
if FLAG_STDOUT == True:
write(str)
out.write(str)
except:
continue
例外処理は、適当です。
ファイル名に日本語文字が含まれていると、文字化けしたりします。
Author And Source
この問題について(Pythonであるディレクトリ以下のファイル全てに対して文字コードが何であるかチェックして出力), 我々は、より多くの情報をここで見つけました https://qiita.com/selious/items/aa647128f54afe6a2063著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .