【ZZ】Python chardet文字コード判定

1131 ワード

chardetを使用すると、文字列/ファイルの符号化検出を容易に行うことができる.特に中国語のページには、GBK/GB 2312を使うページがあります.UTF 8を使うものもあります.ページを登る必要があるなら、ウェブページのコードを知ることが大切です.HTMLページにはcharsetタグがありますが、時々違います.じゃ、chardetはとても助かります.
chardetの例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>
chardetは、与えられた文字の符号化を直接Detect関数で検出することができる.関数の戻り値は辞書で、1つは検出された信頼性で、もう1つは検出された符号化です.
chardetインストール
chardetをダウンロードした後、chardet圧縮パッケージを解凍して、直接にアプリケーションディレクトリの下に置くと、import chardetを使ってchardetを使用することができます.
あるいはsetup.pyを使ってファイルをインストールして、chardetをPythonシステムディレクトリの下にコピーして、このようにあなたのすべてのpythonプログラムはimport chardetでいいです.
参照

  • chardet公式サイトhttp://
    chardett.feedparser.org/

  • chardetダウンロードページ:http://
    chardett.feedparser.org/download/
  •  

  • chardet公式サイトhttp://
    chardett.feedparser.org/

  • chardetダウンロードページ:http://
    chardett.feedparser.org/download/