python中国語のトランスコード

974 ワード

python 中国語のトランスコード

最近は爬虫類をしていますが、python中文トランスコードは接触するのが面倒くさいです.
一般的にはencode('gbk')、edcode('utf 8')、decode('gbk')、decode('utf 8')があり、大きな問題を解決できます.
しかし、今日は'\u 6210\\u 529 f'というフォーマットに出会いました.上の三板斧はよく分かりません.
万能の度娘を通して、最初のスタンプを見つけて、感嘆しました.
http://bbs.chinaunix.net/thread-3674073-1-1.html
コードは以下の通りです

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import sys 
def main():
    for line in sys.stdin:
        sys.stdout.write(re.sub(r'\\u\w{4}',
            lambda e: unichr(int(e.group(0)[2:], 16)).encode('utf-8'), 
            line))
if __name__ == '__main__':
    main()

次に万能の度娘です.間違いなく彼です.もっと便利で早い方法を見つけます.
http://blog.csdn.net/garinwang/article/details/6329262
コードは以下の通りです

str = str.decode('unicode_escape')
str = str.encode('gbk')

第1ステップは文字列をunicodeに復号し、第2ステップはunicodeコードをgbk漢字コードに符号化する.
この方法は文字列全体の漢字を全て符号化することができる.
仕上げ!

JavaScriptは、配列の重複要素を削除する5つの効率的なアルゴリズムです.