python中国語のトランスコード
974 ワード
最近は爬虫類をしていますが、python中文トランスコードは接触するのが面倒くさいです.
一般的にはencode('gbk')、edcode('utf 8')、decode('gbk')、decode('utf 8')があり、大きな問題を解決できます.
しかし、今日は'\u 6210\\u 529 f'というフォーマットに出会いました.上の三板斧はよく分かりません.
万能の度娘を通して、最初のスタンプを見つけて、感嘆しました.
http://bbs.chinaunix.net/thread-3674073-1-1.html
コードは以下の通りです
http://blog.csdn.net/garinwang/article/details/6329262
コードは以下の通りです
この方法は文字列全体の漢字を全て符号化することができる.
仕上げ!
一般的にはencode('gbk')、edcode('utf 8')、decode('gbk')、decode('utf 8')があり、大きな問題を解決できます.
しかし、今日は'\u 6210\\u 529 f'というフォーマットに出会いました.上の三板斧はよく分かりません.
万能の度娘を通して、最初のスタンプを見つけて、感嘆しました.
http://bbs.chinaunix.net/thread-3674073-1-1.html
コードは以下の通りです
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import sys
def main():
for line in sys.stdin:
sys.stdout.write(re.sub(r'\\u\w{4}',
lambda e: unichr(int(e.group(0)[2:], 16)).encode('utf-8'),
line))
if __name__ == '__main__':
main()
次に万能の度娘です.間違いなく彼です.もっと便利で早い方法を見つけます.http://blog.csdn.net/garinwang/article/details/6329262
コードは以下の通りです
str = str.decode('unicode_escape')
str = str.encode('gbk')
第1ステップは文字列をunicodeに復号し、第2ステップはunicodeコードをgbk漢字コードに符号化する.この方法は文字列全体の漢字を全て符号化することができる.
仕上げ!