変換:&#x 4 E 0 A;&#x 6D77; のコードは中国語です

1511 ワード

問題のように私たちはある度のラベルを手に入れた.
    def convert(self,s):
        s = s.strip('')  #  ' '  '957f'
        s = bytes(r'\u' + s, 'ascii')  #  '957f'   b'\\u957f'
        return s.decode('unicode_escape')

 
「直接replaceまたはsubを除去変換することを説明しないでください.
#        
res = re.findall('data-tools="{title:(.*),url:', content)

title = re.sub(r'....;', lambda match: self.convert(match.group()), res[0])

try:
    title = json.loads('"%s"' % title )  # \\u4e0a\\u6d77\\u4e30\\u9091          u      
except:
    pass

#    
#>>>    ....  

 
 
二、unicode符号化を漢字に変換する方法
str = '\u4eac\u4e1c\u653e\u517b\u7684\u722c\u866b'
 
#  1   unicode_escape   
print str.decode('unicode_escape')
print unicode(str, 'unicode_escape')
 
#  2:  json   ,  json.loads   
print json.loads('"%s"' %str)
 
#  3:  eval
print eval('u"%s"' % str)
 
#  4:  python3