変換:&#x 4 E 0 A;&#x 6D77; のコードは中国語です
1511 ワード
問題のように私たちはある度のラベルを手に入れた.
「直接replaceまたはsubを除去変換することを説明しないでください.
二、unicode符号化を漢字に変換する方法
def convert(self,s):
s = s.strip('') # ' ' '957f'
s = bytes(r'\u' + s, 'ascii') # '957f' b'\\u957f'
return s.decode('unicode_escape')
「直接replaceまたはsubを除去変換することを説明しないでください.
#
res = re.findall('data-tools="{title:(.*),url:', content)
title = re.sub(r'....;', lambda match: self.convert(match.group()), res[0])
try:
title = json.loads('"%s"' % title ) # \\u4e0a\\u6d77\\u4e30\\u9091 u
except:
pass
#
#>>> ....
二、unicode符号化を漢字に変換する方法
str = '\u4eac\u4e1c\u653e\u517b\u7684\u722c\u866b'
# 1 unicode_escape
print str.decode('unicode_escape')
print unicode(str, 'unicode_escape')
# 2: json , json.loads
print json.loads('"%s"' %str)
# 3: eval
print eval('u"%s"' % str)
# 4: python3