Python requestsライブラリ中国語文字化けし問題まとめ(符号化)

1440 ワード

Python requestsライブラリ中国語文字化けし問題まとめ(符号化)
 
requestsでページを登ると、ページの符号化の問題で中国語が文字化けしてしまうことがよくあります
<dt>ç¹è²æå¡dt>

この場合はまずページソースコードを見て、metaタグのコードが何であるかを見て、それから相応のコードに設定すればいい.
 
   
    response.encoding = 'utf-8'  #     
 
   

但有的时候设置meta标签查看的编码依然乱码,这是可以使用apparent_encoding查看真实编码

response.apparent_encoding

然后设置编码

 response.encoding = 'utf-8'  #     

また、得られた符号化はgb 2312であり、gb 2312が符号化されても符号化が乱れないように設定されている場合もある.
これは、gb 2312がサポートする漢字がgbkよりはるかに少ないため、gb 2312のウェブページの中には実際にgbkで復号する必要があるものもある.
 
転載先:https://www.cnblogs.com/IMWU/p/10956124.html