Python requestsライブラリ中国語文字化けし問題まとめ(符号化)

1440 ワード

Python requestsライブラリ中国語文字化けし問題まとめ(符号化)

requestsでページを登ると、ページの符号化の問題で中国語が文字化けしてしまうことがよくあります

<dt>ç¹è²æå¡dt>

この場合はまずページソースコードを見て、metaタグのコードが何であるかを見て、それから相応のコードに設定すればいい.

 
    
        response.encoding = 'utf-8'  #     
   
   但有的时候设置meta标签查看的编码依然乱码，这是可以使用apparent_encoding查看真实编码 
    
    response.apparent_encoding 
    
   然后设置编码 
    
     response.encoding = 'utf-8'  #     
  
また、得られた符号化はgb 2312であり、gb 2312が符号化されても符号化が乱れないように設定されている場合もある.
これは、gb 2312がサポートする漢字がgbkよりはるかに少ないため、gb 2312のウェブページの中には実際にgbkで復号する必要があるものもある.
  
転載先:https://www.cnblogs.com/IMWU/p/10956124.html

Python频繁要求问题:[Errno 104]Connection reset by peer

科学計算ライブラリ-Numpy