ネットワーク爬虫類の知識点

691 ワード

1.URLの洗浄
2.cchardetモジュールこのモジュールはchardetのアップグレード版で、機能はchardetと完全に同じで、1つの文字列の符号化を検出するために使用されます.CとC++で実現されるため、その速度は非常に速く、爬虫類の中でウェブページの符号化を判断するのに非常に適している.requestsが返すencodingを信じず、自分で判断したほうが安心できることを覚えておいてください.
3.tracebackモジュールtryは、プログラムが中断しないように異常をキャプチャしますが、キャプチャされた異常がどのような内容なのかを見て、爬虫類を改善する必要があります.このとき、tracebackモジュールが必要です.例えばdownloader()関数ではtryでget()の異常をキャプチャしたが,異常はcchardetである可能性もある.detect()によるtraceback.print_exc()は異常を出力し、より多くの問題を発見するのに役立ちます.
tips
異常を投げ出す問題については、私はずっと使っていました.
          try:
              #  
          except Exception,e:
              print e

後者は間違いを報告しただけだが、どのファイルでどの関数のどの行が間違っているのか分からない.前者はどの書類のどの行が間違っているかを教えてくれます
未完待续..