爬虫類中はリストページのurlを取得できません。

1980 ワード

例1:
あるウェブサイトを採集する時、ウェブページに表示されているurlリンクから抽出したもので、最後までデータが戻ってきませんでした。
主な原因はページのソースコードの中のタグのhref属性値とページの違いです。
ページには‘http://www.xxx.org.cn/crs/xhjj/index.jhtml”
ソースの表示は‘http://www.xxx.org.cn:80/crs/xhjj/index.jhtml”
比較すると一つ多くなりました。80:
だから正則を書く時はずっと合致していません。ホームページだけを見てはいけません。ソースからリンクを見る必要があります。

例2:
あるウェブサイトを採集する時もウェブページの情報に基づいて文章の内容のラベルを決めます。
ページの内容はtr【4】の下に含まれています。xpath helperでもページに表示されますが、印刷されません。
ページのtr【3】の下に表示されているのは

<tr>
    <td class="bt_content">
      <div id="zoom" style="text-align:left">
        <meta name="ContentStart">
　　　　div>
　　td>
tr>

ソースの内容はtr【3】の下に表示されますので、ページの情報をつかむ時はやはりソースによって位置を決めます。

転載先:https://www.cnblogs.com/kenD/p/11243907.html

HTTP圧力測定ツールWrkの紹介と使用

httpよくある状態コード