Python爬虫類の実戦的な登山はシートリップの評論を取ります。


一、データソースの分析
ここのデータソースはhtmlページですか?それともAajxは非同期ですか爬虫初心者にとっては、どう判断するか分かりませんが、ここでは辰兄も一度手を取ったことがあります。
ヒント:以下の操作はログイン不要です。もちろんログインしてもいいです。
まずブラウザの中でシートリップを探して、シートリップの中で任意の観光スポットを探します。長隆野生動物世界、ここでは長隆野生動物世界を例にして、シートリップのコメントデータをどうやって取るかを説明します。
  Image
ページの下にコメントデータがあります。
  Image
Image  Image
上の2つの図からは、次のページにコメントをクリックして、ブラウザのリンクは変更されていません。データはAjax非同期要求です。そのため、データは非同期で読み込まれていることを見つけました。この時はnetworkに行く必要があります。
二、分析パケット
networkで次のこのパケットを見つけました。
  Image
Previewの内容を確認します(内容を返してください)。
Image
データが要求されているのが見えます。データが正しいかどうか見てみます。
  Image
ok、大丈夫です。次はPythonプログラムを作成してデータを要求します。
1.請求住所
Image
要求リンクと要求方式が取得できます。
Image
ここで要求は要求ヘッドヘッドを追加しなくてもいいです。その中でpostUrlはリンクをお願いします。1は要求パラメータです。
2.要求パラメータ
networkで要求パラメータが見られます。
Image
プログラムの構築は以下の通りです。
Image
注目すべきは、arg中のPageIndex(ページ数)、PageSize(ページ数)である。
Image
最終結果は以下の通りです。
Image
この観光スポットのコメントは見事に登れます。
三、すべてのコメントを集める
上記は1ページ目のコメントデータを収集しただけで、arg中のpageIndex(ページ数)を変更することで、全てのコメントを取得することができます。
Image
例えばこの観光スポットは全部で300ページです。いま循環を加えます。
最終的な完全コードは以下の通りです。
Image
ここでPython爬虫類についてのコメントの文章を紹介します。Pythonのキャリアに関するコメントの内容は以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。