Python爬虫類の実戦的な登山はシートリップの評論を取ります。
2721 ワード
一、データソースの分析
ここのデータソースはhtmlページですか?それともAajxは非同期ですか爬虫初心者にとっては、どう判断するか分かりませんが、ここでは辰兄も一度手を取ったことがあります。
ヒント:以下の操作はログイン不要です。もちろんログインしてもいいです。
まずブラウザの中でシートリップを探して、シートリップの中で任意の観光スポットを探します。長隆野生動物世界、ここでは長隆野生動物世界を例にして、シートリップのコメントデータをどうやって取るかを説明します。
ページの下にコメントデータがあります。
上の2つの図からは、次のページにコメントをクリックして、ブラウザのリンクは変更されていません。データはAjax非同期要求です。そのため、データは非同期で読み込まれていることを見つけました。この時はnetworkに行く必要があります。
二、分析パケット
networkで次のこのパケットを見つけました。
Previewの内容を確認します(内容を返してください)。
データが要求されているのが見えます。データが正しいかどうか見てみます。
ok、大丈夫です。次はPythonプログラムを作成してデータを要求します。
1.請求住所
要求リンクと要求方式が取得できます。
ここで要求は要求ヘッドヘッドを追加しなくてもいいです。その中でpostUrlはリンクをお願いします。1は要求パラメータです。
2.要求パラメータ
networkで要求パラメータが見られます。
プログラムの構築は以下の通りです。
注目すべきは、arg中のPageIndex(ページ数)、PageSize(ページ数)である。
最終結果は以下の通りです。
この観光スポットのコメントは見事に登れます。
三、すべてのコメントを集める
上記は1ページ目のコメントデータを収集しただけで、arg中のpageIndex(ページ数)を変更することで、全てのコメントを取得することができます。
例えばこの観光スポットは全部で300ページです。いま循環を加えます。
最終的な完全コードは以下の通りです。
ここでPython爬虫類についてのコメントの文章を紹介します。Pythonのキャリアに関するコメントの内容は以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。
ここのデータソースはhtmlページですか?それともAajxは非同期ですか爬虫初心者にとっては、どう判断するか分かりませんが、ここでは辰兄も一度手を取ったことがあります。
ヒント:以下の操作はログイン不要です。もちろんログインしてもいいです。
まずブラウザの中でシートリップを探して、シートリップの中で任意の観光スポットを探します。長隆野生動物世界、ここでは長隆野生動物世界を例にして、シートリップのコメントデータをどうやって取るかを説明します。
ページの下にコメントデータがあります。
上の2つの図からは、次のページにコメントをクリックして、ブラウザのリンクは変更されていません。データはAjax非同期要求です。そのため、データは非同期で読み込まれていることを見つけました。この時はnetworkに行く必要があります。
二、分析パケット
networkで次のこのパケットを見つけました。
Previewの内容を確認します(内容を返してください)。
データが要求されているのが見えます。データが正しいかどうか見てみます。
ok、大丈夫です。次はPythonプログラムを作成してデータを要求します。
1.請求住所
要求リンクと要求方式が取得できます。
ここで要求は要求ヘッドヘッドを追加しなくてもいいです。その中でpostUrlはリンクをお願いします。1は要求パラメータです。
2.要求パラメータ
networkで要求パラメータが見られます。
プログラムの構築は以下の通りです。
注目すべきは、arg中のPageIndex(ページ数)、PageSize(ページ数)である。
最終結果は以下の通りです。
この観光スポットのコメントは見事に登れます。
三、すべてのコメントを集める
上記は1ページ目のコメントデータを収集しただけで、arg中のpageIndex(ページ数)を変更することで、全てのコメントを取得することができます。
例えばこの観光スポットは全部で300ページです。いま循環を加えます。
最終的な完全コードは以下の通りです。
ここでPython爬虫類についてのコメントの文章を紹介します。Pythonのキャリアに関するコメントの内容は以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。