Python爬虫類を学ぶ前に必ず知識点を身につけます。


よくあるプロトコル
httpとhttps
httpプロトコル:
ハイパーテキスト転送プロトコルは、HTMLページを発行し、受信する方法であり、ポートは80です。
httpsプロトコル:httpプロトコルの暗号化バージョンは、HTTPにssl層を追加し、ポートは443です。
次の訪問は美団の公式サイトです。
ポートが見えるのは443です。
在这里插入图片描述
URLとRUI
一般的な要求方式
httpプロトコルは、ブラウザとサーバがデータを相互作用する過程で、対話方式を選択しなければならないと規定しています。
httpプロトコルでは8中の要求方式が定義されていますが、よくあるのはgetとpost要求です。
get要求:一般的にサーバからデータを取得するだけで、サーバリソースには何の影響もありません。
在这里插入图片描述
お願いする時の注意点:
url要求方式要求ヘッダ
ポスト要求:サーバにデータ(ログイン)を送信し、ファイルをアップロードするなど、サーバのリソースに影響がある場合は、ポストを使って要求します。
しかし、一部のサイトでは、アンチ爬虫剤のメカニズムを作っています。あなたが情報を調べても、ポストを使ってお願いします。だから、私たちが爬虫類を書く時は、必ずサイトを分析してください。
一般的な要求ヘッダパラメータ:
httpプロトコルでは、サーバーに要求を送信します。データは三つの部分に分けられます。
  • データをurlに置く
  • データをbodyに入れます。(postリクエスト)
  • データをヘッドに置く
  • 一般的な要求ヘッダパラメータ:
  • user-agent:ブラウザ名
  • referer:この要求はどのurlから来たのですか?
  • cookie:httpプロトコルは無状態、つまり一人で二回の要求を送りました。サーバーはこの二つの要求が同じ人から来たかどうかを知る能力がありません。
  • 在这里插入图片描述
    一般的な対応する状態コード
  •  200は正常を要求し、サーバは正常にデータ
  • に戻ります。
  • 301永久リダイレクト
  • 404によって要求されたurlはサーバ上に
  • が見つからない。
  • 418はサーバ端のアンチ爬虫類に遭遇することを要求し、サーバは対応するデータ
  • を拒否する。
  • 500サーバ内部エラーは、サーバにバグが発生した可能性があります。
    HTTPの要求に対応するプロセス
    在这里插入图片描述
    ブラウザを使ってウェブサイトの分析を行います。
    私たちが分析したいウェブサイトは、movie.douban.comです。
    在这里插入图片描述
  • Elements:ウェブサイトの構造を分析するための
  • ページに表示される内容は、Elementsに対応する要素があります。
    在这里插入图片描述
  • Consone:ここで求人情報を印刷します。警告など。
  • 在这里插入图片描述
  • Sources
  • Network:ページを表示する際に発生するすべての要求
  • headersヘッダ情報
     セッションとクッキー
    sessionはサーバとブラウザの一回の会話過程を表しています。
    sessionは、特定のユーザのセッションに必要な情報を記憶するためのサーバ端の仕組みであり、メモリ、キャッシュ、またはデータベースに保存する。
    クッキー
    cookeはサーバ側で生成され、クライアントに送信されます。cookieはクライアントに保存されています。
    クッキーの原理:
    1)クッキーの作成
    2)格納クッキーの設定
    3)クッキーの送信
    4)クッキーの読み込み
    ここでPython爬虫類を学ぶ前に、どのような知識が必要かを把握した文章を紹介します。Python爬虫類についてもっと勉強したいです。知識の内容は以前の文章を検索してください。また、次の関連記事を見てください。これからもよろしくお願いします。