爬虫類の始まりの簡単な紹介

2196 ワード

ブラウザでhttpリクエストを送信するプロセス:1.ユーザーがブラウザのアドレスバーにURL・を入力してリターンキーを押すと、ブラウザはHTTPサーバにリクエストを送信し、HTTPリクエストは主に「get」、「post」の2つの方法に分けられる.2.ブラウザでURLを入力すると、ブラウザはURL取得を要求するhtmlファイルを送信し、サーババーrequestファイルオブジェクトはブラウザに送信されます.3.ブラウザはresponseのHTMLを分析し、imagesファイル、cssファイル、jsファイルなどの他のファイルを参照していることがわかりました.ブラウザは自動的にrequestを送信して画像、cssファイル、jsファイルを取得します.4.すべてのファイルのダウンロードに成功すると、HTML構文に基づいてページが完全に表示されます.URL URLはUniform Resource Locationの略で、統合リソースロケータであり、インターネットから得られるリソースの位置やアクセス方法の簡潔な表現であり、インターネット上の標準リソースのアドレスである.URLコンポーネント
scheme://host:port/path/?query-string=xxxxxxx#anchor

scheme:アクセスプロトコルを表します.一般的にはhttphttpsftpなどのhost:ホスト名、ドメイン名、例えばURL www.baidu.com port:ポート番号(httpのデフォルトポート番号は80)path:検索パス(省略すると、ドキュメントはウェブサイトのルートディレクトリに存在する必要があります).query-string:http://www.runoob.com/html/html-url.html、後の/html/html-url.htmlなどの文字列を検索します.anchor:アンカーポイント、バックグラウンドは一般的に管理されず、フロントエンドはページの位置決めに使用されます.
ブラウザの要求の1つで、ブラウザはこの要求を符号化し、英語のアルファベット、数字、一部の記号を除いて、他のすべてはパーセント+16進数符号で符号化します.
httpとhttpプロトコルhttpプロトコルとは何ですか:フルネームはHyperText Transfer Protocolで、中国語ではハイパーテキスト転送プロトコルを意味し、HTMLページを公開し、接触する方法です.サーバポート番号は80ポートです.httpプロトコル:http上で暗号化されたバージョンで、httpの下にsslレイヤが追加されています.サーバポート番号は443ポートです.
一般的なリクエストメソッドhttpプロトコルでは、8つのリクエストメソッドが定義されています.最も一般的な要求は、getおよびpostである.get要求:urlによって識別されたリソースへのアクセスを要求するために使用され、urlを介してサーバに送信することができる.一般に、サーバからデータデータを取得するだけで、サーバリソースに影響を及ぼさない場合はgetで要求する.post要求:サーバに情報を送信するために使用される.サーバリソースに影響を与える場合はpostリクエストを使用します.
要求ヘッダの一般的なパラメータUser-Agent:ブラウザ名.これはネット爬虫類でよく使われます.私たちがコードで取得するのではなく、ブラウザが取得していると思っているように、自分を偽装します.Referer:現在のリクエストがどのurlから来たかを示します.一般的には反爬虫技術に使われる.指定されたページから来なければ、長い間関連する応答をしません.
一般的なHTTP対応ステータスコード:
200:要求に成功し、サーバーは正常にデータを返します.301:永続リダイレクト.302:一時リダイレクト.400:要求構文に誤りがあり、サーバが認識できません.401:無許可、無認証.403:サーバはアクセスを拒否し、権限が足りません.404:サーバ要求ウェブページが存在せず、対応するリソース500が見つからない:サーバ内部エラー503:サーバビジーChromeキャプチャツールElement:現在のウェブページの構造.console:コンソール、一般的には使用されません.sources:現在のWebページはどのファイルで構成されていますか.Network:現在のWebページの表示要求(一般headersで十分).