からのHTTPヘッダー
10203 ワード
のためにrecent DjangoCon Europe talk 私はPython Webクモのカタログを作成し、httpのヘッダーtop 10,000,000 domains (based on Open PageRank data) .
執筆の時点で、少なくとも一度はすべての1000万のドメインをスパイダーしている.
7187532は「首尾よく」完了しました、すなわち、彼らは4 xxと5 xx範囲でエラーコードを含むどんなHTTPステータスコードも含んだHTTPレスポンスを返しました. 6280590は、200のHTTPステータスを持ちます 766584は、4 xx範囲でHTTPステータスを持ちます 137100は、5 xx範囲でHTTPステータスを持ちます 368は、HTTP =ステータスを持っています.
2812468ドメインに失敗しましたDNSエラー、タイムアウトなど.今後もこれらのドメインを再試行していきます
データセットはa single MongoDB Atlas コレクションは、現在のところ8 GBのサイズで少しです.
私はそれを公開し、すべてのアクセスを無料にするつもりです!😃
各ドキュメントには、ドメイン、オープンPageRank、日付/時刻クロール、およびすべてのHTTPヘッダーが受信されます.
我々のようにJohns Hopkins University COVID-19 open dataset , 私はあなたがノード、Python、Java、またはExcelを使用している場合でも、このスーパーは、簡単にアクセスできるようにしたい!
しかし、私が公開される前に、私は限られた数の人々へのアクセスを提供したいです.
あなたがどのようにデータを照会するのか見たいです.どのようにデータを簡単かつ効率的に動作するように構造化できますか?
あなたがデータセットへの初期のアクセスを望むならば、あるいは、私にメールしてください[email protected]
執筆の時点で、少なくとも一度はすべての1000万のドメインをスパイダーしている.
スパイダー統計
データセットはa single MongoDB Atlas コレクションは、現在のところ8 GBのサイズで少しです.
私はそれを公開し、すべてのアクセスを無料にするつもりです!😃
文書スキーマ
各ドキュメントには、ドメイン、オープンPageRank、日付/時刻クロール、およびすべてのHTTPヘッダーが受信されます.
[
{
_id: "5f31ee822ff3764aa9c446d4",
rank: 610,
domain: "dev.to",
pageRank: { $numberDecimal: "6.70" },
processing: false,
completed: true,
attempts: 1,
last_updated: "2020-09-15T03:29:00.447Z",
headers: {
"Content-Length": "71618",
Server: "Cowboy",
"X-Frame-Options": "SAMEORIGIN",
"X-Xss-Protection": "1; mode=block",
"X-Content-Type-Options": "nosniff",
"X-Download-Options": "noopen",
"X-Permitted-Cross-Domain-Policies": "none",
"Referrer-Policy": "strict-origin-when-cross-origin",
"Cache-Control": "public, no-cache",
"X-Accel-Expires": "600",
"Content-Type": "text/html; charset=utf-8",
"Content-Encoding": "gzip",
Etag: 'W/"9e7cc41631c8a0ba2a886cdb2b844b40"',
"Content-Security-Policy": "",
"X-Request-Id": "bf2b33f2-d4e2-4b5d-a3b0-15717705278d",
"X-Runtime": "0.150673",
Via: "1.1 vegur",
"Access-Control-Allow-Origin": "*",
"Accept-Ranges": "bytes",
Date: "Tue, 15 Sep 2020 03:29:00 GMT",
Age: "327",
"X-Served-By": "cache-den19625-DEN, cache-jax20947-JAX",
"X-Cache": "HIT, MISS",
"X-Cache-Hits": "1, 0",
"X-Timer": "S1600140540.196933,VS0,VE155",
Vary: "Accept-Encoding, X-Loggedin",
},
request_url: "https://dev.to",
response_url: "https://dev.to",
status: 200,
},
]
それは発見し、多くの楽しさと魅力的なデータセットです.それで、私はそれを世界に開くことに非常に興奮しています.我々のようにJohns Hopkins University COVID-19 open dataset , 私はあなたがノード、Python、Java、またはExcelを使用している場合でも、このスーパーは、簡単にアクセスできるようにしたい!
しかし、私が公開される前に、私は限られた数の人々へのアクセスを提供したいです.
リクエストアクセス
あなたがどのようにデータを照会するのか見たいです.どのようにデータを簡単かつ効率的に動作するように構造化できますか?
あなたがデータセットへの初期のアクセスを望むならば、あるいは、私にメールしてください[email protected]
Reference
この問題について(からのHTTPヘッダー), 我々は、より多くの情報をここで見つけました https://dev.to/aaronbassett/http-headers-from-10-million-domains-an-open-dataset-4fhoテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol