からのHTTPヘッダー


のためにrecent DjangoCon Europe talk 私はPython Webクモのカタログを作成し、httpのヘッダーtop 10,000,000 domains (based on Open PageRank data) .
執筆の時点で、少なくとも一度はすべての1000万のドメインをスパイダーしている.

スパイダー統計

  • 7187532は「首尾よく」完了しました、すなわち、彼らは4 xxと5 xx範囲でエラーコードを含むどんなHTTPステータスコードも含んだHTTPレスポンスを返しました.
  • 6280590は、200のHTTPステータスを持ちます
  • 766584は、4 xx範囲でHTTPステータスを持ちます
  • 137100は、5 xx範囲でHTTPステータスを持ちます
  • 368は、HTTP =ステータスを持っています.
  • 2812468ドメインに失敗しましたDNSエラー、タイムアウトなど.今後もこれらのドメインを再試行していきます

  • データセットはa single MongoDB Atlas コレクションは、現在のところ8 GBのサイズで少しです.

    私はそれを公開し、すべてのアクセスを無料にするつもりです!😃

    文書スキーマ


    各ドキュメントには、ドメイン、オープンPageRank、日付/時刻クロール、およびすべてのHTTPヘッダーが受信されます.
    [
        {
            _id: "5f31ee822ff3764aa9c446d4",
            rank: 610,
            domain: "dev.to",
            pageRank: { $numberDecimal: "6.70" },
            processing: false,
            completed: true,
            attempts: 1,
            last_updated: "2020-09-15T03:29:00.447Z",
            headers: {
                "Content-Length": "71618",
                Server: "Cowboy",
                "X-Frame-Options": "SAMEORIGIN",
                "X-Xss-Protection": "1; mode=block",
                "X-Content-Type-Options": "nosniff",
                "X-Download-Options": "noopen",
                "X-Permitted-Cross-Domain-Policies": "none",
                "Referrer-Policy": "strict-origin-when-cross-origin",
                "Cache-Control": "public, no-cache",
                "X-Accel-Expires": "600",
                "Content-Type": "text/html; charset=utf-8",
                "Content-Encoding": "gzip",
                Etag: 'W/"9e7cc41631c8a0ba2a886cdb2b844b40"',
                "Content-Security-Policy": "",
                "X-Request-Id": "bf2b33f2-d4e2-4b5d-a3b0-15717705278d",
                "X-Runtime": "0.150673",
                Via: "1.1 vegur",
                "Access-Control-Allow-Origin": "*",
                "Accept-Ranges": "bytes",
                Date: "Tue, 15 Sep 2020 03:29:00 GMT",
                Age: "327",
                "X-Served-By": "cache-den19625-DEN, cache-jax20947-JAX",
                "X-Cache": "HIT, MISS",
                "X-Cache-Hits": "1, 0",
                "X-Timer": "S1600140540.196933,VS0,VE155",
                Vary: "Accept-Encoding, X-Loggedin",
            },
            request_url: "https://dev.to",
            response_url: "https://dev.to",
            status: 200,
        },
    ]
    
    それは発見し、多くの楽しさと魅力的なデータセットです.それで、私はそれを世界に開くことに非常に興奮しています.
    我々のようにJohns Hopkins University COVID-19 open dataset , 私はあなたがノード、Python、Java、またはExcelを使用している場合でも、このスーパーは、簡単にアクセスできるようにしたい!
    しかし、私が公開される前に、私は限られた数の人々へのアクセスを提供したいです.

    リクエストアクセス


    あなたがどのようにデータを照会するのか見たいです.どのようにデータを簡単かつ効率的に動作するように構造化できますか?
    あなたがデータセットへの初期のアクセスを望むならば、あるいは、私にメールしてください[email protected]