pyQueryでAlexaのWebランクをスクレイピングする

5686 ワード

１．やりたいこと

アクセス統計サイトAlexaで各国TOPアクセスランクが公開されている。（1ページ25位分のHTMLｘ20ページで500位まで。）
HTMLページをスクレイピングしてアクセスランクのURLリストを作る。

pyQueryを使ってみた。
Scrapyというライブラリも見つけたけどクローラ込みになっていて面倒そうなので敬遠。
beautifulsoupも良さそうだけど今回はpyQueryを試す。

２．インストール

$ yum install libxml2-devel libxslt-devel
$ pip install pyquery

pyQueryはlibxml2を使っているので先にインストールしておく。
pipが無ければそれもインストールしておく。

３．参考にしたもの（pyQueryサンプル）

pyQueryのサンプルを試す。試しに[ここ][Ref1]のサンプルコードをお借りして地震情報サイトをスクレイピングしてみた。

pqsample.py

import pyquery
query = pyquery.PyQuery("http://www.jma.go.jp/jp/quake/quake_local_index.html", parser='html')
for tr in query('.infotable')('tr'):
    print query(tr).text()

このコードでclass="infotable"の下層の<tr>タグの中身をforループでprintしている訳ですね。
chromeのデベロッパツールでhtmlの方の構成を調べてみると以下の通りでした。

python pqsample.pyで素直に以下の地震情報が取れた。確かに簡単。

情報発表日時発生日時震央地名マグニチュード最大震度
平成２６年１２月０３日１４時３８分３日１４時３２分頃長野県北部Ｍ１．６震度１
平成２６年１２月０３日０６時０３分３日０６時００分頃長野県北部Ｍ２．０震度１

４．Alexaランキング解析

動くことが判ったので本命のサイトのスクレイピングに着手。
chromeで目的のページを開き、デベロッパーツール（CTRL-Shift-I）のウィンドウから虫眼鏡マークを押して、調べたい要素をクリック。下記の様にDOMツリーが表示される。（firefoxな方はインスペクタで調べられます。）

このツリー構成ならclass="site-listing"をキーに<li>タグをリストアップすればいけそう。countに順位が、desc-paragraph下の<a>タグにドメインが入っている。これらをforを回してcsvに出力するコードを書いてみた。

alexa.py

import pyquery

for page in range(20):
    query = pyquery.PyQuery("http://www.alexa.com/topsites/countries;" + str(page) + "/PE", parser='html')
    for li in query('.site-listing')('li'):
        print query(li)('.count').text() + ", " + query(li)('.desc-paragraph')('a').text()

今回はペルーのランクを見る為に国コード/PEのページを指定。ここに国コードを指定すればその国のページが取得できる。日本なら/JP。本コードではHTMLページを20ページ分ループ。python alexa.py。

csvが出来た。ＮＷ障害などの際のcurlでの復旧確認などに。

５．まとめ

pyQueryでカット＆ペーストしていた情報をスクレイピング可能。
（※頁構成変更のため現在動作しません。）

６．参考サイト

Author And Source

この問題について(pyQueryでAlexaのWebランクをスクレイピングする), 我々は、より多くの情報をここで見つけました https://qiita.com/hide_take/items/48d885d471bda35956c5

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

畑を掘る

Sparkがcsvを読み出すと、csvのフィールド値にJSON列がある