【 Python】スクレイピングツールの作成メモ
自分に向けたメモが主です。
ゴール
パチンコのデータを取得するスクレイピングツールを作成
設計
台データ取得【テストまでOK】
G数や大当たり回数を取得するプログラムです。
これはほぼほぼ完成、テストで5台取得することができているので、全台となっても問題なく取得できるはず。
取得の流れはこちら
1.URLリストを作成する
2.URLリストを順番にアクセス
3.アクセスしたら欲しい情報を取得して、リストを作成
→例えばBB回数、G数を取得するのなら、それぞれリストを作成する
4.リストをデータフレームに変換
テーブルでread_htmlで取得することも試しましたが、各データフレームを結合するところで、うまく結合ができないため、欲しい情報だけをリストで取得し、それらをデータフレームに変換・結合する方法でまとまりました。
あとは取得したデータの型も整えます。
スランプグラフの取得【テストまでOK】
各台のスランプグラフを取得するプログラムです。
考えている取得の流れはこちら
1.URLリストを作成(リストは台データと同じ)
2.画像URLリストを作成
3.画像URLを取得し、リストにappendする
→注意すべき点は欲しい画像は各ページに1つだけなので、わざわざfor文で回す必要がないという点。
4.画像をダウンロードする関数を作成
5.ダウンロード実行
→エラーをプリントする様に修正
画像で注意しなければならないのが、当日のデータについてはサイト側で対策しているのかSRCが一部相対パスになっているという点。
どの機種が相対パスになっているなどの規則性は感じられない。
そのため、取得するデータは基本的に前日のデータになる。
サイト側で何時に切り替わるのかは調査が必要。
グラフのデータ化【テストまでOK】
次にスランプグラフの画像を解析して、データ化するプログラムです。
考えている流れはこちら
1.取得した画像を元に解析
2.解析情報をリストに入れる
3.リストに入った解析情報を再計算する
4.データフレームに変換
5.最初のデータフレームとマージする
まとめ
特に自分用のメモに近いので、誰かの参考になるとは思えません。
Author And Source
この問題について(【 Python】スクレイピングツールの作成メモ), 我々は、より多くの情報をここで見つけました https://qiita.com/genki-mii/items/b286edc211599bcce59f著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .