【 Python】スクレイピングツールの作成メモ


自分に向けたメモが主です。

ゴール

パチンコのデータを取得するスクレイピングツールを作成

設計

台データ取得【テストまでOK】

G数や大当たり回数を取得するプログラムです。
これはほぼほぼ完成、テストで5台取得することができているので、全台となっても問題なく取得できるはず。
取得の流れはこちら

1.URLリストを作成する
2.URLリストを順番にアクセス
3.アクセスしたら欲しい情報を取得して、リストを作成
→例えばBB回数、G数を取得するのなら、それぞれリストを作成する
4.リストをデータフレームに変換

テーブルでread_htmlで取得することも試しましたが、各データフレームを結合するところで、うまく結合ができないため、欲しい情報だけをリストで取得し、それらをデータフレームに変換・結合する方法でまとまりました。

あとは取得したデータの型も整えます。

スランプグラフの取得【テストまでOK】

各台のスランプグラフを取得するプログラムです。

考えている取得の流れはこちら

1.URLリストを作成(リストは台データと同じ)
2.画像URLリストを作成
3.画像URLを取得し、リストにappendする
→注意すべき点は欲しい画像は各ページに1つだけなので、わざわざfor文で回す必要がないという点。
4.画像をダウンロードする関数を作成
5.ダウンロード実行
→エラーをプリントする様に修正

画像で注意しなければならないのが、当日のデータについてはサイト側で対策しているのかSRCが一部相対パスになっているという点。
どの機種が相対パスになっているなどの規則性は感じられない。
そのため、取得するデータは基本的に前日のデータになる。
サイト側で何時に切り替わるのかは調査が必要。

グラフのデータ化【テストまでOK】

次にスランプグラフの画像を解析して、データ化するプログラムです。

考えている流れはこちら

1.取得した画像を元に解析
2.解析情報をリストに入れる
3.リストに入った解析情報を再計算する
4.データフレームに変換
5.最初のデータフレームとマージする

まとめ

特に自分用のメモに近いので、誰かの参考になるとは思えません。