(随時更新) スクレイピングハッカソンの為の情報リスト


はじめに

機械学習の活用において、有益なデータの取得は鍵ですよね!
オープンデータやKaggleも面白いデータが多いですが、価値あるデータほど成形されていない場合も多いので、Web上からAPIやスクレイピングで取ったり、買ってくることになります。
Team AIではこのスクレイピングをテーマにしたハッカソンを開催予定です。
www.team-ai.com
この記事にノウハウを貯めていき、皆で使えるアーカイブにしたいと思っています。

前提条件

スクレイピング、クローリングする時の注意点
NGなことはしないようにしましょうね!
http://docs.pyq.jp/column/crawler.html

特に結果的に犯罪になったこの事件は必ず理解しましょう
https://media.accel-brain.com/librahack/

WEBサイトをスクレイピングしてAPI化するimport.ioを使ってみた
https://qiita.com/dnd0513/items/5b41481877408c6eb71f

役に立つ記事(コーディング不要ツール)

Crawly

これお手軽でいいです。何の設定もなく、URLを入れると無料で一瞬でスクレイピングしてくれます。
設定がカスタマイズできないのが難点
http://crawly.diffbot.com/?ref=producthunt

Import.io

import.ioのアプリケーション版でスクレイピングをやってみる
=> とてもオススメですが、無料期間すぎると月$299です
https://qiita.com/t-usausausa/items/67a04445dc447aa5d40f

その他ツール

Alternative products to Import.io
https://www.producthunt.com/alternatives/import-io

Who are the competitors to import.io?
https://www.quora.com/Who-are-the-competitors-to-import-io

Google SpreadSheet

SpreadSheetでスクレイピング。Importxml他、便利な関数9+1
https://qiita.com/ktmg/items/d53440c913e20f8bb34c

Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット)
https://qiita.com/standard-software/items/16214dc4e64d28952c2d

Google スプレッド シートでWebスクレイピング
https://qiita.com/nsakusaku/items/2c1ae8c6f6855db6bad0

役に立つ記事(コーディング必要)

PythonとBeautiful Soupでスクレイピング
https://qiita.com/itkr/items/513318a9b5b92bd56185

Python Webスクレイピング 実践入門
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

PythonでWebスクレイピングする時の知見をまとめておく
http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924

Webサイトをスクレイピングする時のちょっとしたコツ
https://qiita.com/h5y1m141@github/items/118571c94ca42d2daf6a

相席ラウンジ リアルタイムな女性来店数をRubyでスクレイピング
https://qiita.com/ts-3156/items/0d12869e00e7bbc07688

おうちカクテルで学ぶWebスクレイピング Ruby
https://qiita.com/iga_xx/items/1524d587dce329568ceb

役に立つ本

PythonによるWebスクレイピング
https://www.oreilly.co.jp/books/9784873117614/