(随時更新) スクレイピングハッカソンの為の情報リスト
はじめに
機械学習の活用において、有益なデータの取得は鍵ですよね!
オープンデータやKaggleも面白いデータが多いですが、価値あるデータほど成形されていない場合も多いので、Web上からAPIやスクレイピングで取ったり、買ってくることになります。
Team AIではこのスクレイピングをテーマにしたハッカソンを開催予定です。
www.team-ai.com
この記事にノウハウを貯めていき、皆で使えるアーカイブにしたいと思っています。
前提条件
スクレイピング、クローリングする時の注意点
NGなことはしないようにしましょうね!
http://docs.pyq.jp/column/crawler.html
特に結果的に犯罪になったこの事件は必ず理解しましょう
https://media.accel-brain.com/librahack/
WEBサイトをスクレイピングしてAPI化するimport.ioを使ってみた
https://qiita.com/dnd0513/items/5b41481877408c6eb71f
役に立つ記事(コーディング不要ツール)
Crawly
これお手軽でいいです。何の設定もなく、URLを入れると無料で一瞬でスクレイピングしてくれます。
設定がカスタマイズできないのが難点
http://crawly.diffbot.com/?ref=producthunt
Import.io
import.ioのアプリケーション版でスクレイピングをやってみる
=> とてもオススメですが、無料期間すぎると月$299です
https://qiita.com/t-usausausa/items/67a04445dc447aa5d40f
その他ツール
Alternative products to Import.io
https://www.producthunt.com/alternatives/import-io
Who are the competitors to import.io?
https://www.quora.com/Who-are-the-competitors-to-import-io
Google SpreadSheet
SpreadSheetでスクレイピング。Importxml他、便利な関数9+1
https://qiita.com/ktmg/items/d53440c913e20f8bb34c
Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット)
https://qiita.com/standard-software/items/16214dc4e64d28952c2d
Google スプレッド シートでWebスクレイピング
https://qiita.com/nsakusaku/items/2c1ae8c6f6855db6bad0
役に立つ記事(コーディング必要)
PythonとBeautiful Soupでスクレイピング
https://qiita.com/itkr/items/513318a9b5b92bd56185
Python Webスクレイピング 実践入門
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406
PythonでWebスクレイピングする時の知見をまとめておく
http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924
Webサイトをスクレイピングする時のちょっとしたコツ
https://qiita.com/h5y1m141@github/items/118571c94ca42d2daf6a
相席ラウンジ リアルタイムな女性来店数をRubyでスクレイピング
https://qiita.com/ts-3156/items/0d12869e00e7bbc07688
おうちカクテルで学ぶWebスクレイピング Ruby
https://qiita.com/iga_xx/items/1524d587dce329568ceb
役に立つ本
PythonによるWebスクレイピング
https://www.oreilly.co.jp/books/9784873117614/
Author And Source
この問題について((随時更新) スクレイピングハッカソンの為の情報リスト), 我々は、より多くの情報をここで見つけました https://qiita.com/daisuke-team-ai/items/8e81a90883ea106931bf著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .