第1回Webスクレイピング勉強会@東京 (全3回)
6025 ワード
official
「Webスクレイピングの基礎知識」(@nezuq)
- SlideShare
- 3つの壁を突破する
- 倫理
- 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)
- 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)
- 技術
- 最低限でもHTMLの知識
- 事例(どう使うか)
- データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)
- Data Journalism Handbook(大義がある)
「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao)
- SlideShare
- プログラミング不要でスクレイピング出来るwebサービスのご紹介
-
Tabula
- PDFからデータを抽出するツール
-
kimono
- paginationが得意。
- 構造化されたクローリングは苦手。
- スケジューリング可能。
- 分割取得可能。
-
importio
- クライアントアプリ。
- Pagination苦手。クローリングが得意。
- スケジューリングが出来ない。
- Connector実装
- スプレッドシート出力
- クライアントライブラリがある
- gemパッケージがある
- quandl
- ScraperWiki
「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai)
- SlideShare
- DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
-
Scrapy
- webスクレイピングwaf
-
PhantomJS
- AJAXページ遷移対応(headless動作)
「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig)
- プレゼン資料
- なぜシェルスクリプトで?
- テキスト処理の親和性が良いから
- プロトタイピング的な開発の為
- 個人の場合だったら充分
- ツール
- w3m
- grep
- sed
- awk
- head
- tail
- printf
- iCal形式にしてカレンダーに入れると時系列に見れたりして便利
LT
- SlideShare
- 3つの壁を突破する
- 倫理
- 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)
- 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)
- 技術
- 最低限でもHTMLの知識
- 事例(どう使うか)
- データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)
- Data Journalism Handbook(大義がある)
「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao)
- SlideShare
- プログラミング不要でスクレイピング出来るwebサービスのご紹介
-
Tabula
- PDFからデータを抽出するツール
-
kimono
- paginationが得意。
- 構造化されたクローリングは苦手。
- スケジューリング可能。
- 分割取得可能。
-
importio
- クライアントアプリ。
- Pagination苦手。クローリングが得意。
- スケジューリングが出来ない。
- Connector実装
- スプレッドシート出力
- クライアントライブラリがある
- gemパッケージがある
- quandl
- ScraperWiki
「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai)
- SlideShare
- DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
-
Scrapy
- webスクレイピングwaf
-
PhantomJS
- AJAXページ遷移対応(headless動作)
「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig)
- プレゼン資料
- なぜシェルスクリプトで?
- テキスト処理の親和性が良いから
- プロトタイピング的な開発の為
- 個人の場合だったら充分
- ツール
- w3m
- grep
- sed
- awk
- head
- tail
- printf
- iCal形式にしてカレンダーに入れると時系列に見れたりして便利
LT
- PDFからデータを抽出するツール
- paginationが得意。
- 構造化されたクローリングは苦手。
- スケジューリング可能。
- 分割取得可能。
- クライアントアプリ。
- Pagination苦手。クローリングが得意。
- スケジューリングが出来ない。
- Connector実装
- スプレッドシート出力
- クライアントライブラリがある
- gemパッケージがある
- SlideShare
- DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
-
Scrapy
- webスクレイピングwaf
-
PhantomJS
- AJAXページ遷移対応(headless動作)
「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig)
- プレゼン資料
- なぜシェルスクリプトで?
- テキスト処理の親和性が良いから
- プロトタイピング的な開発の為
- 個人の場合だったら充分
- ツール
- w3m
- grep
- sed
- awk
- head
- tail
- printf
- iCal形式にしてカレンダーに入れると時系列に見れたりして便利
LT
- テキスト処理の親和性が良いから
- プロトタイピング的な開発の為
- 個人の場合だったら充分
- w3m
- grep
- sed
- awk
- head
- tail
- printf
「Mecab辞書作り。自然言語処理の道も一歩から」(@nezuq)
- SlideShare
- WordVBA(Document.words)
- YahooAPI(日本語形態素解析API)
- 回数と文章量に限界がある
- Mecab
- 新語・俗語に弱い
- 辞書を拡張する(wikipedia,はてなキーワード,ニコニコ大百科)
「Rubyで始めるWebスクレイピング」(@dkfj)
- SlideShare
- クローラーの本が8月に出る
- Open-URI
- Nokogiri
- Anemone・・・2年程メンテされてない
- Capybara+Selenium
- cosmiccrawler
- CocProxy (Proxyサーバー)
- TwitterStreamingAPI
「CasperJSを使って任意のWebサイトをEPub電子書籍化する方法」(@chirai)
- SlideShare
-
CasperJS
- PhantomJSのユーティリティ
- キャプチャーする為に利用
第2回目、発表者絶賛募集中!
- 発表者の方はキャンセル待ちでも参加可能とのこと。
- マサカリ禁止で発表しやすい雰囲気でした。
Author And Source
この問題について(第1回Webスクレイピング勉強会@東京 (全3回)), 我々は、より多くの情報をここで見つけました https://qiita.com/t-sato/items/3bf966be308bf72e8d33著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .