第1回Webスクレイピング勉強会@東京 (全3回)


official

「Webスクレイピングの基礎知識」(@nezuq

  • SlideShare
  • 3つの壁を突破する
  • 倫理
    • 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)
    • 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)
  • 技術
    • 最低限でもHTMLの知識
  • 事例(どう使うか)
    • データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)
    • Data Journalism Handbook(大義がある)

「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao

  • SlideShare
  • プログラミング不要でスクレイピング出来るwebサービスのご紹介
  • Tabula
    • PDFからデータを抽出するツール
  • kimono
    • paginationが得意。
    • 構造化されたクローリングは苦手。
    • スケジューリング可能。
    • 分割取得可能。
  • importio
    • クライアントアプリ。
    • Pagination苦手。クローリングが得意。
    • スケジューリングが出来ない。
    • Connector実装
    • スプレッドシート出力
    • クライアントライブラリがある
    • gemパッケージがある
  • quandl
  • ScraperWiki

「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai

  • SlideShare
  • DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
  • Scrapy
    • webスクレイピングwaf
  • PhantomJS
    • AJAXページ遷移対応(headless動作)

「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig

  • プレゼン資料
  • なぜシェルスクリプトで?
    • テキスト処理の親和性が良いから
    • プロトタイピング的な開発の為
    • 個人の場合だったら充分
  • ツール
    • w3m
    • grep
    • sed
    • awk
    • head
    • tail
    • printf
  • iCal形式にしてカレンダーに入れると時系列に見れたりして便利

LT

 

「Mecab辞書作り。自然言語処理の道も一歩から」(@nezuq

  • SlideShare
  • WordVBA(Document.words)
  • YahooAPI(日本語形態素解析API)
    • 回数と文章量に限界がある
  • Mecab
    • 新語・俗語に弱い
    • 辞書を拡張する(wikipedia,はてなキーワード,ニコニコ大百科)

「Rubyで始めるWebスクレイピング」(@dkfj

「CasperJSを使って任意のWebサイトをEPub電子書籍化する方法」(@chirai

第2回目、発表者絶賛募集中!

  • 発表者の方はキャンセル待ちでも参加可能とのこと。
  • マサカリ禁止で発表しやすい雰囲気でした。