Ruby でwebスクレイピング (未完)


あるwebサービスから情報を取る必要があったが、400件ほどありスクレイピングのほうが早いと思ったのでrubyでスクレイピングして情報を取ってきてcsvファイルで出力するアプリを作っていく。

mechanizeのインストール

ruby のgemなので

gem install mechanize

ここから実際にプログラムを書いていく。

こちらのページをスクレイピングしていきます。

tableにある文字列を取ってきます。

といっても簡単ですね

適当にrbファイルを作って
mechanizeをrequireします。

scraping.rb
require 'mechanize'

agent = Mechanize.new
page = agent.get("http://www.rakumachi.jp/info_seminar/")
elements = page.search('table')
elements.each do |element|
  puts element.inner_text
end

Mechanize.newでmechanizeのインスタンスを生成

page = agent.get("url")でurl先のhtml情報を取得しています。

searchメソッドは指定要素を取ってきています。

inner_text でタグの中身だけを取ってきます。

これを実行するとデータが取り出せました!

次はcsvファイルにまとめていきますが...

一旦休憩!

参考 http://qiita.com/shizuma/items/d04facaa732f606f00ff