Ruby でwebスクレイピング (未完)

2157 ワード

CSV Mechanize scraping Rails Rails テキストリンク

あるwebサービスから情報を取る必要があったが、400件ほどありスクレイピングのほうが早いと思ったのでrubyでスクレイピングして情報を取ってきてcsvファイルで出力するアプリを作っていく。

mechanizeのインストール

ruby のgemなので

gem install mechanize

ここから実際にプログラムを書いていく。

こちらのページをスクレイピングしていきます。

tableにある文字列を取ってきます。

といっても簡単ですね

適当にrbファイルを作って
mechanizeをrequireします。

scraping.rb

require 'mechanize'

agent = Mechanize.new
page = agent.get("http://www.rakumachi.jp/info_seminar/")
elements = page.search('table')
elements.each do |element|
  puts element.inner_text
end

Mechanize.newでmechanizeのインスタンスを生成

page = agent.get("url")でurl先のhtml情報を取得しています。

searchメソッドは指定要素を取ってきています。

inner_text でタグの中身だけを取ってきます。

これを実行するとデータが取り出せました！

次はcsvファイルにまとめていきますが...

一旦休憩！

参考　http://qiita.com/shizuma/items/d04facaa732f606f00ff

Author And Source

この問題について(Ruby でwebスクレイピング (未完)), 我々は、より多くの情報をここで見つけました https://qiita.com/yasuno0327/items/3b6d8c8451d1f2fe6f80

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .