インスタンス解析RubyプログラムでREXMLを呼び出してXML形式データを解析する使い方
4545 ワード
REXMLはSean Russellによって作成されたライブラリです.Rubyの唯一のXMLライブラリではありませんが、人気のある1つです.そして純粋なルビーで書かれています(NQXMLもRubyで作成されていますが、XMLParserはCで作成されたJadeライブラリをカプセル化しています).彼のREXMLの概要では、Russellは「困ったAPIが好きではない」という問題があります.Java実装用のXML解析器APIがいくつかあります.その多くはDOMまたはSAXに従い、基本原理的には絶えず現れる多くのJava APIととても似ています.つまり、彼らは自分たちのAPIを使ったことがない理論家によって設計されたように見えます.通常、既存のXML APIは嫌われています.彼らは、非常に簡単で一流で機能的なタグ言語として明確に設計され、嫌な、多すぎる、大規模なAPIでカプセル化されています.最も基本的なXMLツリーの操作を行うためにも、私はいつもAPIドキュメントを参照しなければなりません.直感的なものは何もなく、ほとんどの操作が複雑です.私はそれがどんなにいらいらしているかは思いませんが、Russellの観点に同意します.XML APIは多くの人にとって多くの仕事量をもたらしたに違いありません.
例は以下のbookを参照してください.xml:
参照
1 Tree Parsing(DOM-like)
require rexml/documentライブラリとinclude REXMLが必要です.
ここで、xmlの属性と値はhashとして表すので、attributes[]で必要な値を抽出することができ、要素の値はpathに似た文字列や整数で取得することもできる.ここで整数でとると、0-basedではなく1-basedです.
2 Stream Parsing(SAX-like Parsing)
ここでは、parse時にコールバックされるlistenerクラスを定義する小さなテクニックを使用します.
ここではStreamListenerモジュールを紹介します.このモジュールはいくつかの空のコールバック方法を提供しているので、自分の機能を実現するために上書きすることができます.parserがtagに入るとtag_が呼び出されますstartメソッドtextメソッドも似ていますが、データを読み込むとコールバックされ、その出力は次のようになります.
3 XPath
REXMLはXPathクラスによってXpathのサポートを提供する.DOM-likeとSAX-likeも同時にサポートしています.やはり前のxmlファイルで、Xpathを使ってこのようにすることができます.
出力は次のようになります.
例は以下のbookを参照してください.xml:
参照
The Ruby Way
Hal Fulton
Second edition. The book you are now reading.
Ain't recursion grand?
The Case for Mars
Robert Zubrin
Pushing toward a second home for the human
race.
First Man: The Life of Neil A. Armstrong
James R. Hansen
Definitive biography of the first man on
the moon.
1 Tree Parsing(DOM-like)
require rexml/documentライブラリとinclude REXMLが必要です.
require 'rexml/document'
include REXML
input = File.new("books.xml")
doc = Document.new(input)
root = doc.root
puts root.attributes["shelf"] # Recent Acquisitions
doc.elements.each("library/section") { |e| puts e.attributes["name"] }
# Output:
# Ruby
# Space
doc.elements.each("*/section/book") { |e| puts e.attributes["isbn"] }
# Output:
# 0672328844
# 0321445619
# 0684835509
# 074325631X
sec2 = root.elements[2]
author = sec2.elements[1].elements["author"].text # Robert Zubrin
ここで、xmlの属性と値はhashとして表すので、attributes[]で必要な値を抽出することができ、要素の値はpathに似た文字列や整数で取得することもできる.ここで整数でとると、0-basedではなく1-basedです.
2 Stream Parsing(SAX-like Parsing)
ここでは、parse時にコールバックされるlistenerクラスを定義する小さなテクニックを使用します.
require 'rexml/document'
require 'rexml/streamlistener'
include REXML
class MyListener
include REXML::StreamListener
def tag_start(*args)
puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
end
def text(data)
return if data =~ /^\w*$/ # whitespace only
abbrev = data[0..40] + (data.length > 40 ? "..." : "")
puts " text : #{abbrev.inspect}"
end
end
list = MyListener.new
source = File.new "books.xml"
Document.parse_stream(source, list)
ここではStreamListenerモジュールを紹介します.このモジュールはいくつかの空のコールバック方法を提供しているので、自分の機能を実現するために上書きすることができます.parserがtagに入るとtag_が呼び出されますstartメソッドtextメソッドも似ていますが、データを読み込むとコールバックされ、その出力は次のようになります.
tag_start: "library", {"shelf"=>"Recent Acquisitions"}
tag_start: "section", {"name"=>"Ruby"}
tag_start: "book", {"isbn"=>"0672328844"}
tag_start: "title", {}
text : "The Ruby Way"
3 XPath
REXMLはXPathクラスによってXpathのサポートを提供する.DOM-likeとSAX-likeも同時にサポートしています.やはり前のxmlファイルで、Xpathを使ってこのようにすることができます.
book1 = XPath.first(doc, "//book") # Info for first book found
p book1
# Print out all titles
XPath.each(doc, "//title") { |e| puts e.text }
# Get an array of all of the "author" elements in the document.
names = XPath.match(doc, "//author").map {|x| x.text }
p names
出力は次のようになります.
... >
The Ruby Way
The Case for Mars
First Man: The Life of Neil A. Armstrong
["Hal Fulton", "Robert Zubrin", "James R. Hansen"]