php解析)の実現コード
1468 ワード
最近はphpで爬虫類を書きたいですが、解析が必要です。sourceforgeでPHP Simple HTML DOM Parsserという項目を見つけました。jQueryのような形で指定されたDOM元素をcssセレクタで返してもいいです。機能は非常に強いです。まずプログラムの開始にシンプルを導入します。同前dom.phpこのファイル
include_once('simple_html_dom.php');
PHP_Simple HTML DOM Parsserは、DOMオブジェクト
// Create a DOM object from a string
$html = str_get_html('<html><body>Hello!</body></html>');
// Create a DOM object from a URL
$html = file_get_html('http://www.google.com/');
// Create a DOM object from a HTML file
$html = file_get_html('test.htm');
を作成してDOMオブジェクトを獲得した後、さまざまな操作が可能になりました。ここでは、jQueryでDOM操作を行うように各種のcssセレクタが使えます。また、テキストと注釈の内容は2つの特殊な属性があります。もちろん、jQueryに似ています。PHP_Simple HTML DOM Paserもチェーン操作をサポートしています。また、DOM要素にアクセスする簡単な方法は
// Find all anchors, returns a array of element objects
$ret = $html->find('a');
// Find (N)th anchor, returns element object or null if not found (zero based)
$ret = $html->find('a', 0);
// Find lastest anchor, returns element object or null if not found (zero based)
$ret = $html->find('a', -1);
// Find all <div> with the id attribute
$ret = $html->find('div[id]');
// Find all <div> which attribute id=foo
$ret = $html->find('div[id=foo]');
です。