ソースHTML解析
681 ワード
1、Socketに基づくHttpClient()でソースHTMLを取得する:
3、エピソードのhtmlはJsoup(http://jsoup.org/)DOMオブジェクトを作成します。
CloseableHttpClient httpclient = HttpClients.createDefault();
try {
HttpGet httpGet = new HttpGet("
http://www.qq.com
");
CloseableHttpResponse response = httpclient.execute(httpGet);
HttpEntity entity = response.getEntity();
String body = EntityUtils.toString(entity);
System.out.println(body);
EntityUtils.consume(entity);
} finally {
httpclient.close();
}
2、正規表現を通して、小セグメントのhtmlを先にマッチングさせます。3、エピソードのhtmlはJsoup(http://jsoup.org/)DOMオブジェクトを作成します。
Jsoup.parse(content).getElementsByTag("td");
4、cssセレクタを使ってDOMオブジェクトで要素操作の属性を検索する。