ソースHTML解析

681 ワード

1、Socketに基づくHttpClient()でソースHTMLを取得する:
CloseableHttpClient httpclient = HttpClients.createDefault();

try {

    HttpGet httpGet = new HttpGet("
http://www.qq.com
");

    CloseableHttpResponse response = httpclient.execute(httpGet);

   

    HttpEntity entity = response.getEntity();

    String body = EntityUtils.toString(entity);

    System.out.println(body);

   

    EntityUtils.consume(entity);

} finally {

    httpclient.close();

}
2、正規表現を通して、小セグメントのhtmlを先にマッチングさせます。
3、エピソードのhtmlはJsoup(http://jsoup.org/)DOMオブジェクトを作成します。
Jsoup.parse(content).getElementsByTag("td");
4、cssセレクタを使ってDOMオブジェクトで要素操作の属性を検索する。