ソースHTML解析

681 ワード

1、Socketに基づくHttpClient（）でソースHTMLを取得する：

CloseableHttpClient httpclient = HttpClients.createDefault();

try {

    HttpGet httpGet = new HttpGet("
http://www.qq.com
");

    CloseableHttpResponse response = httpclient.execute(httpGet);

   

    HttpEntity entity = response.getEntity();

    String body = EntityUtils.toString(entity);

    System.out.println(body);

   

    EntityUtils.consume(entity);

} finally {

    httpclient.close();

}

2、正規表現を通して、小セグメントのhtmlを先にマッチングさせます。
3、エピソードのhtmlはJsoup（http://jsoup.org/）DOMオブジェクトを作成します。

Jsoup.parse(content).getElementsByTag("td")；

4、cssセレクタを使ってDOMオブジェクトで要素操作の属性を検索する。

Eclipse逆コンパイルプラグインJadClippse

openfireポートリダイレクト