JAva分析htmlアルゴリズム(javaページクモアルゴリズム例)

3621 ワード

複雑で煩わしいhtmlページに遭遇すると、みんなは退却します.対応するデータを取得するのは難しいからです.
最も古い方法は、正則的な表現を使って、そんなに面倒なものが損をしないと推定して、私たちの貴重な時間を浪費することです.
第2の方法はhtmlparserのパッケージをオープンソースで組織し、これは比較的古いプロジェクトですが、効果の推定はあまりよくなく、htmlを深く分析できないようで、5級の構造しか分析できません.
ここにhtmlparserのソースコードがあります.すべてのハイパーリンクを取得できます.
 
  
   /*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package test;

import java.util.HashMap;
import java.util.Map;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;


public class GetLinkTest {

    public static void main(String[] args) {

        try {
            // ラベルParser parser=new Parser("//www.jb 51.net");            NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter()/ラベルpublic boolean accept(Node node){if(node instanceof LinkTag)/タグをフィルタリングする {                        return true;                    }                    return false;                }            });//for(int i=0;i<nodeList.size();i++) {                LinkTag n = (LinkTag) nodeList.elementAt(i);                //System.out.print(n.getStringText() + " ==>> ");                //System.out.println(n.extractLink());                try {                    if (n.extractLink().equals("//www.jb51.net")) {                        System.out.println(n.extractLink());                    }                } catch (Exception e) {                }            }        } catch (Exception e) {            e.printStackTrace();        }

    }
}


3つ目の方法は、私が今ずっと使っている方法でもあります.まずhtmlをxmlにクリーンアップし、javaでxmlを解析してデータを取得し、java clean htmlのソースコードをアップロードします.
 
  
/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package exec;

import java.io.File;
import java.io.IOException;
import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.PrettyXmlSerializer;
import org.htmlcleaner.TagNode;

/**
 *
 */
public class HtmlClean {

    public void cleanHtml(String htmlurl, String xmlurl) {
        try {
            long start = System.currentTimeMillis();

            HtmlCleaner cleaner = new HtmlCleaner();
            CleanerProperties props = cleaner.getProperties();
            props.setUseCdataForScriptAndStyle(true);
            props.setRecognizeUnicodeChars(true);
            props.setUseEmptyElementTags(true);
            props.setAdvancedXmlEscape(true);
            props.setTranslateSpecialEntities(true);
            props.setBooleanAttributeValues("empty");

            TagNode node = cleaner.clean(new File(htmlurl));

            System.out.println("vreme:" + (System.currentTimeMillis() - start));

            new PrettyXmlSerializer(props).writeXmlToFile(node, xmlurl);

            System.out.println("vreme:" + (System.currentTimeMillis() - start));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}