JavaはJSoupを使って簡単な爬虫類を書きます


  • 接続により這い出す:
  • //  URL    :Connection  
    Connection conn = Jsoup.connect("http://www.baidu.com");
    //       ,    Connection
    conn.data("query", "Java");   //     
    conn.userAgent("I ’ m jsoup"); //    User-Agent 
    conn.cookie("auth", "token"); //    cookie 
    conn.timeout(3000);           //         
    //    ,  HTML  :Document  
    Document doc = conn.get();
    Document doc = conn.post();
    
  • DOM方式解析データ:
  • //       , :
    String title = doc.title();
    //    HTML  , :
    Element content = doc.getElementById("content"); // , : Elements links = doc.getElementsByTag("a");

    举例:假如标签内直接是一个JSON:

    Elements elements = doc.getElementsByTag("body");
    elements.text();
    

    これにより、内部のテキストに移動できます.そしてJSOONUTilsを使用してLinkedHashMapに変換するかGsonを使用して既に書かれたBeanに変換すればよい.3.「jQuery」方式でデータを解析する:
    //select       jQuery    selector
    Elements allP = doc.select("p");
    Element firstP = allP.first();
    Element oneP = allP.get(1);// 0  
    //    :
    for (Element p : allP) {
        //    :      jQuery
        String text = p.text();
    }
    

    もし満足したら、ブロガーの任意の金額に電話して、興味のある人は微信で振り替えるときに、ブロガーの微信を追加してください.以下にメッセージを残してください.ブロガーと自由に議論できますよ.
    アリペイ
    微信
    Java使用JSoup编写简单的爬虫_第1张图片
    Java使用JSoup编写简单的爬虫_第2张图片