爬虫学----Jsoup簡単な方法のテスト
2221 ワード
詳細
package com.ahuiby.main;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Spider {
public static void main (String[] args){
try{
Document document=Jsoup.connect("http://www.baidu.com/").get();
//==========================================
//
//==========================================
// title
String title=document.title();
// text
String text=document.text();
// Html body
Element body=document.body();
// a
Elements aArray=body.getElementsByTag("a");
//
Elements classArray=body.getElementsByClass("s_form");// , div
//
Elements attributesArray=body.getElementsByAttribute("href");
//
Elements children=body.children();
//==========================================
//
//==========================================
Elements aSelect=document.select("a[href]");
System.out.println(" : "+title+"
: "+text+
"
body:
"+ body);
System.out.println("=================================================");
System.out.println(" a :
"+aArray);
System.out.println("=================================================");
System.out.println("div:
"+classArray);
System.out.println("=================================================");
System.out.println("href:
"+attributesArray);
System.out.println("=================================================");
System.out.println("children:
"+children);
System.out.println("=================================================");
System.out.println("aSelect:
"+aSelect);
}catch (IOException e){
e.printStackTrace();
}
}
}