爬虫学----Jsoup簡単な方法のテスト

2221 ワード

詳細
package com.ahuiby.main;

import java.io.IOException;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Spider {
	
	public static void main (String[] args){
		try{
			Document document=Jsoup.connect("http://www.baidu.com/").get();
			//==========================================
			// 
			//==========================================
			// title 
			String title=document.title();
			// text 
			String text=document.text();
			// Html body 
			Element body=document.body();
			// a 
			Elements aArray=body.getElementsByTag("a");
			// 
			Elements classArray=body.getElementsByClass("s_form");// , div 
			// 
			Elements attributesArray=body.getElementsByAttribute("href");
			// 
			Elements children=body.children();
			//==========================================
			// 
			//==========================================
			Elements aSelect=document.select("a[href]");
			
			System.out.println(" : "+title+"
: "+text+ "
body:
"+ body); System.out.println("================================================="); System.out.println(" a :
"+aArray); System.out.println("================================================="); System.out.println("div:
"+classArray); System.out.println("================================================="); System.out.println("href:
"+attributesArray); System.out.println("================================================="); System.out.println("children:
"+children); System.out.println("================================================="); System.out.println("aSelect:
"+aSelect); }catch (IOException e){ e.printStackTrace(); } } }