ウェブページのソースコードをキャプチャします。


まず、htmlページのソースコードを取得する前に.
   Apacheの中の二つのカバンを準備したいです。
   httmllxer.jar
   httml parser.jar
   この二つのカバンがあると便利です。ウェブページのソースコードをキャプチャーし、txtファイルを作成します。中身を取得するなら、自分で処理してください。
 
   具体的なコードは以下の通りです
 
package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;   
import org.htmlparser.util.NodeList;
public class Test {   
    /**
     *     ;
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception{   
        // TODO Auto-generated method stub 
        String url="http://www.baidu.com/";  
        //    parser  ;
        Parser parser=new Parser(url);
        //        ;
        parser.setEncoding("gb2312");   
        NodeList list=parser.parse(null);   
        //  ;
        FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
        outputStream.write(list.toHtml().getBytes());
    }   
}