ウェブページのソースコードをキャプチャします。
まず、htmlページのソースコードを取得する前に.
Apacheの中の二つのカバンを準備したいです。
httmllxer.jar
httml parser.jar
この二つのカバンがあると便利です。ウェブページのソースコードをキャプチャーし、txtファイルを作成します。中身を取得するなら、自分で処理してください。
具体的なコードは以下の通りです
Apacheの中の二つのカバンを準備したいです。
httmllxer.jar
httml parser.jar
この二つのカバンがあると便利です。ウェブページのソースコードをキャプチャーし、txtファイルを作成します。中身を取得するなら、自分で処理してください。
具体的なコードは以下の通りです
package pack.java.url;
import java.io.File;
import java.io.FileOutputStream;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
public class Test {
/**
* ;
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
String url="http://www.baidu.com/";
// parser ;
Parser parser=new Parser(url);
// ;
parser.setEncoding("gb2312");
NodeList list=parser.parse(null);
// ;
FileOutputStream outputStream = new FileOutputStream(new File("C:/pageData.txt"));
outputStream.write(list.toHtml().getBytes());
}
}