POI行ごとにwordを読み出し、属性ラベルの内容を削除する:ハイパーリンク

2625 ワード

public String readDoc(File file) {
        StringBuffer buffer = new StringBuffer();
        InputStream input = null;
        WordExtractor extractor = null;
        String[] paragraphs = null;
        try {
            input = new FileInputStream(file);
            extractor = new WordExtractor(input);
            paragraphs = extractor.getParagraphText();
            for (String paragraph : paragraphs) {
                buffer.append(extractor.stripFields(paragraph)).append("\\\r\\
"); } } catch (Exception e) { e.printStackTrace(); } finally { if (input != null) { try { input.close(); } catch (IOException e) { e.printStackTrace(); } } } return buffer.toString(); }

除去方法:extractor.stripFields(paragraph);
ドキュメントの内容の文章を抽出します.excel,pdf,word.....
http://blog.sina.com.cn/s/blog_67b9ad8d01010bwa.html
問題のある記事:
http://bbs.csdn.net/topics/320055955