POI行ごとにwordを読み出し、属性ラベルの内容を削除する:ハイパーリンク
2625 ワード
public String readDoc(File file) {
StringBuffer buffer = new StringBuffer();
InputStream input = null;
WordExtractor extractor = null;
String[] paragraphs = null;
try {
input = new FileInputStream(file);
extractor = new WordExtractor(input);
paragraphs = extractor.getParagraphText();
for (String paragraph : paragraphs) {
buffer.append(extractor.stripFields(paragraph)).append("\\\r\\
");
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (input != null) {
try {
input.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return buffer.toString();
}
除去方法:extractor.stripFields(paragraph);
ドキュメントの内容の文章を抽出します.excel,pdf,word.....
http://blog.sina.com.cn/s/blog_67b9ad8d01010bwa.html
問題のある記事:
http://bbs.csdn.net/topics/320055955