pdfboxを使用して、pdfテキスト抽出と統合機能を実現する例


PDFファイルをいくつか処理して、テキストを抽出したり、合併したりする必要があります。以前はA-PDF Text Extractor無料ツールを使っていましたが、なぜ自分で一つ書かないですか?PDFBox-0.7.3このオープンソースライブラリを使用できます。解凍をダウンロードして参照してください。
新規プロジェクトのコードは簡単です。

PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll
このtext Stringを取得してディスクファイルに作成すればいいです。このような方法は

public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
です。
他の機能は自分で発揮できます。このクラスは現在サポートされています。
PDF to text extraction Merge PDF Dockment Ecryption/Decrypection Search Search Integration Fill in form data FDF and XFDFreate a text fileCreate mages from PDF pages Print a PDF