pdfboxを使用して、pdfテキスト抽出と統合機能を実現する例

787 ワード

PDFファイルをいくつか処理して、テキストを抽出したり、合併したりする必要があります。以前はA-PDF Text Extractor無料ツールを使っていましたが、なぜ自分で一つ書かないですか？PDFBox-0.7.3このオープンソースライブラリを使用できます。解凍をダウンロードして参照してください。
新規プロジェクトのコードは簡単です。


PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll

このtext Stringを取得してディスクファイルに作成すればいいです。このような方法は


public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}

です。
他の機能は自分で発揮できます。このクラスは現在サポートされています。
PDF to text extraction Merge PDF Dockment Ecryption/Decrypection Search Search Integration Fill in form data FDF and XFDFreate a text fileCreate mages from PDF pages Print a PDF

Extjsフォームの一般的な検証の結果

extJSでよく使われている4種類のAjax非同期提出方式