ドキュメントDoc,Docx,Pdfの内容をプログラミングして読み込む

3690 ワード

最近のプロジェクトではdoc,docx,pdfファイルの内容を読み取る機能が必要です.ネットで長い間探していたが、やはり良いものが直接持ってきて使うことができることに気づいた.そうしないと、自分で車輪を発明しなければならない.次に、この機能を実現するためにどのコンポーネントを使用したかを簡単に紹介します.
Docドキュメント:Microsoft Word 14.0 Object Library(GACオブジェクト、呼び出す前にwordをインストールする必要があります.インストールするwordバージョンによって、COMのバージョン番号が異なります)
Docxドキュメント:Microsoft Word 14.0 Object Library(GACオブジェクト、呼び出す前にwordをインストールする必要があります.インストールするwordバージョンによって、COMのバージョン番号が異なります)
Pdfドキュメント:PDF Box

 


DEMO

/*
       :GhostBear
 *       :Http://blog.csdn.net/ghostbear
 */
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;

using org.pdfbox.pdmodel;
using org.pdfbox.util;

using Microsoft.Office.Interop.Word;


namespace TestPdfReader
{
    class Program
    {
        static void Main(string[] args)
        {


            //PDF
            PDDocument doc = PDDocument.load(@"C:\resume.pdf");
            PDFTextStripper pdfStripper = new PDFTextStripper();
            string text = pdfStripper.getText(doc);
            string result = text.Replace('\t', ' ').Replace('
', ' ').Replace('\r', ' ').Replace(" ", ""); Console.WriteLine(result); //Doc,Docx object docPath = @"C:\resume.doc"; object docxPath = @"C:\resume.docx"; object missing=System.Reflection.Missing.Value; object readOnly=true; Application wordApp; wordApp = new Application(); Document wordDoc = wordApp.Documents.Open(ref docPath, ref missing, ref readOnly, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing, ref missing); string text2 = FilterString(wordDoc.Content.Text); wordDoc.Close(ref missing, ref missing, ref missing); wordApp.Quit(ref missing, ref missing, ref missing); Console.WriteLine(text2); Console.Read(); } private static string FilterString(string input) { return Regex.Replace(input, @"(\a|\t|
|\s+)", ""); } } }

 

小結


IISでこのコードを実行する必要がある場合は、コンポーネント「Microsoft Word 14.0 Object Library」のDCOM構成を構成する必要があります.詳細については、WordコンポーネントのDCOM構成を参照してください.
 

コードのダウンロード