PyPDF 2はPDFファイルの内容を読み込み、ローカルTXTのインスタンスに保存します。

10757 ワード

余計なことを言わないで、コードを見てください。


from PyPDF2.pdf import PdfFileReader
import pandas as pd

def Pdf_to_txt(pdf):

  for i in range(0, pdf.getNumPages()):
    title = []
    lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []
    extractedText = pdf.getPage(i).extractText()
    text = extractedText.split('
')
    num = 0
    for lin in text:
      if num == 0:
        title.append(lin)
      elif num == 1:
        lin1.append(lin)
      elif num == 2:
        lin2.append(lin)
      elif num == 3:
        lin3.append(lin)
      elif num == 4:
        lin4.append(lin)
      elif num == 5:
        lin5.append(lin)
      elif num == 6:
        lin6.append(lin)
      elif num == 7:
        lin7.append(lin)
      elif num == 8:
        lin8.append(lin)
        num = 0
      num += 1
    Lin_num = len(lin8)
    data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}
    df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])
    file_name = title[0] + '_page' + str((i + 1))
    df.to_csv('tool/pdf  /%s.txt' % file_name, index=False, sep='\t')


if __name__ == '__main__':
  filename = 'E:/SVN/    V2/analyse_code/  /pdf/con026465.pdf'
  pdf = PdfFileReader(open(filename, "rb"))
  Pdf_to_txt(pdf)

追加知識：PyPDF 2ライブラリを使ってpdfファイルを指定ページ削除操作を行う。
プラットフォーム：win 10ファミリー版、python 3.7、PyPDF 2
思考プロセス:
方法1：pdfファイルを単一のページに分割して、フォルダに入れて、不要なファイルを削除して、最後に残りのファイルを一つのpdfファイルに統合します。
第1ステップ：元のファイルパスを使って新しいフォルダを作成し、分割された単一ページのファイルを保存します。


def newdir(self,path):
     self.new = os.path.splitext(path)[0]
     if not os.path.isdir(self.new): #  os.path.isdir         ，
       os.mkdir(self.new)

第二ステップ：単ページファイルを作成し、新規フォルダに保存します。


def pdfsplt(self,path):
          if os.path.isfile(path):
              file_1 = open(path,"rb")
              file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #  strict      
              #  for             pdf  ，       
              for page in range(0,file_reader.getNumPages()):
                file_write = PyPDF2.PdfFileWriter()
                pageobj = file_reader.getPage(page)
                file_write.addPage(pageobj)
                output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
                with open(output,"wb") as output_pdf:
                    file_write.write(output_pdf)
              file_1.close()
          else:
              print("     ！")
             time.sleep(3)
              exit()

ステップ3：フォルダ内の不要なファイルを削除します。


def pdfremove(self,number):
  for pag in number:
    filename = str(self.new) + "\\" + str(pag) + ".pdf"
    if os.path.isfile(filename):
      os.unlink(filename)
    else:
      print("         %s    ！！"%pag)

第四ステップ：残りのファイルを一つのpdfファイルに統合する。


def pdfmerge(self):
  file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #                       
  file_write = PyPDF2.PdfFileWriter() #       pdf  
  for page in sorted(file_list):
    pathstr = str(self.new) + "\\" + str(page) + ".pdf"
    file_1 = open(pathstr,"rb")
    file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #   strict      
    pageobj = file_reader.getPage(0)
    file_write.addPage(pageobj)
    output = str(self.new) + "_new.pdf"
    with open(output, "wb") as output_pdf:
      file_write.write(output_pdf)
      print(" %s   "%page)
    file_1.close()

　　
ステップ5：キャッシュフォルダを削除します。


def rmdir(self):
  if os.path.isdir(self.new):
    shutil.rmtree(self.new)

メソッドの完全なコード:


import PyPDF2
import os,time,shutil,sys
import threading

class mypdf(object):
  def __init__(self,path,number):
    self.newdir(path)
    self.pdfsplt(path)
    self.pdfremove(number)
    self.pdfmerge()
    self.rmdir()
    pass

  #            ，      
  def newdir(self,path):
    self.new = os.path.splitext(path)[0]
    if not os.path.isdir(self.new): #  os.path.isdir         ，
      os.mkdir(self.new)

  #          ，        
  def pdfsplt(self,path):
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #  strict      
      #  for             pdf  ，       
      for page in range(0,file_reader.getNumPages()):
        file_write = PyPDF2.PdfFileWriter()
        pageobj = file_reader.getPage(page)
        file_write.addPage(pageobj)
        output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
        with open(output,"wb") as output_pdf:
          file_write.write(output_pdf)
      file_1.close()
    else:
      print("     ！")
      time.sleep(3)
      exit()

  #             
  def pdfremove(self,number):
    for pag in number:
      filename = str(self.new) + "\\" + str(pag) + ".pdf"
      if os.path.isfile(filename):
        os.unlink(filename)
      else:
        print("         %s    ！！"%pag)

  #                 
  def pdfmerge(self):
    file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #                       
    file_write = PyPDF2.PdfFileWriter() #       pdf  
    for page in sorted(file_list):
      pathstr = str(self.new) + "\\" + str(page) + ".pdf"
      file_1 = open(pathstr,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #   strict      
      pageobj = file_reader.getPage(0)
      file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output, "wb") as output_pdf:
        file_write.write(output_pdf)
        print(" %s   "%page)
      file_1.close()

  def rmdir(self):
    if os.path.isdir(self.new):
      shutil.rmtree(self.new)

if __name__ == "__main__":
  #               ，              
  path = sys.argv[1]
  number = sys.argv[2:]
  mypdf = mypdf(path,number)
  def f(path,number):
    mypdf(path,number)
  threading.Thread(target=f,args=[path,number])

方法2：新しいファイルを書き込む時にif判定で不要なページを絞り出す
アイデア1は、読み取りと書き込みを同時に処理します。if判定フィルタ不要ページを使う


def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #  strict      
      file_write = PyPDF2.PdfFileWriter()
      #  for             pdf  ，       
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
          output = str(self.new) + "_new.pdf"
          with open(output,"wb") as output_pdf: 
            file_write.write(output_pdf)
      file_1.close()
    else:
      print("     ！")
      time.sleep(3)
      exit()

考え方二、データを先に全部メモリに入れて、最後に書き込んで、速度を上げます。


def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #  strict      
      file_write = PyPDF2.PdfFileWriter()
      #  for             pdf  ，       
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf: #         ，    ，      
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("     ！")
      time.sleep(3)
      exit()

方法二の完全コード:


import PyPDF2
import os,time,shutil,sys
import threading

class mypdf(object):
  def __init__(self,path,number):
    self.new = os.path.splitext(path)[0] #       
    self.pdfsplt(path,number)
    pass

#         ，      
  def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #  strict      
      file_write = PyPDF2.PdfFileWriter()
      #  for             pdf  ，       
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf: #         ，    ，      
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("     ！")
      time.sleep(3)
      exit()

if __name__ == "__main__":
  #               ，              
  path = sys.argv[1]
  number = sys.argv[2:]
  number = list(map(int, number))
  mypdf = mypdf(path,number)
  def f(path,number):
    mypdf(path,number)
  threading.Thread(target=f,args=[path,number])

二つの方法の比較：

方法1
方法二における第一の考え
方法二の中の第二の考え
運転速度
遅い
遅いです
速い
コード量
65行です
34行
34行
短所:
方法一スキャンしたpdfファイルを処理する時、運転速度が遅すぎて、範囲的な削除ができません。
方法二範囲的な削除は実現できません。
以上のPyPDF 2はPDFファイルの内容を読み取って、現地のTXTに保存した例は小編が皆さんに共有した内容です。参考にしてもらいたいです。どうぞよろしくお願いします。

Javaプログラムをパラメータ付きjarファイルのインスタンスコードにパッケージ化します。

servlet配置load-on-startupの役割を詳しく説明する。