PyPDF 2はPDFファイルの内容を読み込み、ローカルTXTのインスタンスに保存します。
余計なことを言わないで、コードを見てください。
プラットフォーム:win 10ファミリー版、python 3.7、PyPDF 2
思考プロセス:
方法1:pdfファイルを単一のページに分割して、フォルダに入れて、不要なファイルを削除して、最後に残りのファイルを一つのpdfファイルに統合します。
第1ステップ:元のファイルパスを使って新しいフォルダを作成し、分割された単一ページのファイルを保存します。
ステップ5:キャッシュフォルダを削除します。
アイデア1は、読み取りと書き込みを同時に処理します。if判定フィルタ不要ページを使う
方法1
方法二における第一の考え
方法二の中の第二の考え
運転速度
遅い
遅いです
速い
コード量
65行です
34行
34行
短所:
方法一スキャンしたpdfファイルを処理する時、運転速度が遅すぎて、範囲的な削除ができません。
方法二範囲的な削除は実現できません。
以上のPyPDF 2はPDFファイルの内容を読み取って、現地のTXTに保存した例は小編が皆さんに共有した内容です。参考にしてもらいたいです。どうぞよろしくお願いします。
from PyPDF2.pdf import PdfFileReader
import pandas as pd
def Pdf_to_txt(pdf):
for i in range(0, pdf.getNumPages()):
title = []
lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []
extractedText = pdf.getPage(i).extractText()
text = extractedText.split('
')
num = 0
for lin in text:
if num == 0:
title.append(lin)
elif num == 1:
lin1.append(lin)
elif num == 2:
lin2.append(lin)
elif num == 3:
lin3.append(lin)
elif num == 4:
lin4.append(lin)
elif num == 5:
lin5.append(lin)
elif num == 6:
lin6.append(lin)
elif num == 7:
lin7.append(lin)
elif num == 8:
lin8.append(lin)
num = 0
num += 1
Lin_num = len(lin8)
data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}
df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])
file_name = title[0] + '_page' + str((i + 1))
df.to_csv('tool/pdf /%s.txt' % file_name, index=False, sep='\t')
if __name__ == '__main__':
filename = 'E:/SVN/ V2/analyse_code/ /pdf/con026465.pdf'
pdf = PdfFileReader(open(filename, "rb"))
Pdf_to_txt(pdf)
追加知識:PyPDF 2ライブラリを使ってpdfファイルを指定ページ削除操作を行う。プラットフォーム:win 10ファミリー版、python 3.7、PyPDF 2
思考プロセス:
方法1:pdfファイルを単一のページに分割して、フォルダに入れて、不要なファイルを削除して、最後に残りのファイルを一つのpdfファイルに統合します。
第1ステップ:元のファイルパスを使って新しいフォルダを作成し、分割された単一ページのファイルを保存します。
def newdir(self,path):
self.new = os.path.splitext(path)[0]
if not os.path.isdir(self.new): # os.path.isdir ,
os.mkdir(self.new)
第二ステップ:単ページファイルを作成し、新規フォルダに保存します。
def pdfsplt(self,path):
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
# for pdf ,
for page in range(0,file_reader.getNumPages()):
file_write = PyPDF2.PdfFileWriter()
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print(" !")
time.sleep(3)
exit()
ステップ3:フォルダ内の不要なファイルを削除します。
def pdfremove(self,number):
for pag in number:
filename = str(self.new) + "\\" + str(pag) + ".pdf"
if os.path.isfile(filename):
os.unlink(filename)
else:
print(" %s !!"%pag)
第四ステップ:残りのファイルを一つのpdfファイルに統合する。
def pdfmerge(self):
file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #
file_write = PyPDF2.PdfFileWriter() # pdf
for page in sorted(file_list):
pathstr = str(self.new) + "\\" + str(page) + ".pdf"
file_1 = open(pathstr,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
pageobj = file_reader.getPage(0)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output, "wb") as output_pdf:
file_write.write(output_pdf)
print(" %s "%page)
file_1.close()
ステップ5:キャッシュフォルダを削除します。
def rmdir(self):
if os.path.isdir(self.new):
shutil.rmtree(self.new)
メソッドの完全なコード:
import PyPDF2
import os,time,shutil,sys
import threading
class mypdf(object):
def __init__(self,path,number):
self.newdir(path)
self.pdfsplt(path)
self.pdfremove(number)
self.pdfmerge()
self.rmdir()
pass
# ,
def newdir(self,path):
self.new = os.path.splitext(path)[0]
if not os.path.isdir(self.new): # os.path.isdir ,
os.mkdir(self.new)
# ,
def pdfsplt(self,path):
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
# for pdf ,
for page in range(0,file_reader.getNumPages()):
file_write = PyPDF2.PdfFileWriter()
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print(" !")
time.sleep(3)
exit()
#
def pdfremove(self,number):
for pag in number:
filename = str(self.new) + "\\" + str(pag) + ".pdf"
if os.path.isfile(filename):
os.unlink(filename)
else:
print(" %s !!"%pag)
#
def pdfmerge(self):
file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #
file_write = PyPDF2.PdfFileWriter() # pdf
for page in sorted(file_list):
pathstr = str(self.new) + "\\" + str(page) + ".pdf"
file_1 = open(pathstr,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
pageobj = file_reader.getPage(0)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output, "wb") as output_pdf:
file_write.write(output_pdf)
print(" %s "%page)
file_1.close()
def rmdir(self):
if os.path.isdir(self.new):
shutil.rmtree(self.new)
if __name__ == "__main__":
# ,
path = sys.argv[1]
number = sys.argv[2:]
mypdf = mypdf(path,number)
def f(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])
方法2:新しいファイルを書き込む時にif判定で不要なページを絞り出すアイデア1は、読み取りと書き込みを同時に処理します。if判定フィルタ不要ページを使う
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
file_write = PyPDF2.PdfFileWriter()
# for pdf ,
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print(" !")
time.sleep(3)
exit()
考え方二、データを先に全部メモリに入れて、最後に書き込んで、速度を上げます。
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
file_write = PyPDF2.PdfFileWriter()
# for pdf ,
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf: # , ,
file_write.write(output_pdf)
file_1.close()
else:
print(" !")
time.sleep(3)
exit()
方法二の完全コード:
import PyPDF2
import os,time,shutil,sys
import threading
class mypdf(object):
def __init__(self,path,number):
self.new = os.path.splitext(path)[0] #
self.pdfsplt(path,number)
pass
# ,
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # strict
file_write = PyPDF2.PdfFileWriter()
# for pdf ,
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf: # , ,
file_write.write(output_pdf)
file_1.close()
else:
print(" !")
time.sleep(3)
exit()
if __name__ == "__main__":
# ,
path = sys.argv[1]
number = sys.argv[2:]
number = list(map(int, number))
mypdf = mypdf(path,number)
def f(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])
二つの方法の比較:方法1
方法二における第一の考え
方法二の中の第二の考え
運転速度
遅い
遅いです
速い
コード量
65行です
34行
34行
短所:
方法一スキャンしたpdfファイルを処理する時、運転速度が遅すぎて、範囲的な削除ができません。
方法二範囲的な削除は実現できません。
以上のPyPDF 2はPDFファイルの内容を読み取って、現地のTXTに保存した例は小編が皆さんに共有した内容です。参考にしてもらいたいです。どうぞよろしくお願いします。