データ分析pdfドキュメントの読み出し
4548 ワード
pythonでpdfドキュメントを読み込む
pythonのサードパーティ製ライブラリpdfminter 3 kを使用しています
pythonのサードパーティ製ライブラリpdfminter 3 kを使用しています
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
reader = open('dd2.pdf','rb')
#
parser = PDFParser(reader)
#PDF
doc= PDFDocument()
#
parser.set_document(doc)
doc.set_parser(parser)
#
doc.initialize('')
# PDF
resource = PDFResourceManager()
#
laparam = LAParams()
#
device = PDFPageAggregator(resource,laparams=laparam)
# PDF
interpreter = PDFPageInterpreter(resource,device)
#
for page in doc.get_pages():
#
interpreter.process_page(page)
#
layout = device.get_result()
for out in layout:
if hasattr(out,'get_text'):
print(out.get_text())