pythonはexcelとword文書を処理します.

8362 ワード

背景:最近中国語のデータを処理しています.これらのデータ形式は違っています.wordを使うものもあります.エクセルを使うものもあります.jsonなどを使うものもあります.この主な記録はpythonを使ってwordとexcelを処理します.
一.pythonを使ってエクセルを処理する
  • excelデータを読みだし(excelを開いて指定されたsheet内容を索引で取得する)
  •   data = xlrd.open_workbook(fileName) #  excel
      table = data.sheet_by_index(0)#  sheet,        (   0  )
    
  • はエクセルにデータを書きます.
    ここでは主に元のexcelのある列を処理してから、生成した内容を最後の列に追加します.
  • def dealExcel(fileName, fileResult):
     	data = xlrd.open_workbook(fileName) #  excel
      	table = data.sheet_by_index(0)#  sheet,        (   0  )
      	dataToWrite = []
      	for rowIndex in range(1, table.nrows):#     
        	line = table.row_values(rowIndex)#        
          	#         ,         appendContent
          	line.append(appendContent)
          	dataToWrite.append(line)
      	columns = table.row_values(0)
      	columns.append("xxx")
      	dt = pd.DataFrame(dataToWrite, columns=columns)#      dataFrame  
      	dt.to_excel(fileResult, index=0)#    excel  (xlsx  )
    
    二.pythonを利用してword文書を処理する
  • ワードコンテンツを読み出す
  •  doc = docx.Document(fileInput)#      
     lenDoc = len(doc.paragraphs)
     print("  %s   " % lenDoc)
    
  • ワードに内容を書く
  •  
     def filterWords(fileInput,  fileResult):
        
         doc = docx.Document(fileInput)#      
         lenDoc = len(doc.paragraphs)
         print("  %s   " % lenDoc)
         
     	 resultFile = docx.Document()#    
         count = 0
         for i in range(1, lenDoc):
             paraSingle = doc.paragraphs[i].text.strip()#      
             #         ,           paraSingle
             resultFile.add_paragraph(paraSingle)#    
         resultFile.save(fileResult)#    
    
  • docx
  • をインストールします.
    pip3 install docx
    
    or
    pip3 install docx --user
    
    
    使用中にエラーが発生した場合:Moude NotFoundError:No moude named‘expections’
    まず、docxをアンインストールします
     pip3 uninstall docx
    
    その後、互換性のあるパッケージを地元でダウンロードしてインストールします.(pythonインストールdocxモジュールにImport Errorが現れます.No module named'exceptions'のソリューションを参照してください.)
     pip3 install python_docx-0.8.10-py2.py3-none-any.whl 
    
    or
     pip3 install python_docx-0.8.10-py2.py3-none-any.whl --user
    
    上記のインストールパッケージをダウンロードします.docx-08.10-py 2.py 3-none-any.whl--user