python実行が大きいexcelファイルopenpyxlが遅い

3785 ワード

talk is cheap
    from openpyxl import Workbook
    from openpyxl.utils import get_column_letter
    from openpyxl import load_workbook
    import time
    wb = load_workbook("E:/a.xlsx", read_only=True)
    sh = wb["Sheet"]
    # rowItem = {}
    # for j in range(1,2000):
    #     for i in range(1, 30):
    #         rowItem[get_column_letter(i)] = i
    #     sh.append(rowItem)
    # wb.save("E:/a.xlsx")
    t0 = time.time()
    print(sh['V500'].value)
    t1 = time.time()
    print("openpyxl    :", str(t1-t0))

    import xlrd
    xlsPath = "E:/a.xlsx"
    WorkBook = xlrd.open_workbook(xlsPath)
    sh = WorkBook.sheet_by_name("Sheet")

    t0 = time.time()
    print(sh.cell(499,22).value)
    t1 = time.time()
    print("xlrd    :", str(t1-t0))

テスト結果:
22 openpyxl所要時間:0.442176335191895 23.0 xlrd所要時間:0.0010063648223876953
結論
Openpyxlの遅いのは読み取りが遅いので、xlrdの代わりに選択することができます.詳細なテストの下でxlwt+xlrdを直接使用しないのは、xlwtが2003以降のバージョンしかサポートされていないためです.最大行数は65536に制限され、十分ではありません.openpyxlは約100万人以上です.
主な話は終わりましたが、以下で詳しく説明します.ツールを書くときに出会ったこの問題は、最初はxlwt+xlrdを使っていました.それから行数が基準を超えて、openpyxlに変えられませんでした.excel 2007のバージョンを使っていました.もともと3万行未満のデータをテストしていましたが、3、4秒でopenpyxlに変えてから、何分もかかりました.具体的にはあまり見ていません.そして関数実行時間のモニターを付けてから、読み込み時に問題が発生していることがわかります
原因を推測する:
推測するとopenpyxlの行番号列番号による読み取りは、行番号が指定行番号に等しく、列番号が指定列番号に等しいまで、最初の行の最初の列から遍歴するので、読み込む行番号列番号が多ければ多いほど遅くなります(データのある最初の行や列からかもしれません)、xlrdは配列と同じように、いくつかの要素を取ります.メモリ内の対応するアドレスの要素を下のラベルに直接見つければよいので、excelの総量にかかわらず、速度は基本的に変わりません.
残された穴
xlwt     65536 , xlrd        ,                 
                     ,       Na*Nb  ,           ,      ,             
  ,  xlrd  xlsx          ,     ,       

最後に、関数の実行時間を監視する装飾器を持参しましょう.
import time
from functools import wraps

def fn_timer(function):
    @wraps(function)
    def function_timer(*args, **kwargs):
        t0 = time.time()
        result = function(*args, **kwargs)
        t1 = time.time()
        print ("Total time running %s: %s seconds" %
            (function.__name__, str(t1-t0))
            )
        return result
    return function_timer

使い方は、モニタする関数定義に@fn_を付けることですtimerでいい