python実行が大きいexcelファイルopenpyxlが遅い
3785 ワード
talk is cheap
テスト結果:
22 openpyxl所要時間:0.442176335191895 23.0 xlrd所要時間:0.0010063648223876953
結論
Openpyxlの遅いのは読み取りが遅いので、xlrdの代わりに選択することができます.詳細なテストの下でxlwt+xlrdを直接使用しないのは、xlwtが2003以降のバージョンしかサポートされていないためです.最大行数は65536に制限され、十分ではありません.openpyxlは約100万人以上です.
主な話は終わりましたが、以下で詳しく説明します.ツールを書くときに出会ったこの問題は、最初はxlwt+xlrdを使っていました.それから行数が基準を超えて、openpyxlに変えられませんでした.excel 2007のバージョンを使っていました.もともと3万行未満のデータをテストしていましたが、3、4秒でopenpyxlに変えてから、何分もかかりました.具体的にはあまり見ていません.そして関数実行時間のモニターを付けてから、読み込み時に問題が発生していることがわかります
原因を推測する:
推測するとopenpyxlの行番号列番号による読み取りは、行番号が指定行番号に等しく、列番号が指定列番号に等しいまで、最初の行の最初の列から遍歴するので、読み込む行番号列番号が多ければ多いほど遅くなります(データのある最初の行や列からかもしれません)、xlrdは配列と同じように、いくつかの要素を取ります.メモリ内の対応するアドレスの要素を下のラベルに直接見つければよいので、excelの総量にかかわらず、速度は基本的に変わりません.
残された穴
最後に、関数の実行時間を監視する装飾器を持参しましょう.
使い方は、モニタする関数定義に@fn_を付けることですtimerでいい
from openpyxl import Workbook
from openpyxl.utils import get_column_letter
from openpyxl import load_workbook
import time
wb = load_workbook("E:/a.xlsx", read_only=True)
sh = wb["Sheet"]
# rowItem = {}
# for j in range(1,2000):
# for i in range(1, 30):
# rowItem[get_column_letter(i)] = i
# sh.append(rowItem)
# wb.save("E:/a.xlsx")
t0 = time.time()
print(sh['V500'].value)
t1 = time.time()
print("openpyxl :", str(t1-t0))
import xlrd
xlsPath = "E:/a.xlsx"
WorkBook = xlrd.open_workbook(xlsPath)
sh = WorkBook.sheet_by_name("Sheet")
t0 = time.time()
print(sh.cell(499,22).value)
t1 = time.time()
print("xlrd :", str(t1-t0))
テスト結果:
22 openpyxl所要時間:0.442176335191895 23.0 xlrd所要時間:0.0010063648223876953
結論
Openpyxlの遅いのは読み取りが遅いので、xlrdの代わりに選択することができます.詳細なテストの下でxlwt+xlrdを直接使用しないのは、xlwtが2003以降のバージョンしかサポートされていないためです.最大行数は65536に制限され、十分ではありません.openpyxlは約100万人以上です.
主な話は終わりましたが、以下で詳しく説明します.ツールを書くときに出会ったこの問題は、最初はxlwt+xlrdを使っていました.それから行数が基準を超えて、openpyxlに変えられませんでした.excel 2007のバージョンを使っていました.もともと3万行未満のデータをテストしていましたが、3、4秒でopenpyxlに変えてから、何分もかかりました.具体的にはあまり見ていません.そして関数実行時間のモニターを付けてから、読み込み時に問題が発生していることがわかります
原因を推測する:
推測するとopenpyxlの行番号列番号による読み取りは、行番号が指定行番号に等しく、列番号が指定列番号に等しいまで、最初の行の最初の列から遍歴するので、読み込む行番号列番号が多ければ多いほど遅くなります(データのある最初の行や列からかもしれません)、xlrdは配列と同じように、いくつかの要素を取ります.メモリ内の対応するアドレスの要素を下のラベルに直接見つければよいので、excelの総量にかかわらず、速度は基本的に変わりません.
残された穴
xlwt 65536 , xlrd ,
, Na*Nb , , ,
, xlrd xlsx , ,
最後に、関数の実行時間を監視する装飾器を持参しましょう.
import time
from functools import wraps
def fn_timer(function):
@wraps(function)
def function_timer(*args, **kwargs):
t0 = time.time()
result = function(*args, **kwargs)
t1 = time.time()
print ("Total time running %s: %s seconds" %
(function.__name__, str(t1-t0))
)
return result
return function_timer
使い方は、モニタする関数定義に@fn_を付けることですtimerでいい