modin.pandasはマルチプロセスにより大きなファイルの読み取り速度を4倍程度向上させることができる(pandas代替案)
import time
# pandas
import pandas as pd
#
import modin.pandas as mpd
def test_pd_time(path):
start = time.time()
data=pd.read_csv(path)
end= time.time()
print('pd consume time is:',end-start)
def test_mpd_time(path):
start = time.time()
data=mpd.read_csv(path)
end = time.time()
print('modin pd consume time is:',end-start)
path1='/home/yjj/data_oanda/AUD_CAD.csv'
path2='/opt/oanda_pair_rate.csv'
#
print(' ')
test_pd_time(path1)
test_mpd_time(path1)
#
print(' ')
test_pd_time(path2)
test_mpd_time(path2)
(2.5G )
pd consume time is: 36.11769914627075
modin pd consume time is: 8.59299921989441
(100M )
pd consume time is: 0.00580286979675293
modin pd consume time is: 0.028467655181884766
注:大きなファイルを扱う場合、1つG以上、modinを推奨します.pandas、小さなファイルを処理して、pandasを使うことを提案します