modin.pandasはマルチプロセスにより大きなファイルの読み取り速度を4倍程度向上させることができる(pandas代替案)


import time
#      pandas   
import pandas as pd
#      
import modin.pandas as mpd

def test_pd_time(path):
    start = time.time()
    data=pd.read_csv(path)
    end= time.time()
    print('pd consume time is:',end-start)

def test_mpd_time(path):
    start = time.time()
    data=mpd.read_csv(path)
    end = time.time()
    print('modin pd  consume time is:',end-start)

path1='/home/yjj/data_oanda/AUD_CAD.csv'
path2='/opt/oanda_pair_rate.csv'
#           
print('     ')

test_pd_time(path1)
test_mpd_time(path1)

#        
print('     ')

test_pd_time(path2)

test_mpd_time(path2)
     (2.5G  )
pd consume time is: 36.11769914627075
modin pd  consume time is: 8.59299921989441
     (100M  )
pd consume time is: 0.00580286979675293
modin pd  consume time is: 0.028467655181884766

 
注:大きなファイルを扱う場合、1つG以上、modinを推奨します.pandas、小さなファイルを処理して、pandasを使うことを提案します