Pandas学習ノート(不定期更新)

2564 ワード

1.Pandasを使用してビッグデータファイルを処理する方法

reader=pd.read_csv('xxx.csv', iterator=True) #    
chunkSize = 10000000 #          
chunks = []
while True:
    try:
        chunk = reader.get_chunk(chunkSize) #    1kw    
        chunks.append(chunk)
    except StopIteration:
        print "Iteration is stopped."
        break
df = pd.concat(chunks, ignore_index=True) 
#         pandas concate  DataFrame

2.時系列インデックスを扱う小tips

df['time'] = pd.to_datetime(df['time']) #      DateTime  ，       （             ）
df.set_index('time', inplace=True)

時間インデックスを使用する場合は、関連する時間をDataTime形式に変換する必要があります.そうでなければ、時間インデックスのスライス選択に問題が発生します.

#       7        
date1 = today - relativedelta(days=7) # DataTime   relativedelta（）          
df_date = df_table[str(date1):str(today)] #   str             。    DataTime  。     date     ，      。

3.DataFrameの個々の値の変更

#      .df DataFrame    
df.get_value('  ', '  ') #             
df.get_value(   ,    , takeable = True) #               （  int ）
#      
df.set_value('  ','  ',     ) #             
df.set_value(   ,    ,     , takeable = True) #               （  int ）

Python Regexライブラリの使用

スクリプトの誤削除ファイルを記録して復元