Pandas学習ノート(不定期更新)
1.Pandasを使用してビッグデータファイルを処理する方法
2.時系列インデックスを扱う小tips
時間インデックスを使用する場合は、関連する時間をDataTime形式に変換する必要があります.そうでなければ、時間インデックスのスライス選択に問題が発生します.
3.DataFrameの個々の値の変更
4.
reader=pd.read_csv('xxx.csv', iterator=True) #
chunkSize = 10000000 #
chunks = []
while True:
try:
chunk = reader.get_chunk(chunkSize) # 1kw
chunks.append(chunk)
except StopIteration:
print "Iteration is stopped."
break
df = pd.concat(chunks, ignore_index=True)
# pandas concate DataFrame
2.時系列インデックスを扱う小tips
df['time'] = pd.to_datetime(df['time']) # DateTime , ( )
df.set_index('time', inplace=True)
時間インデックスを使用する場合は、関連する時間をDataTime形式に変換する必要があります.そうでなければ、時間インデックスのスライス選択に問題が発生します.
# 7
date1 = today - relativedelta(days=7) # DataTime relativedelta()
df_date = df_table[str(date1):str(today)] # str 。 DataTime 。 date , 。
3.DataFrameの個々の値の変更
# .df DataFrame
df.get_value(' ', ' ') #
df.get_value( , , takeable = True) # ( int )
#
df.set_value(' ',' ', ) #
df.set_value( , , , takeable = True) # ( int )
4.