Data Wrangling
学習内容
重複データの検証
重複データの検証
# train과 test 겹치는 데이터확인
# set1.isdisjoint(set2)
set(orders[orders['eval_set']=='test']['user_id'])\
.isdisjoint(set(orders[orders['eval_set']=='train']['user_id']))
# 데이터의 row가 중복되는지 확인
len(orders[orders['eval_set'].isin(['train','test'])]) \
,len(orders[orders['eval_set'].isin(['train','test'])]['user_id'].unique())
groupbytrain.groupby('order_id')['product_id'].apply(list)
#주문에 바나나가 있는 경우 True를 리턴
train.groupby('order_id')['product_id'].apply(lambda x : id_Banana in list(x)).value_counts(normalize=True)
# any(): 주문(order_id) 중에서 한 번이라도 Banana 주문이 있는 경우 True
train.groupby('order_id')['banana'].any().value_counts(normalize=True)
Reference
この問題について(Data Wrangling), 我々は、より多くの情報をここで見つけました https://velog.io/@tjddyd1592/420-Data-Wranglingテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol