データ分析例USDAデータ
基本的なデータを観察し、検証する.USDAのデータを1枚の大きい表に統合して、後のカット、集約、図形化などの仕事を便利にします
1.データを観察して検査して、データセットは普通はすべてとても大きくて、私達は先に一部のデータを観察して検査して、法則を総括します
2.データを読み込む入読食品データnutrientsはlistタイプで、単独で処理する必要があります.ここではfoodのDataFrameを形成し、有効なデータをすべて選択してinfo_を読み込む必要があります.keys = [“description”, “group”, “id”, “manufacturer”] info = pd.DataFrame(db, columns=info_keys) nutrientsデータを読み込みます.foodごとのnutrientsはリストであるため、nutrientsデータをすべて格納するために大きなテーブルが必要です.idはfoodのid(merge用として後で使用) です.
ここは注意しなければならない.
3データのマージ
カラム名が重複しているため、マージ前に各DataFrameのカラム名を変更します.
結合
最終的にndataは私たちが後で操作できる大きな時計です.
1.データを観察して検査して、データセットは普通はすべてとても大きくて、私達は先に一部のデータを観察して検査して、法則を総括します
db[0].keys() // json keys
db[0]['nutrients'][0] // nutrients
pd.DataFrame(db[0]['nutrients'])[:7] // nutrients 7
2.データを読み込む
nutrients = []
for rec in db:
fnuts = pd.DataFrame(rec['nutrients'])
fnuts['id'] = rec['id']
nutrients.append(fnuts)
nutrients = pd.concat(nutrients, ignore_index=True) // DataFrame concat DataFrame
ここは注意しなければならない.
nutrients = nutrients.drop_duplicates()
3データのマージ
カラム名が重複しているため、マージ前に各DataFrameのカラム名を変更します.
col_mapping = {
'description': 'food',
'group': 'fgroup'
}
info = info.rename(columns=col_mapping, copy=False)
結合
ndata = pd.merge(nutrients, info, on='id', how='outer')
最終的にndataは私たちが後で操作できる大きな時計です.