データ分析例USDAデータ


基本的なデータを観察し、検証する.USDAのデータを1枚の大きい表に統合して、後のカット、集約、図形化などの仕事を便利にします
1.データを観察して検査して、データセットは普通はすべてとても大きくて、私達は先に一部のデータを観察して検査して、法則を総括します
db[0].keys()  //      json   keys
db[0]['nutrients'][0]  //         nutrients       
pd.DataFrame(db[0]['nutrients'])[:7] //        nutrients    7  

2.データを読み込む
  • 入読食品データnutrientsはlistタイプで、単独で処理する必要があります.ここではfoodのDataFrameを形成し、有効なデータをすべて選択してinfo_を読み込む必要があります.keys = [“description”, “group”, “id”, “manufacturer”] info = pd.DataFrame(db, columns=info_keys)
  • nutrientsデータを読み込みます.foodごとのnutrientsはリストであるため、nutrientsデータをすべて格納するために大きなテーブルが必要です.idはfoodのid(merge用として後で使用)
  • です.
    nutrients = []
    for rec in db:
        fnuts = pd.DataFrame(rec['nutrients'])
        fnuts['id'] = rec['id']
        nutrients.append(fnuts)
        nutrients = pd.concat(nutrients, ignore_index=True) //       DataFrame concat         DataFrame

    ここは注意しなければならない.
    nutrients = nutrients.drop_duplicates()

    3データのマージ
    カラム名が重複しているため、マージ前に各DataFrameのカラム名を変更します.
    col_mapping = {
    'description': 'food',
    'group': 'fgroup'
    }
    info = info.rename(columns=col_mapping, copy=False)

    結合
    ndata = pd.merge(nutrients, info, on='id', how='outer')

    最終的にndataは私たちが後で操作できる大きな時計です.