データ分析例USDAデータ

2360 ワード

Python パンダス

基本的なデータを観察し、検証する.USDAのデータを1枚の大きい表に統合して、後のカット、集約、図形化などの仕事を便利にします
1.データを観察して検査して、データセットは普通はすべてとても大きくて、私達は先に一部のデータを観察して検査して、法則を総括します

db[0].keys()  //      json   keys
db[0]['nutrients'][0]  //         nutrients       
pd.DataFrame(db[0]['nutrients'])[:7] //        nutrients    7

2.データを読み込む

入読食品データnutrientsはlistタイプで、単独で処理する必要があります.ここではfoodのDataFrameを形成し、有効なデータをすべて選択してinfo_を読み込む必要があります.keys = [“description”, “group”, “id”, “manufacturer”] info = pd.DataFrame(db, columns=info_keys)

nutrientsデータを読み込みます.foodごとのnutrientsはリストであるため、nutrientsデータをすべて格納するために大きなテーブルが必要です.idはfoodのid(merge用として後で使用)

です.

nutrients = []
for rec in db:
    fnuts = pd.DataFrame(rec['nutrients'])
    fnuts['id'] = rec['id']
    nutrients.append(fnuts)
    nutrients = pd.concat(nutrients, ignore_index=True) //       DataFrame concat         DataFrame

ここは注意しなければならない.

nutrients = nutrients.drop_duplicates()

3データのマージ
カラム名が重複しているため、マージ前に各DataFrameのカラム名を変更します.

col_mapping = {
'description': 'food',
'group': 'fgroup'
}
info = info.rename(columns=col_mapping, copy=False)

結合

ndata = pd.merge(nutrients, info, on='id', how='outer')

最終的にndataは私たちが後で操作できる大きな時計です.

パスワードセキュリティチェックのコード

SQLSERVER 複数DBを一括AUTO_CLOSE offにする