第2週のデータ分析のまとめ


データ分析の手順4


1)データのインポート
import pandas as pd
commercial = pd.read_csv('./data/commercial.csv')
2)データの表示
commercial.tail(5)
list(commercial)  #칼럼 살펴보기
3)加工データ
commercial[['시', '구', '상세주소']] = commercial['도로명주소'].str.split(' ', n=2, expand=True) #도로명 잘라 정리하기
seoul_data = commercial[commercial['시']=='서울특별시'] #필요한 데이터만 남기기
groupdata = seoul_chicken_data.groupby('구')
group_by_category = groupdata['상권업종소분류명']
chicken_count_gu = group_by_category.count()
sorted_chicken_count_gu = chicken_count_gu.sort_values(ascending=False)
sorted_chicken_count_gu
4)データ可視化
  • に適したグラフィックを検索
    [1]棒グラフ:各項目の数値と順序を表示する場合
    [2]線図:以前の項目またはプロセスに基づいてデータ間の関係を表示する場合
    [3]円グラフ:パーセント表示
    [4]ホットグラフ:両軸の数値を一目で見た場合

    [5]地図:地理情報
  • 一覧
    #지도에 표현하기 & 필요한 라이브러리
    import matplotlib.pyplot as plt
    import folium  #folium 설치하기 conda install -c conda-forge folium
    import json
    
    # https://raw.githubusercontent.com/southkorea/seoul-maps/master/kostat/2013/json/seoul_municipalities_geo_simple.json
    seoul_state_geo = './data/seoul_geo.json'
    geo_data = json.load(open(seoul_state_geo, encoding='utf-8'))
    
    map = folium.Map(location=[37.5502, 126.982], zoom_start=10)
    
    folium.Choropleth(geo_data=geo_data,
                  data=chicken_count_gu,
                  columns=[chicken_count_gu.index, chicken_count_gu],
                  fill_color='PuRd',
                  key_on='feature.properties.name').add_to(map)
    
    map