データフレーム


シリーズデータ

DataFrame

  • 複数の系列からなる行および列データ
  • import pandas as pd
    
    gdp_dict = {
    'china': 1409250000,
    'japan': 516700000,
    'korea': 169320000,
    'usa': 2041280000,
    }
    gdp = pd.Series(gdp_dict)
    
    country = pd.DataFrame({
    'gdp': gdp,
    'population': population          # population 값은 이전 내용 참고
    })
  • Dictionaryでは、DataFrame
  • の作成がサポートされています.
    import pandas as pd
    
    data = {
    'country': ['china', 'japan', 'korea', 'usa'],
    'gdp': [1409250000, 516700000, 169320000, 2041280000],
    'population': [141500, 12718, 5180, 32676]
    }
    country = pd.DataFrame(data)
    country = country.set_index('country') # `contry`를 인덱스로 사용하겠다

  • ディックシャナリー、シリーズ、データフレームを整理!

    ①ディックシャナリ:data = {key:value}②シリーズ:dickshernaryにはインデックスがあります!series([1, 2, 3, 4])③データフレーム:前にインデックスがあり、後にシリーズデータがある.
    ④そのまま1から3でもいいです.DickShowneryからシリーズを経ずにデータフレームに直接移動できます!
  • ツールバーの

  • データフレームがどのように構成されているかを見てみましょう.
  • ...
    print(country.shape)  # (4, 2) | index와 column을 뺀 값이 들어감.
    print(country.size)   # 8
    print(country.ndim)   # 2
    print(country.values) # [[1409250000 141500]
                          # [ 516700000 12718]
                          # [ 169320000 5180]
                          # [2041280000 32676]]

    indexとcolumnの名前を指定

  • DataFrameのインデックスとカラムに
  • という名前を付けます.
    ...
    country.index.name = "Country" # 인덱스에 이름 지정
    country.columns.name = "Info" # 컬럼에 이름 지정
    
    print(country.index)
    # Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country’)
    
    print(country.columns)
    # Index(['gdp', 'population'], dtype='object', name='Info')

    保存とロード

  • データフレームは、
  • を記憶およびロードすることができる.
    ...
    country.to_csv("./country.csv")
    country.to_excel("country.xlsx")
    
    country = pd.read_csv("./country.csv")
    country = pd.read_excel("country.xlsx")
    以上のコードを入力すると、保存とロード機能が使用できます.
    保存時に次のように保存します.

    [練習2]データフレーム


    質問する


  • 複数のシリーズデータを使用してデータフレームを作成する方法について説明します.
  • 国/地域人口シリーズデータpopulationとGDPシリーズデータgdp.
    2つのシリーズのデータを使用して、countryというデータフレームを作成します.必ず人口、gdpの順に創造しなければならない.
  • のデータフレームを印刷します!
  • code


    import numpy as np
    import pandas as pd
    
    # 두 개의 시리즈 데이터가 있습니다.
    print("Population series data:")
    population_dict = {
        'korea': 5180,
        'japan': 12718,
        'china': 141500,
        'usa': 32676
    }
    population = pd.Series(population_dict)
    print(population, "\n")
    
    print("GDP series data:")
    gdp_dict = {
        'korea': 169320000,
        'japan': 516700000,
        'china': 1409250000,
        'usa': 2041280000,
    }
    gdp = pd.Series(gdp_dict)
    print(gdp, "\n")
    
    
    # 이곳에서 2개의 시리즈 값이 들어간 데이터프레임을 생성합니다.
    print("Country DataFrame")
    country = pd.DataFrame({'population':population, 'gdp':gdp})
    print(country, "\n")
    
    print(country.index)
    print(country.columns)

    実行結果

    Population series data:
    korea      5180
    japan     12718
    china    141500
    usa       32676
    dtype: int64 
    
    GDP series data:
    korea     169320000
    japan     516700000
    china    1409250000
    usa      2041280000
    dtype: int64 
    
    Country DataFrame
    population         gdp
    korea        5180   169320000
    japan       12718   516700000
    china      141500  1409250000
    usa         32676  2041280000 
    
    Index(['korea', 'japan', 'china', 'usa'], dtype='object')
    Index(['population', 'gdp'], dtype='object')